Новая тема для блога

Решил сегодня сменить тему оформления, так как предыдущая довольно сильно напрягать стала. В общем, надеюсь, что вам она тоже понравится. :)

Синонимайзер: пакетный режим готов

Итак, сегодня, наконец-то, я закончил работу над пакетным режимом. Как и ожидалось, работа пакетного режима основана на взаимодействии с плагинами. В настоящий момент их два: последовательное чтение всех текстовых файлов из указанного каталога, и запись в другой каталог, с созданием идентичной структуры подкаталогов. Имена файлов используются те же, что и у оригинальных файлов. При этом пользователь может сам выбирать, в какой кодировке сохранять результат. В настоящий момент я даю на выбор две кодировки: UTF-8 и Windows-1251.
Continue reading »

Синонимайзер: автоматический режим

Сегодня я начал работу над автоматическим режимом для синонимайзера. Работа автоматического режима будет основана на плагинах. Автомат разделен на три, в общем, независимые части.

Первая часть: провайдер чтения данных. Им может быть любой плагин, который берет данные из любого источника. Источники данных могут быть разными: файлы на диске, база данных, RSS, страницы сайта. В качестве провайдера для множественных данных могут служить любые плагины, реализующие интерфейс ICollectionReaderPlugin, который имеет все необходимые методы для навигации по коллекции элементов источника.
Continue reading »

Синонимайзер: версия 0.2.1.8

Сегодня была выложена для скачивания версия 0.2.1.8.

Что нового в этой версии:

+ в разы ускорен импорт словаря из текстового формата
+ ускорена обработка текста в ручном режиме
+ добавлено отображение прогресса текущей задачи в ручном режиме
+ ускорена замена одного синонима на другой по двойному клику
+ исправлены баги в размножителе текстов
+ добавлены дополнительные окна сообщений
+ исправлены некоторые мелкие баги
+ проверка на похожесть текстов вынесена в подзадачу и не выполняется автоматически
Continue reading »

Ubuntu - изменяем способ получения сетевого адреса

Только что столкнулся с задачей смены динамического адреса, получаемого с помощью DHCP, на статический. Дело в том, что по-умолчанию Server устанавливает получение сетевого адреса с помощью DHCP, а под виртуальной машиной это не очень удобно, так как адрес получается из подсети 192.168.*.*, и угадать новый сетевой адрес подчас невозможно. тем более, что адрес второй машины, получившийся из DHCP, не обязательно будет следующим за текущим.
Continue reading »

CopyMaster: установка окружения

Вот уже который день бьюсь над созданием инфраструктуры для разворачивания кластера для Nutch. Самой большой проблемой оказалась установка и настройка Tomcat - я перепробовал кучу платформ и остановился на Server 7.04. Очень надеюсь, что вскоре я смогу описать процедуру остановки этого ПО на кластер, так что те, кто захочет пройтись по моим стопам, смогут сделать это сами.

Синонимайзер: оптимизируем базу

Только что мне удалось произвести оптимизацию кода для импорта словаря в базу. Если раньше на компьютере с двухъядерным интелом на 2.4GHz из словаря в текстовом виде за секунду импортировалось около 10 строк, то теперь за ту же секунду испортируется 250-300 строк. Таким образом на импорт словаря из 5700 строк уходит около 20 секунд.
Continue reading »

Индексатор - простого решения нет

Итак, после двух недель работы над индексатором я пришел к выводу, что эта задача не имеет простого прямого решения.

Во-первых, это обусловлено тем, что количество ссылок растет по экспоненте, так что скачивание десяти страниц дает прирост в базе на сто страниц. Конечно, при использовании мощного сервера это не будет такой уж проблемой. Но только до тех пор, пока количество ссылок не достигнет отметки в несколько миллионов. В этом случае работа на одной машине будет настолько замедленной, что о дальнейшем ускорении этого дела не может быть и речи.
Continue reading »

Словари - народу

Итак, наконец-то работа над коммерческим словарем закончена. Я благодарен всем добровольцам, взявшим участие в работе над словарем. Просьба, если я кого-то из добровольцев пропущу в аське, постучитесь ко мне сами для получения полной версии.

Теперь более подробно о том, что есть.
В настоящий момент есть две версии словаря: коммерческая и полукоммерческая.
Continue reading »

Индексатор. Первые итоги.

Пару часов назад закончил работу над первой стабильной версией индексатора. Скорость его работы не особо впечатляет: в 10 потоках из сети загружается около 100 страниц в минуту на средней скорости 75 килобайт в секунду.При этом загрузка двухъядерного процессора составляет от 40 до 100 процентов, а температура каждого из ядер достигает 60 градусов. Придется придумывать дополнительные средства для охлаждения. Скорее всего это будет просто дополнительный вентилятор на выдув.
Continue reading »