Новая тема для блога
Решил сегодня сменить тему оформления, так как предыдущая довольно сильно напрягать стала. В общем, надеюсь, что вам она тоже понравится. ![]()
Решил сегодня сменить тему оформления, так как предыдущая довольно сильно напрягать стала. В общем, надеюсь, что вам она тоже понравится. ![]()
Итак, сегодня, наконец-то, я закончил работу над пакетным режимом. Как и ожидалось, работа пакетного режима основана на взаимодействии с плагинами. В настоящий момент их два: последовательное чтение всех текстовых файлов из указанного каталога, и запись в другой каталог, с созданием идентичной структуры подкаталогов. Имена файлов используются те же, что и у оригинальных файлов. При этом пользователь может сам выбирать, в какой кодировке сохранять результат. В настоящий момент я даю на выбор две кодировки: UTF-8 и Windows-1251.
Continue reading »
Сегодня я начал работу над автоматическим режимом для синонимайзера. Работа автоматического режима будет основана на плагинах. Автомат разделен на три, в общем, независимые части.
Первая часть: провайдер чтения данных. Им может быть любой плагин, который берет данные из любого источника. Источники данных могут быть разными: файлы на диске, база данных, RSS, страницы сайта. В качестве провайдера для множественных данных могут служить любые плагины, реализующие интерфейс ICollectionReaderPlugin, который имеет все необходимые методы для навигации по коллекции элементов источника.
Continue reading »
Сегодня была выложена для скачивания версия 0.2.1.8.
Что нового в этой версии:
+ в разы ускорен импорт словаря из текстового формата
+ ускорена обработка текста в ручном режиме
+ добавлено отображение прогресса текущей задачи в ручном режиме
+ ускорена замена одного синонима на другой по двойному клику
+ исправлены баги в размножителе текстов
+ добавлены дополнительные окна сообщений
+ исправлены некоторые мелкие баги
+ проверка на похожесть текстов вынесена в подзадачу и не выполняется автоматически
Continue reading »
Только что столкнулся с задачей смены динамического адреса, получаемого с помощью DHCP, на статический. Дело в том, что по-умолчанию Ubuntu Server устанавливает получение сетевого адреса с помощью DHCP, а под виртуальной машиной это не очень удобно, так как адрес получается из подсети 192.168.*.*, и угадать новый сетевой адрес подчас невозможно. тем более, что адрес второй машины, получившийся из DHCP, не обязательно будет следующим за текущим.
Continue reading »
Вот уже который день бьюсь над созданием инфраструктуры для разворачивания кластера для Nutch. Самой большой проблемой оказалась установка и настройка Tomcat - я перепробовал кучу платформ и остановился на Ubuntu Server 7.04. Очень надеюсь, что вскоре я смогу описать процедуру остановки этого ПО на кластер, так что те, кто захочет пройтись по моим стопам, смогут сделать это сами.
Только что мне удалось произвести оптимизацию кода для импорта словаря в базу. Если раньше на компьютере с двухъядерным интелом на 2.4GHz из словаря в текстовом виде за секунду импортировалось около 10 строк, то теперь за ту же секунду испортируется 250-300 строк. Таким образом на импорт словаря из 5700 строк уходит около 20 секунд.
Continue reading »
Итак, после двух недель работы над индексатором я пришел к выводу, что эта задача не имеет простого прямого решения.
Во-первых, это обусловлено тем, что количество ссылок растет по экспоненте, так что скачивание десяти страниц дает прирост в базе на сто страниц. Конечно, при использовании мощного сервера это не будет такой уж проблемой. Но только до тех пор, пока количество ссылок не достигнет отметки в несколько миллионов. В этом случае работа на одной машине будет настолько замедленной, что о дальнейшем ускорении этого дела не может быть и речи.
Continue reading »
Итак, наконец-то работа над коммерческим словарем закончена. Я благодарен всем добровольцам, взявшим участие в работе над словарем. Просьба, если я кого-то из добровольцев пропущу в аське, постучитесь ко мне сами для получения полной версии.
Теперь более подробно о том, что есть.
В настоящий момент есть две версии словаря: коммерческая и полукоммерческая.
Continue reading »
Пару часов назад закончил работу над первой стабильной версией индексатора. Скорость его работы не особо впечатляет: в 10 потоках из сети загружается около 100 страниц в минуту на средней скорости 75 килобайт в секунду.При этом загрузка двухъядерного процессора составляет от 40 до 100 процентов, а температура каждого из ядер достигает 60 градусов. Придется придумывать дополнительные средства для охлаждения. Скорее всего это будет просто дополнительный вентилятор на выдув.
Continue reading »
Последние комментарии