Казалось бы, о том, что необходимо кешировать данные в памяти писано-переписано… Ан, нет, все мы наступаем на те же грабли. Не стал исключением и я. Только что переделал программку для поиска пар, да так переделал, что скорость поиска увеличилась до 106 тысяч слов в секунду! А всего-то и надо было сделать, так это сохранять данные о найденных парах в коллекции в памяти, а потом этот массив выгружать в виде CSV файла на диск, чтобы потом импортировать его в базу. Да, импорт займет некоторое время, но это время будет в тысячи раз меньшим, чем последовательное обращение к базе для поиска уже записанных в него пар. В общем, обработка 4000 файлов общим объемом 800 мегабайт занимает 22 минуты. Как оказалось, в таком объеме 126 миллионов слов! Даже если читать по 100 слов в минуту, то на прочтение такого количества уйдет 875 дней непрерывного чтения! А моя программа прочла их за каких-то 22 минуты. А мы-то думали, что венец творения - человек! 
Итак, первая часть задачи по поиску пар почти закончена. На данный момент обработано более трех тысяч текстов (600 мегабайт, 75 миллионов русских слов). На это ушло около 16 часов, и я, в целом, результатами доволен. Всего найдено 5.5 миллионов уникальных пар, для которых теперь нужно найти такие пары синонимов, которые хоть раз встречаются в текстах.
Continue reading »
Оказалось, что я допустил ошибку, и из-за этого все пришлось начинать сначала. Правда, теперь я запустил обработку на более быстрой машинке, так что средняя скорость обработки возросла до 2500 слов в минуту, что в 3.5 раза быстрее предыдущей машины. Теперь я могу надеяться, что обработка запланированных 4000 файлов займет не более десяти часов.
Continue reading »
Только что закончилась обработка первой части текстовых файлов. Обработка заняла один час и 45 минут, при этом было обработано 213 файлов общим объемом в 30 мегабайт, и содержащих 4 миллиона 787 слов. При этом было найдено 459 тысяч пар, многие из которых повторялись более тысячи раз в разных грамматических формах.
Continue reading »
Только что сделал первую версию программы для поиска пар слов. Программа работает очень шустро: за пару минут она обработала 2707 текстовых файлов общим объемом почти 30 мегабайт. При этом было обработано 2.4 миллиона слов, среди которых было найдено 182 тысячи пар подходящих грамматических классов.
Continue reading »
Рынок синонимайзеров растет и развивается не по дням, а по часам. Все, кому не лень, пишут свои синонимайзеры, продвигают их, хвалят, и при этом пытаются рассказать о том, что их продукт на порядок лучше продуктов конкурентов. Но опытный пользователь, попробовавший несколько синонимайзеров, понимает, что, в принципе, все они на одно лицо, и что принцип действия всех синонимайзеров одинаков до безобразия.
Continue reading »
Сегодня выложил на сервер новую версию плагина для чтения коллекции файлов с диска. В новой версии исправлено чтение текстов в формате RTF.
Новая версия плагина доступна для загрузки с помощью программы-апдейтера из состава синонимайзера.Плагин имеет версию 1.4. Размер плагина 20 килобайт.
Только что выложил на сервер новую версию своего синонимайзера. В этой версии была исправлена ошибка, приводящая к тому, что после изменения результата иногда выскакивало сообщение об ошибке. В частности, это происходило после использования кнопки BackSpace.
Continue reading »
Только что начал доработку программы, так что вскоре она научится делать посты в Джумлу. В настоящий момент я делаю для J1.5, но надеюсь, что для J1.0 этот файл тоже подойдет.
Итак, как будет это работать. В настройках экспорта на закладке “Экспорт” появился новый контрол - выпадающий список - с помощью которого можно выбирать целевую платформу. При выборе Joomla появляется панелька с набором чекбоксов, с помощью которых можно указать программе сгенерировать код, который удалит все записи, секции и категории. В случае удаления категорий и секций, категории будут добавлены в одну секцию “SectionZero”, которая будет создана программой.
Continue reading »
Сегодня выложил для скачивания новую версию программы и плагина. В этой версии изменения минимальны: я удалил ограничение на 10 постов в демо-режиме. Поэтому если вы намерены потестировать программу в полном объеме - обновитесь, пожалуйста.
Пример сайта, построенного из 206 текстовых файлов можно увидеть по этому адресу: http://sct.org.ua
Continue reading »
Последние комментарии