Ответы на злободневные вопросы по синонимайзеру
Сегодня на нулледе я написал один пост, который понравился даже мне самому: емко, обстоятельно и почти без воды. Поэтому я решил привести его здесь, дабы не писать все это еще раз. Итак, вот он:
По поводу скорости работы: программа работает достаточно быстро - 30 слов в секунду с учетом того, что программа разбирает морфологию и приводит все синонимы в соответствие с родом, падежом и другими характеристиками исходного слова - это хороший показатель. Не думаю, что у вас стоит очередь из тысячи сайтов, на которые надо залить по тысяче страниц, каждая по тысяче слов. Кстати, только что подсчитал: если вы будете обрабатывать такое количество неповторяющихся слов (миллиард), то программе потребуется год непрерывной работы. Но на самом деле это не так. Долго обрабатывается только первое вхождение слова в массив текста. Это заметно уже по тому, что если обработать тот же текст еще раз, то программе требуется в 10-20 раз меньше времени на его обработку. К примеру, первая обработка текста из 282 неповторяющихся слов заняла 4.4 секунды, а повторная обработка этого же текста аж 0.43 секунды. В общем, кеш рулит однозначно! Кстати, в настоящий момент программа обрабатывает 60-80 неповторяющихся слов в секунду в зависимости от количества синонимов в системном словаре для каждого из обрабатываемых слов. А так как количество используемых слов в нашей речи не превышает 20 тысяч, то скорость обработки текстов будет возрастать по мере того, как вы будете их обрабатывать. В общем, что при удачном раскладе миллиард слов вы сможете получить не через год, а уже через 4-6 недель.
По поводу выделяемой памяти: был баг, из-за которого выделялось почти в два раза больше памяти, чем надо. Сейчас программа отъедает не более 145 мегабайт. Эта память используется под распакованный словарь и для кеширования результатов. Я не думаю, что сейчас у кого-то на компе меньше 512 метров памяти, так что данный вопрос не может считаться серьезным.
По поводу базы слов: выдирать ее не стоит, так как системная база содержит около 106 тысяч слов, каждое из которых имеет от одного до ста синонимов, причем большая часть этих синонимов являются грамматическими и семантическими связями. В принципе, словарь можно выдрать, но из-за огромного количества мусора вам придется потратить неделю (а то и две) на то, чтобы этот мусор удалить. Лучше уж потратить эти две недели на то, чтобы, синонимизируя тексты и пополняя пользовательский словарь, составить “белый” словарь синонимов на основе системного словаря программы. Будет более качественно.
И по поводу нулления проги. Имхо, не стоит этого делать, так как со вчерашнего дня ее можно купить аж за 5 WMZ. те, у кого нет 5 баксов, могут получить ее за ссылки на сайт программы. Это, кстати, описано на блоге и на сайте программы. Я решил не париться с продажами этой проги (зарабатываю на другом, а эта прога должна была быть лишь инструментом для получения контента), и отдавать ее почти за бесплатно. 5 баксов - не та сумма, на которой я смогу что-то заработать, а вы - разориться. Но она будет служить мне частичным покрытием расходов на покупку того старого двигла, купленного мною за 300 баксов. Я уже не говорю о моральном аспекте получения денег, даже столь крошечных.



Последние комментарии