SimpleGrabber - сбор информации с одной странички WordSyn: работа с n-граммами

WordSyn 5.0 уже на подходе

Заканчиваю тестирование новой версии синонимайзера. Надеюсь, что к концу недели все баги будут выловлены, и новая версия увидит свет.

Кстати, практически все серьезные недочеты были исправлены. Особенно это относится к морфологии, так что проблем со склонением глаголов уже не будет.

Был практически полностью переделан редактор словаря. В него была добавлена возможность добавления многословников и опция, отключающая использование морфологии во время добавления новых слови и импорта словаря из файла.

Еще раз хочу напомнить, что в новой версии будет изменена лицензионная модель - теперь будет три версии лицензий: W1, W2 и W3. W1 будет соответствовать некоммерческой лицензии, за исключением того, что в этой лицензии будет отсутствовать работа с морфологией. W2 будет соответствовать коммерческой лицензии. Лицензия W3 будет самой мощной - в ней будет все то же, что и в лицензии W2, плюс проверка синонимизации по таблице n-грамм, которая должна поднять читабельность текстов практически до 100% за счет использования данных обработки 74 тысяч текстовых файлов общим объемом 14 гигабайт. Таким образом из всех возможных пар синонимов будут выбраны только те, которые хоть раз встречались во время этой обработки, а все нелепые пары будут отклонены. Естественно, что скорость обработки текстов при этом будет заметно ниже, чем без использования этой фичи, но это и понятно - любые вычисления, использующие большие наборы данных требуют времени. Зато и результат будет налицо.

google.com bobrdobr.ru del.icio.us technorati.com linkstore.ru news2.ru rumarkz.ru memori.ru moemesto.ru

Комментарии (8) на запись “WordSyn 5.0 уже на подходе”

  1. dungan пишет:

    Первый. Что хочу сказать, суперрр. А через аську можно получить новую версию?

  2. dungan пишет:

    кстати поддержка английского почему не работает, разве сложно?

  3. Мастер пишет:

    После того, как новая версия будет выложена, вы сможете найти ссылку на нее на сайте программы и на этом блоге.
    Поддержка английского в новой версии уже включена. Кроме того, системный словарь содержит синонимы для большого количества английских слов, так что все, что останется, это создать свой словарь.

  4. Faster пишет:

    Хорошие новости! давно ждем релиза, нетерпится попробовать работу 5 версии и особенно новую фишку n-граммы. Может уже дадите словари качать? всеже 14гиг не мало…

  5. Мастер пишет:

    Нет, словари качать не дам, так как эта база не является словарями в чистом виде. Это просто набор идентификаторов слов из внутренней базы программы. На базе этого набора и вычисляется правильность подбора того или иного синонима. Кстати, новая фишка будет доступна только в версии W3, за которую надо будет доплатить половину разницы между ценами лицензий.

  6. Faster пишет:

    не совсем понял, базу вобще не нужно будет качать(обращение к неи по инету например?) или качать всеже нужно будет, но после релиза?

  7. Мастер пишет:

    Нет, я не так выразился. Базу качать будет нужно. Просто она подходит только для версии 5.х, а в ранних версиях нет функционала для работы с этой базой.

  8. Faster пишет:

    будет ли на этой неделе релиз?

Оставить комментарий