Глюк при вводе лицензии Микропроект по созданию словаря

Как очеловечить текст

Сегодня на нулледе снова подняли вопрос о том, что было бы неплохо иметь несколько разных словарей, которые можно было бы подключать как отдельно, так и вместе. Но на самом деле все куда сложнее. Дело в том, что русский язык содержит слишком много слов, которые для разных контекстов могут иметь разные синонимы. Например, прилагательные хороший и новый имеют тучу синонимов, одни из которых применимы в одних ситуациях, и неприменимы в других. Поэтому, выходом из ситуации будет информация о частотном распределении двух- и трехсловников в предложениях, чтобы минимизировать вхождения пар, никогда не употребляющихся в нормальной речи. Например, прилагательное “хороший” имеет в списке синонимов “удобный” и “добрый”, но после сверки с контрольной таблицей частотных распределений двухсловников, выражение “удобная дорога” будет иметь вес больший, чем выражение “добрая дорога”, и таким образом будет встречаться в результирующем тексте чаще.

Я еще буду думать над этим, кое какие идеи и инструмент есть. Осталось только пройтись по паре тысяч текстов и проделать эту работу для того, чтобы текст стал нормальным, читаемым как человеком, так и ПС.

google.com bobrdobr.ru del.icio.us technorati.com linkstore.ru news2.ru rumarkz.ru memori.ru moemesto.ru

Комментарии (3) на запись “Как очеловечить текст”

  1. Sdm пишет:

    Нашел сервис по теме. http://aot.ru/demo/bigrams.html
    http://aot.ru/ тут еще разные.
    Может полезно будет.

  2. Sdm пишет:

    Тут описание модулей сайта aot http://www.dialog-21.ru/Archive/2004/Sokirko.htm
    И здесь что-то об этом, правда воды много: http://www.dialog-21.ru/forum/actualthread.aspx?tid=304

  3. Мастер пишет:

    Да, я видел этот ресурс. Но там и в самом деле многовато воды.
    Все равно спасибо.

Оставить комментарий