Как очеловечить текст
Сегодня на нулледе снова подняли вопрос о том, что было бы неплохо иметь несколько разных словарей, которые можно было бы подключать как отдельно, так и вместе. Но на самом деле все куда сложнее. Дело в том, что русский язык содержит слишком много слов, которые для разных контекстов могут иметь разные синонимы. Например, прилагательные хороший и новый имеют тучу синонимов, одни из которых применимы в одних ситуациях, и неприменимы в других. Поэтому, выходом из ситуации будет информация о частотном распределении двух- и трехсловников в предложениях, чтобы минимизировать вхождения пар, никогда не употребляющихся в нормальной речи. Например, прилагательное “хороший” имеет в списке синонимов “удобный” и “добрый”, но после сверки с контрольной таблицей частотных распределений двухсловников, выражение “удобная дорога” будет иметь вес больший, чем выражение “добрая дорога”, и таким образом будет встречаться в результирующем тексте чаще.
Я еще буду думать над этим, кое какие идеи и инструмент есть. Осталось только пройтись по паре тысяч текстов и проделать эту работу для того, чтобы текст стал нормальным, читаемым как человеком, так и ПС.



21.08.2008 в 19:45
Нашел сервис по теме. http://aot.ru/demo/bigrams.html
http://aot.ru/ тут еще разные.
Может полезно будет.
21.08.2008 в 20:26
Тут описание модулей сайта aot http://www.dialog-21.ru/Archive/2004/Sokirko.htm
И здесь что-то об этом, правда воды много: http://www.dialog-21.ru/forum/actualthread.aspx?tid=304
21.08.2008 в 23:14
Да, я видел этот ресурс. Но там и в самом деле многовато воды.
Все равно спасибо.