Cмена движка базы данных Первый скриншот синонимайзера

Первые результаты работы синонимайзера

Итак, синонимайзер в первом приближении работает. В настоящий момент он может обрабатывать текст, находя для каждого русского слова его нормальную форму, а затем для каждой из найденных форм ищет синонимы.

Я взял обычный художественный текст с сервера Проза.ру и обработал его своим синонимайзером. И вот какая статистика:

  • всего русских слов в оригинальном тексте - 3186
  • всего неповторяющихся русских слов - 1611
  • из них слов, для которых были найден хотя бы один синоним - 1108
  • время обработки - 7 секунд

Таким образом, если бы весь текст состоял только из неповторяющихся слов, то 68% из них могут быть заменены по крайней мере на один синоним.

К сожалению, база синонимов включает слишком много словарных статей из разных словарей (общая лексика, архаизмы, жаргон и т.д.), так что при выборе определенного словаря, который должен использоваться при поиске синонимов (эта задача стоит в списке наиболее приоритетных), количество слов с синонимами будет уменьшаться. Впрочем, это закономерно и, я так думаю, приемлемо.

google.com bobrdobr.ru del.icio.us technorati.com linkstore.ru news2.ru rumarkz.ru memori.ru moemesto.ru

Оставить комментарий