Первые результаты работы синонимайзера
Итак, синонимайзер в первом приближении работает. В настоящий момент он может обрабатывать текст, находя для каждого русского слова его нормальную форму, а затем для каждой из найденных форм ищет синонимы.
Я взял обычный художественный текст с сервера Проза.ру и обработал его своим синонимайзером. И вот какая статистика:
- всего русских слов в оригинальном тексте - 3186
- всего неповторяющихся русских слов - 1611
- из них слов, для которых были найден хотя бы один синоним - 1108
- время обработки - 7 секунд
Таким образом, если бы весь текст состоял только из неповторяющихся слов, то 68% из них могут быть заменены по крайней мере на один синоним.
К сожалению, база синонимов включает слишком много словарных статей из разных словарей (общая лексика, архаизмы, жаргон и т.д.), так что при выборе определенного словаря, который должен использоваться при поиске синонимов (эта задача стоит в списке наиболее приоритетных), количество слов с синонимами будет уменьшаться. Впрочем, это закономерно и, я так думаю, приемлемо.



Последние комментарии