Результат оптимизации
Рубрики: Синонимизатор Добавить комментарий
Итак, после того, как все приготовления были произведены, можно приступать к тестированию производительности. Возьмем наш текст про мышонка Феликса и прогоним его через наш синонимайзер. В результате получилось следующее:
- символов с пробелами: 3239
- символов без пробелов: 2706
- всего русских слов: 539
- неповторяющихся слов: 372
- неповторяющихся слов, имеющих хотя бы один синоним: 275
- всего найдено синонимов: 11868
- неповторяющихся синонимов: 5372
- время выполнения: 38.2 секунды (320 слов в секунду)
Все синонимы приводятся к той же грамматической форме, что и слово, кому они принадлежат. То есть синоним “короткий” для женского рода в именительном падеже будет выглядеть как “короткую”.
В дальнейшем я планирую уменьшить время на выполнение работы скрипта за счет кеширования результатов грамматической обработки слов и уменьшения количества связей между словами за счет автоматического определения тематики текста и удаления тех слов, которые слабо связаны с этой тематикой.



11.07.2008 в 22:21
Неужели пол минуты - так много? Оно конечно и не мало, но лично мне бы подошло, я бы больше смотрел на качество, а не на скорость) Когда уже тексты выложишь, чтобы посмотреть можно было и самому сравнить, а то цифры - цифрами, а хочется все самому лицезреть)
11.07.2008 в 23:05
Увы, пол минуты - достаточно много. Правда, это все должно будет компенсироваться высоким качеством обработки текста. Впрочем, я уверен. что у меня все получится.