Практика оптимизации Синонимайзер: предварительные итоги

Результат оптимизации

Итак, после того, как все приготовления были произведены, можно приступать к тестированию производительности. Возьмем наш текст про мышонка Феликса и прогоним его через наш синонимайзер. В результате получилось следующее:

  • символов с пробелами: 3239
  • символов без пробелов: 2706
  • всего русских слов: 539
  • неповторяющихся слов: 372
  • неповторяющихся слов, имеющих хотя бы один синоним: 275
  • всего найдено синонимов: 11868
  • неповторяющихся синонимов: 5372
  • время выполнения: 38.2 секунды (320 слов в секунду)

Все синонимы приводятся к той же грамматической форме, что и слово, кому они принадлежат. То есть синоним “короткий” для женского рода в именительном падеже будет выглядеть как “короткую”.

В дальнейшем я планирую уменьшить время на выполнение работы скрипта за счет кеширования результатов грамматической обработки слов и уменьшения количества связей между словами за счет автоматического определения тематики текста и удаления тех слов, которые слабо связаны с этой тематикой.

google.com bobrdobr.ru del.icio.us technorati.com linkstore.ru news2.ru rumarkz.ru memori.ru moemesto.ru

Комментарии (2) на запись “Результат оптимизации”

  1. Dizels пишет:

    Неужели пол минуты - так много? Оно конечно и не мало, но лично мне бы подошло, я бы больше смотрел на качество, а не на скорость) Когда уже тексты выложишь, чтобы посмотреть можно было и самому сравнить, а то цифры - цифрами, а хочется все самому лицезреть)

  2. Мастер пишет:

    Увы, пол минуты - достаточно много. Правда, это все должно будет компенсироваться высоким качеством обработки текста. Впрочем, я уверен. что у меня все получится.

Оставить комментарий