Практика оптимизации
Рубрики: Синонимизатор Добавить комментарий
Итак, перейдем от теории к практике. Посте того, как было решено оптимизировать базу на предмет оптимизации, я произвел следующие шаги:
- нашел в словаре все слова, для которых морфологический движок содержит базовые формы. Из 310 тысяч таких слов оказалось всего 56 тысяч.
- определил, к какому классу (существительное, прилагательное, наречие и т.д.) относится каждое из слов.
- добавил две таблички, одна из которых содержит все возможные варианты всех существительных (просклонял их по числу и падежу). Всего оказалось 250 тысяч возможных вариантов без учетов повторений для 26 тысяч имен существительных, имеющих базовую форму. Вторая табличка - индекс, содержащий все варианты чисел и падежей и ссылающийся на таблицу вариантов существительных. Индекс содержит 318 тысяч записей, по количеству всех словоформ имен существительных (с повторными ссылками на таблицу слов)
- то же самое сделал для имен прилагательных. Правда, из-за того, что склонять имена прилагательные нужно не только по числу и падежу, но еще и по роду, времени и сравнительной форме, то количество вариантов превысило 10 миллионов. Придется разделить индекс на несколько частей (скорее всего на столько, на сколько букв начинаются варианты), чтобы ускорить поиск.
Процесс заполнения базы всеми вариантами существительных и прилагательных занимает около 20 часов, так что во время обработки словаря мне ничего больше не остается, как читать литературу о принципах шифрования программ. Следующий пост я посвящу именно этому вопросу.



11.07.2008 в 22:11
Вот честно сказать - этот пост даже до конца не дочитал - когда начинал писать - у тебя получалось лучше, а сейчас - как то не интересно.
Вопрос по теме - а по каким расценкам собираешься реализовывать свой продукт? Просто что-то мне все больше кажется, что время убивается вовсе не на то, что надо)
11.07.2008 в 23:09
А это всегда так - статистика вегда навевает скуку!
Теперь о стоимости. В настоящий момент я предполагаю продавать свой продукт начиная с 50 WMZ, увеличивая стоимость по мере улучшения самой программы, качества получаемых текстов и увеличения функциональности.