Чистка базы продолжается
Итак, после нескольких дней работы над улучшением работы синонимайзера было принято решение очистить базу от “лишних” синонимов. Дело в том, что большинство синонимов представляют собой семантические пары. Кроме того, многие синонимические пары встречаются не слишком часто, чтобы включать их в словарь.
Теперь, после двух часов работы я удостоверился, что скорость работы с уменьшенным словарем синонимических пар увеличилась как минимум в два раза, а читаемость текстов приблизилась к норме. Конечно, читать такой текст несколько затруднительно, но это и не удивительно, так как замены производится в автоматическом режиме, а программа еще недостаточно умна для того, чтобы делать корректный рерайт.
Об итогах работы вы можете судить сами. Ниже я привожу два текста - оригинал и результат обработки.
Если кто из внимательных читателей помнит, то я уже говорил о том, что с наступлением теплых и жарких дней выходят в свет не менее жаркие мощные ускорители. Вот и сегодня мы кратко расскажем о новинке от AMD, и наш материал будет эксклюзивным, поскольку официальный анонс будет только в августе, а сегодня мы можем лишь кратко познакомить читателей с R700 - двухпроцессорным гигантом, на базе двух RADEON HD 4870. Поэтому он так и называется - RADEON HD 4870 X2.
Коль скоро кто из недремлющих посетителей помнит, то я уже говорил об том, что с нападением теплых и знойных дней выходят в свет не слабее горячие монументальные гиротроны. Вот и ныне мы лаконично расскажем об новации от AMD, и наш материал будет элитным, потому как служебный анонс будет всего лишь в августе, но нынче мы можем лишь в нескольких словах познакомить пользователей с R700 - двухпроцессорным сверхгигантом, на основе двух RADEON HD 4870. Вот почему он так и называется - RADEON HD 4870 X2.
Жирным шрифтом я выделил те слова, которые оказались в тексте после его обработки. Как видите, читать такой текст можно, хоть это и не столь просто - так и хочется улыбнуться в паре-тройке мест (особенно там, где говорится о горячем монументальном гиротроне). Думаю, что через несколько дней я смогу выпустить рабочую версию, которую вы сможете уже скачать и попробовать вживую. Правда, из-за того, что база синонимов в ней будет еще не до конца очищена, то использовать для продакшна ее будет пока нельзя. Впрочем, это не касается тех, кто делает дорвеи. ![]()



16.07.2008 в 15:18
Да, текст действительно улыбнул))
16.07.2008 в 15:34
Но, тем не менее, сепулек в нем нет.
Так что первый этап можно считать завершенным. Осталось вычистить базу до конца, и все будут довольны и счастливы. 