WordSyn 7 WS7 - парсинг каталога

WS7 - основные принципы

По сравнению с предыдущей новая версия должна стать еще более стабильной и правильной. Это будет выражаться в том, что количество падений программы будет сведено к минимуму, тогда как качество ее работы будет приближено к максимально возможному.

Итак, основные принципы.

Во-первых, корректная обработка текстов будет гарантироваться только при определенной минимальной длине обрабатываемого текста. Это нужно для того, чтобы программа могла найти в тексте ключевые слова и провести синтаксический анализ текста. В настоящий момент ведутся работы по формированию каталога и базы слов по определенным тематикам. Чуть позже я покажу пример работы над каталогом и тематических слов.

Во-вторых, программа будет использовать расширенный набор n-грамм, который будет собираться во время обработки текстов и их семантического и синтаксического анализа текстов. При этом работа над текстом будет производиться на уровне фраз, а не слов, что позволит перефразировать так, что потребуется минимальное использование синонимов.

В-третьих, будет использоваться несколько настроек, которые будут позволять использовать разные стили переделки текстов, как по изложению, так и по используемому лексикону.

google.com bobrdobr.ru del.icio.us technorati.com linkstore.ru news2.ru rumarkz.ru memori.ru moemesto.ru

Оставить комментарий