Итак, пришло время доделать давно обещанную фичу: обработку текстов с использованием статистических данных по двухсловным комбинациям.
Перед тем, как приступать к разработке этого блока, я решил формализовать алгоритм его работы.
Исходные данные: есть база данных, содержащая несколько одинаковых таблиц, содержащих данные по статистике использования следующих комбинаций частей речи:
Continue reading »
Сегодня достаточно много времени провел за доработкой плагина для чтения текстовых файлов с диска. Если чтение файлов в формате RTF много времени не заняло, то преобразование текста из html в txt уже отняло у меня довольно много времени. Дело в том, что тег </td> должен быть заменен на символ табуляции (а, может, и не должен?), а теги </tr>, </p> и <br> обозначают конец логического блока, который в обычном тексте должен завершаться новой строкой. При этом в случае наличия в таблице строк, состоящих из пустых ячеек, мы получаем остается много символов новой строки, между которыми стоят символы табуляции. Я еще не решил эту проблему. Наверное, потому, что уже почти четыре часа утра, и голова моя соображает не так хорошо, как шесть часов назад.
Continue reading »
Последние комментарии