WordSyn: алгоритм работы с двухсловниками

Итак, пришло время доделать давно обещанную фичу: обработку текстов с использованием статистических данных по двухсловным комбинациям.

Перед тем, как приступать к разработке этого блока, я решил формализовать алгоритм его работы.

Исходные данные: есть база данных, содержащая несколько одинаковых таблиц, содержащих данные по статистике использования следующих комбинаций частей речи:

Continue reading »

Преобразование html в txt

Сегодня достаточно много времени провел за доработкой плагина для чтения текстовых файлов с диска. Если чтение файлов в формате RTF много времени не заняло, то преобразование текста из html в txt уже отняло у меня довольно много времени. Дело в том, что тег </td> должен быть заменен на символ табуляции (а, может, и не должен?), а теги  </tr>, </p> и <br> обозначают конец логического блока, который в обычном тексте должен завершаться новой строкой. При этом в случае наличия в таблице строк, состоящих из пустых ячеек, мы получаем остается много символов новой строки, между которыми стоят символы табуляции. Я еще не решил эту проблему. Наверное, потому, что уже почти четыре часа утра, и голова моя соображает не так хорошо, как шесть часов назад.
Continue reading »