Расширяем функционал плагина для чтения файлов Синонимайзер: синонимизируем сайты

Преобразование html в txt

Сегодня достаточно много времени провел за доработкой плагина для чтения текстовых файлов с диска. Если чтение файлов в формате RTF много времени не заняло, то преобразование текста из html в txt уже отняло у меня довольно много времени. Дело в том, что тег </td> должен быть заменен на символ табуляции (а, может, и не должен?), а теги  </tr>, </p> и <br> обозначают конец логического блока, который в обычном тексте должен завершаться новой строкой. При этом в случае наличия в таблице строк, состоящих из пустых ячеек, мы получаем остается много символов новой строки, между которыми стоят символы табуляции. Я еще не решил эту проблему. Наверное, потому, что уже почти четыре часа утра, и голова моя соображает не так хорошо, как шесть часов назад.

Единственное, что мне приходит на ум в этой связи: надо разбивать текст на строки по символам новой строки, затем тримать каждую строку, и из набора из N пустых строк оставлять только одну. (Прочел эту фразу, и понял, что ее поймут только программисты. :) ) Но это я буду пробовать уже завтра, так как написание кода и его тестирование занимает уж очень много времени. Кстати, когда я завершу работу над импортом html в txt, эту наработку можно будет оформить в отдельный проект или библиотеку, которую можно будет подключать к другим проектам.

google.com bobrdobr.ru del.icio.us technorati.com linkstore.ru news2.ru rumarkz.ru memori.ru moemesto.ru

Оставить комментарий