MultiReader: версия 1.5.1.685
Только что выложил новую версию ридера: 1.5.1.685
В этой версии были сделаны следующие изменения:
- добавлена возможность ручного указания кодировки. По-умолчанию программа пытается определить кодировку самостоятельно.
- добавлена возможность указывать программе, что шаблон для парсинга является регулярным выражением.
Для обновления программы достаточно скачать архив и распаковать в папку с программой только два файла: mr.exe и dal.dll
Теперь пару слов об использовании регулярных выражений. Этот вопрос интересует многих, и овладение этой техникой может позволить каждому выполнять операции с загруженными текстами более гибко.
Если вы хотите указать шаблон для парсинга в виде регулярного выражения, помните об обязательных элементах, которые должны присутствовать в нем, чтобы текст сохранялся в базе. В общем виде простейшее регулярное выражение выглядит следующим образом:
<div id=’news-id-\d+’>(.+)</div>
При этом в базу попадут тексты, находящиеся между парой тегов <div></div>. Обратите внимание на элемент (.+) между тегами, который говорит программе, что она должна сохранять этот текст. Если круглые скобки опустить, то текст сохраняться не будет.
Использование указанного регулярного выражения позволит сохранять тексты из страниц со следующими текстами:
<div id=’news-id-55′>мама мыла раму</div>
<div id=’news-id-1′>наша маша ела кашу</div>
так как шаблон \d+ указывает программе искать в этом месте одну или более цифр. При этом следующий тест не распознается:
<div id=’news-55′>(.+)</div> , так как шаблон не совпадает (отсутствует -id).
В целом, вопрос работы с регулярными выражениями не очень сложен, хоть и требует определенных навыков. Главное, чтобы вы обязательно проверяли валидность введенного вами регулярного выражения с помощью кнопки Проверить (если такая присутствует). В противном случае программа сообщит вам об ошибке самостоятельно, или просто будет игнорировать некорректное регулярное выражение.
В дальнейшем я опишу работу с регулярками более подробно.



25.02.2009 в 07:14
авторизацию для скачивания полных новостей не может осуществлять ? - я так понял
25.02.2009 в 15:10
Нет, опция логгинга на сайтах пока что не реализована. И до сих пор не было ни одного запроса на такую фичу.
26.02.2009 в 14:10
Предлагаю сделать его более универсальным. Добавить возможность парсинга по нескольким шаблонам и возможность указания шаблона для экспорта.
Допустим нужно отпарсить каталог товаров.
Телевизоры
Телевизор Sony
Описание телевизора
243243 руб.
Указываем несколько шаблонов для одной страницы:
{content1}
##разделитель шаблона##
{content2}
##разделитель шаблона##
{content3}
##разделитель шаблона##
{content4}
##разделитель шаблона##
Также предлагаю добавить шаблон экспорта страницы.
Например:
Категория {content1}
Название {content2}
Описание товара {content3}
Цена: {content4}
26.02.2009 в 14:12
вордпресс порезал html (