WS7 - основные принципы

WS7 - парсинг каталога

В настоящий момент занимаюсь тем, что граблю один каталог ресурсов. Это нужно для того, чтобы иметь дерево тем. Одновременно с этим сохраняю список сайтов на каждой из страниц каталога (если они есть). Затем, после того, как весь каталог будет сграблен, будут загружены по 10 сайтов из каждого раздела каталога, и будут собраны ключевые слова. Причем это будет титаническая работа, так как время от времени будут появляться слова, которые относятся к одной тематике, но будут использованы в других темах. Так что придется просмотреть большое количество слов, входящих в разные темы и поправить неправильно определенные слова.

Кстати, парсинг производится в очень легком режиме - одна страница в десять секунд, так что я не создаю нагрузку на этот каталог. По крайней мере эта нагрузка настолько мала, что не должна повлечь за собой каких либо недовольств со стороны его владельца.

google.com bobrdobr.ru del.icio.us technorati.com linkstore.ru news2.ru rumarkz.ru memori.ru moemesto.ru

Оставить комментарий