Итак, пламенным мотором сервиса является его индексатор. Индексатор должен делать следующие вещи:
- загружать из интернета страницы, чьи ссылки находятся в очереди на индексацию
- парсить контент и добавлять ссылки новых страниц в очередь
- архивировать содержимое и сохранять его на диске
- преобразовывать контент во внутренний формат сервиса и сохранять в базе
Continue reading »
Итак, копимастер должен состоять из следующих частей:
- индексатор
- поисковик
- статистический анализатор
Рассмотрим эти части более подробно.
Индексатор. Нужен для того, чтобы собрать из инета все страницы. По идее, достаточно указать одну-единственную страницу для начала загрузки, а индексатор найдет все остальные сайты. Но на самом деле это не так. Скорее всего придется добавлять новые стартовые страницы для того, чтобы охватить весь интернет. Второй функцией индексатора должен быть парсинг полученных страниц. О том, как это будет делаться, я расскажу в одном из следующих постов о КопиМастере.
Continue reading »
Мой хороший знакомый из Германии, с которым я подолгу общаюсь в аське, подсказал мне идею нового проекта. Ни много, ни мало, но создать аналог копискейпа. Кто не знает: копискейп - это сервис, который позволяет находить копии ваших документов в Сети. Для этого вы просто вводите адрес странички и, в случае совпадения, получаете список адресов, на которых есть похожий контент. Вроде бы все просто. Но тут есть несколько нюансов, которые все еще находятся на уровне обдумывания.
Continue reading »
Последние комментарии