CopyMaster: установка окружения

Вот уже который день бьюсь над созданием инфраструктуры для разворачивания кластера для Nutch. Самой большой проблемой оказалась установка и настройка Tomcat - я перепробовал кучу платформ и остановился на Server 7.04. Очень надеюсь, что вскоре я смогу описать процедуру остановки этого ПО на кластер, так что те, кто захочет пройтись по моим стопам, смогут сделать это сами.

Индексатор - простого решения нет

Итак, после двух недель работы над индексатором я пришел к выводу, что эта задача не имеет простого прямого решения.

Во-первых, это обусловлено тем, что количество ссылок растет по экспоненте, так что скачивание десяти страниц дает прирост в базе на сто страниц. Конечно, при использовании мощного сервера это не будет такой уж проблемой. Но только до тех пор, пока количество ссылок не достигнет отметки в несколько миллионов. В этом случае работа на одной машине будет настолько замедленной, что о дальнейшем ускорении этого дела не может быть и речи.
Continue reading »

Индексатор. Первые итоги.

Пару часов назад закончил работу над первой стабильной версией индексатора. Скорость его работы не особо впечатляет: в 10 потоках из сети загружается около 100 страниц в минуту на средней скорости 75 килобайт в секунду.При этом загрузка двухъядерного процессора составляет от 40 до 100 процентов, а температура каждого из ядер достигает 60 градусов. Придется придумывать дополнительные средства для охлаждения. Скорее всего это будет просто дополнительный вентилятор на выдув.
Continue reading »

Кто стоит за CopyScape

Многие знают, что в сети есть сервис, который позволяет отыскивать в сети материалы, которые частично или полностью повторяют материалы ваших сайтов. Этот сервис, как вы уже догадались, позволяет отыскивать в сети те сайты, чьи владельцы не могут придумать что-то свое и занимаются воровством контента. Это называется плагиатом, и в приличных кругах считается постыдным делом. Так что если вы - копирайтер, и хотите узнать, кто украл ваши тексты, то вам прямая дорога в КопиСкейп. Там вам все расскажут. Кстати, именно с этим сервисом я и планирую конкурировать.
Continue reading »

CopyMaster: работа над индексатором началась

После того, как был сделан прототип загрузчика файлов, оказалось, что есть некторые вещи, которые я не учел во время проектирования системы хранения. Вначале я планировал сделать так, что все страницы будут храниться в папках, отражающих структуру доменных имен. Например, если у нас есть страница по адресу http://www.site.ru/folder2/page.html, то на диске она будет записана в файл page.html, который будет сохранен в папке x:\sites\ru\site\www\folder2\
Continue reading »

CopyMaster: индексатор

Итак, пламенным мотором сервиса является его индексатор. Индексатор должен делать следующие вещи:

  • загружать из интернета страницы, чьи ссылки находятся в очереди на индексацию
  • парсить контент и добавлять ссылки новых страниц в очередь
  • архивировать содержимое и сохранять его на диске
  • преобразовывать контент во внутренний формат сервиса и сохранять в базе

Continue reading »

Из чего состоит CopyMaster?

Итак, копимастер должен состоять из следующих частей:

  • индексатор
  • поисковик
  • статистический анализатор

Рассмотрим эти части более подробно.

Индексатор. Нужен для того, чтобы собрать из инета все страницы.  По идее, достаточно указать одну-единственную страницу для начала загрузки, а индексатор найдет все остальные сайты. Но на самом деле это не так. Скорее всего придется добавлять новые стартовые страницы для того, чтобы охватить весь интернет. Второй функцией индексатора должен быть парсинг полученных страниц. О том, как это будет делаться, я расскажу в одном из следующих постов о КопиМастере.
Continue reading »

Начало нового проекта - CopyMaster

Мой хороший знакомый из Германии, с которым я подолгу общаюсь в аське, подсказал мне идею нового проекта. Ни много, ни мало, но создать аналог копискейпа. Кто не знает: копискейп - это сервис, который позволяет находить копии ваших документов в Сети. Для этого вы просто вводите адрес странички и, в случае совпадения, получаете список адресов, на которых есть похожий контент. Вроде бы все просто. Но тут есть несколько нюансов, которые все еще находятся на уровне обдумывания.
Continue reading »