Индексатор - простого решения нет

Итак, после двух недель работы над индексатором я пришел к выводу, что эта задача не имеет простого прямого решения.

Во-первых, это обусловлено тем, что количество ссылок растет по экспоненте, так что скачивание десяти страниц дает прирост в базе на сто страниц. Конечно, при использовании мощного сервера это не будет такой уж проблемой. Но только до тех пор, пока количество ссылок не достигнет отметки в несколько миллионов. В этом случае работа на одной машине будет настолько замедленной, что о дальнейшем ускорении этого дела не может быть и речи.
Continue reading »

Индексатор. Первые итоги.

Пару часов назад закончил работу над первой стабильной версией индексатора. Скорость его работы не особо впечатляет: в 10 потоках из сети загружается около 100 страниц в минуту на средней скорости 75 килобайт в секунду.При этом загрузка двухъядерного процессора составляет от 40 до 100 процентов, а температура каждого из ядер достигает 60 градусов. Придется придумывать дополнительные средства для охлаждения. Скорее всего это будет просто дополнительный вентилятор на выдув.
Continue reading »

CopyMaster: работа над индексатором началась

После того, как был сделан прототип загрузчика файлов, оказалось, что есть некторые вещи, которые я не учел во время проектирования системы хранения. Вначале я планировал сделать так, что все страницы будут храниться в папках, отражающих структуру доменных имен. Например, если у нас есть страница по адресу http://www.site.ru/folder2/page.html, то на диске она будет записана в файл page.html, который будет сохранен в папке x:\sites\ru\site\www\folder2\
Continue reading »