Индексатор - простого решения нет

Итак, после двух недель работы над индексатором я пришел к выводу, что эта задача не имеет простого прямого решения.

Во-первых, это обусловлено тем, что количество ссылок растет по экспоненте, так что скачивание десяти страниц дает прирост в базе на сто страниц. Конечно, при использовании мощного сервера это не будет такой уж проблемой. Но только до тех пор, пока количество ссылок не достигнет отметки в несколько миллионов. В этом случае работа на одной машине будет настолько замедленной, что о дальнейшем ускорении этого дела не может быть и речи.
Continue reading »