Индексатор - простого решения нет
Итак, после двух недель работы над индексатором я пришел к выводу, что эта задача не имеет простого прямого решения.
Во-первых, это обусловлено тем, что количество ссылок растет по экспоненте, так что скачивание десяти страниц дает прирост в базе на сто страниц. Конечно, при использовании мощного сервера это не будет такой уж проблемой. Но только до тех пор, пока количество ссылок не достигнет отметки в несколько миллионов. В этом случае работа на одной машине будет настолько замедленной, что о дальнейшем ускорении этого дела не может быть и речи.
Во вторых, все упирается в объем сохраняемых страниц. Даже с использованием сжатия мне потребуются десятки (а то и сотни) терабайт дискового пространства. С одной стороны это деньги, хоть и не слишком большие. С другой - необходимость размещать этот дисковый массив. Конечно, можно построить отдельное хранилище, привязать его оптоволокном к компьютеру и работать только в такой связке. Но это не будет выходом, так как через некоторое время узким местом в системе станет пропускная способность канала связи или южного моста.
Но на самом деле решение есть, и оно достаточно простое. Но об этом в следующем посте.



10.09.2008 в 16:46
а может подыскать другую задачку для мозгов - самое простое решение ? ))
тут уже тягаться килобаксами придется, если разговор о терабайтах идёт
10.09.2008 в 21:06
На самом деле задач у меня хватает. Один синонимайзер чего стоит.
Но, тем не менее, новые технологии надо изучать, так почему бы не начать с такой обширной задачи?