Словари - народу Синонимайзер: оптимизируем базу

Индексатор - простого решения нет

Итак, после двух недель работы над индексатором я пришел к выводу, что эта задача не имеет простого прямого решения.

Во-первых, это обусловлено тем, что количество ссылок растет по экспоненте, так что скачивание десяти страниц дает прирост в базе на сто страниц. Конечно, при использовании мощного сервера это не будет такой уж проблемой. Но только до тех пор, пока количество ссылок не достигнет отметки в несколько миллионов. В этом случае работа на одной машине будет настолько замедленной, что о дальнейшем ускорении этого дела не может быть и речи.

Во вторых, все упирается в объем сохраняемых страниц. Даже с использованием сжатия мне потребуются десятки (а то и сотни) терабайт дискового пространства. С одной стороны это деньги, хоть и не слишком большие. С другой - необходимость размещать этот дисковый массив. Конечно, можно построить отдельное хранилище, привязать его оптоволокном к компьютеру и работать только в такой связке. Но это не будет выходом, так как через некоторое время узким местом в системе станет пропускная способность канала связи или южного моста.

Но на самом деле решение есть, и оно достаточно простое. Но об этом в следующем посте.

google.com bobrdobr.ru del.icio.us technorati.com linkstore.ru news2.ru rumarkz.ru memori.ru moemesto.ru

Комментарии (2) на запись “Индексатор - простого решения нет”

  1. 35metod пишет:

    а может подыскать другую задачку для мозгов - самое простое решение ? ))

    тут уже тягаться килобаксами придется, если разговор о терабайтах идёт

  2. Мастер пишет:

    На самом деле задач у меня хватает. Один синонимайзер чего стоит. :)
    Но, тем не менее, новые технологии надо изучать, так почему бы не начать с такой обширной задачи?

Оставить комментарий