Я в отпуске Из чего состоит CopyMaster?

Начало нового проекта - CopyMaster

Мой хороший знакомый из Германии, с которым я подолгу общаюсь в аське, подсказал мне идею нового проекта. Ни много, ни мало, но создать аналог копискейпа. Кто не знает: копискейп - это сервис, который позволяет находить копии ваших документов в Сети. Для этого вы просто вводите адрес странички и, в случае совпадения, получаете список адресов, на которых есть похожий контент. Вроде бы все просто. Но тут есть несколько нюансов, которые все еще находятся на уровне обдумывания.

Итак, нюанс первый. Данный сервис работает очень быстро, что может свидетельствовать только о том, что он имеет в своем распоряжении десятки (или сотни) миллионов страниц, собранных по всему Интернету. Данное соображение основано на сверхбыстром отклике сервера и наличии кешированной информации.В пользу локального кеша может свидетельствовать еще и то, что выдача поисковиков для одинаковых страниц отличается. Я еще буду исследовать этот вопрос, но мне почему-то кажется, что локальный кеш - единственное разумное объяснение.

Попробуем оценить, сколько нужно для этого места. Просто умножим усредненное количество страниц в инете (1 миллиард) на средний размер страницы (10 килобайт). Получится 10 миллионов мегабайт, или 10 тысяч гигабайт, или 10 терабайт. Для хранения такого массива данных нужна распределенная система как минимум из четырех серверов, плюс база данных, хранящая данные о содержании документов. Это еще как минимум два компьютера. Но, скорее всего, я слишком оптимистичен, и эти количества нужно умножить в лучшем случае на два, а в худшем - на 10. Итого получаем огромный кластер, состоящий из десятков высокопроизводительных серверов уровня Enterprise. В общем, есть над чем задуматься перед началом построения такой системы.

Нюанс второй, вытекающий из первого. Время, необходимое на получение этого кеша. Допустим, нам надо собрать 100 миллионов страниц. Пусть на одну страницу уходит 1 секунда. Итого, все сто мильенов страниц будут скачаны всего за 1157 суток или три года и два месяца непрерывной работы. Даже если на одну страницу будет уходить по четверти секунды, то все равно на сбор всех этих страниц уйдет почти 9 месяцев. Впрочем, это не так и много, если учесть, что окупаемость этого сервиса начнется задолго до истечения этих девяти месяцев.

Тем не менее, начало раздумьям положено и я, пожалуй, за этот проект возьмусь.

google.com bobrdobr.ru del.icio.us technorati.com linkstore.ru news2.ru rumarkz.ru memori.ru moemesto.ru

Комментарии (4) на запись “Начало нового проекта - CopyMaster”

  1. 35metod пишет:

    впечатляет конечно
    а за эти три года будут же и новые сайты и страницы в рунете

  2. Мастер пишет:

    На самом деле я несколько погорячился - средняя скорость загрузки на одном компьютере и на канале в 2 мегабита составляет около 5-6 страниц в секунду. Такая цифра получается при работе в 24 потока, по одному потоку на один сервер и по 100 страниц с одного сервера за один заход. Так что 100 миллионов страниц можно скачать всего за полгода непрерывной работы всего одного компьютера.

  3. Faster пишет:

    огромная база подобной информации, это фундамент, на котором можно мнооого чего построить :) и КопиМастер не самый деньгоприносящий вариант из возможных. Но задумка, а самое главное отвага Мастера, достойна уважения.

  4. Мастер пишет:

    Интересно, а что еще можно сделать с таким массивом информации? Что бы вы с ним сделали?

Оставить комментарий