Из чего состоит CopyMaster?
Итак, копимастер должен состоять из следующих частей:
- индексатор
- поисковик
- статистический анализатор
Рассмотрим эти части более подробно.
Индексатор. Нужен для того, чтобы собрать из инета все страницы. По идее, достаточно указать одну-единственную страницу для начала загрузки, а индексатор найдет все остальные сайты. Но на самом деле это не так. Скорее всего придется добавлять новые стартовые страницы для того, чтобы охватить весь интернет. Второй функцией индексатора должен быть парсинг полученных страниц. О том, как это будет делаться, я расскажу в одном из следующих постов о КопиМастере.
Поисковик. Понятно, что собрать страницы и распарсить их - только первая часть дела. Для того, чтобы сервис работал, необходимо обеспечить поиск документов в базе. Принцип работы поисковика будет более подробно описан в одном из следующем постов.
Статистический анализатор. На самом деле я еще не придумал, для чего он может служить. Просто красивое название, которе говорит о том, что я знаю кое-что о статистике. ![]()



26.08.2008 в 22:29
Неплохо иметь свою базу всего интернета, но для начала можно ограничиться только русскоязычными ресурсами. Размер в сто раз меньше и тогда анализировать ее проще.
27.08.2008 в 01:09
Изначально интернет будет индексироваться начиная с русскоязычного сегмента. При этом будут развиваться методы поиска и будет создаваться база для коммерциализации данного проекта. Изначально, до достижения определенного процента индексации и развития, сервис будет бесплатен.