WordSyn: поиск пар продолжается HDD vs RAM - кто быстрей?

WordSyn: начало поиска синонимов для пар слов

Итак, первая часть задачи по поиску пар почти закончена. На данный момент обработано более трех тысяч текстов (600 мегабайт, 75 миллионов русских слов). На это ушло около 16 часов, и я, в целом, результатами доволен. Всего найдено 5.5 миллионов уникальных пар, для которых теперь нужно найти такие пары синонимов, которые хоть раз встречаются в текстах.

Итак, задача состоит в следующем:

  1. Необходимо пройтись по всем парам слов.
  2. Для каждого слова необходимо найти все синонимы.
  3. Перебрать все комбинации синонимов для каждой из пар и найти такие комбинации, которые уже были найдены в текстах.

С первым шагом все понятно: делается выборка, скажем по 1000 пар, и затем проходим по всем парам из выбранной тысячи. В принципе, можно проходиться по всей таблице пар, но это потребует намного большего расхода оперативки и времени выборки такого массива данных. Даже без учета потерь на структурах-обертках, потребуется 5500000*3*4 = 66 мегабайт только для хранения всего массива пар.

Со вторым шагом тоже проблем нет: тезаурус программы содержит огромное количество синонимов для 106 тысяч слов. Выборка синонимов для слов уже реализована, так что мне только останется скопировать код.

Третий шаг будет наиболее трудоемок как в плане разработки, так и в плане выполнения. Потребуются два цикла, в которых будут найдены все возможные комбинации пар синонимов, а затем все пары должны будут проверены на вхождение в базу пар. В принципе, не слишком сложная задача. Осталось только реализовать ее, запустить программу, и посмотреть, что получится.

Для контроля правильности подбора пар я сделаю вывод пар в текстовый файл, так что у меня будет возможность видеть процесс создания синонимических пар.

google.com bobrdobr.ru del.icio.us technorati.com linkstore.ru news2.ru rumarkz.ru memori.ru moemesto.ru

Оставить комментарий