WordSyn: обработка пар слов WordSyn: поиск пар продолжается

WordSyn: первая часть поиска пар слов завершена

Только что закончилась обработка первой части текстовых файлов. Обработка заняла один час и 45 минут, при этом было обработано 213 файлов общим объемом в 30 мегабайт, и содержащих 4 миллиона 787 слов. При этом было найдено 459 тысяч пар, многие из которых повторялись более тысячи раз в разных грамматических формах.

Кстати, если разделить количество обработанных слов на затраченное на их обработку время, мы получим приличную скорость грамматической машины - 45590 слов в минуту, или 760 слов в секунду. Если честно, то такой скорости обработки я не ожидал.

На текущий момент осталось обработать примерно 3800 файлов общим размером 827 мегабайт. По моим примерным оценкам обработка займет еще около полутора суток непрерывной работы программы. Зато после окончания обработки у меня должно получиться несколько миллионов пар, которые можно будет использовать для поиска наиболее подходящих синонимов для пар слов.

google.com bobrdobr.ru del.icio.us technorati.com linkstore.ru news2.ru rumarkz.ru memori.ru moemesto.ru

Оставить комментарий