WordSyn: первая часть поиска пар слов завершена
Только что закончилась обработка первой части текстовых файлов. Обработка заняла один час и 45 минут, при этом было обработано 213 файлов общим объемом в 30 мегабайт, и содержащих 4 миллиона 787 слов. При этом было найдено 459 тысяч пар, многие из которых повторялись более тысячи раз в разных грамматических формах.
Кстати, если разделить количество обработанных слов на затраченное на их обработку время, мы получим приличную скорость грамматической машины - 45590 слов в минуту, или 760 слов в секунду. Если честно, то такой скорости обработки я не ожидал.
На текущий момент осталось обработать примерно 3800 файлов общим размером 827 мегабайт. По моим примерным оценкам обработка займет еще около полутора суток непрерывной работы программы. Зато после окончания обработки у меня должно получиться несколько миллионов пар, которые можно будет использовать для поиска наиболее подходящих синонимов для пар слов.



Последние комментарии