WordSyn: обработка пар слов
Только что сделал первую версию программы для поиска пар слов. Программа работает очень шустро: за пару минут она обработала 2707 текстовых файлов общим объемом почти 30 мегабайт. При этом было обработано 2.4 миллиона слов, среди которых было найдено 182 тысячи пар подходящих грамматических классов.
Сейчас натравлю эту программу на большие тексты. Например, на сборник из 13 романов Акунина общим объемом почти 6 мегабайт. [прошло три минуты] Итак, Акунин пролез полностью. Было обработано 4 миллиона слов, количество пар увеличилось до 204 тысяч.
Нашел у себя на диске целую кучу текстов, около 4 гигабайт. Завтра скормлю их программе и расскажу, что из получилось. Думаю, что этого количества хватит для того, чтобы создать достаточно большое количество связных пар.



Последние комментарии