HDD vs RAM - кто быстрей? WordSyn: подготовка к апдейту

WordSyn: Сбор пар продолжается

Вчера в очередной раз переделал программу для сбора пар. Это был уже раз пятый, наверное. На этот раз мне надоели постоянные эксепшны OutOfMemory, так что я убрал кеширование данных в памяти, из-а чего проиводительность резко упала до уровня 200-250 слов в секунду. Но при этом я сделал обработку в пяти потоках, так что в сумме получается обрабатывать где-то по 900-1200 слов в секунду. Конечно, это в десять раз медленней, чем при использовании кеша в памяти, но зато и более надежно - я могу рассчитывать, что программа будет работать сутками, не ломаясь и не падая.

Напомню, что моей задачей является сбор статистики использования пар слов. Для этого я собираюсь обработать 71000 текстов (классика, фантастика, любовные романы, энциклопедии, детская и эротическая литературы) общим объемом чуть более 30 гигабайт. Очень хочется верить, что все эти тексты будут содержать не более 100 миллионов словосочетаний, так как статистическая модель окажется невероятно огромной и будет непригодна для использования конечным пользователем.

google.com bobrdobr.ru del.icio.us technorati.com linkstore.ru news2.ru rumarkz.ru memori.ru moemesto.ru

Оставить комментарий