Результат оптимизации Пара слов о спаме блогов

Синонимайзер: предварительные итоги

В настоящий момент я уже успел сделать следующее:

  • обработчик одиночного текста с учетом морфологии. текст представлен в виде веб-странички с выпадающим списком на месте слов, для которых найден хотя бы один синоним.
  • редактор словаря. Для каждого слова из словаря может быть добавлен новый синоним или удален уже существующий

Что еще осталось сделать:

  • создание текста для размножения. Если вы все еще читаете этот текст, значит, вы в курсе, зачем это нужно.
  • возможность удаления неправильных синонимов. Предполагаю, что в процессе обучения программа станет ошибаться все меньше и меньше, так что автоматический прогон текстов будет производить достаточно связный текст, над которым не захочется смеяться.
  • автоматическое определение тематики текста. Придется помучиться для того, чтобы обучить программу. Но я думаю, что это окупится сторицей.
  • обработка множества текстов. Пользователь должен указать папку, из которой нужно эти тексты брать, и папку, куда складывать результаты. Остальное должно производиться автоматически, вплоть до создания структуры папок, аналогичной исходной.

Как видите, осталось больше, чем уже сделано. Это все из-за того, что я провозился слишком долго с оптимизацией базы. Теперь же, когда все уже достаточно хорошо оптимизировано, я смогу приняться за работу над программой, оставив работу над данными на более поздний этап, когда нужно будет заниматься обучением программы.

google.com bobrdobr.ru del.icio.us technorati.com linkstore.ru news2.ru rumarkz.ru memori.ru moemesto.ru

Оставить комментарий