Микропроект по созданию словаря

Сегодня на нулледе предложили создать словарь для вордсина. Кто бы отказывался, а я не буду. Вот мой ответ:

Я уже разбил эти 5000 слов на примерно равные части. Получилось 13 файлов по 3-3.2 килобайта (400-420 слов). Обработку слов можно делать как вручную, так и с использованием вордсина. Правда, для работы с вордсином придется купить лицензию за 5 wmz (чтобы убрать слово “демонстрация” из результатов). После завершения работы все, работавшие над словарем, и вынужденные для этого приобрести лицензию, смогут вернуть свои деньги обратно. Если, конечно, их работа будет признана хорошей - проверку качества работы будет выполнять другой человек, работающий над другой частью словаря. И если, конечно, захотят. Ну, и, конечно же, все работавшие в этом микропроекте, получат весь словарь целиком. Ну, и благодарность на сайте программы.
В общем, если вы не против, то я беру на себя роль координатора. Все желающие поучаствовать, обращайтесь в аську 1659776.

Как очеловечить текст

Сегодня на нулледе снова подняли вопрос о том, что было бы неплохо иметь несколько разных словарей, которые можно было бы подключать как отдельно, так и вместе. Но на самом деле все куда сложнее. Дело в том, что русский язык содержит слишком много слов, которые для разных контекстов могут иметь разные синонимы. Например, прилагательные хороший и новый имеют тучу синонимов, одни из которых применимы в одних ситуациях, и неприменимы в других. Поэтому, выходом из ситуации будет информация о частотном распределении двух- и трехсловников в предложениях, чтобы минимизировать вхождения пар, никогда не употребляющихся в нормальной речи. Например, прилагательное “хороший” имеет в списке синонимов “удобный” и “добрый”, но после сверки с контрольной таблицей частотных распределений двухсловников, выражение “удобная дорога” будет иметь вес больший, чем выражение “добрая дорога”, и таким образом будет встречаться в результирующем тексте чаще.
Continue reading »