Перед тем, как начинать работу над плагинами, необходимо научить программу их использовать. Для этого нужно выполнить несколько простых действий.
- Добавить в программу поддержку интерфейсов
- Научить программу работать с плагинами
Рассмотрим эти два пункта поближе.
Continue reading »
Итак, с назначением плагинов мы разобрались. Теперь надо сделать список тех вещей, которые можно будет делать с помощью плагинов. В целом, плагины можно разделить на две большие группы: плагины для ввода и плагины для вывода. Что именно можно будет делать с их помощью, описано ниже.
Continue reading »
В этой части я налью немного воды относительно плагинов, как таковых, так и по поводу людей, которые могут их писать.
Я работаю над своим синонимайзером один, и не могу охватить все возможные направления разработки. Есть несколько выходов из ситуации:
- продолжать работать в одиночку, но работать больше и быстрее.
- нанять разработчиков.
- дать третьим лицам возможность разрабатывать плагины.
Continue reading »
Сегодня мне пришла в голову интересная мысль: а что, если позволить другим разработчикам писать для своей программы плагины. Решил не откладывать это дело в долгий ящик, полез в инет и нашел там информацию по поводу того, как это можно сделать. Вскоре я выложу на блоге и на сайте подробную информацию о том, как писать плагины для моей программы.
Сегодня была выложена для скачивания версия 0.2.1.3
Новое в этой версии:
+ добавлена функция проверки схожести текстов по методу десятисловных шинглов
+ добавлена функция полуавтоматического обновления
+ добавлена возможность выбора вида и размера шрифта для ручного режима
+ исправлены крупные и мелкие баги
+ пакет инсталлятора дополнен пользовательским словарем на 2067 слов (сам словарь доступен для скачивания отдельно)
+ перефразирование текста вынесено в отдельную задачу
+ расширены меню ручного режима
+ расширены общие настройки
Continue reading »
Если вы решили поучаствовать в проекте, пожалуйста, внимательно прочтите следующие инструкции:
- Стучитесь ко мне в аську и я выдам вам очередную порцию слов для обработки.
- заходите в редактор словаря и очищаете словарь (кнопка с зеленым крестом (Х)
- открываете окно ручной обработки
- вставляете эти слова в левое поле и запускаете обработку (F5)
- кликаете правой кнопкой подряд по каждому из слов и в случае наличия у него синонимов в системном словаре, добавляете из системного в пользовательский те, которые можно применить в большинстве случаев.
Continue reading »
Сегодня на нулледе предложили создать словарь для вордсина. Кто бы отказывался, а я не буду. Вот мой ответ:
Я уже разбил эти 5000 слов на примерно равные части. Получилось 13 файлов по 3-3.2 килобайта (400-420 слов). Обработку слов можно делать как вручную, так и с использованием вордсина. Правда, для работы с вордсином придется купить лицензию за 5 wmz (чтобы убрать слово “демонстрация” из результатов). После завершения работы все, работавшие над словарем, и вынужденные для этого приобрести лицензию, смогут вернуть свои деньги обратно. Если, конечно, их работа будет признана хорошей - проверку качества работы будет выполнять другой человек, работающий над другой частью словаря. И если, конечно, захотят.
Ну, и, конечно же, все работавшие в этом микропроекте, получат весь словарь целиком. Ну, и благодарность на сайте программы. 
В общем, если вы не против, то я беру на себя роль координатора. Все желающие поучаствовать, обращайтесь в аську 1659776.
Сегодня на нулледе снова подняли вопрос о том, что было бы неплохо иметь несколько разных словарей, которые можно было бы подключать как отдельно, так и вместе. Но на самом деле все куда сложнее. Дело в том, что русский язык содержит слишком много слов, которые для разных контекстов могут иметь разные синонимы. Например, прилагательные хороший и новый имеют тучу синонимов, одни из которых применимы в одних ситуациях, и неприменимы в других. Поэтому, выходом из ситуации будет информация о частотном распределении двух- и трехсловников в предложениях, чтобы минимизировать вхождения пар, никогда не употребляющихся в нормальной речи. Например, прилагательное “хороший” имеет в списке синонимов “удобный” и “добрый”, но после сверки с контрольной таблицей частотных распределений двухсловников, выражение “удобная дорога” будет иметь вес больший, чем выражение “добрая дорога”, и таким образом будет встречаться в результирующем тексте чаще.
Continue reading »
Сегодня обнаружилось, что в некоторых случаях после ввода лицензии программа ( версия 0.2а2 ) так и оставалась в демонстрационном режиме. Чтобы этого не происходило, вам нужно выполнить следующие действия:
- деинсталлировать программу
- удалить папку, в которой программа была установлена (по умолчанию это c:\program files\mppr\wordsyn)
- проинсталлировать программу еще раз
- ввести ключ лицензии при первом запуске программы
Continue reading »
Сегодня на нулледе я написал один пост, который понравился даже мне самому: емко, обстоятельно и почти без воды. Поэтому я решил привести его здесь, дабы не писать все это еще раз. Итак, вот он:
По поводу скорости работы: программа работает достаточно быстро - 30 слов в секунду с учетом того, что программа разбирает морфологию и приводит все синонимы в соответствие с родом, падежом и другими характеристиками исходного слова - это хороший показатель. Не думаю, что у вас стоит очередь из тысячи сайтов, на которые надо залить по тысяче страниц, каждая по тысяче слов. Кстати, только что подсчитал: если вы будете обрабатывать такое количество неповторяющихся слов (миллиард), то программе потребуется год непрерывной работы. Но на самом деле это не так. Долго обрабатывается только первое вхождение слова в массив текста. Это заметно уже по тому, что если обработать тот же текст еще раз, то программе требуется в 10-20 раз меньше времени на его обработку. К примеру, первая обработка текста из 282 неповторяющихся слов заняла 4.4 секунды, а повторная обработка этого же текста аж 0.43 секунды. В общем, кеш рулит однозначно! Кстати, в настоящий момент программа обрабатывает 60-80 неповторяющихся слов в секунду в зависимости от количества синонимов в системном словаре для каждого из обрабатываемых слов. А так как количество используемых слов в нашей речи не превышает 20 тысяч, то скорость обработки текстов будет возрастать по мере того, как вы будете их обрабатывать. В общем, что при удачном раскладе миллиард слов вы сможете получить не через год, а уже через 4-6 недель.
Continue reading »
Последние комментарии