Пишем плагин для WordSyn. Часть 3.

Перед тем, как начинать работу над плагинами, необходимо научить программу их использовать. Для этого нужно выполнить несколько простых действий.

  1. Добавить в программу поддержку интерфейсов
  2. Научить программу работать с плагинами

Рассмотрим эти два пункта поближе.
Continue reading »

Пишем плагин для WordSyn. Часть 2.

Итак, с назначением плагинов мы разобрались. Теперь надо сделать список тех вещей, которые можно будет делать с помощью плагинов. В целом, плагины можно разделить на две большие группы: плагины для ввода и плагины для вывода. Что именно можно будет делать с их помощью, описано ниже.
Continue reading »

Пишем плагин для WordSyn. Часть 1.

В этой части я налью немного воды относительно плагинов, как таковых, так и по поводу людей, которые могут их писать.

Я работаю над своим синонимайзером один, и не могу охватить все возможные направления разработки. Есть несколько выходов из ситуации:

  • продолжать работать в одиночку, но работать больше и быстрее.
  • нанять разработчиков.
  • дать третьим лицам возможность разрабатывать плагины.

Continue reading »

Расширение функционала с помощью плагинов

Сегодня мне пришла в голову интересная мысль: а что, если позволить другим разработчикам писать для своей программы плагины. Решил не откладывать это дело в долгий ящик, полез в инет и нашел там информацию по поводу того, как это можно сделать. Вскоре я выложу на блоге и на сайте подробную информацию о том, как писать плагины для моей программы.

Синонимайзер: версия 0.2.1.3

Сегодня была выложена для скачивания версия 0.2.1.3

Новое в этой версии:
+ добавлена функция проверки схожести текстов по методу десятисловных шинглов
+ добавлена функция полуавтоматического обновления
+ добавлена возможность выбора вида и размера шрифта для ручного режима
+ исправлены крупные и мелкие баги
+ пакет инсталлятора дополнен пользовательским словарем на 2067 слов (сам словарь доступен для скачивания отдельно)
+ перефразирование текста вынесено в отдельную задачу
+ расширены меню ручного режима
+ расширены общие настройки
Continue reading »

Инструкция для участников микропроекта словаря

Если вы решили поучаствовать в проекте, пожалуйста, внимательно прочтите следующие инструкции:

  • Стучитесь ко мне в аську и я выдам вам очередную порцию слов для обработки.
  • заходите в редактор словаря и очищаете словарь (кнопка с зеленым крестом (Х)
  • открываете окно ручной обработки
  • вставляете эти слова в левое поле и запускаете обработку (F5)
  • кликаете правой кнопкой подряд по каждому из слов и в случае наличия у него синонимов в системном словаре, добавляете из системного в пользовательский те, которые можно применить в большинстве случаев.

Continue reading »

Микропроект по созданию словаря

Сегодня на нулледе предложили создать словарь для вордсина. Кто бы отказывался, а я не буду. Вот мой ответ:

Я уже разбил эти 5000 слов на примерно равные части. Получилось 13 файлов по 3-3.2 килобайта (400-420 слов). Обработку слов можно делать как вручную, так и с использованием вордсина. Правда, для работы с вордсином придется купить лицензию за 5 wmz (чтобы убрать слово “демонстрация” из результатов). После завершения работы все, работавшие над словарем, и вынужденные для этого приобрести лицензию, смогут вернуть свои деньги обратно. Если, конечно, их работа будет признана хорошей - проверку качества работы будет выполнять другой человек, работающий над другой частью словаря. И если, конечно, захотят. Ну, и, конечно же, все работавшие в этом микропроекте, получат весь словарь целиком. Ну, и благодарность на сайте программы.
В общем, если вы не против, то я беру на себя роль координатора. Все желающие поучаствовать, обращайтесь в аську 1659776.

Как очеловечить текст

Сегодня на нулледе снова подняли вопрос о том, что было бы неплохо иметь несколько разных словарей, которые можно было бы подключать как отдельно, так и вместе. Но на самом деле все куда сложнее. Дело в том, что русский язык содержит слишком много слов, которые для разных контекстов могут иметь разные синонимы. Например, прилагательные хороший и новый имеют тучу синонимов, одни из которых применимы в одних ситуациях, и неприменимы в других. Поэтому, выходом из ситуации будет информация о частотном распределении двух- и трехсловников в предложениях, чтобы минимизировать вхождения пар, никогда не употребляющихся в нормальной речи. Например, прилагательное “хороший” имеет в списке синонимов “удобный” и “добрый”, но после сверки с контрольной таблицей частотных распределений двухсловников, выражение “удобная дорога” будет иметь вес больший, чем выражение “добрая дорога”, и таким образом будет встречаться в результирующем тексте чаще.
Continue reading »

Глюк при вводе лицензии

Сегодня обнаружилось, что в некоторых случаях после ввода лицензии программа ( версия 0.2а2 ) так и оставалась в демонстрационном режиме. Чтобы этого не происходило, вам нужно выполнить следующие действия:

  • деинсталлировать программу
  • удалить папку, в которой программа была установлена (по умолчанию это c:\program files\mppr\wordsyn)
  • проинсталлировать программу еще раз
  • ввести ключ лицензии при первом запуске программы

Continue reading »

Ответы на злободневные вопросы по синонимайзеру

Сегодня на нулледе я написал один пост, который понравился даже мне самому: емко, обстоятельно и почти без воды. Поэтому я решил привести его здесь, дабы не писать все это еще раз. Итак, вот он:

По поводу скорости работы: программа работает достаточно быстро - 30 слов в секунду с учетом того, что программа разбирает морфологию и приводит все синонимы в соответствие с родом, падежом и другими характеристиками исходного слова - это хороший показатель. Не думаю, что у вас стоит очередь из тысячи сайтов, на которые надо залить по тысяче страниц, каждая по тысяче слов. Кстати, только что подсчитал: если вы будете обрабатывать такое количество неповторяющихся слов (миллиард), то программе потребуется год непрерывной работы. Но на самом деле это не так. Долго обрабатывается только первое вхождение слова в массив текста. Это заметно уже по тому, что если обработать тот же текст еще раз, то программе требуется в 10-20 раз меньше времени на его обработку. К примеру, первая обработка текста из 282 неповторяющихся слов заняла 4.4 секунды, а повторная обработка этого же текста аж 0.43 секунды. В общем, кеш рулит однозначно! Кстати, в настоящий момент программа обрабатывает 60-80 неповторяющихся слов в секунду в зависимости от количества синонимов в системном словаре для каждого из обрабатываемых слов. А так как количество используемых слов в нашей речи не превышает 20 тысяч, то скорость обработки текстов будет возрастать по мере того, как вы будете их обрабатывать. В общем, что при удачном раскладе миллиард слов вы сможете получить не через год, а уже через 4-6 недель.
Continue reading »