WordSyn: версия 5.1.4 WordSyn: n-граммы на подходе

О создании тематических словарей

Достаточно давно я думаю над вопросом создания тематических словарей, но пока что дальше раздумий дело не пошло. Но теперь, кажется, пришло время вплотную взяться за них.

Итак, в чем состоит суть тематического словаря? В том, что слова в нем входят в узкую (или не очень) тему. Например, словарь, относящийся к автомобильной тематике будут содержать слова автомобиль, мойка, бензин и раннее зажигание, но в нем заведомо будут отсутствовать слова контрабас, золото, красота и другие, которые явно (или хотя бы косвенно) не относятся к теме автомобилей.

Кстати, после некоторого размышления я понял, что такой словарь может содержать и не относящиеся к теме слова, но эти слова должны присутствовать только в качестве синонимов, и ни в коем случае не выступать в роли основных слов. Таким образом в автомобильном словаре может присутствовать пара “раннее зажигание = зажигание“, но ни в коем случае не может присутствовать пара “свет = ближний свет“, так как слово свет относится к более широкому кругу понятий. Например, подобная замена слова свет во фразе “на нем свет клином сошелся” будет очень даже смешно выглядеть, так как в данном случае слово свет обозначает не поток фотонов, а мир вокруг нас.

Итак, с размышлениями на тему устройства словарей покончено, и теперь можно приступить к размышлениям о том, как эти словари создавать.

Вариант первый: создавать их самостоятельно. На это уйдет уйма времени, так как исходные списки тематических слов довольно обширны. При этом нет никакой гарантии, что эти словари не будут выложены добрыми людьми в паблик, что сведет на нет всю работу по их созданию.

Вариант второй: купить эти словари и перепродавать. Этот вариант достаточно плох, хотя бы потому, что нет гарантии того, что словари окажутся качественными.

Вариант третий: привлечь к созданию этих словарей существующих пользователей программы, расплачиваясь за работу теми же словарями. Плюс этого подхода очевиден: создатель словаря будет заинтересован в его качестве, так как будет знать, что этот словарь к конце концов попадет к нему, и если он будет заносить в него пургу, то эта же пурга потом вылезет у него на компе.

Итак, выбор, скорее всего падет на третий вариант, так как он будет наиболее быстр и качественен.

В следующем посте я расскажу о том, как будет проходить процесс создания словарей, а также о том, какие базы слов уже готовы и ждут своей очереди на обработку.

google.com bobrdobr.ru del.icio.us technorati.com linkstore.ru news2.ru rumarkz.ru memori.ru moemesto.ru

Комментарии (8) на запись “О создании тематических словарей”

  1. Faster пишет:

    Долго думал но так и не смог себе ответить почему я во всех трех вариантах вижу логические не состыковки. Это у меня проблемы с логикой, у автора(очень мало вероятно) или он просто пытается манипулировать моим сознанием в своих интересах? что меня смутило по пунктам:
    1.1-ваши словари вроде как поставляются в закрытом виде и защищены от “выкладывания в паблик”. По крайней мере именно работа над “защитой” по официальной версии так сильно тормозила выход 5 версии программы если я ничего не путаю.
    1.2-даже если допустить что кто-то все-таки выложит словари в паблик, это никоем образом не сведет на нет работу по их созданию. Ведь они создавались для нас, и мы (лицензинные пользователи) будем ими пользоваться и если они будут достаточно качественными, будем произносить хвалы автору и радоваться такому приобретению.
    2-почему покупные словари должны оказаться не качественными? вы же наверняка перед покупкой попросите сделать тест на вашем тексте и легко проанализируете адекватность товара. Довод не состоятелен априори. Вы просто побываете в нашей “шкуре”, т.е. станете покупателем :) мы ведь тоже приобретали ваши продукты с некоторой долей риска (в плане качества синонимайза) для себя.
    3-не совсем понял смысл, вы планируете попросить пользователя составить словарь а потом дадите ему его же словарь? :) давайте рассуждать логически и честно: сейчас можно приобрести уже готовый тематический словарь хорошего качества для синонимайзера(не Wordsyn естественно) за 20$. вы предлагаете камуто заморочиться на длительное время за 20$ ? imho желающих найдется не много, учитывая аудиторию проекта Wordsyn.

    зы-как обычно, прошу не воспринимать как наезд, но повод для взаимовыгодной дискуссии.

  2. Мастер пишет:

    Спасибо за столь развернутый коммент. Отвечу по-порядку:

    1.1 Да, словари поставляются в закрытом виде, но, как говорится, “что один человек построил, то другой человек завсегда сломать может”. И, да, защита была одной из причин задержки, хоть и не основной. Были и другие причины, как объективные, так и субъективные, но у меня нет желания о них рассказывать.

    1.2 Если вспомнить третий пункт вашего коммента, то потеря прибыли с одного словаря принесет убыток, что для меня не совсем приемлемо, так как хвалами в мой адрес ребенка не накормишь. :)

    2. Да, о проверке я не подумал. Но тут еще один нюанс возникает: создатель словаря будет очень расстроен его перепродажей. И тут уже надо будет договариваться о проценте с продаж словаря. Кстати, не такая уж и плохая идея. Надо будет ее покурить.

    3. Нет, идея была не в этом. Как я уже писал в этом посте, технология работы над словарями будет описана в следующем посте, до которого, я надеюсь, я доберусь уже очень скоро.

    Ваш коммент воспринят положительно. Как комментатор, критик, активный пользователь и, надеюсь, адепт моей программы, вы очень ценны для меня, так что можете рассчитывать на словари бесплатно. :)

  3. Faster пишет:

    1.1 Виндовс тоже “поломали” однако Билл Гейтс не стал от этого бедней :) далее разговор скорее всего уйдет за пределы темы топика потому продолжать не стану, ограничусь намеком. следующий пункт соответственно тоже пропускаю ибо ответ на него вытекает из п.1.1
    2 Не особо в теме, но мне кажется кому-либо будет затруднительно доказать что его словарь использовали без его согласия, если конечно он не будет совпадать бит в бит.

    зы-благодарю за оказанное доверие :)

  4. Мастер пишет:

    Боюсь, сравнение с БГ несколько некорректно.
    Доказать наличие чего-либо, что было изменено или дополнено в самом деле затруднительно, за исключением нотариально заверенного документа, описывающего определенные последовательности слов или букв в документе. Хотя, в общем, это не будет таким уж доказательством. Да и не такие суммы крутятся в этой нише, чтобы заниматься такой “защитой”.

  5. Faster пишет:

    Я не хотел сравнивать с БГ, только с его продуктом. Хотел показать что там прибыльность достигается за счет популярности продукта, а не его “бронебойной защитой”.

  6. Мастер пишет:

    Вот именно! Речь идет о массовом использовании продукта! Продукт должен быть либо очень востребован, либо должен иметь очень низкую цену. Данная ниша достаточно узка, и я не верю, что у кого-нибудь из средней руки синонимайзеров есть более 100 покупателей. А если поставить слишком низкую цену (например, 10wmz за версию WS3), то можно нарваться на слишком большой поток желающих приобрести или просто пообщаться на эту тему, из-за чего придется нанимать службу поддержки, так что все равно будет убыток :)

  7. Мастер пишет:

    Кстати, по теме сообщения. Из 5 проголосовавших четверо выбрали наименьшую цену словаря - 5-10 долларов. И я полагаю, что если бы там был пункт 1-5, то все четверо выбрали бы его. Из чего можно сделать вывод, что или народ не понимает, сколько стоит сделать такой словарь, или подобные опросы совершенно бессмыссленны.

  8. Faster пишет:

    О востребованности продукта: имхо Вы ошибаетесь по поводу “ширины” ниши синонимайзеров :) достаточно проштудировать основные форумы вебмастеров и СЕО как станет ясно, что создателей ГС (а ведь именно для них нужен синонимизированный контент) превеликое множество и с каждым днем все больше новичков пытаются заработать на продаже ссылок. Форумы ломятся от сообщений “где взять нормальный синонимайзер”. Остается только спозиционировать продукт правильно и немного разрекламировать.
    По поводу опасений “много продавать”-ну это вобще не серьезно :) продажи могут делаться автоматически, а тех поддержка… для продукта такого уровня она не нужна креглосуточная по телефону с номером начинающимся на 8-800- :) в любом случае “хозяин - барин”.
    зы-по поводу опросов. народ то понимает сколько это стоит, но платить как обычно не хочет. имхо это предсказуемо и вполне объяснимо :)

Оставить комментарий