WordSyn: n-граммы на подходе WordSyn: исправление ошибок

Работа над n-граммами продолжается

Итак, я уже очень близок к тому, чтобы выдать на гора шестую версию синонимайзера.

В настоящий момент мне удалось реализовать подбор пар синонимов “прилагательное-существительное” с помощью таблицы n-грамм. Правда, на момент написания этого поста, род подобранного прилагательного остается мужским, независимо от рода существительного. Но я не думаю, что это будет проблемой, так как род существительного узнать достаточно просто. Поэтому сейчас перекурю, и за часик сделаю приведение родов прилагательных.

Кстати, оказалось, что в программе была достаточно серьезная ошибка, которую почему-то никто не заметил. Ну, не заметили, и ладно. Будем считать, что ее не было. :)

В общем, надеюсь, что уже завтра вечером новая версия программы будет готова к использованию.

Добавлено через час:

Да, все таки мне это удалось - новые слова приводятся к нужному падежу и числу, а прилагательные еще и к роду, так что новые словосочетания смотрятся очень хорошо. Так, например, словосочетание “белая машина” заменяется на “серый автомобиль“. Правда, для словосочетания “белой машине” программа подобрала словосочетание “серый автомобилю“, что режет глаз, являясь неправильной конструкцией. Существительное было приведено к нужному падежу, а вот с прилагательным получилась незадача. Буду разбираться…

google.com bobrdobr.ru del.icio.us technorati.com linkstore.ru news2.ru rumarkz.ru memori.ru moemesto.ru

Комментарии (7) на запись “Работа над n-граммами продолжается”

  1. Владимир пишет:

    Почитал и глаз определил опечатки:
    “проблемой, так как рОд существительного узнать”
    “новые словосочетания смотрятся Хочень”
    А по существу - рад что работа складывается удачно, пусть медленно, но верно.
    Удачного кодинга!!!

  2. Мастер пишет:

    Спасибо, Володя! Опечатки поправил, и зарядился положительным настроем. :)

  3. Сергей пишет:

    А вообще то вы не совсем правильно подбираете синонимы, а именно слова необходимо выстраивать также и по родам. Так в вашем примере к слову “автомобиль” больше подойдёт слово “автотранспорт”, но никак не “машина”, т.е. к примеру предложение: “по дороге ехал автомобиль”, заменится на: “по дороге ехал машина”, что не есть хорошо.

  4. Мастер пишет:

    Сергей, именно для этого и нужна база n-грамм - ее использование позволяет не только подбирать правильные синонимы для пар слов, но еще и склонять по родам, числам и падежам подлежащие члены предложения. Правда, пока что это касается только прилагательных, но чуть позже я добавлю все недостающие части речи. Впрочем, учитывая, что прилагательные используются так же часто, как и глаголы, наречия и причастия вместе взятые, то на данный момент этого будет вполне достаточно.

    Кстати, именно в этом посте я и описал, как именно работают n-граммы. Чуть позже я сделаю приведение близлежащих подчиненных членов предложения, благо я уже знаю, как это делать правильно.

  5. Владимир пишет:

    Читаю и тихонечко хихикаю (Как славно что я обладатель ком.версии).
    Рождается некий прорыв в синонимизации, пока остальные наращивают объем баз, Сергей как дятел долбит n-граммы. Если удастся связать между собой все члены предложения, будет ОЧЕНЬ НЕ ДУРНО!!!
    Как только новая версия увидит свет, обязательно сделаю для себя тест всех имеющихся у меня синонимайзеров на одинаковой базе. Думаю моя вера в WordSyn окрепнет многократно. :)

  6. Faster пишет:

    Владимир, а возможно ли будет ознакомиться с вашим тестированием синонимайзеров? может быть даже Мастер подскажет технологию сравнения и “точки” оценки, ведь он знает кухню изнутри… Кстати а какими синонимайзерами вы владеете?

  7. Владимир пишет:

    HASyn, SmartRewriterPro, Synmonster насчет обнародования результатов - сомневаюсь. В репу на серче натыкали когда решил поднять старую тему Hkey, в которой он предлагал устроить битву синонимайзеров. Да сравнение не будет столь объективным, т.к. SmartRewriterPro, Synmonster работают тупо по базе, HASyn и WordSyn обладают морфо движком. Да и обвес программ у всех разный, я б предложил сделать сравнительную таблицу по функционалу. Так что сравнивать буду в указанных парах, результатами поделюсь лишь приватно.

Оставить комментарий