ДваПривета: по городам и весям
Являясь гео-зависимым сервисом, ДваПривета использует для своей работы базу, которая описывает распределение IP-адресов по городам, областям и странам. Поэтому во время регистрации пользователям не придется выбирать свою страну и город, так как IP-адрес, с которого они пришли, четко укажет, в какой стране и в каком городе находится текущий пользователь.
База содержит около 260 тысяч мест, и почти 4 миллиона диапазонов IP-адресов, которые покрывают все возможные IP-адреса из диапазона IPv4. Эта база обновляется раз в месяц и может бесплатно использоваться в некоммерческих продуктах.
К сожалению база содержит только английские названия городов, так что для того, чтобы использовать ее в русскоязычном сегменте приходится ее переводить. Вручную перевести 260 тысяч записей достаточно проблематично, поэтому было решено использовать сервис Google.Translate для того, чтобы перевести всю эту массу названий населенных пунктов. Как показали первые результаты обработки, сервис справляется с переводом достаточно хорошо, правильно переводя на русский язык такие названия как Zheleznogorsk или Rudny. Но с некоторыми названиями происходят метаморфозы - транслейт переводит Novosibirsk как Новосибирский, что не совсем правильно в данном контексте. Поэтому после завершения обработки придется взять напильник и базу обработать более тщательно.
Перевод осуществляется по 7 названий за раз, так как более длинные конструкции гугль просто не принимает. Пауза между запросами составляет 10 секунд, чтобы не быть забаненым. По предварительным оценкам на автоматический перевод уйдет около 3 суток непрерывной работы.
Напоследок: перед тем, как свернуть окно, увидел результат перевода города Licking в США. Гугль почему-то перевел его как Жополизы, хотя названия зарубежных населенных пунктом стоит просто приводить так, как они читаются на родном языке. Так что и тут придется работать напильником.
На днях я выложу первую версию определятора городов, так что каждый сможет проверить правильность определения его населенного пункта.
Текущее состояние проекта может быть увдено на сайте сервиса ДваПривета.



03.03.2010 в 08:27
иногда люди пользуются проксями, логично было бы предусмотреть возможность ручного выбора своего местоположения.
03.03.2010 в 09:15
Да-да, именно так и будет. Система укажет пользователю, что она определила, что он пришел из Хацапетовки Мушинского района Залесской области. А потом он уже сможет уточнить свое местонахождение.
05.03.2010 в 10:18
может все-таки раскажите по подробнее что это будет? очередной вконтакте?