Главная

География

Главная
География
Интерфейс
ТЗ
Начало
Очистка
Верификация
Описания
Эксперимент

Карта

Карта планеты Земля



История появления этой темы довольно печальная. Мы достаточно долго искали какую-нибудь открытую базу сложно организованных данных (чем сложнее, тем лучше!), которая могла бы продемонстрировать кардинальные преимущества нашего Синдбада перед унылыми "плоскими" наборами классических реляционных баз данных, которые, возможно, и хороши для поддержания в рабочем состоянии прайсов компаний, но реально сложные данные туда, что называется, "не лезут". Увы, так и на нашли: эталонная учебная база данных "Борей" оказалась почти столь же скучной, как и прайсы, причём даже в ней мы нашли немало ошибок в данных, а я впоследствии настолько обнаглел, что именно на "Борее" тестировал клиентскую математику браузера (на JavaScript), и это ещё вопрос, у кого была выше функциональность! Другая доступная "база данных" DMOZ, несмотря на свои "огромные тыщи" волонтёров, также достаточно скучна - чего там, несчастный каталог ресурсов (хотя и его мы пробовали преобразовать в БД и как-то пришпилить к нашим публикациям). Поэтому я просто не мог пройти мимо того, что теперь называется OpenStreetMap (тоже со стадами волонтёров, разумеется), а тогда, в 2009 году, это звучало примерно так: The Shuttle Radar Topography Mission (SRTM) obtained elevation data on a near-global scale to generate the most complete high-resolution digital topographic database of Earth. SRTM consisted of a specially modified radar system that flew onboard the Space Shuttle Endeavour during an 11-day mission in February of 2000.

Помню, там очень тряслись над своими "авторскими правами" (впрочем, это вполне обычно для американцев), писали всякие грозные предупреждения, вроде: Except as expressly authorized by CloudMade, you agree not to sell, license, distribute, copy, modify, publicly perform or display, transmit, publish, edit, adapt, create derivative works from, or otherwise make unauthorized use of the CloudMade Site or the CloudMade Materials. Сейчас отношение заметно смягчилось: Вы можете свободно копировать, распространять, передавать и дорабатывать наши данные до тех пор, пока вы ссылаетесь на OpenStreetMap и его сообщество. Если вы изменяете или берёте наши данные за основу, то вы должны распространять результат только по такой же лицензии. Принимая во внимание, что NASA has released version 2 of the SRTM digital topographic data also known as the "finished" version, although some areas of missing data (voids) are still present, можно констатировать, что проект фактически издох, и все эти "еженедельные дампы" по 120 гигов архива есть просто агония, движение по инерции - кто в них ковыряться-то будет, кому они нужны? Это даже если забыть, что ошибки в данных имеют пакостную тенденцию накапливаться (и даже порождать ошибки наведённые), а сами данные постоянно изменяются, дополняются, устаревают. Впрочем, возможно, это уже какая-то "индустрия" по распределению финансовых потоков. В любом случае, как база данных проект фактически прекратил своё существование.

Некоторое время я довольно бодро ковырялся "в этом во всём", но вскоре утомился от невероятного объёма откровенного мусора (часы работы заведений, ассортимент на автозаправках и т.п.), теги на национальных языках (руки бы оторвал!) и ошибки, ошибки, ошибки... к тому же, у меня тогда умерла мама, а это не лучшее время для хороших мозгов, которые требуются для работы над такой задачей... в общем, забросил. Второй раз я об этой базе вспомнил через два года, скачал все данные по новой... но тут в России началась совсем уж полная задница в связи с "третьим пришествием" Путина - снова забросил. Сейчас вот подумываю: появился у меня собственный сайт - а не заняться ли мне этим делом в третий раз? Да и хрен бы с ним, с человечеством!

Как я уже говорил, меня мало интересуют реляционные погремушки - мне нужны сложно организованные данные, реальные данные из жизни, а не из кастрированной "нормальности". Я понимаю, что пример таких данных постоянно маячит перед глазами и называется "Википедия", но прежде, чем соваться в этот кошмар, неплохо бы потренироваться, опробовать и отладить алгоритмы на чём-нибудь попроще. И лучший набор для тестирования, на мой взгляд, именно OpenStreetMap. Мотивирую:

  1. Данные открыты, доступ свободный, данные достаточно стабильные. По крайней мере, материки движутся медленнее, чем автомобили, реки не меняют русло каждый месяц и т.д.
  2. Данные формально слабоструктурированные, представлены в виде XML, однако по характеру своему их потенциальная структурированность чрезвычайно высока, ибо имеется мощнейшая (пространственная) привязка всех объектов.
  3. Объём данных вполне серьёзный (по моим оценкам, около миллиарда объектов), так что ни о какой ручной подгонке результатов под ответ не может быть и речи. Мало того, все умозрительные построения доморощенных теоретиков здесь частенько рассыпаются в пыль из-за многочисленных и, порой, весьма неожиданных нюансов. Добро пожаловать в Реальность, господа!
  4. На логическом уровне там представлена не база, а именно свалка данных, что доказывает фактическое использование так называемой EAV-модели (Entity-Attribute-Value), представленной с помощью тега с замечательным названием "tag", разборка которого даже на уровне метаданных повергает в ужас даже видавшего виды меня, любимого. Тем не менее, её можно считать и базой данных, поскольку пространственная привязка очень неплохо выполняет структурирующую роль.
  5. Там имеется гигантское количество ошибок в данных (по моим оценкам, десятки миллионов), при этом выявить их не так-то просто: данные, хоть и текстовые, но мультиязычные - приблизительно на 40-50 языках. Кроме того, там очень много дублей (по-видимому, ещё больше, чем ошибок), поскольку карты нарезаются с перекрытием, и невероятное количество просто мусора (по моим оценкам, 70-90%, если не больше).
  6. Несмотря на всё вышеперечисленное, в этой базе сосредоточено огромное количество весьма интересной информации - именно потому, что используется "свалочная" EAV-модель, позволяющая эту информацию хотя бы сохранить. Причём о весьма значительной части этой информации наверняка не подозревают даже создатели БД.

Аргументацию можно продолжать, но вряд ли это нужно. Тестовая база данных для Синдбада найдена! Приговор окончательный, обжалованию не подлежит.

Далее...

28.03.2019 09:48
 
`