Gesundheitswesen 2015; 77(08/09): e160-e165
DOI: 10.1055/s-0035-1549939
Originalarbeit
© Georg Thieme Verlag KG Stuttgart · New York

Wer trifft ins Schwarze? Ein qualitativer Vergleich der kostenfreien Geokodierungsdienste von Google und OpenStreetMap

Who Hits the Mark? A Comparative Study of the Free Geocoding Services of Google and OpenStreetMap
D. Lemke
1   Institut für Epidemiologie und Sozialmedizin, Westfälische Wilhelms-Universität Münster
,
V. Mattauch
2   Epidemiologisches Krebsregister Nordrhein-Westfalen gGmbH
,
O. Heidinger
2   Epidemiologisches Krebsregister Nordrhein-Westfalen gGmbH
,
H. W. Hense
1   Institut für Epidemiologie und Sozialmedizin, Westfälische Wilhelms-Universität Münster
2   Epidemiologisches Krebsregister Nordrhein-Westfalen gGmbH
› Author Affiliations
Further Information

Publication History

Publication Date:
08 July 2015 (online)

Zusammenfassung

Hintergrund: Die Umwandlung von Adressdaten in geografische Koordinaten (Geokodierung) nimmt einen immer größeren Stellenwert in der epidemiologischen Forschung als auch im öffentlichen Gesundheitssektor ein. Verzerrungen in der Geokodierung können zu einem nicht unerheblichen Bias in diesen Studien führen und wurden bisher nur unzureichend untersucht. Ziel dieser Studie war es, die kostenfreien Geokodierungsdienste von Google und OpenStreetMap (OSM) hinsichtlich ihrer Vollständigkeit der zu referenzierenden Adressen (‚completeness‘) und der räumlichen Abweichung der Koordinaten (‚positional accuracy‘) von Referenzadressen zu untersuchen.

Methodik: Als Referenzadressen (Goldstandard) wurden bereits vom Landesbetrieb Information und Technik NRW bereinigte und georeferenzierte Adressen benutzt. Dieser Datensatz enthält die Adresse, die Geokoordinaten, Angaben zur Bereinigung der Adressen sowie einen Urbanitätsindikator, basierend auf den CORINE Landnutzungsdaten. Stratifiziert nach Qualität der Adressdaten und dem Urbanitätsindikator wurden zufällig jeweils 2 500 Adressen gezogen (annähernd 20 000 Adressen), geocodiert und Vollzähligkeit sowie Lagegenauigkeit berechnet.

Ergebnisse: Beide Dienste zeigen eine Abnahme der Trefferquote mit Abnahme der Adressqualität und Urbanität. Google zeigte dabei konsistent eine höhere Vollzähligkeit als OSM (>93 vs. >82%) und eine höhere räumliche Präzision der Koordinaten, im Median: <9 vs. < 175,8 m (Verortung bis auf Straßenniveau). Kumulativ gesehen, zeigten 95% der von Google und 50% der von OSM verorteten Adressen (Verortung auf Hausnummern-Niveau) eine Abweichung <50 m.

Schlussfolgerung: Die Geocoding API von Google zeigt eine deutliche Überlegenheit hinsichtlich Vollzähligkeit der Adressen und Lagegenauigkeit der Koordinaten gegenüber OSM. Auch ist das kartografische Confounding bei Google weniger stark ausgeprägt. Andererseits hat Google einige Restriktionen, wie die Beschränkung des Datenvolumens auf 2 500 Adressen/24 h oder der Darstellung der Ergebnisse ausschließlich auf Google Maps-Karten, welche die Nutzung des Dienstes für wissenschaftliche Zwecke erschweren.

Abstract

Background: Geocoding, the process of converting textual information (addresses) into geographic coordinates is increasingly used in public health/epidemiological research and practice. To date, little attention has been paid to geocoding quality and its impact on different types of spatially-related health studies. The primary aim of this study was to compare 2 freely available geocoding services (Google and OpenStreetMap) with regard to matching rate (percentage of address records capable of being geocoded) and positional accuracy (distance between geocodes and the ground truth locations).

Methods: Residential addresses were geocoded by the NRW state office for information and technology and were considered as reference data (gold standard). The gold standard included the coordinates, the quality of the addresses (4 categories), and a binary urbanity indicator based on the CORINE land cover data. 2 500 addresses were randomly sampled after stratification for address quality and urbanity indicator (approximately 20 000 addresses). These address samples were geocoded using the geocoding services from Google and OSM.

Results: In general, both geocoding services showed a decrease in the matching rate with decreasing address quality and urbanity. Google showed consistently a higher completeness than OSM (>93 vs. >82%). Also, the cartographic confounding between urban and rural regions was less distinct with Google’s geocoding API. Regarding the positional accuracy of the geo-coordinates, Google also showed the smallest deviations from the reference coordinates, with a median of <9 vs. <175.8 m. The cumulative density function derived from the positional accuracy showed for Google that nearly 95% and for OSM 50% of the addresses were geocoded within <50 m of their reference coordinates.

Conclusion: The geocoding API from Google is superior to OSM regarding completeness and positional accuracy of the geocoded addresses. On the other hand, Google has several restrictions, such as the limitation of the requests to 2 500 addresses per 24 h and the presentation of the results exclusively on Google Maps, which may complicate the use for scientific purposes.