Les données géographiques, comment s'y retrouver
Récemment, nous avons décidé d'intégrer plusieurs sources de données géographiques dans NSim Contour pour fournir un ensemble de données de base intéressants aux utilisateurs. Malheureusement, la conclusion est qu'il n'est pas possible d'obtenir des données à la fois complètes, précises et gratuites! Seulement 2 critères sur 3 peuvent être atteints.
Nous voulions des données de qualités standards (entre 1:50000 1:250000) qui couvrent l'ensemble de l'amérique du nord. Les données de base doivent contenir les routes (avec les noms et les numéros de route), l'hydrographie, les chemins de fer, les parcs, les zones d'utilisations (industrielles, résidentielles,...) ainsi que la toponymie avec au moins les grandes villes. Le tout au prix le plus bas possible voir gratuit. Évidemment, aucun ensemble ne satisfait à tous ces critères. Voici donc une petite analyse des ensembles que nous avons testés:
Données VMAP
Les données "vmap" sont disponibles dans 2 ensembles, VMAP0 à 1:1000000 et VMAP1 à 1:250000. VMAP0 ne correspond absolument pas à nos critères car l'ensemble n'est pas assez précis. VMAP1 est un peu plus précis mais ce n'est pas encore suffisant et il manque de couverture au niveau des données.
Données canadiennes publiques
Les données canadiennes publiques provenant de CanVec, ressources naturelles canada et statistique canada sont de bonnes données dans l'ensemble. Il est possible de trouver l'hydrographie, les parcs, les zones, les aéroports, les chemins de fer, les routes et beaucoup plus à une résolution de 1:50000. C'est donc un ensemble de base qui est acceptable et gratuit. Cependant, quelques irritants surgissent comme le manque de cohérence entre les données disponibles des différentes provinces. Par exemple, la province de Québec ne rend pas disponible le nom des rues. Il est donc très difficile de produire des étiquettes avec le nom des rues car il faut utiliser des ensembles de données différents et c'est là que le fun commence (résolutions différentes, tronçons de routes manquants, etc.). Une combinaison de plusieurs sources permet d'arriver à un résultat plutôt acceptable pour le Canada mais un peu plus de cohérence serait appréciée.
Tiger line
L'ensemble TigerLine distribué par le US Census Bureau contient les couches de base à des résolutions allant de 1:20000 à 1:100000. L'ensemble de données, couvrant les États-Unis, est assez complet, relativement précis et gratuit. Cependant, le problème est au niveau de l'organisation des données. Premièrement, les données, disponibles en shapefiles, sont regroupées en fichiers lignes, points et surfaces. Donc le fichier de lignes contient à la fois les données de routes, de rivières, de chemins de fer, etc. L'appartenance d'une géométrie à un type est définie dans un attribut. Il faut donc effectuer un pré-traitment sur les fichiers et filtrer les couches qui ne nous intéressent pas. De plus les styles deviennent complexes et lourds à appliquer lorsque plusieurs couches de données logiques se trouvent dans un même fichier. Autre point irritant sur l'organisation des données est que la subdivision géographique des données est beaucoup trop fine. L'ensemble est disponible pour chaque comté et aux États-Unis, il y a 3077 comtés. Encore une fois, il y a beaucoup de traitement à faire sur les données avant qu'elles soient utilisables par un logiciel ou un serveur de diffusion cartogtaphique.
OpenStreetMap
OpenStreetMap utilise la communauté comme fournisseur de données. Par la suite l'organisation rend les données accumulées disponibles à qui désire les utiliser. Le plus grand avantage de OpenStreetMap est au niveau de la couche des points d'intérêts (POI) qui est, à ma connaissance, la seule gratuite en ce genre. Pour ce qui est des autres couches de données, l'ensemble est acceptable car précis mais très incomplet. De plus, le format relationnel OSM n'est pas encore supporté à grande échelle, ce qui rend l'utilisation des données complexe. Même si certain comme géoFabrik, ou CloudMade rendent disponibles des extractions "shp" des données, le format final laisse parfois à désirer (manque d'attributs, manque de couches, et souvent incomplet).
Les données "privées"
Nous avons aussi testé des "samples" de données de Tele atlas, Navteq et DMTI. Évidemment, ces données ont une bonne qualité au niveau de la complétude et de la précision. De plus, il y a des produits qui offrent des couches pour le géocodage, le "routing" ou certaines analyses spatiales qui ne se retrouvent pas autrement. Bien sûr, vous devrez débourser des sommes assez substantielles dépendant du type de produit.
Conclusion
En conclusion il n'existe pas de données complètes, précises et gratuites! Dépendant de vos besoins, vous devrez surement combiner différentes sources de données pour arriver à vos fins. Dans notre cas, nous voulions offrir un ensemble de base gratuit à nos clients donc nous avons combiné toutes les sources gratuites mentionnées ci-haut et avec beaucoup de travail, le résultat est acceptable pour des besoins de visualisations.