Retour à l'accueil
accueil renseignements diffusion
Recherche
avancée
 Numéro 80, novembre 2012 
Vers la littératie des données Version Imprimable  Version imprimable


Yves Otis, codirecteur de l'entreprise sociale Percolab, et Luc Gauvreau, chercheur en littérature et culture québécoise  (La Vitrine Technologie-Éducation)

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Figure 1 : Image : Object-Oriented Programming Influence Graph (Source : yaph - Flickr) - Certains droits réservés

 

Données ouvertes et pédagogie vont-elles de pair? Alors que le concept de données ouvertes est encore étranger à un grand nombre d’entre nous, comment tirer parti de ce qu’elles nous offrent de façon à les intégrer dans des activités d’apprentissage? Pour répondre à ces questions, la Vitrine Technologie-Éducation (VTÉ) a invité deux experts dans son laboratoire, en avril 2012. Nous traiterons ici de la première étape de cette rencontre.

 

 

 

 

 

Les documents associés à l’ensemble de la démarche sont disponibles dans les archives de laboratoire du site de la Vitrine Technologie-Éducation.

 

LES DONNÉES OUVERTES
La culture du partage, de l'ouverture, du libre s'est imposée progressivement dans plusieurs domaines de la production et de la diffusion de la connaissance. Tout récemment, elle a trouvé un terrain particulièrement réceptif, lieu d’une étonnante alliance entre les administrations publiques, les citoyens et les entreprises des milieux du numérique. Le mouvement des données ouvertes (open data), qui anime actuellement un grand nombre de pays, vise à encourager la diffusion des ensembles de données non nominatives ou anonymes que les administrations ont collectées dans le cadre de leurs activités. Au-delà des impératifs de transparence et d'utilisation judicieuse des fonds publics, la diffusion de ces données, dont la circulation était jusque-là restreinte ou limitée par des accès extrêmement contrôlés ou payants, s'inscrit dans une logique d'innovation ouverte; y sont impliqués les citoyens, les organisations non gouvernementales et les entreprises dans le développement de nouvelles applications, de nouveaux outils et de nouvelles connaissances pour le bénéfice collectif.

Les données ouvertes couvrent presque tous les domaines d'activité de la société : elles portent sur les sciences, les transports, l'environnement, la culture, la propriété, les contrats publics, etc. Il peut s'agir aussi d'informations sur le découpage territorial ou de données statistiques sur tous les domaines de juridiction d'une administration.

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Figure 2 : Visualisation en temps réel du réseau de bicyclettes publiques Bixi à Montréal, le 19 septembre 2012 à 14 h 40. Source : Bike Share



Ces données ouvertes – dont certaines se rapportent à l'éducation –  sont évidemment disponibles à des fins d'apprentissage. Mais dans les faits, on trouve encore bien peu d'exemples de leur intégration dans les pratiques des enseignants.

Quelles sont justement les utilisations possibles des données ouvertes dans le développement de nos activités d'apprentissage? Le champ d'application est à la fois nouveau, très vaste et exigeant : l'exploitation de ces nouvelles ressources par l'enseignant et par l'apprenant demande la mobilisation d'un nombre appréciable d'habiletés techniques et de compétences. Aussi parle-t-on de la littéracie des données (data literacy) pour décrire cette capacité de pouvoir collecter, traiter, analyser et communiquer par le texte aussi bien que par l'image ces grands corpus informationnels.


LE MOUVEMENT DE DONNÉES OUVERTES
La définition la plus large de donnée ouverte nous vient de l'« Open Knowledge Foundation » :

une donnée ouverte est une donnée qui peut être librement utilisée, réutilisée et redistribuée par quelqu'un, avec pour seules obligations la mention de la source et le partage aux mêmes conditions. traduction libre

Open data is data that can be freely used, reused and redistributed by anyone – subject only, at most, to the requirement to attribute and sharealike.

L'essor des données ouvertes s'inscrit dans le mouvement qui vise à libérer l’utilisateur des contraintes d'accès et d'usage (commerciales, propriété intellectuelle, etc.) qui pèsent sur les sources de la connaissance (voir, par exemple, l'action de la Open Knowledge Foundation). À terme, il s'agit de permettre une diffusion sans entraves de la connaissance à l'aide de formats, de protocoles et d'outils ouverts et libres.

Deux grands groupes d'acteurs animent ce mouvement : d'une part, les administrations publiques et, d'autre part, une série de groupes de chercheurs, d'activistes citoyens et d'entreprises du secteur du numérique.

Depuis la fin du dernier millénaire, dans un grand nombre de pays, les administrations se sont mises activement à implanter le modèle du gouvernement électronique (« e-Government »), voulant profiter des possibilités des technologies de l'information et de l'essor de l'usage d'Internet pour améliorer l'offre de services aux citoyens et aussi, bien sûr, économiser sur les coûts de transaction associés à la prestation des programmes. Mais partout aussi, la pression publique pour une meilleure reddition de comptes et une plus grande transparence a poussé plusieurs États à rendre plus disponibles des ensembles de données.

La pression pour la « libération des données » est venue aussi de groupes de scientifiques – de longue date –, de citoyens engagés et d'entreprises innovantes dans le monde du numérique (fabricant d'applications pour les mobiles). Les scientifiques ont depuis longtemps profité du partage des informations pour faire avancer leurs travaux et furent les premiers à monter au front pour demander une plus grande accessibilité des données de recherche (exemple canadien1). Par ailleurs, les groupes de citoyens et de journalistes qui ont utilisé le levier des demandes d'accès à l'information pour obtenir certains fichiers se heurtent de plus en plus à la complexité et aux délais de ces procédures. L'ouverture des données publiques s'est rapidement présentée comme une solution à ce problème. Enfin, bon nombre de développeurs d'applications mobiles ont demandé conjointement la mise en disponibilité de fichiers de référence (cartographiques notamment) et de certaines données de base pour permettre le développement de nouveaux outils. Des alliances se sont forgées entre tous ces acteurs pour réclamer l'ouverture des données publiques (exemples : Montréal Ouvert, Capitale Ouverte, Québec Ouvert).

 

L’OUVERTURE DES DONNÉES POUR INNOVER
Générer de nouvelles connaissances, poser des questions inédites ou simplement satisfaire sa curiosité : telles sont les promesses de l'ouverture des données. La seconde vie accordée à ces jeux de données, par leur réutilisation, a permis l'émergence d'un ensemble de nouvelles pratiques et applications. Donnons ici quelques exemples :

- UN BUDGET PARTICIPATIF
Une application utilisant des données réelles invitait les citoyens à rééquilibrer le budget de l'arrondissement du Plateau–Mont-Royal à Montréal à leur guise. Les résultats ont été utilisés pour préparer les deux derniers budgets.

- LE JOURNALISME DE DONNÉES
Encore limités au monde anglosaxon, l’analyse et les commentaires des données ouvertes gagnent progressivement les pages de plusieurs médias avec le soutien d’une équipe de journalistes, programmeurs et professionnels en communication graphique (voir The Guardian Data Blog : Education et The Gazette http://blogs.montrealgazette.com/category/montreal/data-points/).

- LES DONNÉES OUVERTES ET LA CULTURE
Plusieurs grandes institutions culturelles et muséales d'Europe diffusent sur la plateforme Europeana (choisissez « français » dans le menu Langues) la description de leurs collections dans des formats réutilisables. Ces corpus sont fusionnés et rendus accessibles dans ce portail très riche. Se dirige-t-on vers un musée personnel, sur mesure?

 

OÙ TROUVE-T-ON DES DONNÉES OUVERTES?
La liste des portails de données ouvertes des administrations publiques ne cesse de s'allonger. Inspiré par l'initiative américaine data.gov, le mouvement s'est répandu rapidement partout dans le monde et à tous les paliers administratifs : pays, région, province, ville, arrondissement. Par exemple, au Canada, Vancouver a été la première ville à lancer un portail de données ouvertes, les villes de Montréal et de Québec emboîtant le pas en 2012. Le gouvernement fédéral a également entrepris des démarches pour ouvrir d'importants ensembles de données, à commencer par ceux – et pas les moindres – de Statistique Canada.

 

RÉPERTOIRES DE SITES DE DONNÉES OUVERTES

PORTAIL DE DONNÉES OUVERTES DE QUELQUES ADMINISTRATIONS PUBLIQUES


PORTAIL DE DONNÉES OUVERTES D'ORGANISATIONS PUBLIQUES ET PRIVÉES

 

Tableau 1 : Exemple de portail de données ouvertes

 

 

Le mouvement a aussi gagné de nombreuses institutions internationales de premier plan telles la Banque mondiale et plusieurs entreprises parapubliques et privées, notamment dans le secteur des transports. Par exemple, la SNCF en France et Communauto au Québec ont ouvert leurs données à de nouvelles utilisations. De même, de grandes institutions culturelles (Archives, musées)  mettent en ligne leurs catalogues en mode partagé. Enfin, même si les conditions d'utilisation sont parfois restrictives, des entreprises privées – pour ne citer que les plus grandes : Google, Twitter – offrent des accès ouverts à leurs données.

Au-delà de ces initiatives structurées, les données utilisables abondent sur le Web, ne demandant qu'à être collectées et réutilisées. Les exemples de Resto.Net, qui recense les inspections sanitaires des établissements alimentaires montréalais, et de Represent.ca, qui indique le nom du député provincial et fédéral en fonction d’une adresse, illustrent bien comment on peut tirer profit de ces informations diffusées publiquement, mais peu exploitées en raison de leur dispersion et de leurs formats incompatibles. Dans les deux cas, les développeurs ont dû rassembler et traiter les documents publiés dans des formats difficilement utilisables (document PDF). En plus de proposer des sites Web utiles et conviviaux, de nouveaux ensembles de données sont rendus disponibles pour d'autres utilisations.

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Figure 3 : Nombre de livres par bibliothèque publique au Canada en 1891 d’après les données de l’Atlas historique du Canada

 

 

LES CONDITIONS D'ACCÈS ET D'UTILISATION DES DONNÉES OUVERTES
Si les données ouvertes sont de plus en plus disponibles sur le Web, un certain nombre d'éléments doivent être pris en compte lors de leur utilisation.


TYPE DE LICENCE
De manière générale, l'utilisateur de jeux de données ouvertes doit au minimum mentionner la source des données et, s'il souhaite les redistribuer, le faire à l'identique, c'est-à-dire selon la même licence (il ne doit pas modifier les conditions d'utilisation). On retrouve ces principes dans plusieurs licences largement utilisées dans les grands portails : par exemple, Creative Commons, Licence Ouverte. Par contre, certaines organisations ajoutent des clauses limitant l'utilisation commerciale ou la redistribution, ou encore, exigent l'identification de l'utilisateur pour autoriser un suivi.
   
FORMAT DES DONNÉES
La mise en ligne des données représente un coût non négligeable pour les administrations publiques. Il arrive que les jeux de données soient diffusés dans leurs formats originaux, au libellé parfois occulte, de taille gigantesque ou liés à des logiciels propriétaires. Ceci dit, même si la plupart des formats de diffusion sont connus ou encore ouverts,  il n'est pas garanti que les données soient utilisables aisément. Des données placées dans un fichier PDF ne sont pas facilement réutilisables. D'autres formats d'accès comme les interfaces de programmation publique (API) demandent également un peu plus de travail et supposent l'existence d'une documentation suffisante de la structure de l'information avant de pouvoir s’en servir.

DONNÉES SENSIBLES
En principe, la plupart des portails de données ouvertes n'offrent que des jeux de données qui n'incluent pas de renseignements permettant d'identifier les personnes (les données peuvent avoir été anonymisées). Ce n'est toutefois pas le cas de toutes les données publiques : à titre d'exemple, le Registre foncier du Québec est public et donne les noms et adresses des propriétaires d'immeubles du Québec. L'accès à ce site est restreint, mais rien n'empêche quelqu'un de construire un jeu de données à partir de l'interface du site et de diffuser ces informations. Une telle pratique demeure interdite par un tiers, en vertu des lois protégeant les renseignements personnels.

COUVERTURE : TEMPS ET ESPACE
Les données ouvertes sont généralement structurées sous l'une ou l'autre de ces dimensions. Pour les utiliser, il importe de disposer des référentiels géographiques (point, adresse civique, ligne, route, frontière, zone, circonscription) et temporels (date et heure, année de référence, séries chronologiques, temps réel) appropriés. Il se trouve encore trop souvent que ces référentiels ne sont pas disponibles en format ouvert ou connus.

NATURE DE L'INFORMATION ET DOCUMENTATIONIssus de l'activité administrative, les jeux de données sont assemblés dans le cadre de programmes ou de services disposant de règles propres, de définitions particulières et de méthodes de collecte (échantillonnage, formulaire obligatoire, inspection, etc.). Pour pourvoir interpréter les données, il est crucial de disposer de ces éléments.



UN OCÉAN DE DONNÉES AU SERVICE DE L'APPRENTISSAGE
Invités à visiter les différents portails et les initiatives de données ouvertes, les participants du labo VTÉ ont été vite saisis d'un vertige. Pour l'enseignant, cette très (trop) grande richesse informationnelle soulève immédiatement des questions sur les conditions et les préalables à l'utilisation de ces données dans la salle de classe, sur les moyens disponibles pour créer des activités d'apprentissage s'appuyant sur ces données.

 

 

---------------------------------------------------------------------------------------------------------------------------------------------------------

UN EXEMPLE APPLIQUÉ À LA LITTÉRATURE : L'OEUVRE DE JACQUES FERRON

Luc Gauvreau, un des experts invités au labo VTÉ, a patiemment assemblé depuis 15 ans un index de 12 000 noms apparaissant dans 1 200 textes de Jacques Ferron. Ces données ont été reliées aux données bibliographiques, à la correspondance, à la critique et aux manuscrits. Ce travail lui a permis de consulter autrement l’œuvre de Ferron, de découvrir, par exemple, les 1600 noms de lieux mentionnés par l’auteur. Il faisait avant l’heure l’extraction d’entités nommées. Pour Luc, les données ouvertes, c’est d’abord ça : la séparation des données de leur support fixe sur papier. Le fruit de ce travail colossal est accessible en ligne.

---------------------------------------------------------------------------------------------------------------------------------------------------------

 

 


 

1  http://datalibre.ca

 

Creative Commons License Cette création est mise à disposition sous un contrat Creative Commons. Dernières mises à jour : 10/04/2015