OWNI http://owni.fr News, Augmented Tue, 17 Sep 2013 12:04:49 +0000 http://wordpress.org/?v=2.9.2 fr hourly 1 Le nucléaire enfouit ses données http://owni.fr/2012/04/27/le-nucleaire-enfouit-ses-donnees/ http://owni.fr/2012/04/27/le-nucleaire-enfouit-ses-donnees/#comments Fri, 27 Apr 2012 15:17:38 +0000 Claire Berthelemy et Sabine Blanc http://owni.fr/?p=108116

Le nucléaire, c’est la transparence !

Si l’on en croit cette déclaration d’Anne Lauvergeon, l’ancienne patronne d’Areva, un datajournaliste devrait pouvoir enquêter facilement sur les données du nucléaire. La réalité est plus opaque, comme nous l’avons appris en travaillant sur les rapports de l’Autorité de sûreté du nucléaire (ASN).

L’image des irradiés qu’on nous cache

L’image des irradiés qu’on nous cache

En une seule image, OWNI propose un état des lieux global des contaminations provoquées par les installations ...

Le gendarme de l’atome a pour mission de collecter les rapports que lui envoient les exploitants (EDF, Areva ou le CEA) sur chaque accident qui a lieu dans une installation. En théorie. Car si la déclaration est obligatoire et sanctionnée quand elle n’est pas faite ou faite en retard, “cela n’empêche pas l’exploitant de garder au niveau de l’installation les petites anomalies“. Théoriquement encore, il pourrait mettre à la disposition du public un fichier exploitable avec des indications précises. En effet, les formulaires sont constitués de cases à cocher et de champs à remplir : l’accident a-t-il lieu pendant une période de maintenance ? Y a-t-il eu contamination ?, etc.

Cependant, en guise de fichier exploitable – le graal du datajournaliste -, l’ASN met en ligne ses rapports depuis 2000, dont la présentation n’est pas uniformisée. Les quelques informations signifiantes sont présentées en vrac, noyées dans un fatras de précisions sans intérêt. Exemple parmi d’autres :

L’ASN n’y voit rien d’anormal :

C’est pas la même personne qui remplit le site. Il y a plusieurs divisions et plusieurs personnes. Même s’ils essaient d’harmoniser…

Pas de codeur, pas de données

Ces rapports sont semi-structurés, c’est-à-dire qu’ils présentent tous des éléments similaires qui peuvent être isolés à l’aide d’un petit programme. Un – gentil – codeur a donc pu extraire un fichier propre à 95% de quelques 1 300 lignes avec les informations suivantes : installation ; titre du rapport ; niveau de l’incident ; date du rapport ; lien vers le rapport.

Les blessés du nucléaire parlent

Les blessés du nucléaire parlent

Voici une cartographie interactive pour découvrir la vraie vie des victimes du nucléaire français. Entre les incidents ...

À partir de ce fichier, nous avons dû constituer manuellement un premier sous-fichier se focalisant sur les incidents de contamination. Les éléments se divisent en deux grandes catégories : accident avec atteinte corporelle et accident avec une contamination vestimentaire. Nous avons listé dans le fichier, pour mémoire, les trois atteintes qui n’étaient pas des contaminations. Nous avons ensuite complété ce sous-tableau en rajoutant des indications qui nous semblaient importantes.

> Informations présentes dans les rapports :

- le site et l’INB. On entend souvent parler de façon générique de La Hague par exemple. Ce nom correspond dans le tableau des Installations nucléaires de base (INB) au site, qui regroupe parfois plusieurs installations. Par exemple “Centrale nucléaire de Paluel” atterrit dans deux colonnes : Paluel pour le site et Centrale nucléaire de Paluel pour l’INB
- l’exploitant.
- le nombre de personnes touchées.

> Informations présentes de façon aléatoire dans les rapports :

- la date de l’incident. Fait pourtant partie des items à préciser dans le formulaire.
- si l’accident a eu lieu pendant un arrêt de tranche/une période de maintenance. Même remarque que ci-dessus.
- le radioélément. Pourtant, l’exploitant dispose d’une dizaine de lignes pour décrire les conséquences réelles et potentielles.
- contamination externe ou interne (plus grave). Même remarque que ci-dessus.
- si l’incident concerne un sous-traitant et le cas échéant le nom de l’entreprise sous-traitante s’il est indiqué.

> Une colonne où nous avons isolé des extraits de rapport qui nous ont étonnées, intriguées, choquées…

Si les délais de déclaration – donc de remise du formulaire provisoire – ne sont pas respectés, l’ASN est en droit de dresser un procès verbal. À quand un procès verbal pour remplissage incomplet du formulaire ?

Échanges kafkaïens

Ni l’exploitant ni l’ASN ne nous ont facilité la tâche. Extrait d’un échange.

OWNI : Je cherchais à obtenir la liste des arrêts de tranche par centrale depuis la mise en service du premier de leur réacteur. Vous m’aviez précisé que cette liste se trouvait sur le site de l’ASN. Or se pose pour nous le problème des arrêts de tranche avant 2005, ils ne se trouvent pas sur le site.

L’ASN  : Le moteur de recherche vous permet de retrouver la liste des arrêts de réacteur. Il suffit de choisir dans la liste déroulante “Arrêt de réacteur”. Sur la droite, vous aurez alors les Options de recherche. Il faudra cliquer sur « Par date » puis « Plus de six mois ». Les résultats sont classés par anté-chronologiquement. A partir de la page 14, on peut disposer des arrêts de tranche de 2005.

OWNI : Il s’agissait des arrêts de réacteur avant 2005, plus précisément entre 2000 et 2005… Et ceux là ne sont pas sur le site.

L’ASN : Rebonjour, Je vous envoie le texte en ligne sur notre site :

http://www.asn.fr/index.php/Les-actions-de-l-ASN/Le-controle/Actualites-du-controle/Arret-de-reacteurs-de-centrales-nucleaires”

Du coup, l’ASN nous a renvoyé vers l’exploitant, EDF, pour les informations antérieures, nous avons donc appelé plusieurs centrales. Lesquelles nous ont renvoyées vers l’ASN. Finalement, un attaché de presse au siège s’est fendu d’un pdf avec les années des arrêts. Sollicité pour des informations plus précises sur les mois concernés et les arrêts moins longs sur la période 2000 – 2006, il nous a répondu :

On n’a pas gardé d’archive au-delà de la communication. On n’a pas d’informations sur des événements aussi lointains.

Le fichier final tant bien que mal constitué constitue un tableau inédit, comme nous a expliqué Cédric Suriré, doctorant en socio-anthropologie du risque et des vulnérabilités

Ce tableau est l’outil qui manque dans l’histoire du nucléaire : la prise en compte de l’homme dans l’industrie du nucléaire.


Nous remercions vivement, dans l’ordre d’arrivée, Julien Kirch (au code), les chercheurs Cédric Suriré et Annie Thébaud-Mony et Marion Boucharlat (au graphisme), sans qui ce travail n’aurait jamais abouti.

]]>
http://owni.fr/2012/04/27/le-nucleaire-enfouit-ses-donnees/feed/ 8
Des données culturelles à diffuser http://owni.fr/2012/03/28/des-donnees-culturelles-a-diffuser-opendata-bnus/ http://owni.fr/2012/03/28/des-donnees-culturelles-a-diffuser-opendata-bnus/#comments Wed, 28 Mar 2012 13:01:37 +0000 Lionel Maurel (Calimaq) http://owni.fr/?p=103776

Les données culturelles ou celles qui concernent la recherche occupent une place particulière parmi les données publiques. Elles restent de fait encore en retrait au sein du mouvement d’Open Data qui se développe en France.

Données particulières

En effet, un statut juridique particulier a été fixé par la loi sur la réutilisation des informations publiques, pour les données produites par “des établissements et institutions d’enseignement ou de recherche” ou par des “établissements, organismes ou services culturels”. Ce régime particulier, dit “exception culturelle”, permet à ces établissements de fixer les conditions de la réutilisation de leurs données. Les autres administrations relèvent du régime général de cette loi, qui instaure un véritable droit à la réutilisation des informations publiques au profit des citoyens.

Jusqu’à présent, les institutions culturelles et de recherche se sont plutôt servies de cette exception pour restreindre la réutilisation de leurs données, ce qui a pu faire dire que la culture constituait le “parent pauvre de l’Open Data en France“.

Des tensions sont même apparues entre certains services culturels, comme des archives,  et des entreprises à qui la réutilisation des données a été refusée. Les institutions culturelles (bibliothèques, musées, archives) et les institutions de recherche sont pourtant détentrices de données de grande qualité, dont l’apport pourrait être décisif pour le mouvement de l’Open Data.

La France entr’ouverte

La France entr’ouverte

L'État a lancé son site data.gouv.fr. La France, enthousiaste, ouvre donc ses données publiques comme les États-Unis. ...

Le lancement du portail Etalab, de ce point de vue, n’a pas complètement permis de lever les obstacles à la diffusion de ces données. Le Ministère de la Culture et de la Communication, ainsi que celui de l’Enseignement Supérieur et de la Recherche participent bien à data.gouv.fr, et mettent en ligne plusieurs jeux de données.

En effet, les ministères en eux-mêmes ne bénéficient pas de l’exception culturelle prévue dans la loi de 1978, celle-ci n’étant ouverte qu’aux profits des établissements, institutions et services relevant de leurs tutelles ou a fortiori de celles des collectivités territoriales. De ce fait, ces ministères ont dû, de la même manière que tous les autres, se plier à l’obligation, imposée par la circulaire émise le 26 mai 2011 par François Fillon, de verser leurs données dans data.gouv.fr.

La circulaire a posé dans ce cadre un principe de réutilisation gratuite des données publiques, les administrations ne pouvant imposer de redevances que si “des circonstances particulières le justifient” et par le biais de la procédure relativement lourde d’un décret du Premier Ministre.

Néanmoins l’exception culturelle, si elle ne joue pas au niveau des ministères, continue à protéger les établissements publics. En effet, la circulaire du 26 mai 2011 précise que :

L’article 11 de la loi prévoit un régime dérogatoire pour les établissements et les institutions d’enseignement et de recherche ainsi que pour les établissements, organismes ou services culturels qui fixent, le cas échéant, leurs conditions de réutilisation de leurs informations publiques. Ces établissements ainsi que les collectivités territoriales et les personnes de droit public ou de droit privé chargées d’une mission de service public peuvent, s’ils le souhaitent, mettre à disposition leurs informations publiques sur le portail ‘data.gouv.fr’. Dans ce cas, une convention fixe les conditions de réutilisation de ces informations.

La participation à Etalab reste donc facultative pour les organismes culturels ou de recherche et c’est bien ce que traduit la liste des contributeurs, puisque seule la Bibliothèque nationale de France y figure à ce jour, pour une partie de ses données. C’est pourtant au niveau des établissements eux-mêmes que les jeux de données les plus intéressants sont situés (catalogues, instruments de recherche, données bibliographiques, documents numérisées, etc).

Licence ouverte

Cependant, cette mise à l’écart des données culturelles et de recherche n’est pas une fatalité. Car comme j’avais déjà eu l’occasion de le dire, les établissements peuvent user des latitudes dont ils bénéficient au titre de l’exception culturelle pour poser des règles favorables à la réutilisation. Rien ne les oblige à aller dans le sens de la fermeture.

De ce point de vue, Etalab leur offre un instrument essentiel pour mettre en place des conditions ouvertes de diffusion des données : la Licence Ouverte/Open Licence, retenue pour le portail data.gouv.fr.

Cette licence Etalab présente l’intérêt d’être ancrée dans le droit des données publiques français, tout en étant compatible avec les principes de l’Open Data et les licences libres employées dans le cadre de ces initiatives. S’appuyant sur le droit à la réutilisation des données publiques reconnues par la loi de 1978, la licence Etalab permet la réutilisation gratuite, y compris à des fins commerciales, tout en maintenant les exigences minimales du texte et notamment la mention obligatoire de la source des données (paternité).

Depuis l’ouverture du portail Etalab, un seul établissement culturel avait utilisé cette licence Etalab de manière volontaire pour la diffusion de ses données. Il s’agit de la BnF pour les données bibliographiques enrichies qu’elle diffuse au format RDF par le biais du site data.bnf.fr.

Néanmoins la semaine dernière, une autre bibliothèque, la Bibliothèque Nationale et Universitaire de Strasbourg (BNUS) a annoncé qu’elle adoptait la licence Etalab pour se lancer dans une démarche globale de libération de ses données. Une interview de l’un des responsable de l’établissement, le conservateur Frédéric Blin, explique la démarche de l’établissement et les raisons l’ayant poussé à faire ce choix.

La première originalité de la BNUS consiste à avoir choisi d’utiliser la licence Etalab aussi bien pour diffuser les métadonnées produites par l’établissement que pour les documents numérisés eux-mêmes, qu’elle produit à partir des œuvres du domaine public qu’elle conserve.


“La décision exacte votée par notre Conseil d’administration est formulée de la manière suivante”
:

La décision exacte votée par notre Conseil d’administration est formulée de la manière suivante :

  • Les données bibliographiques (dont les métadonnées des documents numériques) produites par la BNU sont considérées comme des données publiques et à ce titre placées sous Licence Ouverte ou autre licence compatible (libre réutilisation, y compris à des fins commerciales, sous réserve de mentionner la source de l’information) ;
  • Les fichiers numériques issus de la numérisation par la BNU d’œuvres du domaine public conservées dans ses collections sont considérés comme des données publiques et à ce titre placés sous Licence Ouverte ou autre licence compatible.

Par ailleurs, Frédéric Blin explique le calcul économique qui a conduit son établissement à renoncer à tarifer les réutilisations à des fins commerciales de ses données :


Avant notre décision, nous appliquions une redevance d’usage, de l’ordre de 35€ par image [...] Cependant, les sommes récoltées par la BNU chaque année au titre de la redevance d’usage étaient minimes, de l’ordre de 3000€. Elles ne couvraient naturellement pas le temps de travail de la secrétaire chargée de gérer les factures et la correspondance avec les lecteurs, ni le temps des autres personnes – y compris de l’Administrateur – impliquées en cas de demande d’exonération ponctuelle ou systématique. En outre, nous espérons que l’abandon de la redevance d’usage entrainera une augmentation des demandes de numérisation de documents, service qui lui restera payant. Dans notre cas particulier, nous pensons qu’en autorisant la libre réutilisation, l’établissement sera au final bénéficiaire au strict plan financier.

D’autre part, nous estimons que la libération des données favorise la créativité artistique et intellectuelle, de même que commerciale : établissement public, il est dans l’intérêt de la BNU de favoriser le dynamisme économique et commercial du pays, créateur d’emplois et générateur de rentrées fiscales. La BNU devient ainsi indirectement une source d’activité économique : le retour sur l’investissement consenti par la Nation pour le financement de la BNU trouve ici une concrétisation potentiellement mesurable.

Cette logique, qui est complètement en phase avec la philosophie de l’Open Data, est hélas fort peu répandue dans le secteur culturel. J’avais eu l’occasion de montrer par exemple, à partir d’une analyse systématique des pratiques, qu’une part écrasante des bibliothèques françaises restreignent l’utilisation des œuvres du domaine public qu’elles numérisent, en recourant à des droits de propriété intellectuelle revendiqués dans des conditions contestables.

La situation n’est pas différente, sinon plus fermée encore, dans les services d’archives et de musées, et le discours au niveau central reste celui d’une valorisation économique des données, assortie d’une défense de l’exception culturelle.

Quelques établissements commencent à adopter une attitude plus ouverte, en employant notamment la Public Domain Mark, pour les documents du domaine public qu’ils diffusent.

L’exemple de la BNUS ouvre une nouvelle piste, plus générale, par laquelle la licence Etalab permet la libre diffusion à la fois des métadonnées et des documents numérisés.

L’enjeu de ces discussions n’est pas seulement juridique. Il est aussi celui de la participation des données produites par les institutions françaises, culturelles et de recherche, au mouvement général de l’Open Data et à la constitution du web sémantique.

Beaucoup de temps a sans doute été perdu en France autour de débats stériles à propos de cette exception culturelle, dont l’utilité reste encore à démontrer. Pendant ce temps, au niveau européen, une nouvelle directive sur la réutilisation des informations du secteur public est en préparation.

Dont l’un des enjeux est justement à savoir s’il faut maintenir un statut particulier pour les données de la culture et de la recherche.


Illustration par Marion Boucharlat pour Owni /-)

]]>
http://owni.fr/2012/03/28/des-donnees-culturelles-a-diffuser-opendata-bnus/feed/ 8
Déchiffrer l’insécurité http://owni.fr/2012/02/10/115-milliards-de-peurs/ http://owni.fr/2012/02/10/115-milliards-de-peurs/#comments Thu, 09 Feb 2012 23:02:59 +0000 Pierre Leibovici http://owni.fr/?p=97918

De l’UMP au Front national, le chiffre circule depuis près de deux ans dans les discours. Et il a la dent dure. Le crime et la délinquance coûteraient chaque année 115 milliards d’euros. Soit 5,3% du PIB, la somme des valeurs produites par la France en un an. Au point que Marine Le Pen intègre ce coût dans le chiffrage de son programme présidentiel :

Le rapport Bichot avait chiffré en 2009 le coût de l’insécurité à 115 milliards d’euros par an.

C’est donc d’un obscur “rapport Bichot” que Marine Le Pen tire le principal argument chiffré pour sa politique sécuritaire. Du nom de Jacques Bichot, que Le Figaro présente comme un professeur émérite de l’université Lyon III, et dont ledit rapport a été publié par l’Institut pour la justice (IPJ), un think tank sécuritaire dont l’UMP ne renie pas les idées.

Préjudice diffus

Publié en avril 2010, le rapport de Jacques Bichot intitulé Le coût du crime et de la délinquance” [PDF] prend en fait un peu plus de précautions que Marine Le Pen – mais dans les formes seulement. Dès l’introduction, l’auteur précise qu’il s’est livré à “une évaluation prudente” du coût de la délinquance, mesuré entre juillet 2008 et juin 2009. Sans concéder cependant que ses calculs agrègent les données les plus fantaisistes, avec des données se rapportant à des crimes et à des délits bien réels.

Ainsi, l’auteur entreprend (p.24) de quantifier financièrement le sentiment d’insécurité créé par les crimes et les délits chez les 50 millions d’adultes Français.

Il faut enfin évaluer les externalités – notamment le sentiment d’insécurité engendré par les homicides. Celui-ci peut varier selon les périodes, et selon la médiatisation des faits. S’il se produit des attentats terroristes meurtriers, la crainte peut augmenter sensiblement. Dans la situation actuelle, l’estimation sera modeste : on peut faire l’hypothèse qu’en moyenne chacun des 50 millions d’adultes donnerait bien dix euros par an si cela permettait de réduire fortement le nombre des homicides. Soit 500 millions d’euros pour le préjudice diffus d’insécurité.

Et un tel sentiment d’insécurité engendre de menues dépenses. Dans les fameux 115 milliards d’euros sont ainsi compris les frais privés de sécurité. Qui atteignent tout de même les 2 milliards d’euros. Une estimation qui comprend par exemple l’achat d’un chien (ou d’un système d’alarme) car “beaucoup de ménages comptent en partie sur leur chien pour les protéger contre les visites importunes”. Ami des bêtes, Jacques Bichot explore toutes les pistes et cherche à se montrer pondéré. Exemple dans les dépenses liées aux atteintes à l’environnement, plutôt gonflées, il soustrait une “infraction d’utilité publique” constituée par le braconnage des sangliers :

“S’agissant du sanglier, cet animal inflige de graves nuisances aux humains sur les jardins desquels il jette son dévolu : lorsque cette espèce prolifique se multiplie sans que l’administration relève les quotas de prises comme cela serait son devoir, ceux qui expédient, fut-ce illégalement, quelques sangliers dans nos assiettes, protègent en fait l’environnement”

La délinquance informatique n’échappe pas non plus à son expertise. D’après lui, les ménages dépenseraient ainsi 4,1 milliards d’euros par an pour se prémunir de “messages spams non infectés”. Qu’il intègre au coût de l’insécurité en France. La démonstration est sans appel :

“Le spam non infecté (…) se traduit par un grand gaspillage de temps – et la perte de messages utiles confondus avec les indésirables. Une demi-heure perdue par semaine, 50 semaines par an, cela fait 25 heures par internaute, soit environ 250 euros de préjudice direct.”

En y ajoutant pêle-mêle une estimation de la production marchande et non-marchande qui aurait pu être réalisée par la victime d’un meurtre, si elle n’avait été trucidée, et l’addition atteint vite des sommets.

Cependant, l’ensemble du travail profite d’un vernis de crédibilité, déposé lorsque l’auteur évalue les conséquences financières de crimes bien réels. Jacques Bichot consacre ainsi de longs développements au coût des viols perpétrés chaque année en France (p.25). Il affirme :

Mettre un équivalent monétaire sur un viol est évidemment une gageure. Basons-nous sur le « tarif » appliqué aux blessés hospitalisés des accidents de la route : les séquelles ne sont certainement pas moindres dans le cas d’un viol, blessure dont la cicatrisation est particulièrement difficile, sinon impossible, et qui s’accompagne dans certains cas de la peur de représailles exercées par le criminel dénoncé à la Justice. Sur cette base on obtient :
134 000 euros x 15 000 = 2 010 millions d’euros

Deux milliards d’euros par an pour ”une estimation prudente de 15 000 viols”, puisque Jacques Bichot additionne les viols sur mineurs, les viols sur majeurs. Mais surtout les viols pour lesquels les victimes n’ont pas porté plainte – et qui ne sont donc pas estimables puisqu’ils ne figurent dans aucune base de données ministérielle (bien que leur réalité ne soit pas contestable, il semble difficile de les inclure dans un tel exercice statistique). S’agissant des conséquences, il propose de chiffrer le coût du “sentiment d’insécurité sexuelle” :

“Le sentiment d’insécurité est évidemment très différent selon que l’on est homme ou femme, jeune ou vieux – encore que les viols de personnes âgées ne soient pas tellement rares ; selon que l’on habite à tel ou tel endroit et que l’on effectue tel ou tel trajet pour se rendre à l’école ou au travail ; selon que l’on a tel ou tel entourage à l’école, au travail, à la maison de repos ou de retraite. (…) Les Français donneraient probablement plus pour éradiquer la menace sexuelle que la menace vitale – disons deux fois plus, ce qui fait monter à 1 milliard d’euros le coût de l’insécurité sexuelle.”

Lobbying de la peur

Le rapport Bichot a donc été diffusé par l’IPJ, une “association fondée par des citoyens soucieux de lutter contre les dysfonctionnements de la justice pénale”, comme l’indique sa page de présentation. Comme le remarquait le site Slate.fr en novembre dernier, l’IPJ a usé d’un lobbying intensif en matière de “durcissement des peines de prison et de lutte contre la récidive”, au point d’être reçu par le ministre de la Justice suite à “l’affaire Laetitia”, à Pornic, en mai 2011.

Plus largement, l’IPJ a acquis une “légitimité auprès des élus de droite”. Parmi lesquels Nicolas Dupont-Aignant, candidat à l’élection présidentielle du parti Debout la république, Eric Ciotti, conseiller sécurité de Nicolas Sarkozy, ou encore des membres du Front national.

Jacques Bichot, lui, dans un livre intitulé Les enjeux 2012 de A à Z, Abécédaire de l’anti-crise (éd. AFSP/L’Harmattan), à paraître le 11 février prochain, publie une défense en bonne et due forme du parti d’extrême droite :

“Cette formation politique [le Front national, NDLR], dont le Président a recueilli entre 10 % et 17 % des voix aux quatre dernières élections présidentielles, fait l’objet d’un fort ostracisme de la part de ceux qui se disent « républicains ». (…) Si d’aventure, sur un sujet particulier, quelqu’un a des positions assez voisines de celles du Front national, il doit au minimum, pour rester « politiquement correct », expliquer que cela ne signifie en aucune manière qu’il soit sympathisant de cette organisation, et en dénoncer le caractère fascisant.”

Ancien Président de Familles de France, Jacques Bichot est également une “personnalité amie” de l’Association pour la fondation de service politique, qui vise à défendre la “parole des chrétiens dans les grands débats de société”. Il y côtoie notamment des députés du Mouvement pour la France, le parti souverainiste dirigé par Philippe de Villiers. Loin de cacher ses amitiés pour les thèses monarchistes, Jacques Bichot accorda d’ailleurs une interview au journal de l’Action française le 13 juillet 1993.

Lors d’un discours sur l’insécurité aux dernières Journées d’été du Front national, Marine Le Pen louait la “récente étude de Jacques Bichot, économiste et professeur émérite à Lyon III”. L’aura des 115 milliards d’euros n’aura pas fait mouche qu’au parti frontiste cependant. Son coût de la délinquance a servi d’amorce à la mission parlementaire sur la prévention de la délinquance publiée en décembre 2010. Et rédigée par Jacques-Alain Bénisti, député UMP du Val-de-Marne, à la demande du Premier ministre François Fillon.


Illustration et couverture par Loguy pour OWNI

]]>
http://owni.fr/2012/02/10/115-milliards-de-peurs/feed/ 16
Des SMS furtifs sur vos portables http://owni.fr/2012/01/26/vos-sms-furtifs/ http://owni.fr/2012/01/26/vos-sms-furtifs/#comments Thu, 26 Jan 2012 09:59:34 +0000 Fabien Soyez http://owni.fr/?p=94755

C’est une question au gouvernement qui nous a mis la puce à l’oreille. En juin 2011, Colette Giudicelli, sénatrice des Alpes Maritimes, écrit à Claude Guéant, ministre de l’intérieur :

Plusieurs services de police judiciaire et de renseignement étrangers utilisent des SMS furtifs pour localiser des suspects ou des personnes disparues : cette méthode consiste à envoyer vers le téléphone portable de ce suspect un SMS qui passe inaperçu et renvoie un signal à l’émetteur du message. Mme Colette Giudicelli aimerait savoir si cette procédure est déjà utilisée en France.

Sept mois plus tard, toujours pas de réponse du gouvernement. Le sujet aurait pu tomber aux oubliettes s’il n’y avait eu, fin décembre, la 28ème édition du Chaos Communication Congress, à Berlin. Lors de cette conférence de hackers, le chercheur Karsten Nohl expert en sécurité de mobiles lance : “En Allemagne, la police a envoyé en 2010 des milliers de SMS furtifs pour localiser des suspects.”

Le SMS furtif obéit au principe du signal aller-retour que l’on ne voit pas, ou du “ping” dans le jargon des informaticiens. Les développeurs de la société Silent Services, à l’origine d’un des premiers logiciels permettant d’envoyer ce genre de SMS, expliquent :

Les SMS furtifs vous permettent d’envoyer un message à un autre portable à l’insu de son propriétaire. Le message est rejeté sur le téléphone de ce dernier et il n’existe aucune trace. Vous obtenez, en retour, un message de l’opérateur vous attestant que votre message a été reçu.

Techniquement, les SMS furtifs, ou “silent SMS“, serviraient donc à savoir si une personne a allumé son portable et permettraient aux opérateurs de “tester” les réseaux, sans gêner les usagers. Mais une toute autre utilisation en est faite par les services de renseignement et la police. Contacté par OWNI, Neil Croft, diplômé du département des sciences informatiques de l’Université de Pretoria, en Afrique du Sud, explique :

Envoyer un SMS furtif, c’est comme envoyer un SMS normal, sauf que le mobile ne voit pas le message qu’il a reçu. Les informations du SMS sont modifiées, dans le programme de codage des données, pour que l’utilisateur qui le reçoit ne s’aperçoive de rien. Un SMS furtif peut aider les services de police à détecter un mobile sans que la personne concernée soit au courant de la requête.

Pour trafiquer les informations du SMS et le rendre silencieux, les services de sécurité passent par une passerelle SMS, comme Jataayu SMS gateway, qui permet d’interconnecter les systèmes GSM et informatique. Neil Croft, désormais président d’une société de marketing par SMS, nous explique :

Ces SMS furtifs sont aussi utilisés par certains hackers pour mener des attaques dites “de déni de service” (DDOS). Le résultat, c’est une batterie qui se décharge anormalement vite, et l’impossibilité de recevoir des appels. Un tel procédé ne coûte pas cher : on peut envoyer un SMS furtif par seconde pendant une heure pour environ 36 euros.

Ce procédé d’envoi en masse apparaît largement utilisé par les services. En novembre 2011, Anna Conrad, du parti Die Linke (La Gauche), pose une question écrite au Landtag de Rhénanie du Nord-Westphalie, à propos de l’usage par la police allemande de SMS furtifs, ou “Stille SMS”. Réponse du Parlement local : en 2010, le Land a mené 778 enquêtes et envoyé 256 000 SMS furtifs. Mais pour Mathias Monroy, journaliste à Heise online ces technologies de surveillance profitent surtout d’un vide juridique :

C’est très problématique pour la vie privée, parce que juridiquement, on ne sait pas si les SMS furtifs sont ou non une communication (…) Le Land a considéré que ce n’en était pas une, puisqu’il n’y a aucun contenu. C’est pratique, car s’il ne s’agit pas d’une communication, cela ne rentre pas dans le cadre de l’inviolabilité des télécommunications de l’article 10 de la Constitution allemande.

Et votre mobile se change en balise

Et votre mobile se change en balise

Des milliers de localisations cellulaires sont effectuées chaque année en France, notamment dans le cadre de procédures ...

Mais le 6 décembre, suite à une question d’un député de gauche, Andrej Hunko, sur l’utilisation des SMS furtifs par la police allemande, le ministre de l’intérieur a joué le jeu de la transparence. Au total, ces dernières années, les services de police et de renseignement allemands auront envoyé une moyenne de 440 000 SMS furtifs en un an.
Après chaque SMS envoyé, le lien était fait avec Vodafone, E-Plus, O2 et T-Mobile, les quatre opérateurs de téléphonie mobile, afin d’accéder aux informations de communication des personnes surveillées. Pour agréger les données brutes fournies par les opérateurs, la police allemande utilise les logiciels Koyote et rsCase, fournis par Rola Security Solutions, une société qui élabore des “solutions logicielles pour la police” depuis 1983.

Souriez, vous êtes pistés

Le journaliste spécialisé Mathias Monroy s’inquiète d’une utilisation croissante de ces technologies de surveillance. Car les SMS furtifs permettent de connaître très finement la position des personnes espionnées. Cette localisation utilise le réseau GSM, comme nous l’explique Karsten Nohl :

On peut localiser un utilisateur en repérant les trois antennes relais les plus proches de son mobile, puis en déduisant, par triangulation, la distance d’après la vitesse que met un signal [comme un SMS furtif, NDLR] à faire un aller-retour.Un téléphone mobile met à jour sa présence sur le réseau régulièrement, mais quand la personne se déplace, l’information n’est pas mise à jour tout de suite. En envoyant un SMS furtif, la localisation du mobile est instantanément mise à jour. C’est très pratique, parce que cela permet de localiser quelqu’un à un instant T, en fonction des ondes.

Un SMS furtif sert notamment (mais pas seulement) à affiner la position dans le temps, en forçant la mise à jour d’un mobile. Une technique bien plus efficace qu’une simple localisation cellulaire (Cell-ID). Contacté par OWNI, François-Bernard Huyghes, chercheur à l’IRIS, commente l’utilisation de ces SMS furtifs :

C’est la seule méthode immédiate et pratique pour suivre constamment un mobile hors des périodes d’utilisation. On parle alors de géopositionnement et non plus de géolocalisation. Après cela, soit les policiers suivent l’information via les opérateurs, soit des sociétés privées traitent les données et, par exemple renvoient à l’enquêteur une carte où apparaissent les déplacements du téléphone surveillé en temps réel.

Les bénéfices des SMS furtifs ne s’arrêtent pas là : en envoyant un grand nombre de ces SMS les services de sécurité peuvent aussi perturber le mobile, ou réactiver ses signaux à distance ou encore décharger sa batterie. Un porte-parole du ministère de l’Intérieur Allemand explique à OWNI :

La police et les services de renseignement allemands utilisent les SMS furtifs pour réactiver des mobiles inactifs et améliorer la géolocalisation d’un suspect, par exemple quand celui-ci se déplace lors d’une entrevue. Les SMS furtifs sont un outil précieux d’investigation, qui est utilisé uniquement dans le cadre d’une surveillance des télécommunications ordonnée par le juge, dans un cas précis, sans jamais violer le droit fondamental à la protection de la vie privée.

Réactiver à distance

En France, la police et les services de renseignement travaillent notamment avec Deveryware, un “opérateur de géolocalisation”, qui vend également aux entreprises un service de “géopointage” de leurs salariés, le Geohub, accessible via une base de donnée baptisée DeveryLoc.

Pour alimenter son Geohub, Deveryware combine la localisation cellulaire, le GPS, ainsi que d’autres techniques de “localisation en temps réel”. Quand on demande à la société si les SMS furtifs font partie de ces techniques, réponse évasive :

Nous sommes au regret de ne pouvoir répondre, vu le caractère confidentiel imposé par les réquisitions judiciaires.

Les applications de Deveryware permettent aux enquêteurs de cartographier les déplacements d’un suspect et d’en avoir un historique. Interrogé par OWNI, Laurent Ysern, responsable investigation pour SGP Police, constate :

Tous les services d’investigation ont accès à la plateforme de Deveryware. Grâce à ce système, on peut suivre une personne sans être obligé d’être derrière elle. Pas besoin de filatures, donc moins de fonctionnaires et de matériel à mobiliser.

Alors qu’en Allemagne, le ministère de l’Intérieur répond dans les 48 heures, en France, étrange silence. Unique réponse, provenant du Service d’information et de communication de la police nationale :

Malheureusement, personne à la PJ ou à la sécurité publique ne veut communiquer sur le sujet, ce sont des techniques d’enquête…

Même silence chez les opérateurs, SFR et Bouygues Telecom. Sébastien Crozier, délégué syndical CFE-CGC-Unsa chez France Télécom-Orange, lance :

Les opérateurs collaborent toujours avec la police, c’est une obligation de service public : ils agissent sur réquisition judiciaire, tout comme pour les requêtes de fadettes. Il n’y a pas de méthode absolue, l’envoi de SMS est une partie des méthodes utilisées pour géolocaliser un utilisateur. On utilise surtout cette technique pour “réactiver” le téléphone : le réseau va se mettre en situation active.

En France, d’ici à 2013, l’utilisation de ces procédés de surveillance entreront dans une phase industrielle. Le ministère de la Justice mettra sur place, avec le concours de la société d’armement Thales, une nouvelle plateforme nationale des interceptions judiciaires (PNIJ), qui devrait permettre de centraliser l’ensemble des interceptions judiciaires, autrement dit les écoutes, mais aussi les réquisitions telles que les demandes de localisation cellulaire. Sébastien Crozier remarque :

Cette interface entre officiers de police judiciaire et opérateurs permettra de rationaliser les frais de justice, de réduire les coûts de traitement de moitié, parce que jusqu’ici, les réquisitions sont gérées commissariat par commissariat… Il y aura encore plus de demandes, mais ça sera moins coûteux pour les opérateurs comme pour la police.


Couverture, Illustrations et photos sous licences Creatives Commons via Flickr par Nicolas Nova ; Arlo Bates ; Keoshi ; Luciano Belviso ; Meanest Indian ; Photo de couverture remixée par Ophelia Noor avec l’aimable autorisation de Spo0nman [CC-by-nc-nd]

]]>
http://owni.fr/2012/01/26/vos-sms-furtifs/feed/ 0
Facebook en redemande http://owni.fr/2012/01/10/protection-des-donnees-facebook-est-content/ http://owni.fr/2012/01/10/protection-des-donnees-facebook-est-content/#comments Tue, 10 Jan 2012 07:32:14 +0000 Fabien Soyez http://owni.fr/?p=93050

Après un audit qui aura duré trois mois, l’autorité de protection des données irlandaise – la DPC – a rendu ses conclusions. Facebook devra clarifier sa politique en matière de protection de la vie privée.

D’après la DPC, un équivalent donc de la Commission nationale informatique et libertés (CNIL) en France, l’entreprise doit “donner des explications plus simples sur sa politique sur la vie privée.” Autrement dit, mieux expliquer ce que deviennent les données personnelles de ses utilisateurs et leur permettre de mieux les contrôler.

En 2008, la société de Palo Alto a installé son QG international à Dublin, en grande partie pour bénéficier des conditions financières attractives offertes par le gouvernement Irlandais. Mais du même coup, Facebook se voit contraint de se soumettre aux lois locales et européennes.

Avant juillet, Facebook devra donc modifier son site pour les quelque 500 millions d’inscrits hors de l’Amérique du Nord. D’après Paula Nerney, de la DPC, le réseau social de Mark Zuckerberg joue le jeu :

[Il] s’engage à respecter la confidentialité des utilisateurs (…) Facebook a pleinement coopéré lors de l’audit, nous leur avons adressé une liste de recommandations, et en juillet nous reviendrons pour un nouvel audit. D’ici là, nous suivrons activement les actions de Facebook Irlande, pour nous assurer que l’entreprise respectera les délais que nous lui avons imposé.

Chez Facebook, on se réjouit officiellement des résultats de l’audit. Anne-Sophie Bordry, directrice des affaires publiques France et Europe du Sud, constate calmement :

L’audit montre que nous sommes vraiment ouverts à la discussion. Nous avons ouvert les portes, pour montrer que nous n’avons rien à cacher. Nous avons mis tout à plat sur le fonctionnement de la plateforme Facebook, et nous travaillerons main dans la main avec la DPC. Nous avons l’occasion de dépassionner certaines angoisses, d’expliquer ce que nous faisons avec les données. Nous sommes très contents.

Bonne humeur chez Facebook, donc. Pourtant, l’entreprise a du pain sur la planche. Elle devra d’abord rendre ses paramètres de confidentialité plus simples et plus clairs. Dans son rapport, la DPC demande à Facebook de simplifier davantage les réglages, qui permettent aux utilisateurs de contrôler ce qui est public ou privé. “Quand on va dans les paramètres de gestion de confidentialité, c’est déjà assez clair, c’est imagé”, lance Anne-Sophie Bordry. “La DPC, mais aussi la CNIL, est d’accord. Vous pouvez avoir un aperçu de votre profil, modifier les paramètres, faire des essais. C’est déjà très bien, mais nous allons améliorer l’outil, le rendre plus clair.”

Pas de détails concrets, pour l’instant, Facebook est en plein “Work in Progress” : “nos ingénieurs planchent sur le sujet“, garantit Michelle Gilbert, directrice de la communication de Facebook France. Elle ajoute :

La DPC a mené son audit avant que sorte la Timeline, la nouvelle version du profil Facebook. Maintenant, on a un plus grand choix, on peut gérer ce qui est visible par d’autres plus facilement. Mais on peut toujours s’améliorer. On va faire en sorte que ce soit plus facile à manier.

Autre point à améliorer, pour l’Autorité de protection des données : la transparence à propos des données récoltées. Si, Facebook insiste, “l’audit était prévu depuis bien plus longtemps”, l’enquête de la DPC fait écho à une série de plaintes, notamment celles de Max Schrems. Cet étudiant autrichien, fondateur du collectif “L’Europe contre Facebook“, avait demandé à Facebook l’intégralité de ses données personnelles, en vertu de la directive européenne 95/46/CE.

Haussement d’épaules de Michelle Gilbert, de Facebook France :

Max a bien réussi à faire parler de lui, mais il nous a accusé de pas mal de choses que nous n’avons pas faites. L’audit l’a prouvé. Ses plaintes reflètent les nombreux fantasmes associés à Facebook. Il n’existe pas, la DPC est d’accord, de “profils fantômes”, des profils de non-inscrits que nous créerions… Nous ne traçons pas non plus les gens. Facebook est un hébergeur : nous stockons des contenus, mais nous ne les regardons pas.

Paula Nerney, de la DPC, trouve légitime l’utilisation par Facebook des informations personnelles de ses membres, afin de continuer à “faire vivre” le site. La DPC ne remet pas en cause l’utilisation d’informations telles que l’âge, le sexe, les relations amoureuses ou la localisation de l’internaute, en direction d’annonceurs à la recherche de publicités très ciblées. Mais “il appartient à Facebook de mieux communiquer sur l’utilisation des données”. Anne-Sophie Bordry insiste sur le “modèle de pub” du réseau social :

Nous ne sommes pas une boîte marketing. Les données des profils vont dans un agrégateur de données anonymisées, et elles ne sont jamais vendues. Nous ne louons pas les données, c’est Facebook qui les utilise pour optimiser les publicités des annonceurs. Mais tout reste à Facebook. De même, comme le confirme la DPC, aucune information collectée n’est associée à l’utilisateur.

Idem pour les données récoltées lorsqu’un utilisateur clique sur le bouton “J’aime”, ce qui permet à Facebook de connaitre ses habitudes de navigation. Les données, comme les informations du profil, “rentrent dans l’agrégateur anonyme que nous utilisons, et elles finissent par être supprimées rapidement.” La DPC demande néanmoins à Facebook d’anonymiser les données plus rapidement, dans les 90 jours, puis de les supprimer. Un délai que Facebook ne respectait pas toujours jusqu’ici. Anne-Sophie Bordry commente :

Même si notre système est déjà convenable, la DPC nous a demandé de supprimer les données plus vite. Nous ferons ce qu’il faut pour raccourcir le délai. Mais nous insistons : Facebook n’utilise pas les données reçues de ce module pour du profilage ou de la publicité ciblée.

Dans son audit, la DPC note que l’utilisateur reconnaît et accepte l’utilisation des données par Facebook lors de son inscription. Après vérification, aucun texte à lire et à accepter. Pour accéder aux informations sur l’usage des données personnelles, il faut se rendre, que l’on soit inscrit ou non, dans les conditions d’utilisation, visibles au bas de chaque page, en petits caractères.

Facebook devra “faire un effort pour rendre ces conditions d’utilisation plus visibles”, indique Billy Hawkes, le commissaire irlandais à la protection des données. Même effort de transparence exigé en ce qui concerne la technologie de reconnaissance faciale utilisée par Facebook pour identifier automatiquement un utilisateur sur une photographie. “Les internautes ne sont pas assez informés quant aux enjeux de cette fonction”, déplore la DPC. En réponse, Facebook s’est engagé à simplifier la procédure de refus d’identification automatique. “Aujourd’hui, on peut refuser les reconnaissances faciales, ou les accepter, il n’y a que deux choix. Nous allons essayer de rendre le système plus fin. Tout cela est en cours d’étude”, lance Michelle Gilbert à Facebook France.

Avant l’entrée en Bourse

Si DPC comme Facebook semblent pleinement satisfaits, au collectif l’Europe contre Facebook, on remarque :

Le rapport de la DPC a été écrit en coopération avec Facebook. Il ne peut donc pas être considéré comme pleinement indépendant…

Pour Facebook, ce rapport apparaît comme une aubaine, l’occasion de peaufiner sa communication dans une période charnière. Le réseau social devrait générer plus de 4 milliards de dollars (3,1 milliards d’euros) de revenus cette année. Au printemps prochain, l’entreprise devrait entrer en Bourse, ce qui pourrait porter sa valeur à 100 milliards de dollars. Un évènement que Facebook ne veut pas voir terni par de nouvelles critiques.

Michelle Gilbert, directrice de la communication de Facebook France, remarque :

Nos utilisateurs doivent se sentir bien. Si nous n’avons pas leur confiance, Facebook n’a plus qu’à mettre la clef sous la porte. C’est pourquoi nous ferons en sorte d’être au point en juillet. Il faut en finir avec les fantasmes autour de Facebook.

“Fantasmes” alimentés par différentes procédures en cours, concernant notamment la nouvelle “Timeline”, et
ses paramètres de confidentialité.

A la DPC, Paula Nerney prévient : “rien n’est joué pour Facebook”. En juillet, un nouvel audit sera réalisé.

Nos conseils vont plus dans le sens d’une “meilleure pratique” que dans celui d’une mise en conformité avec la loi. Si Facebook met en œuvre nos recommandations, l’entreprise sera en conformité avec la loi irlandaise. Mais dans le cas contraire, nous disposons d’importants moyens de coercition, que nous n’hésiterons pas à utiliser. Vu la coopération dont à fait preuve Facebook, nous serions déçus si nous étions obligés d’utiliser de tels moyens…

Selon l’enquêtrice du bureau de protection des données, si Facebook ne met pas en œuvre les modifications nécessaires, la société“risque d’être poursuivie en justice.” Pas sûr que Facebook soit content dans ce cas de figure.


Illustrations par Tsevis, ArnoKath, Sean McEntee et boltron- via Flickr Creative Commons.

]]>
http://owni.fr/2012/01/10/protection-des-donnees-facebook-est-content/feed/ 4
Penser le futur du web http://owni.fr/2011/10/25/futur-web-moteur-recherche-donnees-reseau/ http://owni.fr/2011/10/25/futur-web-moteur-recherche-donnees-reseau/#comments Tue, 25 Oct 2011 16:41:02 +0000 Olivier Ertzscheid http://owni.fr/?p=84609

Qu’y aura-t-il demain sous nos moteurs ? Moteurs de recherche et réseaux sociaux occupent une place chaque jour plus prépondérante dans nos accès à l’information et à la connaissance. Ils suscitent également de vives interrogations, notamment dans leur capacité à rendre indexables des informations relevant indistinctement des sphères publiques, privées et intimes des contenus disponibles en ligne.

Enfin, inaugurés par le “like” de Facebook, les systèmes de recommandation se multiplient, venant concurrencer ou remplacer l’établissement de liens hypertextes et suscitant de nouveaux usages, de nouvelles métriques. Par ailleurs, la famille documentaire s’est agrandie : les encyclopédies sont devenus collaboratives, d’immenses silos documentaires sont apparus (YouTube, Flickr, etc.), les profils humains sont devenus des objets de “collection”.

Ce qui a réellement changé : capter l’attention

Question d’économies. Dans le contexte d’une abondance de contenus informationnels, prévaut une économie de l’attention hypothéquée par la capacité à mettre en place une économie de la confiance (Trust economy) avec la foule comme support (crowdsourcing), la modélisation de la confiance comme vecteur, et de nouvelles ingénieries relationnelles comme technologie.

La force des métadonnées. Pour les moteurs mais aussi pour les réseaux sociaux, toutes les données sont ou peuvent devenir des métadonnées, qui dessinent des comportements (pas uniquement documentaires) en même temps qu’elles permettent de caractériser la motivation de ces mêmes comportements. Chaque clic, chaque requête, chaque comportement connecté fait fonction de métadonnée dans une sorte de panoptique global.

Le web invisible ne l’est plus vraiment. Le défi technologique, après avoir été celui de la masse des documents indexés, devient celui de la restitution en temps quasi-réel du rythme de publication propre au web (“world live web”). Pour accomplir ce miracle, il faut aux outils de captation de notre attention que sont les moteurs et les réseaux sociaux, une architecture qui entretiennent à dessein la confusion entre les sphères de publication publiques, intimes et privées.

Rendre compte de la dissémination et du mouvement

La naissance de l’industrie de la recommandation et des moteurs prescripteurs. La recommandation existe de toute éternité numérique, mais elle est désormais entrée dans son ère industrielle. Moteurs et réseaux sociaux fonctionnent comme autant de prescripteurs, soit en valorisant la capacité de prescription affinitaire des “proches”, des “amis” ou des “collaborateurs” de l’internaute (boutons “like” et “+1″), soit en mettant en avant les comportements les plus récurrents de l’ensemble de leurs utilisateurs.

De nouvelles indexations. Après l’indexation des mots-clés, des liens hypertextes, des images, de la vidéo, des profils, il faut maintenant apprendre à indexer, à mettre en mémoire, la manière dont circule l’information, être capable de rendre compte de cette dynamique virale, capable de prendre en compte la dissémination, l’écho, l’effet de buzz que produisent les innombrables “boutons poussoir” présents sur chaque contenu informationnel pour lui assurer une dissémination optimale.

Navigation virale ou promenade carcérale ? L’approche fermée, propriétaire, compartimentée, concurrentielle, épuisable de l’économie du lien hypertexte que proposent les systèmes de recommandation, ne peut mener qu’à des systèmes de nature concentrationnaire. Des écosystèmes de l’enfermement consenti, en parfaite contradiction avec la vision fondatrice de Vannevar Bush selon laquelle la parcours, le chemin (“trail”) importe au moins autant que le lien. Les ingénieries relationnelles des systèmes de recommandation – de celui d’Amazon au Like de Facebook – ressemblent davantage à une promenade carcérale qu’à une navigation affranchie parce qu’elles amplifient jusqu’à la démesure la mise en avant de certains contenus au détriment de la mise au jour d’une forme de diversité.

Brassage des données dans un “jardin fermé”

Un nouveau brassage. La recherche universelle, désignant la capacité pour l’utilisateur de chercher simultanément dans les différents index (et les différentes bases de données) proposés par les moteurs de recherche, ouvre un immense champ de possibles pour la mise en œuvre d’algorithmes capables de prendre en charge les paramètres excessivement complexes de la personnalisation, de la gestion des historiques de recherche, de l’aspect relationnel ou affinitaire qui relie un nombre de plus en plus grand d’items, ou encore du brassage de ces gigantesques silos de donnés. Un brassage totalement inédit à cette échelle.

Le mirage des nuages. De rachats successifs en monopoles établis, l’extrême mouvement de concentration qui touche la médiasphère internautique fait débat. D’un immense écosystème ouvert, le web mute aujourd’hui en une succession de ce que Tim Berners Lee nomme des “walled gardens”, des “jardins fermés”, reposant sur des données propriétaires et aliénant leurs usagers en leur interdisant toute forme de partage vers l’extérieur. L’enjeu n’est alors plus simplement celui de l’ouverture des données, mais celui de la mise en place d’un méta-contrôle, un contrôle accru par la migration de l’essentiel de nos données sur les serveurs des sociétés hôtes, grâce à la banalisation du cloud computing : l’essentiel du matériau documentaire qui définit notre rapport à l’information et à la connaissance étant en passe de se retrouver entre les mains de quelques sociétés marchandes

Et tout ça pour quoi ? Il s’agit de porter à visibilité égale des contenus jusqu’ici sous-utilisés ou sous-exploités, pour augmenter leur potentiel marchand en dopant de la sorte le rendement des liens publicitaires afférents. Un objectif qui ne peut être atteint sans la participation massive des internautes.

La marchandisation de toute unité documentaire recensée

Le web personnel. La pertinence et la hiérarchisation d’un ensemble de contenus hétérogènes n’a de sens qu’au regard des intérêts exprimés par chacun dans le cadre de ses recherches précédentes. La condition sine qua non de la réussite d’une telle opération est le passage au premier plan de la gestion de l’historique des recherches individuelles.

Algorithmie ambiante. A la manière de l’informatique “ambiante” qui a vocation à se diluer dans l’environnement au travers d’interfaces prenant la forme d’objets quotidiens, se dessinent les contours d’une algorithmie également ambiante, c’est à dire mettant sous la coupe de la puissance calculatoire des moteurs, la moindre de nos interactions en ligne.

Marchands de documents. Derrière cette algorithmie ambiante on trouve la volonté déterminée d’optimiser encore davantage la marchandisation de toute unité documentaire recensée, quelle que soit sa sphère d’appartenance d’origine (publique, prive, intime), sa nature médiatique propre (image, son, vidéo, page web, chapitre de livre, etc…), sa granularité (un extrait de livre, un billet de blog, un extrait de vidéo …) et son taux de partage sur le réseau (usage personnel uniquement, usage partagé entre « proches », usage partagé avec l’ensemble des autres utilisateurs du service).

Une base de données des intentions

La recherche prédictive. Les grands acteurs du web disposent aujourd’hui d’une gigantesque “base de donnée des intentions” (concept forgé par John Battelle), construite à l’aide de nos comportements d’achats, de l’historique de nos requêtes, de nos déplacements (géolocalisation), de nos statuts (ce que nous faisons, nos centres d’intérêt), de nos “amis” (qui nous fréquentons). Une base de donnée des intentions qui va augmenter la “prédictibilité” des recherches. Et donc augmenter également leur valeur transactionnelle, leur valeur marchande.

Recherche de proximité et moteurs de voisinage. A l’aide de moteurs comme Intelius.com ou Everyblock.com, il est possible de tout savoir de son voisin numérique, depuis son numéro de sécurité sociale jusqu’à la composition ethnique du quartier dans lequel il vit, en passant par le montant du bien immobilier qu’il possède ou l’historique de ses mariages et de ses divorces. Toutes ces informations sont – aux États-Unis en tout cas – disponibles gratuitement et légalement. Ne reste plus qu’à les agréger et à faire payer l’accès à ces recoupements numériques d’un nouveau genre. Surveillance et sous-veillance s’affirment comme les fondamentaux de cette nouvelle tendance du “neighboring search.

Pourquoi chercher encore ? Le nouvel horizon de la recherche d’information pose trois questions très étroitement liées. Demain. Chercherons-nous pour retrouver ce que nous ou nos “amis” connaissent déjà, permettant ainsi aux acteurs du secteur de vendre encore plus de “temps de cerveau disponible” ? Chercherons-nous simplement pour acheter, pour consommer et pour affiner le modèle de la base de donnée des intentions ? Ou pourrons-nous encore chercher pour dmoteuécouvrir ce que nous ne savons pas (au risque de l’erreur, de l’inutile, du futile) ?

Les risques d’une macro-documentation du monde

Le web était un village global. Son seul cadastre était celui des liens hypertexte. Aujourd’hui, les systèmes de recommandation risquent de transformer le village global en quelques immeubles aux incessantes querelles de voisinage.

Un web hypermnésique et des moteurs omniscients. Aujourd’hui le processus d’externalisation de nos mémoires documentaires entamé dans les années 1980 avec l’explosion des mémoires optiques de stockage est totalement servicialisé et industrialisé. L’étape suivante pourrait ressembler à l’hypermnésie. Celle dont souffre Funès dans la nouvelle de Borges. Mais cette hypermnésie est aujourd’hui calculatoire, algorithmique, ambiante. Elle est massivement distribuée, ce qui lui confère cette impression de dilution, de non-dangerosité. Mais quelques acteurs disposent des moyens de l’activer et de tout rassembler. Pour l’instant ce n’est que pour nous vendre de la publicité, du temps de cerveau disponible. Mais que deviendrait cette arme hypermnésique entre les mains d’états ? Nous avons tendance à oublier l’importance de se souvenir puisqu’il est devenu possible de tout se remémorer.

Des enjeux de politique … documentaire. La deuxième question c’est celle de l’écosystème informationnel que nous souhaitons pour demain. Ne rien dire aujourd’hui, c’est consentir. Il est aujourd’hui absolument nécessaire d’ouvrir un débat autour de l’écosystème non plus simplement documentaire mais politique que les moteurs représentent, il est vital de s’interroger sur la manière dont cet écosystème documentaire conditionne notre biotope politique et social … Or toutes ces questions sont par essence documentaires, ce sont les questions que posent une macro-documentation du monde. Voilà pourquoi le rôle des professionnels de l’information est et sera absolument déterminant.


Billet initialement publié sur affordance.info, sous le titre “Qu’y aura-t-il demain sous nos moteurs ?”. Article de commande pour la revue Documentaliste, sciences de l’information, publié ici dans sa version longue. Article également déposé sur ArchiveSic.

Ertzscheid Olivier, “Méthodes, techniques et outils. Qu’y aura-t-il demain sous nos moteurs ?” in Documentaliste, sciences de l’information. Vol. 48, n°3, Octobre 2011, pp. 10-11. En ligne

Olivier Ertzscheid est également auteur d’un récent ouvrage sur l’identité numérique et l’e-reputation

Illustrations CC FlickR eirikref (cc-by), hawksanddoves.

]]>
http://owni.fr/2011/10/25/futur-web-moteur-recherche-donnees-reseau/feed/ 15
Open data >> défi accepté http://owni.fr/2011/07/31/open-data-challenge-accepted/ http://owni.fr/2011/07/31/open-data-challenge-accepted/#comments Sun, 31 Jul 2011 09:02:47 +0000 Alice Samson http://owni.fr/?p=75089 Municipalités d’Helsinky, ParisMunich, l’agglomération de Manchester et Pays-Basque… Les dix huit derniers mois ont vu l’explosion des politiques d’ouverture des données publiques en Europe. Appuyés par une directive du Parlement Européen et un intérêt citoyen croissant comme l’initiative de l’association Regards Citoyen ou l’annuaire de données Datapublica, gouvernements, villes et collectivités européennes sont nombreux à suivre cette tendance à la mise en ligne de catalogues de données en tout genre produits par leurs services.

Libérer (partiellement) les donnés est une chose, mais comment en faire profiter les citoyens ? Si du coté administratif le mouvement est enclenché, il reste encore à sensibiliser un public plus large sur l’importance de l’open data. Comment donner vie à ce matériau et libérer les kyrielles de gigas qui croupissent dans leur tableaux CSV ?

Des outils numériques pour rendre les données intelligibles

Certes, comme le souligne Simon Rogers du Guardian (fr/en) des logiciels gratuits tels Google Charts, Google Fusion Tables, Many Eyes ou Timetric peuvent être utilisés par tous pour produire des graphiques et des visualisations simples. Toutefois, la majorité des citoyens n’a ni le temps ni les moyens de décortiquer un tableau Excel de 5000 entrées ou de déchiffrer une base de données brutes.  Il s’agit de saisir les opportunités, autant sociales qu’économiques engendrées par ce déluge de données réutilisables en inventant des outils numériques capables de les digérer pour les rendre intelligibles, utiles et accessibles à tous. L’action conjointe des développeurs, graphistes et journalistes pour mettre en valeur les stocks de données est un enjeu majeur de la libération et de la réflexion sur les données.

A ce titre l’Open Data Challenge marque une étape symbolique dans le développement de ce nouveau champ de recherche. Piloté par l’Open Knowledge Fundation, soutenu par Simon Rogers, Tim Berners-Lee, Google, IBM et Microsoft, ce concours européen a collecté en deux mois près de 430 participations venues de 24 pays de l’Union Européenne en faisant plancher graphistes, développeurs et journalistes sur l’opportunité de créer ensemble des outils capables d’optimiser la libération des données auprès des citoyens.

Cliquer ici pour voir la vidéo.

20 000 euros de prix ont été remis à des plateformes innovantes de crowdsourcing citoyen pouvant appuyer le travail du data journaliste ou à des applications de visualisations de données utiles au quotidien. Aperçu des gagnants.

Znasichdani.sk sous-titré “Who makes business with the State ?” remporte le 1er prix des applications avec son interface simple qui révèle quelles personnalités influentes se cachent derrières chaque contrat signé entre l’État Slovaque et une entreprise, mettant ainsi à jour les conflits d’intérêts et autres soupçons de corruption. Malgré une licence fermée le développement d’un tel outil d’open data appliqué à l’échelle européenne serait une formidable opportunité en matière de transparence.

Dans le même esprit Open Corporate “The open database of the coporate world” est une plateforme de crowdsourcing mondiale qui, utilisant des outils de scraping a pour ambition de lier des données gouvernementales à celles d’entreprises pour comprendre la nature de leurs connexions.

Cliquer ici pour voir la vidéo.

Dans la catégorie outils qui “augmentent” le quotidien on retient par exemple le “Live London Underground Tube Map“, application anglo-saxonne qui indique instantanément la position exacte de toutes les rames du métro londoniens sur une carte du réseau. Elle donne à l’usager la possibilité de saisir le trafic global en temps réel et ainsi gérer ses trajets en fonction des ralentissements, accidents ou stations fermées. Une idée pas encore réalisable à Paris puisque la RATP bloque l’accès à ses données.

Dans le même esprit, l’application de visualisation de données “Bike Share Map” (UK) disponible dans une trentaine de villes dans le monde propose de visualiser l’emplacement des bornes et le nombre de vélos partagés disponibles sur chaque bornes en temps réel. Ici non plus, les données ne sont pas disponibles pour la ville de Paris qui semble avoir retiré l’autorisation d’utiliser les données des Vélib.

Toujours dans la catégorie transport en commun, des horaires bus de Manchester version “augmentée” :

De nombreuses souscriptions s’appuyant sur les séries de données européen récemment libérés ont été soumises. L’Open Knowledge Fundation a notamment retenue une application danoise qui permet d’envisager didactiquement l’ampleur de l’activité législative de l’Union Européenne. Sujets par sujets, de la santé aux transports en passant par le nucléaire et la culture, on visualise assez simplement les décisions prises et l’évolution des politiques menées par l’UE de 1950 à aujourd’hui.

A une échelle plus locale, on retient l’application néerlandaise Politiek Inzicht qui propose une visualisation par nuage de mots clés de la sémantique des interventions, des rapports et propositions de lois émises par chaque députés allemands sur un temps long. Se dégagent alors les sujets les plus abordés (“trending topics”), l’évolution du discours et des positions de chaque député du Bundestag.

Les propositions de visualisation sont également très instructives, jetez un oeil à celle-là qui cartographie les émissions de CO2 en Europe en géolocalisant usines et centrales électriques, principaux lieux d’émissions. Une carte offset montre où les entreprises européennes rachètent leur “compensation carbonne” dans le monde.

Le reste des applications pleines de promesses est visible sur publicdata.eu.

]]>
http://owni.fr/2011/07/31/open-data-challenge-accepted/feed/ 6
Les États s’ouvrent http://owni.fr/2011/07/29/les-etats-souvrent-open-data-open-government/ http://owni.fr/2011/07/29/les-etats-souvrent-open-data-open-government/#comments Fri, 29 Jul 2011 15:13:09 +0000 Pierre Alonso http://owni.fr/?p=74982 Le mouvement d’ouverture des données est lancé. L’open data se diffuse après les campagnes lancées par les pionniers, comme Michael Cross, dès 2006. Les États-Unis ont ouvert la valse avec l’arrivée de Barack Obama à la Maison Blanche et le lancement six mois plus tard du portail data.gov. Le portail britannique data.gov.uk est en ligne l’année suivant.

La fondation iFRAP s’est récemment intéressée à l’ouverture des données publiques en mettant l’accent sur “la propension légale ou coutumière (des États) à diffuser, sans demande expresse particulière émanent de leur société civile, des informations administratives à forte valeur ajoutée de façon à accroître leur degré de transparence”. D’où la distinction faite entre “open data” et “open government”.

Le premier consiste à “publier sur des sites dédiés des jeux de données (…) dans des formats susceptibles d’être ensuite réutilisés gratuitement par le public (société civile, entreprises) pour un usage propre”. Le second renvoie à “la capacité de l’administration [de] mettre de façon directe et spontanée à la disposition du public un certain nombre d’informations, lorsque celles-ci sont disponibles, sans sollicitation préalable, [soit] une politique de divulgation ‘proactive’ (Proactive Disclosure Policy)”. État de fait d’un côté, dynamique et volonté de le faire de l’autre. L’auteur de l’étude, Samuel-Frédéric Servière résume :

L’e-démocratie du point de vue des citoyens renvoie à l’open data, l’e-démocratie du point de vue des gouvernants à l’open government.

La fondation iFRAP, spécialisée sur les politiques publiques et les réformes en a tiré un classement. OWNI a utilisé les mêmes données, fournies par l’OCDE, pour visualiser les États qui s’ouvrent. Deux variables sont prises en comptes : le cadre juridique dans lequel les données sont publiées et le moyen utilisé pour les publier. L’OCDE s’est basés sur une typologie de 12 données :

  • les documents relatifs au budget
  • les rapports annuels des ministères y compris leurs comptes
  • les rapports d’audit
  • tous les rapports sur les politiques publiques
  • les contrats commerciaux au-dessus d’un certain seuil
  • la liste des fonctionnaires et leurs salaires, les jeux de données publiques
  • les informations décrivant les systèmes d’enregistrement, leur contenu et leur utilisation
  • les informations sur les procédures internes, les manuels et les directives
  • la description de la structure et du fonctionnement des institutions de l’Etat
  • le rapport annuel sur la loi sur la liberté d’information
  • les informations sur les procédures liées à la liberté d’information

Légende : Le chiffre qui apparaît à côté du nom de chaque pays correspond à un indice décrivant l’encadrement législatif de la publication ouverte de 12 types de données.

  • Rouge foncé (4) : La publication de la majorité des données est obligatoire en vertu de la loi (ex : Russie, Espagne, Estonie)
  • Orange (3) : La majorité des données est publiée en vertu de la coutume, sans encadrement juridique codifié. (ex : Brésil, Suède)
  • Orange clair (2) : Autant de données sont publiées en vertu de la loi et de la coutume (ex : Australie)
  • Jaune foncé (1) : Autant de données sont publiées en vertu de la coutume que non-publiées.
  • Jaune (0) : La plupart des données ne sont pas publiées.

La Hongrie, la Turquie et le Portugal ne sont pas les chantres habituels de l’open data. Ni les premiers pays auxquels on pense à propos d’open government. Idem pour la Russie, ce qui ne signifie pas forcément que les règles théoriques soient suivies d’effets… Ils disposent pourtant d’une politique de transparence encadrée par la loi. Parmi les douze catégories retenues par l’OCDE, onze sont l’objet d’une obligation législative de publication en Hongrie. Ce dispositif législatif stricte est typique des “pays « jeunes », soit en transition démocratique pour lesquels la vertu de transparence de l’action publique permet de constituer un volet de la lutte anti-corruption, soit récemment émancipés (…) et donc particulièrement réceptifs aux technologies internet” analyse la fondation iFRAP.

Pratique coutumière

Absence de dispositif législatif n’est donc pas synonyme d’absence de pratique comme le révèlent les exemples anglosaxons. En Grande-Bretagne, les pratiques coutumières prédominent, témoin d’une certaine maturité démocratique et de la tradition de la Common Law, la coutume soit le droit non codifié.

Les pays qui publient le moins parmi ces douze données sont assez inattendus : le Luxembourg et la Pologne (huit données non-publiées). Selon Samuel-Frédéric Servière, certaines données sont parfois accessibles très facilement, sans pour autant être publiées.

En Suède, les salaires des fonctionnaires ne sont pas disponibles en ligne, mais peuvent être obtenus par téléphone. La transparence fait partie de la tradition.

Une tradition et des habitudes qui ne sont pas toujours compatibles avec les pratiques dominantes concernant l’ouverture des données par les États, ce qui a valu à la Suède un rappel à l’ordre pour “non-transposition de la directive européenne de 2003 relative à l’accès à l’information publique”.

Légende : Le chiffre qui apparaît à côté du nom de chaque pays correspond à un indice sur la disponibilité des données.

  • Vert (1) : La majorité des documents étudiés sont publiés sur un portail central (Russie, Suisse).
  • Vert-bleu (2) : La majorité des documents étudiés sont publiés sur les sites de ministères ou d’agences gouvernementales. (France, Brésil, Canada)
  • Bleu (3) : La majorité des documents étudiés sont publiés sur d’autres sites (Australie)
  • Gris (4) : Autant de documents sont publiés sur un portail central que sur les sites des ministères et agences gouvernementales (Suède, Slovénie).
  • Jaune (5) : Autant de documents sont publiés sur les sites des ministères et agences gouvernementales que sur d’autres sites (Espagne)
  • Jaune foncé (6) : Autant de documents sont publiés sur un portail central, sur les sites des ministères et des agences gouvernementales et sur d’autres sites (Ukraine).

Autre différence notamment, la disponibilité des données mises en ligne. Dans la majorité des cas, ce sont les sites des ministères et des agences gouvernementales qui fournissent le plus de données. La Suède fait figure d’exception : les données publiques sont autant disponibles sur un portail central que sur les sites des ministères, signe là encore d’une importante accessibilité des données. La redondance de publication des données concourent aussi à leur pérennité.

De grands écarts existent entre les différentes données publiées. Seuls 5,5% ne publient pas les documents relatifs au budget et aux institutions et à leur fonctionnement alors que 64% des Etats interrogés ne publient pas les listes des fonctionnaires et leur salaires. Ceux qui rendent ces données accessibles sont engagés dans la lutte contre la corruption, à l’instar du Mexique ou de l’Italie qui ont un arsenal législatif rigoureux.

États en lutte contre la corruption, états post-autoritaires qui érigent des barrières législatives pour encadrer l’ouverture des données et États qui les publient par tradition ou conviction forment les trois grandes catégories des “open governments”.


Crédits Photo FlickR CC by-nc-nd Wallig

]]>
http://owni.fr/2011/07/29/les-etats-souvrent-open-data-open-government/feed/ 2
Discours d’investiture de la cinquième : essai de text mining http://owni.fr/2011/07/24/discours-dinvestiture-de-la-ve-essai-de-text-mining/ http://owni.fr/2011/07/24/discours-dinvestiture-de-la-ve-essai-de-text-mining/#comments Sun, 24 Jul 2011 12:42:16 +0000 Marie Coussin http://owni.fr/?p=74552 Billet initialement publié sur le datablog d’OWNI

Pour ce test, j’ai choisi les discours prononcés par les présidents de la Vème République lors de leur (première) investiture afin de pouvoir comparer des textes énoncés dans un même contexte.
Ils sont tous accessibles et exportables en PDF (faut pas trop en demander non plus…) sur le site de l’Elysée.
Pour lire le détail des textes :
Discours de Charles De Gaulle, 8 janvier 1959
Discours de Georges Pompidou, 20 juin 1969
Discours de Valéry Giscard d’Estaing, 27 mai 1974
Discours de François Mitterand, 21 mai 1981
Discours de Jacques Chirac, 17 mai 1995
Discours de Nicolas Sarkozy, 16 mai 2007

De Gaulle et Sarkozy, les plus bavards

Premier élément à comparer : la longueur des discours, dont la différence saute aux yeux une fois le nombre de mots extrait grâce au logiciel de traitement de texte.

Qui parle le plus, et de quoi ?

Pour rentrer un peu plus dans le détail des textes, j’ai essayé OpenCalais qui crée des metadonnées sur les noms d’entités, faits et évènements repérés dans un texte.
Dans ce cas précis de discours d’investiture, et avec sa version démo, OpenCalais n’apportait pas vraiment de valeur ajoutée : les lieux, personnes et institutions citées dans un discours d’investiture sont un peu toujours les mêmes.
Voilà ce qu’OpenCalais extrait pour le discours du Général De Gaulle :


J’ai ensuite testé le logiciel Tropes, pingué par notre collègue data Guénaël Pépin (@Reguen sur Twitter).

Fonctionnant en deux versions, anglaise et française, il offre quelques fonctionnalités d’analyses assez fines des discours : style d’énonciation, scénario de construction, verbes/adjectifs/substantifs les plus prononcés, etc.
Tropes permet aussi d’extraire des graphs (mais ils sont loin d’être esthétiquement exploitables) et surtout de faire facilement des recherches sur certains termes.
Pour donner une idée, quelques éléments d’analyse sémantique produits par Tropes :

J’ai utilisé Tropes pour isoler le nombre de mots prononcés par chacun sur trois champs lexicaux forcément utilisés par les orateurs :
– l’utilisation de la première personne ;
– la référence à la France et aux Français ;
– la référence à la République.

Ces données sont à mettre en relation avec la longueur respective de chaque discours (graphique n°1), visualisé de manière différente grâce aux widgets de Google Chart…

Les discours dans les nuages

Dernier outil utilisé, afin d’avoir une vue d’ensemble du ton du discours, ManyEyes et son générateur de nuages de mots.
Si elle ne peut clairement pas être considérée comme une analyse scientifique précise, cette technique permet d’associer visualisation esthétique, rapidité d’exécution et éléments d’analyse.
Pour plus de lisibilité, j’ai limité le nombre de mots à 80 et ai enlevé les mots non porteurs de sens dans cette situation (“qu’il”, “ceux”, “le”, “la”, etc.)
Général De Gaulle :

Georges Pompidou :

Valéry Giscard d’Estaing :

François Mitterand :

Jacques Chirac :

Nicolas Sarkzoy

Ces visualisations permettent de mettre en valeur certaines caractéristiques :
- chaque Président a un ou plusieurs thèmes qui ressortent de leur discours : “communauté” pour De Gaulle, “République” pour Pompidou, “changement” pour VGE, “tous” et “Français” pour Mitterand, “plus” pour Chirac et enfin “exigence” pour Nicolas Sarkozy.
- le discours de De Gaulle rappelle clairement le contexte historique dans lequel il a été prononcé : il y parle de “Dieu” et fait référence à “l’Afrique”, aux “africains” et la “Libération”.
Même effet pour Georges Pompidou : les références à “De Gaulle”, au “Général” sont très présentes, tout comme le champ lexical de la responsabilité et du sérieux “confiance”, “autorité”, “institutions”, “dépositaire”, “gravité”, “charge”, “devoir”.
- le discours de Giscard d’Estaing apparaît plus centré sur l’humain “femmes”, “jeunes”, “hommes” et les réformes qu’il entend mener “nouvelle”, “politique”, “conduirai”, “associera”, “droits”, “suffrages”.
- Avec des termes comme “peuple”, “communauté”, “majorité” mais aussi “monde”, “pouvoirs” “haute”, “ambition”, “véritable”, ‘millions” la narration de François Mitterand est davantage axé vers une vision de la France, de sa place dans le monde. On note également la référence à “Jaurès”.
- Le discours de Jacques Chirac met l’accent sur la “Nation”, la “République” et le champ lexical de la volonté : “ferai”, “changement”, “charge”, “victoire”, “commence”, “contre“.
- Enfin, celui de Nicolas Sarkzoy utilise beaucoup d’adverbes “toujours”, “jamais”, “aussi” et est marqué par la notion “d’exigence”, de vouloir “veut”.
Conclusion : sur des discours prononcés dans une situation similaire et relativement contrainte (parler de la Nation, de la République, des perspectives, etc.), ces outils simples de dataviz et d’analyse sémantique permettent de mettre en lumière des spécificités liées à chaque personnalité politique.

]]>
http://owni.fr/2011/07/24/discours-dinvestiture-de-la-ve-essai-de-text-mining/feed/ 8
[itw] Income, le datajournalisme appliqué http://owni.fr/2011/04/17/interview-income-le-datajournalisme-applique/ http://owni.fr/2011/04/17/interview-income-le-datajournalisme-applique/#comments Sun, 17 Apr 2011 17:14:15 +0000 Mirko Lorenz http://owni.fr/?p=57341 Le datajournalisme est au centre de toutes les attentions. Motivés par un mélange d’espoir et de peur, des journalistes, développeurs et lecteurs souhaitent que l’utilisation de données conduise à un journalisme augmenté. Mais une question reste en suspens: quelqu’un va-t-il payer dans cet océan de contenus gratuits? Il reste tout de même de l’espoir, comme le montre cette histoire.

La rapidité de la communication sur les réseaux a un effet secondaire: les concepts sont souvent trop utilisés et deviennent des buzzwords, puis déçoivent, avant même d’être prêts. Résultat, l’intérêt pour la chose diminue et l’insatisfaction le remplace. Le journalisme de données (#ddj pour data-driven journalism) est à cette croisée des chemins aujourd’hui. Bien que la plupart des intéressés s’accorde à dire que les données pourront à l’avenir être utilisées pour enrichir le journalisme et le rendre plus fiable, beaucoup s’interrogent.

La question la plus souvent posée reste “Mais en quoi est-ce différent de ce que l’on a déjà ? On parle de grandes infographies, c’est ça ?” C’est pourquoi nous avons, en mars dernier, publié un long papier intitulé Media Companies Must Become Trusted Data Hubs, où l’on tâchait de démontrer le potentiel futur des données et du journalisme.

Des exemples, SVP

On a besoin d’exemples montrant réellement comment les données peuvent faire la différence. Comme d’aider les lecteurs à comprendre ce qu’il se passe et à prendre de meilleures décisions: acheter une maison ou une voiture, choisir une université ou une carrière – tout ça, nous le faisons tous les jours en nous fondant sur ce qui pourrait marcher. Et pour cette raison, nous nous faisons souvent berner par le “Monde des 99 Centimes” : les promesses de succès faciles charriées par la publicité et les relations presses nous laissent souvent désemparés lorsqu’il s’agit de faire le bon choix.

Bien que l’on dispose d’une infinité de contenus et de mises à jour, il reste difficile de trouver des informations fiables, compréhensibles et dignes de confiance lorsque l’on doit prendre des décisions réellement importantes. La plupart des “conseils” ou des “offres” sont un savant mélange de psychologie de comptoir (“Possédez une nouvelle voiture pour 299€”) et d’algorithmes affichant des bannières qui clignotent. Tout ceci est construit sur de l’analyse de données: de grosses boîtes comme Google, McDonald’s ou Zara utilisent des algorithmes complexes avant de dépenser des millions dans des campagnes de communication. La jungle qui nous entoure est construite sur des données, et – regarde – ça clignote.

L’une des grandes promesses du journalisme de données est que cela peut changer. Qu’il existe un genre de journalistes qui peut creuser dans les données, en tirer du sens et découvrir ce qu’une situation ou un évènement recouvre réellement. Mais à l’exception de quelques médias qui travaillent là-dessus, où sont les pionniers qui arrivent avec des projets enthousiasmants ?

Aller plus loin : le projet “Income”

Voilà un exemple qui peut nous en apprendre beaucoup. Il s’agit d’une création de Catherine Mulbrandon, qui a étudié l’économie, travaillé dans la finance et ouvert un site web, Visualizing Economics, il y a quatre ans. Sur son site, les données remontent sur plusieurs décennies et couvrent de nombreux sujets, tels le prix de l’immobilier, les cycles économiques, l’inflation. Elle cherche clarifier ces sujets pour le commun des internautes.

Pour faire passer ce projet à l’étape supérieure, Mulbrandon a conçu un projet baptisé Income (revenu), où elle tente de visualiser comment les Américains gagnent leur vie, en prenant en compte de nombreux angles. Pour le financer, elle a utilisé la plateforme Kickstarter, une plateforme où de bonnes idées peuvent être présentées à des financeurs éventuels.

Catherine Mulbrandon a clairement trouvé son créneau. La somme nécessaire au lancement du projet, 6 000$, a été dépassée depuis longtemps. Ses mécènes continuent même à donner: au 15 avril 2011, un total de 209 soutiens a financé le projet à hauteur de 9 000$, et il reste 15 jours avant la fin de la collecte de fonds.

En comparaison des affaires du monde, cette petite histoire n’a rien d’exceptionnel. Mais au vu de la situation dans le milieu du journalisme, c’est très important. Mulbrandon a déjà reçu l’argent, et c’est largement plus que ce que perçoivent la plupart des auteurs de livres. Les commentaires sur le site de Kickstarter sont très positifs et soutiennent le projet. Ils soulignent à quel point “Income” répond à un besoin et fournit ce que de nombreux utilisateurs souhaitent comme information.

Début mars, nous avancions que les groupes de presse devaient devenir des plateformes de données dignes de confiance et ne plus chercher à accaparer l’attention, mais plutôt à fournir des réponses plus profondes. C’est exactement ce que fait “Income“, et en pratique, pas en théorie. Rencontre avec la créatrice de ce projet.

Interview de Catherine Maldbrandon: Le projet ‘Income’

Mirko Lorenz: Tout d’abord, félicitations pour votre projet. Avez-vous été surprise par cet engouement?

Catherine Mulbrandon : Bien que j’avais dans l’idée que le projet soit financé, je l’ai lancé parce que je voulais tester mon idée selon laquelle un groupe de personnes  (professeurs, financiers, journalistes, bloggers politiques, amateurs d’infographie) serait en mesure de payer pour des versions papier ou des copies en haute-définition de mon travail.

D’où vous est venue l’idée de commencer ce blog?

J’ai passé plusieurs années à travailler dans la finance et j’ai vu très fréquemment des clients avoir besoin d’information économique très basique pour comprendre l’environnement financier. Cela manquait aussi dans la couverture médiatique de l’économie. A l’université Carnegie Mellon, j’ai créé une série de posters sur l’économie américaine pour mon mémoire de maîtrise et j’ai décidé de continuer ce travail après mon diplôme, via mon blog.

Les revenus constituent un sujet pour tout le monde. Pourquoi est-ce que ce que vous essayez de couvrir n’est-il pas déjà fait?

Le revenu était l’un des sujets de mes trois premiers posters, en 2004. A l’époque, il y avait très peu de visualisations à propos des revenus mais, au fil du temps, le sujet est devenu de plus en plus populaire. Pourtant, ces infographies se penchent souvent sur les inégalités présentes et ne les placent pas dans un contexte historique plus large, prenant en compte les modifications de la structure de l’économie. J’ai dans l’idée, pour ce Guide Illustré, de faire converger en un même endroit toute l’information sur les revenus que je peux trouver.

Comment décririez-vous le travail que vous faites ? Un regard créatif sur les nombres ? Creuser plus profondément ?

Plusieurs personnes essayent de définir ce que je fais. Je pense qu’une combinaison de design de l’information et de datajournalisme est le mieux que je puisse trouver pour qualifier mon travail.

Votre projet se concentre sur un aspect de l’information quotidienne qui n’est pas bien couvert: aider le public à visualiser le contexte des changements économiques qui nous affectent. Pourquoi y a-t-il si peu de sites web qui se penchent sur les données sur le long-terme? Cela ne devrait-il pas être couvert partout?

Je pense que le problème est que personne ne va payer pour ça. Le gouvernement ? Les journaux et les magazines ? Une bonne partie de l’information économique est créée par le gouvernement, mais l’administration n’a aucune raison de la fournir au public d’une manière compréhensible. Les médias se concentrent sur l’actualité chaude et de nombreux groupes ou ONG présentent des données de façon biaisée.

Dernière question: avez-vous découvert des faits croustillants dans votre travail sur Visualizing Economics, dans ce projet ou un précédent?

Quand j’ai commencé à me pencher sur les disparités de revenus, j’ai pensé que les PDG et les stars étaient les mieux payés, qu’ils gagnaient 20, 50 ou 100 millions de dollars par an. Une somme que j’avais du mal à imaginer. Quand j’ai poussé plus loin l’enquête, j’ai vu que des managers de fonds spéculatifs gagnaient plus d’un milliard de dollars par an. On a récemment pu voir que le manager de fonds spéculatif le mieux payé se faisait 5 milliards par an.

]]>
http://owni.fr/2011/04/17/interview-income-le-datajournalisme-applique/feed/ 3