L’utilisation des données et le partage des informations

Travaillant dans le domaine informatique depuis de nombreuses années, j’ai dépensé beaucoup d’énergie à concevoir et réaliser des systèmes qui emmagasinaient, bien que ce ne soit pas leur fonction première, de l’information de plusieurs provenances et domaines très différents. À mes débuts, ces données étaient seulement conservés par leur propriétaire et peu exploitées à d’autres fonctions que celles de leur système initial.

Après toute ces années, il est maintenant heureux de voir que cette quantité non négligeable d’information, recueillie par d’innombrables systèmes différents, tout comme les données recueillies manuellement et numérisées, sont devenues une source d’intérêt à plusieurs niveaux; la publicité, le marketing, les études des besoins et des attentes de clients, les analyses de tendances de marché, les statistiques sociales, etc.

Le web a ouvert des portes en nous permettant une intrusion dans ce monde fascinant de données diverses et il nous permet maintenant d’y interagir et de l’alimenter chacun à notre façon.

Une brique à la fois, cet édifice, en construction perpétuelle, devient lentement un monument d’une ampleur spectaculaire, mais tout aussi tentaculaire, nous plongeant dans une suite infinie de recherche et de liens à suivre. Et nous voici maintenant avec un nouveau type de professeur virtuel à portée de main.

Données privées des entreprises/services publics

Bien que schématisée depuis longtemps et popularisée dans les années 80, la spécialisation de l’informatique décisionnelle (« Intelligence d’Affaires / Business Intelligence ») a vraiment pris plus d’importante sur les marchés seulement depuis les 10 dernières années. Cette discipline offre une aide à la décision par le traitement, la transformation et l’analyse de cette masse d’information accumulée par les entreprises privées et publiques. Durant la dernière décennie, les organisations ont vraiment pris conscience du trésor qui dormaient dans leurs banques de données.

D’après Claude Malaison, en 2010, les entreprises ont dépensé 3,2 milliards US$ à travers le monde en matière de technologie pour capturer, forer et/ou analyser une grande variété de données.

Ce qu’auparavant les représentants des entreprises possédaient, soit une bonne connaissance d’une clientèle, est maintenant accessible à tous les membres de l’entreprise pour fins d’analyse et d’utilisation.

Que ce soit des actuaires, initiateur de généralisation permettant de simplifier les systèmes informatiques existants ou futurs, des gens du « marketing », utilisateurs habiles et générateurs d’idées de processus et systèmes ciblant des groupes types et apportant de nouveaux revenus, l’utilisation intelligente des données, amassées une à une, a permis de transformer à sa façon le type de systèmes informatiques à concevoir et s’est très bien intégrée dans de nouvelles spécialisations tel que le « e-commerce » et le « m-commerce ».

Dans ce même cheminement, l’analyse statistique de ses données a apportée plus que de nouveaux moyens de revenus à l’entreprise, il a aussi introduit un terrain fertile à l’émergence de nouvelles connaissances, que ce soit les habitudes d’achat elle-même ou tout simplement les tendances par type de clients.

Par exemple, aujourd’hui Hydro-Québec nous offre notre bilan de consommation réel et nous propose même des alternatives; un système simple, peu coûteux en développement et entretien à l’entreprise, mais très utile pour les clients. Par la suite, au sein de l’entreprise elle-même, basé sur ces mêmes données, Hydro-Québec peut faire des projections sur la quantité d’électricité à générer et les infrastructures requises pour planifier son avenir.

Aussi, l’entreprise peut plus facilement mesurer et analyser les impacts de ses actions et campagnes de promotion. Maintenant, les campagnes publicitaires sont très ciblées et orientées en fonction des multiples analyses des données de l’entreprise. Rien n’est laissé au hasard pour tenter de rallier le plus de clientèle et accroître son marché.

Données libre d’accès

Auparavant, des quantités énormes d’informations libres étaient rassemblées dans des lieux divers tel que des bibliothèques et librairies dispersées, et étaient plutôt réservées à seulement certaines catégories de gens, que ce soit une certaine élite dans un passé très éloigné ou des universitaires et scientifiques dans un passé pas si lointain.

Mais de nos jours, grâce à Internet, on est très loin de la copie à la main des informations pour les partager, des demandes d’autorisation fastidieuses pour l’accès à ces précieuses informations et de la recherche manuelle dans ces montagnes de livres. Mais, malgré tout le chemin parcouru, aujourd’hui encore, l’accès libre aux données n’est pas toujours très fluide, et ce principalement pour protéger certains types d’informations. Cela nous désole un peu mais nous rassure aussi.

Hormis les informations personnelles « protégées » accumulées par des outils sociaux comme Facebook, informations que nous partageons parfois de façon bien inconsciente, on a tout de même vu émerger bon nombre d’information libre grâce à des outils tel que l’encyclopédie Wikipedia, mais aussi des données rendues publiques tel que Google Public Data Explorer et NosDonnées.fr et provenant de diverses sources.

Des sources multiples de données libres totalement différentes mais toutes dirigées vers un but de diffusion et d’information. Ces nouvelles « bibliothèques », à accès facile et gratuit, en permettent alors une utilisation plus générale. Ce n’est pas que savoir qu’une connaissance aime aller à la plage dans un pays particulier m’intéresse beaucoup mais savoir que je peux accéder à cette information si elle m’apparaît valable un jour, voilà le gain.

Un bémol cependant; un des impacts négatifs de la démocratisation et du libre accès est que, comme les informations publiées sur internet par des particuliers ou organisations sont très nombreuses, il est devenu presque impossible d’effectuer un tri initial, et il faut sans cesse en vérifier la véracité, pertinence et précision avant de les utiliser efficacement.

Le tout forme un ensemble hétéroclite d’informations véridiques et erronées mais d’où peux quand même émerger des idées intéressantes. Il faut cependant souvent s’en remettre à la crédibilité et/ou à la e-réputation de l’individu ou de l’organisme émetteur pour s’y retrouver adéquatement.

À titre d’exemple de données publiques accessibles et utiles, certains sites regroupent visuellement les actes criminels sur une carte, que l’on peut ensuite consulter avant de songer à habiter un quartier donné dans une ville telle que Barrie en Ontario ou Canberra en Australie. Information utile pour un nouvel arrivant de ces localités qui n'a pas accès au bouche à oreille habituel.

L’autonomie des utilisateurs « amateurs » et la collaboration sociale apporte au traitement des données libres une dynamique sans commune mesure avec les méthodes de communication et de partage utilisées par le passé. Plus besoin de connaître quelqu’un qui possède les connaissances qui nous manquent, il suffit d’accéder à ces personnes via les outils sociaux ou d’accéder directement aux informations manquantes si elles sont disponibles sur la toile.

L’apprentissage personnel occupe aussi une grande part dans cette autonomie, selon le type d’ « amateur », mais la collaboration est aussi nécessaire pour un traitement plus large de certaines informations. Personne n’est « expert » dans tous les domaines à la fois et le temps requis pour couvrir tous les champs d’expertise requis à la résolution d’un problème est parfois plus grand que le bénéfice attendu.

La collaboration permet ainsi d’augmenter les possibilités de données croisées, que l’on pense simplement au mariage de données sur la santé d’une région et de données sur l’environnement de cette même région; comme par exemple dans le cas de Fort Chipewyan et des études sur la pollution potentielle des lacs par les sables bitumineux.

Le phénomène d’explosion des volumes de données

Communément nommé « Big Data », il s’agit maintenant d’une masse d’information qui devient trop volumineuse pour un traitement aisé.

Selon certains articles, disponibles sur internet, il semble qu’en 2011 l’humanité a créé environ deux zetta octets (Zo) de données numériques, soit deux millions de To.

On a dépassé, et de loin, la capacité de la bibliothèque d’Alexandrie, mais le principe demeure toujours le même soit accumuler un nombre considérable d’information, les traiter, les analyser, les généraliser et en faire éclore de nouveaux concepts.

Et comme il faut donc tenter de s’y retrouver dans ce chaos, de nouveaux outils, tel un type moins commun de base de données appliquant la théorie des graphes pour conserver cette masse et des composants logiciels comme Hadoop pour traiter ces données, sont devenus nécessaires.

Et, comme il semble aussi exister une limitation au nombre d’information que le cerveau humain peut traiter, de nouvelles façons d’organiser ces informations sont aussi requises pour lui permettre de les assimiler et de les analyser; que ce soit simplement par l’usage de « tag » plus universel ou une première classification automatisée mais intelligente.

Selon un article d’Alain Bastide sur le site indexel.net, IBM nous indique que 90% des données des entreprises seraient encore inexploitables, car noyées, partielles ou simplement non consolidées. Et nous indique aussi que Jeff Jonas, directeur scientifique du département « Analytics » de IBM, estimait en 2011 que les entreprises les plus chanceuses sont capables d’analyser 7% de leurs données tout au plus.

Et Alan Mitchell, expert britannique de la question des données, nous indique que selon lui, face à cette masse d’information, le principal défi est celui de la logistique de l’information : comment transmettre la bonne information aux bonnes personnes, au bon format, au bon moment, pour éclairer les actions à mettre en place.

L’apport humain

Les essais et erreurs automatisés afin de croiser les informations pour en faire quelque chose de cohérent requiert encore quelques propriétés humaines pour les valider, utilisant notre faculté de synthèse et de généralisation des informations, pour arriver à un nouveau résultat.

IBM met en garde contre le déluge informationnel en invoquant une nouvelle « loi » de l’informatique : « Plus la puissance de calcul des ordinateurs progresse et plus les entreprises deviennent bêtes ».

Ainsi, malgré tout l’avancement et bien que l’apport humain tend à diminuer avec le temps et l’intelligence des procédés, le cerveau humain est souvent encore requis pour valider et donner de la valeur aux différents résultats.

Mais il faut bien noter qu’à toute donnée on peut toujours faire dire n’importe quoi et son contraire, selon le contexte et son intérêt bien sûr.

Évolution sur une période d’un an

De plus en plus d’information « non sensible » est donc mis à la disposition des « amateurs » grâce à internet. Et cette année, dans leur évaluation, certains spécialistes mettent de l’avant l’utilisation des données comme un point majeur du courant 2013.

À prévoir;

Accès de moins en moins difficiles à l'information et des outils moins complexes et onéreux utilisables par plusieurs et non seulement par certains « expert » ou entreprises.

Par exemple, Vancouver a rendu publique récemment les données brutes relatives à la liste des édifices de logements locatifs à problème. Plus besoin de consulter le site de la Régie du logement, nous devrions donc voir bientôt apparaître l’applicable Google Maps correspondante. Pour un nouvel arrivant, c’est une information très intéressante.

Pour la Ville de Montréal, l’équivalent n’est pas encore prévu mais une porte est tout de même ouverte car Montréal a déjà débuté le virage vers les données ouvertes.
Accroissement du « Crowdsourcing » public servant l’intérêt général. Le « Crowdsourcing » est une technique qui consiste en une collaboration d’un grand nombre de personne plutôt que de confier la tâche à une seule personne ou petit équipe ne détenant pas toute les connaissances requises pour solutionner un problème, extraire un concept à partir d’une masse d’informations très grande ou enrichir une source de données existantes.
Diversification du « Social CRM » au sein des entreprises. C’est un concept qui consiste à placer le client au centre de sa stratégie en le faisant ambassadeur de sa marque par son enthousiasme face à l’entreprise sur les réseaux sociaux. Une part du succès de ces actions est rendu possible par l’utilisation judicieuses des données disponibles sur ces mêmes réseaux sociaux pour développer les bonnes stratégies à adopter.
Utilisation accrue du « Pull marketing », consistant à créer une demande plutôt que de se concentrer sur la vente d’un produit, par le bouche à oreille sur les médias sociaux. Ces actions sont aussi rendu plus aisées par l’analyse des données des réseaux sociaux.

Évolution sur une période de cinq ans

Dans les prochaines années, la tendance de partage de certaines informations devraient continuer de s’accentuer, et de plus en plus de sociétés y verront leur intérêt, ne serait-ce que pour demeurer compétitifs sur les marchés et seront peut-être aussi influencées par les succès de leur compétiteurs.
Après avoir été multiplié par neuf entre 2005 et 2010, une étude d’IDC s’attend à ce que le volume de données soit encore multiplié par sept dans les cinq ans à venir. Et, toujours selon IDC, les dépenses de stockage seront les plus importantes (plus de 61%) au niveau des investissements en infrastructure.

D’où l’utilisation grandissante du « Cloud computing » comme solution aux problèmes d’entreposage et toute sorte d’ingénieuses et originales nouvelles façons d’entreposer ces monstrueuses données, tel que les conteneurs flottants de Google... pourquoi pas!

Évolution sur une période de vingt ans

La mise en commun accélère le processus. Donc, à cette vitesse, il est difficile de prévoir les changements sur une si longue période. Beaucoup de facteurs vont influencer le processus, que ce soit la technologie mais aussi les changements de mentalité pour la liberté des accès aux données.

Pour les « amateurs », le libre accès est primordial. Le partage des informations participe grandement à l’innovation et accroit les possibilités de créations nouvelles. Leur désir toujours croissant d’accéder aux informations pour les comprendre, les analyser, les exploiter et/ou les enrichir à des fins sociales est un moteur sans fin.

Mais, du point de vue des possesseurs de l’information, la grande limitation devrait malheureusement continuer d’être le point de vue du capitalisme; les données étant encore souvent utilisées et partagées dans un but principalement lucratif.

Donc, à mon humble avis, aucune grande révolution sur le mode de fonctionnement fondamental de l’humain n’est à prévoir pour ce domaine. Cela va probablement se traduire par des accès encore restreints à certaines données d’entreprises. Ces décisions de retenue par les entreprises pour conserver leur pouvoir concurrentiel demeureront certainement un frein à l’intelligence collective qui pourrait en faire quelque chose de totalement inédit si elles étaient publiées.

D’autres freins plus négatifs, mais tellement humain, pourraient malheureusement aussi continuer de tenter de gagner du terrain, tel que le désir de maintien dans l’ignorance le plus possible de gens pour pouvoir exercer un certain contrôle sur leur actes et ainsi garantir une certaine forme de pouvoir à certains; que ce soit des idéologies restrictives, des religions, des régimes politiques, des grandes entreprises, etc. La désinformation est une arme puissante utilisant les même canaux de communication que la connaissance générale. Mais l’univers des blogues, par leur liberté de parole, tend déjà à contrebalancer ces freins et, avec de la chance, ne devraient pas perdre son effet dans le futur.

Conclusion

Les regroupements d’« amateurs » passionnées et d’ « experts » généreux, l’entraide via des outils sociaux et des outils de traitement des données de plus en plus variés et efficaces accélèrent les découvertes et sont d’excellents catalyseurs pour l’avancement dans tous les domaines imaginables.

Et selon la tendance de progression, à une échelle de décennies, l’appropriation générale et le traitement de l’information, qui a déjà fait des pas de géants, ne devraient pas ralentir, sinon subir les quelques hochets périodiques à tous changements.

L’appât monétaire demeurant probablement le pourvoyeur le plus ingénieux pour l’utilisation de l’or noir du 21ème siècle qu’est la donnée (et non, ce n’est pas seulement l’eau !), l’argent se met ainsi au service de la communauté bien malgré lui.

Imaginez maintenant un accès à toute les informations du monde. Est-ce vraisemblable compte tenu de la nature humaine? Et interrogation à ne pas balayer sous le tapis : qu’en ferons-nous vraiment?

Verrons-nous l’apogée de « Big Brother » et l’accroissement de la cyber-surveillance généralisée? Pourrons-nous demeurer discret tout en restant connecté… et le voudrons-nous?

Il est probablement utopique de penser que seulement du positif peux découler de l’utilisation des données libres mais, basé sur l’histoire des découvertes et utilisations passées, l’intelligence humaine finit toujours par y faire son chemin.

Il ne faut pas ne pas négliger l’adaptabilité de cette intelligence humaine et son haut niveau de créativité dans aucun domaine. Déjà plusieurs y travaillent et il n’y a pas de raison que cela s’arrête!

Mon tout premier blogue

Pages

Activité E : Synthèse