jouvenot.com

Le big data fait son plein d’énergie avec Isaac Newton

Mettre en parallèle des raisonnements, des théories ou des sciences distinctes peut s’avérer fructueux ou à minima stimulant intellectuellement. Tentons donc l’expérience en confrontant la théorie des lois dites de conversion de Newton avec un sous-ensemble du digital : l’univers encore trop méconnu de la data dite structurée.

Comme l’univers, le big data est en expansion

Les lois du mouvement de Newton n’ont pas uniquement apporté un moyen de calculer la manière dont les corps se meuvent, mais ont également conduit à des principes physiques généraux et profonds. Parmi ceux-ci, se distinguent les lois dites de conservation selon lesquelles lorsqu’un système de corps, quelque soit sa complexité, se meut, certaines de ses caractéristiques ne changent pas. Quelques soient la turbulence ou l’intensité du mouvement certaines choses ne sont pas affectées.

Un premier parallèle peut être d’ores et déjà établi sous forme d’hypothèse : les systèmes de données (tels ceux qui évoluent dans cet univers digital en expansion que l’on nomme big data), exposés à de très fortes variations, comprendraient des variables immuables.

Une première intuition peut-être avancée en guise de tentative de réponse : les données structurées (ou encore données froides) feraient partie de ces variables qui ne changent pas et résistent précisément aux turbulences.

Le big data est rempli d’énergie

Continuons. Selon Newton, les trois caractéristiques conservées sont l’énergie, la quantité de mouvement et le moment angulaire (ou cinétique).

En science physique, on peut définir l’énergie comme étant la capacité de travail. Quand on élève un objet jusqu’à une certaine hauteur, contre la force de la gravitation, le travail accompli pour le hisser est proportionnel à la masse de cette objet, la force de gravité et la hauteur atteinte. En sens inverse, si on lâche cet objet, il peut accomplir exactement la même quantité de travail en retombant à son point initial. Ce type d’énergie s’appelle l’énergie potentielle.

Un second parallèle peut alors être effectué ici. Dans un système de données, l’effort à accomplir pour qu’une donnée effectue un mouvement la conduisant d’un état à un autre (par exemple du statut de donnée brute à celui de donnée traitée, du statut de donnée non vérifiée au statut de donnée vérifiée, du statut de donnée inexploitable au statut de donnée exploitable, etc.) serait proportionnel à l’effort qu’il faudrait pour la ramener à son état originel.

Une nouvelle intuition pourrait alors conduire à penser que cette hypothèse se vérifie compte tenu de la robustesse des données froides.

L’énergie du big data provient de l’homme

Poursuivons. En science physique toujours, l’énergie potentielle ne présente pas énormément d’intérêt en soi, mais la deuxième loi du mouvement de Newton introduit un élément nouveau et bien plus intéressant. Il y a un second type d’énergie nommé énergie cinétique. Quand un objet se meut, son énergie potentielle et son énergie cinétique changent toutes les deux. Mais le changement de l’une compense très exactement le changement de l’autre. A mesure que l’objet descend sous l’action de la gravitation, son mouvement s’accélère. Il s’avère que le décroissement de l’énergie potentielle est strictement égal à la moitié de la masse que multiplie le carré de la vitesse. Cette conséquence mécanique des lois de Newton prouve que la machine au mouvement perpétuel est impossible : aucun appareil mécanique ne peut avancer et travailler indéfiniment sans apport extérieur d’énergie.

Un troisième parallèle est alors tentant à ce stade. Aucun système de données ne peut se suffire à lui-même, et fonctionner indéfiniment, sans une intervention extérieure.

Les choses s’enchaînant, une nouvelle intuition émerge et invite à penser que tout système de données à besoin d’une intervention humaine, ou indirectement de l’intervention d’algorithmes eux même développés, et incessamment améliorés, par des humains.

La valeur des données repose sur l’homme

Pour établir une analogie, imaginons le cas d’un voyageur qui convertit ses euros en dollars. Les établissements de change possèdent des tables de taux, qui disent qu’un euros vaut par exemple 1,254 dollar. Ils déduisent aussi une certaine somme pour leur propre rétribution (une commission). En fonction d’un certain nombre de variables techniques, la valeur monétaire totale de la transaction est censée s’équilibrer : notre voyageur obtient une somme en dollars correspondant exactement à sa somme en euros, moins quelques déductions. Mais il n’y pas dans les billets ou les pièces de monnaies de chose physique qui d’une certaine façon se troque entre le billet en euros et le billet en dollars. Ce qui s’échange c’est la convention humaine que ces objets particuliers ont une valeur monétaire.

Un ultime parallèle est alors à faire. Lorsque des entreprises achètent des données, elles en payent le prix parce qu’elles reconnaissent à ces données une valeur particulière.

Et une dernière intuition apparaît pour apporter quelques premiers éléments de réponse de nature à valider cette hypothèse. Les données se voient attribuer une valeur particulière du fait :

  • Des traitements dont elles ont fait l’objet (contrôle, vérification, corrections, etc.) les rendant exploitables ;
  • Du respect de standards de qualités établis par certains opérateurs de données ;
  • De la confiance mise dans les établissements commercialisant ces données.
  • Du fait qu’elles appartiennent à la catégorie des données froides (relativement statiques, plutôt stables, durables…) ou celle des données chaudes (volatiles, rapidement obsolètes, éphémères…).

En sommes, le web qui est en soi un formidable laboratoire de recherche, reste encore à être explorer scientifiquement. Les multitudes d’expérimentations réalisées par les start up qui sont autant d’occasions de valider ou d’invalider des hypothèses, commerciales et non plus scientifiques, alimentent en continu ce gigantesque laboratoire dont est dores et déjà sorti quelque premières lois comme la théorie de la longue traîne, les lois de Moore, de Metcalfe ou de Gilder, et qui permettra sans doute d’en dégager de nouvelles.