NEWS & EVENTSCOMMENT DONNER DU SENS AU BIG DATA ?
Général

24 juin 2022

COMMENT DONNER DU SENS AU BIG DATA ?

Tous les jours, 2,5 trillions d’octets de nouvelles données sont stockés. Sur l’ensemble des données stockées dans le monde, 90% existent depuis moins de 2 ans, 80% sont non structurées (texte, audio, image, vidéo).

L’enjeu principal auquel les entreprises sont aujourd’hui confrontées n’est plus l’exhaustivité des données, mais bien leur pertinence, c’est-à-dire leur validité, leur utilité, leur précision, leur consistance.

Comment donner un sens à toutes ces données ? Et, face à tant d’informations, comment isoler le signal du bruit ? L’utilisateur ne peut plus faire le tri et analyser de tels volumes, il a besoin d’une aide intelligente qui va lui pousser des suggestions qu’il validera.

BIG DATA

La réponse se trouve dans l’IAM (Intelligence Analysis Management), qui fournit un contexte nécessaire à l’identification de l’information la plus pertinente, capable de répondre à une problématique spécifique définie par nous, utilisateurs. Notre accès à l’information a évolué : nous sommes passés de la recherche à l’alerte. Mais avant de développer, regardons comment nous fonctionnons aujourd’hui.

Nous n’avons plus le temps et la patience de chercher activement l’information. Les services web nous habituent, en effet, de plus en plus, à nous fournir l’information dont nous avons besoin, à l’instant même – voire avant.

Par exemple, en tant qu’amateur de musique, j’apprécie que le système corrèle automatiquement mes écoutes avec celles d’autres utilisateurs pour me proposer des playlists qui me correspondent.

En tant qu’usager de la route, j’attends d’une application routière qu’elle m’informe d’un trafic anormal sur mon trajet habituel et me recommande une autre solution avant qu’il ne soit plus possible de changer de direction.

Positionnons-nous maintenant dans un contexte professionnel

  • En tant que vendeur, je veux pouvoir faire de la veille économique sur mon secteur et que le système puisse m’alerter sur certains points clefs, comme par exemple, le fait qu’un concurrent ait été racheté par une entreprise de même nationalité que l’un de mes prospects. La mise en place de cette veille intelligente permet d’étudier des milliers de documents tous les jours et de pointer les sujets importants pour mon activité.
  • En tant qu’agent du support client, je veux pouvoir disposer de toutes les informations Client contenues dans les différents systèmes de mon entreprise (achats, facturation, litiges en cours, etc.) afin de pouvoir répondre de façon optimum.
  • En tant que responsable RSE, j’ai besoin de connaître les actions mises en place localement par les différentes filiales de mon entreprise, de suivre l’actualité des réglementations, ainsi que les initiatives de mes concurrents.
  • Dans mon entité de cybersécurité, mon système de cyber-intelligence m’informe de la nature des milliers de menaces qui tentent de pénétrer mon système et me propose des réponses proportionnelles à la menace.

Pour cela il faut disposer d’une suite d’applications capables d’intégrer de grands volumes de données brutes issues d’un nombre varié de sources, les adapter afin qu’elles puissent correspondre à des cas d’utilisation spécifiques et contextuels, pour apporter de manière proactive des raccourcis à nos actions et décisions.

Ces outils sont un moteur de recherche capable de lire les 80% de données non structurées, qui les mettra à disposition d’un module d’analyse sémantique qui fera le lien entre toutes les informations contenues dans la masse documentaire.

L’analyse sémantique va extraire des entités « riches » et/ou « complexes », c’est-à-dire une information et ses attributs.

  • Pour une personne, cela sera, par exemple, des informations d’identification : « Mme Olivia », ainsi que la date, le lieu de naissance et l’adresse, qui lui sont attribués.

Nous pouvons ensuite extraire des évènements :

  • « Orange a annoncé la promotion de plusieurs personnes. Mme Olivia prendra la direction du Marketing des offres Livebox ».

Dans ce texte Mme Olivia est citée pour prendre la direction marketing. L’analyse fera le lien entre la personne et saura que le mot « Orange », dans ce contexte, désigne l’entreprise, et non pas la ville, la couleur ou le fruit.

Cette forte capacité de désambiguïsation est un élément très important car cela permet de faire le lien entre plusieurs phrases sans en perdre le sens.

« Lors d’une réunion du directoire, Orange a annoncé la promotion de plusieurs personnes. Mme Olivia prendra la direction du Marketing des offres Livebox. Elle a promu aussi M. Pierre au poste de CTO ».

« Elle » fait référence à Orange et non pas à Mme Olivia. Le système sera capable tout au long du texte de faire le lien entre les entités nommées, les événements, de reconnaître et classer les noms dans leurs contextes.

Pour que la plateforme fonctionne en autonomie, nous y avons ajouté un moteur de Machine Learning.

Revenons quelques années en arrière, un programme informatique traditionnel effectuait une tâche en suivant des instructions précises, et donc systématiquement de la même façon. Un système de Machine Learning ne suit pas d’instructions, mais apprend à partir de son expérience, il voit ses performances s’améliorer au fil de son enrichissement et au fur et à mesure qu’il est exposé à davantage de données.

On distingue différents types d’algorithmes de Machine Learning. Ils sont répartis en trois catégories : supervisés, non supervisés et par renforcement.

Dans l’apprentissage supervisé, les données utilisées pour l’entraînement sont déjà connues, le modèle de Machine Learning sait ce qu’il doit chercher parmi toutes les données qui lui sont présentées. À la fin de l’apprentissage, le modèle ainsi entraîné sera capable de faire la différence entre toutes les données présentées et de retrouver les mêmes éléments avec des données inconnues.

L’apprentissage non supervisé consiste à entraîner le modèle sur des données inconnues. La machine parcourt les données sans aucun indice, et tente d’y découvrir des liens ou des tendances récurrentes.

La troisième approche est celle de l’apprentissage par renforcement, l’algorithme apprend en essayant d’atteindre un objectif précis. Il pourra essayer toutes sortes de techniques pour y parvenir. Le modèle est récompensé s’il s’approche du but, ou pénalisé s’il échoue.

En tentant d’obtenir le plus de récompenses possible, il s’améliore progressivement.

En conclusion, notre plateforme d’IAM avec son moteur de recherche de données, ses moteurs d’analyse sémantique et de Machine Learning supervisé – constitue un avantage compétitif pour les entreprises.

Dans un monde où l’information disponible s’accroît de façon exponentielle, notre solution aide à appréhender plus facilement et rapidement les éléments essentiels issus d’une veille sectorielle ou stratégique. L’intelligence apportée par l’IAM d’OPPSCIENCE aux équipes dirigeantes permet d’améliorer la disponibilité et la qualité des données utilisées pour prendre les bonnes décisions.