28 juin 2022
QU’EST-CE QUE LE TRAITEMENT DU LANGAGE NATUREL (TAL) ?
Le Traitement Automatique du Langage Naturel (TAL) est un des domaines de recherche les plus actifs en science des données depuis plusieurs années, il est à l’intersection du Machine Learning et de la linguistique. Il a pour but d’extraire des informations et une ou plusieurs significations d’un contenu textuel. Il trouve de nombreuses applications dans la vie de tous les jours :
- Traduction de texte (DeepL par exemple)
- Correcteur orthographique
- Résumé automatique d’un contenu
- Synthèse vocale
- Classification de texte
- Analyse d’opinion/sentiment
- Prédiction du prochain mot sur smartphone
- Extraction des entités nommées depuis un texte
- etc.
Un sous ensemble du TAL est l’analyse sémantique qui utilise diverses méthodes informatiques dédiées au traitement du langage humain. Il est important de différencier le traitement automatique des langues et l’analyse sémantique.
Le TAL s’appuie sur plusieurs approches :
- Linguistique, avec l’établissement a priori des règles en étudiant le langage.
- Statistique, avec pour base l’analyse de corpus importants, à partir desquels la machine va extraire des règles grâce à l’apprentissage automatique (machine learning).
- Hybride, situées entre linguistique et statistique qui permettent d’obtenir de meilleurs résultats.
L’analyse sémantique passe typiquement par deux étapes d’analyse :
- Lexicale ou morphologique, qui permet de découper un texte en lexèmes (mots et expressions) ;
- Syntaxique, qui s’appuie sur les règles grammaticales pour définir quelles fonctions ont les mots à l’intérieur d’un texte, et les relations entre eux (ex : relation entre sujet et objet).
L’analyse sémantique permet d’apporter une structure aux données textuelles non-structurées afin d’en extraire des entités, des termes et des relations.
Bee4sense, la plateforme d’analyse de données d’OPPSCIENCE intègre des fonctions avancées d’indexation et de recherche sémantique permettant aux utilisateurs de mettre en œuvre des fonctions de text mining. Ces technologies fonctionnent sur trois niveaux :
- Le niveau du mot (analyse des termes) : le système traite la pertinence de termes spécifiques au sein d’un corpus documentaire, en utilisant des méthodes statistiques de gestion des mots clés.
- Le niveau de la phrase (analyse morphosyntaxique) : le système traite la nature des mots dans les phrases (nom, verbe, adjectif, complément, etc.) pour permettre d’identifier des informations et des entités-clés.
- Le niveau du discours : le système traite le texte comme un graphe et analyse les relations détectées entre les entités et ce, quelle que soit leur position dans l’ensemble du document ainsi que la longueur de celui-ci.
Par ailleurs, Bee4sense permet d’effectuer des corrections et de les répercuter à la fois au niveau des règles sémantiques et dans l’historique indexé.
Les principales fonctions sémantiques accessibles sont :
- L’analyse morphosyntaxique, qui permet d’identifier la nature d’un terme (verbe, nom, adjectif) et son lemme (forme normalisée qui ne prend pas en compte le genre, le nombre et les formes fléchies).
- La recherche de termes en fonction de leur position absolue ou respective, ou en suivant des critères de navigation au sein du document.
- L’extraction des entités nommées (organisations, personnes, fonctions, lieux, monétaire, date…).
- L’analyse terminologique, soit l’extraction et la structuration de terminologies pour repérer des termes pertinents dans un domaine précis et les structurer entre eux selon des relations simples (ordinateur => ordinateur de bureau, ordinateur portable).
- L’analyse de relations entre concepts (parents/enfants, filiales, concurrence…).
- L’extraction de faits ou d’événements (calendaire, politique, économique…).
- L’analyse de sentiments ou d’opinions.
- Un module de catégorisation se reposant sur un plan de classement prédéfini (classification supervisée).
- Le clustering de documents (classification non supervisée).
- L’analyse tendancielle (fréquence d’occurrence statistique d’un concept ou d’un terme sur une échelle de temps).