En 2011, la machine IBM Watson a battu aux Etats-Unis le meilleur joueur de Jeopardy, jeu consistant à retrouver la question correspondant à une réponse donnée. La résolution de ce problème demandait une analyse approfondie de contenus web et de ressources documentaires afin d’extraire de la connaissance rapidement et efficacement : c’est la problématique à laquelle le Text Mining répond.
Le Text Mining (ou encore Fouille de textes en français) est le domaine de la Data Science cherchant à extraire de la valeur des textes. Cette discipline est devenue incontournable avec l’émergence des données non-structurées qui représenteront, à horizon 2020, 80% des données générées sur le web et qui, aujourd’hui déjà représentent 80% des informations détenues par une entreprise. Il est donc nécessaire de préparer cette transition d’autant plus que 6% seulement des entreprises valorisent ces dites données.
En Text Mining, le contenu est étudié de 3 grandes manières par de :
L’analyse fréquentielle : avec des métriques basées sur la détection de données globales (longueur des textes, etc.) et caractéristiques d’un texte (mots clés, etc.).
L’analyse de connaissances : basée sur l’analyse des mots-clés et le mapping de connaissance en vue d’une classification de sujets ou l’extraction de règles de connaissances.
L’analyse de sentiments : basée sur l’analyse sémantique, le style d’écriture ainsi que des émotions transmises par l’auteur permettant de contextualiser un texte
Les applications sont assez diverses et permettent de répondre à des questionnements de décideurs sur des questions telles que la détection de fraude par exemple. Dans ce cas, les communications avec les assurés peuvent en effet être analysées pour estimer des dégâts ou bien détecter des demandes frauduleuses améliorant ainsi l’efficacité des calculs et en assurant un plus haut niveau de sécurité. De la même manière le Text Mining permet d’enrichir les enquêtes de satisfaction en annulant les limitations :
Des enquêtes quantitatives : dans ce cas, les questions sont fermées là où le Text Mining permet une plus grande variété des réponses pour capter les signaux faibles du marché qui sont parfois méconnus des entreprises
Des enquêtes qualitatives : dans ce cas, l’échantillon est bien trop faible pour établir des métriques là où le Text Mining permet une gestion rapide de gros volumes de donnée
Les évolutions sont rapides et il peut être difficile de suivre les développements du domaine. Pour ce faire, DataGenius a mis en place un partenariat de recherche avec l’Ecole des Mines de Saint-Etienne pour faire avancer l’état de l’art du Text Mining. Les premières applications réalisées à ce jour se font sur de l’analyse textuelle de blogs qui, couplée à des outils de Web Scraping, permet d’optimiser la politique de blogging des entreprises.
Le Text Mining peine cependant encore à se développer en France car les analyseurs de textes doivent être calibrés en langue française voire même être adapté au secteur d’activité pour apporter la meilleure qualité d’analyse. Néanmoins, la transition au Text Mining est nécessaire pour que l’entreprise ne subissent plus l’archivage des documents et autres comme un coût mais comme un moyen de générer de la valeur et s’assurer une compréhension plus exhaustive de son secteur. C’est face à l'explosion du volume de données textuelles disponibles dans votre entreprise que nous sommes prêts au sein de DataGenius à vous accompagner pour transformer ce challenge en une véritable opportunité
--
Taha Zemmouri