Les solutions historiques

Deux socles majeurs pour des solutions multiples

Jusqu’à présent le traitement de la donnée texte a été pris en charge par deux générations de technologies qui ont elles-mêmes été à l’origine de plusieurs types de produits ou de solutions, issus eux aussi d’un même socle technologique.

L’approche de type « mots clés »

La technologie de type « mots clés » a donné naissance à des produits ou des solutions de type « keyword search » ou des solutions basées sur des système dont l’approche repose sur le « comptage des mots ».

Oservations

Le même mot (verbe ou nom) peut avoir des sens différents (polysémie)

> le mot « table » = 11 sens différents
> le mot « prendre » = plus de 40 sens différents
> le mot « donner » = 49 sens différents
> le mot « set » en anglais = 464 sens différents

Le même mot peut même avoir des sens contraires :

> par exemple le mot « amateur » peut signifier « connaisseur » tout comme « débutant »

Cette approche n’intègre pas la gestion des synonymes

Ne retrouve que des documents comportant des termes exacts, écartant ainsi les informations aux idées proches à partir de termes différents

L’approche de type « sémantique-linguistique »

La technologie de type « sémantique linguistique » a donné naissance à plusieurs générations de produits ou de solutions de type « Semantic Search » plus « et » moins évoluées et performantes.

Oservations

Fonctionne sur la base de la lemmatisation, de l’analyse lexicale et syntaxique, également sur l’observation de règles grammaticales et de contrôles des relations entre les mots. Cette technologie se révèle assez lourde et couteuse en terme de calcul et de performances sur de gros volumes de données mais à l’avantage d’être assez précise.

La recherche de sens est souvent basée sur celui de chacune des phrases prise une par une et pas forcément sur le sens du contexte global. La fameuse complainte des interviewés « C’est une phrase retirée de son contexte » prend ici tout son sens.

La majeure partie des solutions basées sur ce type de technologie nécessitent l’initialisation et la mise à jour permanente de dictionnaires (ou ontologies) de la part des utilisateurs. Cette approche est assimilable à une démarche de type « projet informatique », assez différente (mais parfois complémentaire) d’une approche basée sur un outil simple et léger utilisable directement par un interlocuteur métier.

Approche de type « mots clé », « sémantique » ou « cognitive » , cela dépend vraiment de ce que l’on veut faire. D’une manière générale il n’y a pas de bonne ou de mauvaise solution. Pour un survol rapide sans forcément rentrer dans les détails du sens, opter pour une solution reposant sur une technologie de type « mots clés » est suffisant. Pour d’avantage de précision et des volumes de contenus pas très gros, les solutions reposant sur des technologies sémantiques linguistiques seront appropriées. Pour de gros volumes de données textes alors on privilégiera une approche de type cognitive.

Il est aussi important de notre point de vue que loin de s’opposer, dans certains cas il sera judicieux de combiner ensemble ces différentes approches.

Le lien entre entre les données d’un même sujet, d’une même thématique, c’est le contexte.