Invention - Europe, le portail des inventeurs, des inventions et des innovations en Europe
Invention - Europe, le portail des inventeurs, des inventions et des innovations en Europe
 
Invention - Europe
Menu du site
Google

Recherche
Sondages
Vivez - vous de votre invention ?

· Je vis très bien !
· Je vis bien !
· Je vis !
· Je survis !

[ Résultats | Sondages ]

Votes: 2304 | Commentaires: 32

Newsletter
Inscrivez-vous a notre
Newsletter !
Votre e-mail :

Format 

Inscription Avancée.
Membre
 Bienvenue visiteur
Devenir membre



L'enregistrement est gratuit et donne le plein accès au site

 Enregistrement
 Connexion :
Surnom :


Mot de passe :


Se souvenir de moi

Membre(s) :
Dernier : Aujourd'hui :0
Dernier : Hier :0
Dernier : Total :2659
Dernier : Dernier :
oihi
Membre(s) : En ligne
Membre(s) : Membre(s) :0
Visiteur(s) : Visiteur(s) :37
Total : Total :37
 Membre(s) en ligne
Aucun membres en ligne
Invention - Europe
Apprendre à lire aux ordinateurs
  Posté par : woumathias, le lundi 28 février 2005 - 07:45:19
Histoires & Passés

Si dans un téléphone, on écoute les sons qu’émettent un Minitel, un fax ou un micro-ordinateur pour échanger des données, ils se présentent à nous comme un sifflement suraigu bourré de parasites : le message semble parfaitement inintelligible. A l’inverse, alors que notre propre langage nous paraît simple et clair, la machine, elle, n’y détecte rien de cohérent.

L’utilisation de la parole comme mode de communication entre un homme et une machine a été largement étudiée au cours des dernières années. C’est depuis, en fait, 1945 que les chercheurs commencèrent à s’intéresser à la " conversation entre un homme et une machine ". Mais comment une machine pourrait-elle se munir d’une " oreille " ? Par quel dispositif peut-on réaliser cette communication homme-machine ? Comment la machine traite-elle les informations qu’elle reçoit ? En quoi cela peut-t-il servir ?



Pour répondre à cela, nous allons tout d’abord faire un historique du sujet, faire l’analyse du signal de parole, puis traiter les différentes méthodes employées pour réaliser un système de reconnaissance vocale, et enfin donner quelques applications si petites seront-elles.

HISTOIRE RACONTE…

La reconnaissance de la parole est une discipline récente. Vers 1950 apparut le premier système de reconnaissance de chiffres, appareil entièrement câblé et très imparfait. Vers 1960, l’introduction des méthodes numériques et l’utilisation des ordinateurs changent la dimension des recherches. Néanmoins, les résultats demeurent modestes car la difficulté du problème avait été largement sous-estimée, en particulier en ce qui concerne la parole continue. Vers 1970, la nécessité de faire appel à des contraintes linguistiques dans le décodage automatique de la parole avait été jusque-là considérée comme un problème d’ingénierie. La fin de la décennie 70 voit se terminer la première génération des systèmes commercialisés de reconnaissance de mots. Les générations suivantes, mettant à profit les possibilités sans cesse croissantes de la micro-informatique, posséderont des performances supérieures (systèmes multilocuteurs , parole continue).

On peut résumer en quelques dates les grandes étapes de la reconnaissance de la parole (cf Techniques de l’ingénieur, vol.H1 940, p.3) :

• 1952 : reconnaissance 10 chiffres, pour un monolocuteur , par un dispositif électronique câblé
• 1960 : utilisation des méthodes numériques
• 1965 : reconnaissance de phonèmes en parole continue
• 1968 : reconnaissance mots isolés par systèmes implantés sur gros ordinateurs (à 500 mots)
• 1969 : utilisation d’informations linguistiques
• 1971 : lancement du projet ARPA aux USA (15 millions de dollars) pour tester la faisabilité de la compréhension automatique de la parole continue avec des contraintes raisonnables
• 1972 : premier appareil commercialisé de reconnaissance de mots
• 1976 : fin du projet ARPA ; les systèmes opérationnels sont HARPY, HEARSAY I et II et HWIM
• 1978 : commercialisation d’un système de reconnaissance à microprocesseurs sur une carte de circuits imprimés
• 1981 : utilisation de circuits intégrés VLSI (Very Large Scale Integration) spécifiques du traitement de la parole
• 1981 : système de reconnaissance de mots sur un circuit VLSI
• 1983 : première mondiale de commande vocale à bord d’un avion de chasse en France
• 1985 : commercialisation des premiers systèmes de reconnaissance de plusieurs milliers de mots
• 1986 : lancement du projet japonais ATR de téléphone avec traduction automatique en temps réel
• 1988 : apparition des premières machines à dicter par mots isolés
• 1989 : recrudescence des modèles connexionnistes neuromimétiques
• 1990 : premières véritables applications de dialogue oral homme-machine
• 1994 : IBM lance son premier système de reconnaissance vocale sur PC
• 1997 : lancement de la dictée vocale en continu par IBM

1971, année charnière pour la recherche comme le feu dans le silex…

La plupart des informations suivantes sont tirées de " Synthèse, reconnaissance de la parole " (Marc Ferretti et François Cinare).

En 1951, S.P. Smith présente un détecteur de phonèmes ; une année après, K.H. Davis, R Biddulph et S.Baleshek annoncent la première machine à aborder la reconnaissance de manière globale : les dix chiffres "zero" à "nine" sont reconnus analogiquement avec un bon taux de réussite pour une seule voix. En 1960, P.B. Denes et M.V. Matthews, pour reconnaître les dix premiers chiffres, comparent globalement les représentations temps fréquence, numérisées et normalisées en durée totale : le taux d’erreur est nul pour un seul locuteur et s’élève à 6% pour cinq locuteurs ayant participé à un apprentissage.

H.F. Olson et H.Belar envisagent, en 1961, la reconnaissance d’unités phonétiques autres que les phonèmes : leurs unités sont des "syllabes phonétiques" que le locuteur doit articuler séparément ou, du moins, avec une chute importante du niveau sonore en guise de séparation ; il s’agit donc presque d’une reconnaissance par mots, étant entendu que ces "mots" sont courts et que leur répertoire est limité : 2000 syllabes suffisent à couvrir 98% des besoins de la langue anglaise.

J.Dreyfus-Graf met au point en 1961 son "phonétographe", appareillage analogique composé de vingt filtres passe-bande et de circuits identificateurs de phonèmes . Le phonétographe utilise des "compresseurs sélectifs" qui augmentent l’émergence de certains phonèmes ; obtenu en temps réel, le résultat est spectaculaire ; cependant, l’appareil ne fonctionne qu’avec un seul locuteur qui doit adapter sa diction à la machine : hauteur, intensité, rythme très faibles.

Après avoir constaté que l’identification des phonèmes dans le signal de parole est un problème beaucoup plus compliqué qu’ils ne l’imaginaient, les chercheurs se tournent, entre 1965 et 1970, d’une part vers la reconnaissance par mots isolés en vue d’applications pratiques comme la commande vocale, d’autre part vers l’utilisation d’informations de niveau linguistique supérieur avec lexique et syntaxe , pour compléter le message vocal reconnu au niveau phonétique. Cette seconde approche prend le nom, quelque peu abusif, de "compréhension automatique de la parole".

1971 est une année charnière à double titre. D’abord, elle voit la première réalisation commerciale en reconnaissance vocale : "le Voice Command system" de J.J.W. Glenn et M.H. Hitchcok, appareil autonome qui reconnaît de manière fiable 24 mots isolés après cinq cycles d’apprentissage par le même locuteur. L’analyse du message est effectuée par un banc de seize filtres ; chaque mot est représenté par huit événements prélevés aux instants de plus grande variation interne du message. Cette normalisation temporelle, ainsi que les traitements d’apprentissage et de reconnaissance, sont confiés à un mini calculateur incorporé.

Aux Etats-Unis, l’importance des recherches sur la parole a beaucoup varié au cours des dernières années. A l’effort de recherche particulièrement intensif correspondant au projet SUR (Speech Understanding Research) de l’Arpa (Advanced Research Projects Agency), succède maintenant un effort plus mesuré. Les systèmes mis alors au point font aujourd’hui l’objet de recherches limitées (BBN), sont développés en vue d’applications industrielles (Harpy), ont été commercialisés (VIP 100) ou ont été abandonnés (Dragon).

En ex-URSS, les recherches dans ce domaine ont commencé très tôt et restent à l’heure actuelle très actives. Mais à la différence des équipes américaines qui ont développé rapidement d’énormes systèmes de compréhension de la parole, les équipes soviétiques n’ont que très récemment abordé l’étude des niveaux syntaxique et sémantique ; elles sont à l’origine de l’utilisation de la technique de "programmation dynamique" dont l’emploi s’est maintenant partout généralisé.

En France, les recherches ont démarré vers 1970, et plusieurs laboratoires de recherches ont pu mettre au point différents systèmes de reconnaissance vocale avec plus ou moins de succès, ces laboratoires mettant l’accent sur le support de reconnaissance : mots isolés, syllabes, grands vocabulaires…

D’aucuns peuvent dire qu’importe peu de savoir comment cela fonctionne mais, comme toute littérature, à défaut de mourir ignorant, il est bon de s’informer et s’informer, c’est sortir d’un illettrisme du domaine du sujet alors :

Analyse du signal de parole et décodage

Une fois que le son a été émis par le locuteur, il est capté par un microphone. Le signal vocal est ensuite numérisé à l’aide d’un convertisseur analogique-numérique. Comme la voix humaine est constituée d’une multitude de sons, souvent répétitifs, le signal peut être compressé pour réduire le temps de traitement et l’encombrement en mémoire. L’analyse peut alors commencer.

La Paramétrisation

La première étape consiste à paramétrer le signal vocal du locuteur. Cela permet d’obtenir une "  empreinte  " caractéristique du son, sur laquelle on pourra ensuite travailler pour la reconnaissance. Pour cela, il existe plusieurs méthodes (cf les Techniques de l’ingénieur vol. H1 940 p. 4 et 5 ; MacGraw-Hill encyclopedia cote 603 / ANG McG (XVII) p. 233, 234 ; " Reconnaissance automatique de la parole " (J.-P.Haton, J.-M.Pierrel, G.Perennou, J.Caelen, J.-L.Gauvain) p.26 à 32 ; Science et Vie Micro n°128 p.222).

Un premier groupe de méthodes est constitué par les méthodes spectrales . Elles sont fondées sur la décomposition fréquentielle du signal sans connaissance a priori de sa structure fine. La plus utilisée est celle utilisant la transformée de Fourier, appelée Fast Fourier Transform ( FFT ). Tout son est la superposition de plusieurs ondes sinusoïdales. Grâce à la FFT , on peut isoler les différentes fréquences qui les composent. On obtient ainsi une répartition spectrale du signal.

Spectre obtenu par transformée rapide de Fourier (FFT)
(doc’INSA, Techniques de l’ingénieur, traité pratique informatique, vol. H1 940)

En appliquant la FFT à un son complexe et en la répétant de nombreuses fois, on dresse un graphique donnant l’évolution de l’amplitude et de la fréquence en fonction du temps. On obtient ainsi une empreinte caractéristique du son.

Un deuxième groupe de méthodes est constitué par les méthodes d’identification . Elles sont fondées sur une connaissance des mécanismes de production (ex : le conduit vocal). La plus utilisée est celle basée sur le codage prédictif linéaire (appelée LPC ). L’hypothèse de base est que le canal buccal est constitué d’un tube cylindrique de section variable. L’ajustement des paramètres de ce modèle permet de déterminer à tout instant sa fonction de transfert. Cette dernière fournit une approximation de l’enveloppe du spectre du signal à l’instant d’analyse.

Spectre lissé obtenu par prédiction linéaire (LPC)
(doc’INSA, Techniques de l’ingénieur, traité pratique informatique, volume H1 940, p.5)

On repère alors aisément les fréquences formantiques , c’est-à-dire les fréquences de résonance du conduit vocal. En effet, elles correspondent au maximum d’énergie dans le spectre. En répétant cette méthode plusieurs fois, on obtient l’ empreinte du signal, comme le montre la figure ci-après.

Empreinte obtenue par prédiction linéaire (LPC).
(doc’INSA, MacGraw-Hill encyclopedia, cote 603 / ANG McG (XVII), p.233)

D’autres méthodes existent, mais elles sont moins employées et nous ne les détaillerons pas ici (cf " Reconnaissance automatique de la parole " cote Part-Dieu 006.454 REC p.27, 28, 33). Les tendances actuelles visent à améliorer l’analyse fine des sons : codage impulsionnel, analyse fractale… Le codage vectoriel permet de diminuer la quantité d’informations nécessaires pour coder un mot (et donc l’espace mémoire), en s’appuyant sur un dictionnaire de spectres instantanés (cf les Techniques de l’ingénieur vol. H1 940 p.5).

D’autre part, l’information prosodique est dominée par la variation de la fréquence du fondamental Fo . Il est donc important de la déterminer (cf " Reconnaissance automatique de la parole " cote Part-Dieu 006.454 REC p.34 à 36). Pour cela, il existe des méthodes temporelles et fréquentielles utilisant des filtres et le spectre du signal. Certains problèmes se posent : l’excitation glottale n’est pas rigoureusement périodique ; la source peut être atténuée dans certains types de transmissions (téléphone), etc.. Il est par conséquent difficile d’effectuer des mesures précises.

Une fois que l’on a obtenu l’empreinte caractéristique du signal, on peut passer à l’étape suivante, qui est le décodage acoustico-phonétique :

Décodage acoustico -phonétique

Il consiste à décrire le signal acoustique de parole en termes d’unités linguistiques discrètes (cf " Reconnaissance automatique de la parole " cote Part-Dieu 006.454 REC p.11, 12, 40 à 55) ; Techniques de l’ingénieur vol. H1 940 p.8). Les unités les plus utilisées sont les phonèmes , les syllabes, les mots… Un phonème est un élément sonore d’un langage donné, déterminé par les rapports qu’il entretient avec les autres sons de ce langage. Par exemple, le mot " cou " est formé des phonèmes " keu " et " ou ". Il en existe une trentaine en français.

Cette notion est assez importante en reconnaissance vocale.

Le décodage a pour but de segmenter le signal en segments élémentaires et d’étiqueter ces segments. Le principal problème est de choisir les unités sur lesquelles portera le décodage. Si des unités longues telles que les syllabes ou les mots sont choisies, la reconnaissance en elle-même sera facilitée mais leur identification est difficile. Si des unités courtes sont choisies, comme les phones (sons élémentaires), la localisation sera plus facile mais leur exploitation nécessitera de les assembler en unités plus larges. Les phonèmes constituent un bon compromis, leur nombre est limité : ils sont donc souvent utilisés. Mais le choix dépend également du type de reconnaissance effectuée : mots isolés ou parole continue.

Une fois la segmentation effectuée, l’identification des différents segments se fait en fonction de contraintes phonétiques, linguistiques… Il faut que le système ait intégré un certain nombre de connaissances : données articulatoires, sons du français, données phonétiques, prosodiques , syntaxiques , sémantiques …

Deux sortes d’outils sont utilisées : les outils de reconnaissance de formes structurelle (RFS, ex : grammaires déterministes) et les outils provenant de systèmes experts. Ils sont souvent associés pour de meilleures performances. Un système expert effectue les interprétations et déductions nécessaires grâce à la modélisation préalable du raisonnement de l’expert (domaine de l’intelligence artificielle).

Une fois que tout cela a été effectué, la reconnaissance en elle-même peut commencer, que ce soit pour des mots isolés ou pour de la parole continue.

Reconnaissance de mots isolés

L'absence dans le signal vocal d'indicateurs sur les frontières de phonèmes et de mots constitue une difficulté majeure de la reconnaissance de la parole. De ce fait, la reconnaissance de mots prononcés artificiellement de façon isolée (c'est à dire que tous les mots prononcés sont séparés par des silences de durées supérieures à quelques dixièmes de seconde) représente une simplification notable du problème.

Deux systèmes ont cours actuellement :

Le système monolocuteur (utilisable par un seul locuteur) est caractérisé par la technique d'apprentissage, où une seule et même personne doit dicter un ensemble de mots, ce qui permet d'optimiser le taux de reconnaissance et d'étendre le vocabulaire utilisable. Inconvénient, seule la personne ayant fourni son empreinte vocale (lors de la phase d'apprentissage) peut travailler.

Le système multilocuteur (utilisable par plusieurs locuteurs) qui utilise une base de données contenant des empreintes moyennes autorisant la reconnaissance de plusieurs voix. Inconvénient, le système n'est pas doté de capacités d'apprentissage et le nombre de mots est plus limité.

Toutes ces informations sont tirées de : Techniques de l’ingénieur vol. H1 940 ; " Reconnaissance automatique de la parole " cote Part-Dieu 006.454 REC ; Science et Vie Micro n°128.

* Les techniques de reconnaissance vocale

Deux approches, l'une plus globale, l'autre plus analytique permettent d'appréhender la reconnaissance des mots. Dans l'approche globale , l'unité de base sera le plus souvent le mot considéré comme une entité globale, c'est à dire non décomposée. L'idée de cette méthode est de donner au système une image acoustique de chacun des mots qu'il devra identifier par la suite. Cette opération est faite lors de la phase d'apprentissage, où chacun des mots est prononcé une ou plusieurs fois. Cette méthode a pour avantage d'éviter les effets de coarticulation, c'est à dire l'influence réciproque des sons à l'intérieur des mots. Elle est cependant limitée aux petits vocabulaires prononcés par un nombre restreint de locuteurs.

L'approche analytique , qui tire parti de la structure linguistique des mots, tente de détecter et d'identifier les composantes élémentaires ( phonèmes , syllabes, …). Celles-ci sont les unités de base à reconnaître. Cette approche a un caractère plus général que la précédente : pour reconnaître de grands vocabulaires, il suffit d'enregistrer dans la mémoire de la machine les principales caractéristiques des unités de base.

Pour la reconnaissance de mots isolés à grand vocabulaire, la méthode globale ne convient plus car la machine nécessiterait une mémoire et une puissance considérable pour respectivement stocker les images acoustiques de tous les mots du vocabulaire et comparer un mot inconnu à l'ensemble des mots du dictionnaire. Il est de plus impensable de faire dicter à l'utilisateur l'ensemble des mots que l'ordinateur a en mémoire. C'est donc la méthode analytique qui est utilisée : les mots ne sont pas mémorisés dans leur intégralité, mais traités en tant que suite de phonèmes .

* Principe général de la méthode globale pour un système monolocuteur

Le principe est le même que ce soit pour l’approche analytique ou l’approche global, ce qui différencie ces deux méthodes est l’entité à reconnaître : pour la première il s’agit du phonème, pour l’autre du mot.

Dans la structure d'un système de reconnaissance de mots isolés, pour l’utilisation d'un tel système, on peut distinguer deux phases:

• La phase d'apprentissage : un locuteur prononce l'ensemble du vocabulaire, souvent plusieurs fois, de façon à créer en machine le dictionnaire de références acoustiques. Pour l’approche analytique, l'ordinateur demande à l'utilisateur d'énoncer des phrases souvent dépourvues de toute signification, mais qui présentent l'intérêt de comporter des successions de phonèmes bien particuliers. Pour un système multilocuteur, cette phase n’existe pas, c’est la principale différence.

• La phase de reconnaissance : un locuteur (le même que précédemment car nous sommes dans le cas d'un système monolocuteur ) prononce un mot du vocabulaire. Ensuite la reconnaissance du mot est un problème typique de reconnaissance de formes. Tout système de reconnaissance des formes comporte toujours les trois parties suivantes :

o Un capteur permettant d'appréhender le phénomène physique considéré (dans notre cas un microphone),
o Un étage de paramétrisation des formes (par exemple un analyseur spectral),
o Un étage de décision chargé de classer une forme inconnue dans l'une des catégories possibles.

On retrouve ces trois étages dans un système de reconnaissance vocale, comme le montre la figure ci-après :

Description des différentes phases de reconnaissance :

1) Le capteur : un signal électrique est issu du microphone lorsque le locuteur parle (cf. détail précédemment).

2) Paramétrisation du signal : cet étage, dont le rôle est d'analyser et de paramétrer le signal vocal du locuteur, consiste en un traitement mathématique du signal. Cette étape vient d’être développée dans la partie précédente. Le signal suite à ce traitement est sous une forme :
              - Temps               - Fréquence           - Intensité

Difficulté rencontrée : comme nous sommes dans le cas de mots isolés, les frontières des mots (début et fin de mot) sont généralement déterminées en repérant les intersections de la courbe d'énergie du signal avec un ou plusieurs seuils évalués expérimentalement. Si la prise de son est effectuée dans un local bruité, le bruit de fond additionné au signal vocal peut dégrader les performances du système de reconnaissance, notamment, en perturbant le fonctionnement de l'algorithme chargé de positionner les frontières des mots.

Dans ce cas, comment séparer le bruit du signal reçu par le microphone afin d'en extraire le signal vocal émis par le locuteur ?

Solution : Une approche couramment utilisée est d'estimer le signal dû au locuteur en soustrayant la densité spectrale du bruit de fond de la densité spectrale du signal mesuré au microphone. Le spectre du bruit de fond étant approximative par la moyenne des spectres de bruit mesurés durant les silences séparant les énoncés. Cette méthode suppose que le bruit de fond est localement stationnaire, c'est à dire que sa densité spectrale mesurée immédiatement avant l'énoncé d'un mot reste identique durant l'énoncé de ce mot.

3) Prise de décision du choix du mot :

Principe : Le signal vocal émis par l'utilisateur, une fois paramétré, va pouvoir être comparé aux mots du dictionnaire de référence (cf. phase d'apprentissage) en terme d'images acoustiques. L'algorithme de reconnaissance permet de choisir le mot le plus ressemblant, par calcul d'un taux de similitude - au sens d'une distance à définir - entre le mot prononcé et les diverses références. Pour simplifier le problème et si l’on prend l’exemple la comparaison de formes par programmation dynamique, le programme va comparer le mot prononcé par le locuteur avec ceux qui sont en mémoire depuis la phase d’apprentissage : dans ce cas la comparaison consiste à soustraire les nuances de gris des pixels du mot prononcé à ceux des mots en mémoire et de répéter cette opération pour chaque ligne et colonne. Ainsi selon le résultat de cette comparaison, on pourra mathématiquement dire quel signal est le plus ressemblant.

Difficulté rencontrée : Ce calcul n'est pas simple, même pour un locuteur unique, car les mots, donc les formes, à comparer ont des durées et des rythmes différents . En effet, un locuteur même entraîné ne peut prononcer plusieurs fois une même séquence vocale avec exactement le même rythme et la même durée. Les échelles temporelles de deux occurrences d'un même mot ne coïncident donc pas, et les formes acoustiques issues de l'étage de paramétrisation ne peuvent être simplement comparé point à point.

Solutions : il existe différentes solutions pour résoudre le problème de l'alignement temporel entre un mot inconnu et une référence :

• Une solution très efficace consiste en un algorithme de comparaison dynamique qui va mettre en correspondance optimale les échelles temporelles des deux mots. On démontre que cette méthode fournit la solution optimale du problème. Elle nécessite, en revanche, beaucoup de calculs. C'est pourquoi pour fonctionner en temps réel, il faut soit réaliser des composants spécialisés de programmation dynamique (plusieurs firmes proposent des systèmes de reconnaissance intégrant un tel processeur), soit simplifier l'algorithme initial.

Les méthodes de comparaison par programmation dynamique ont été largement utilisées pour la reconnaissance de mots isolés. De plus, elles ont été étendues à la reconnaissance de séquences de mots enchaînés sans pause entre eux.

• Il existe cependant d'autres solutions à ce problème de recalage temporel :

o La modélisation stochastique, en particulier sous forme de modèles markoviens  Dans cette approche, chaque mot du vocabulaire est représenté par une source de Markov capable d'émettre le signal vocal correspondant au mot. Les paramètres de cette source sous-jacente au processus d'émission d'un mot sont ajustés au cours d'une phase préalable d'apprentissage sur de très gros corpus de parole. La reconnaissance d'un mot inconnu consiste à déterminer la source ayant la probabilité la plus forte d'avoir émis ce mot. (Cf. p68-70 du livre "reconnaissance automatique de la parole" aux éditions DUNOD informatique pour une explication plus détaillée de cette méthode).
o Les modèles neuro-mimétiques qui sont constitués par l'interconnexion d'un très grand nombre de processeurs élémentaires inspirés du fonctionnement du neurone. (Cf. livre " reconnaissance automatique de la parole ")

Avec la méthode analytique, l'ordinateur procède de la même manière que précédemment pour décoder le message parlé (paramétrisation du signal, programmation dynamique, …) sauf que cette fois-ci il s'agit de repérer une suite de phonèmes afin d'associer le mot au mot qui s'y rapporte dans le dictionnaire.

D’autre part, pour identifier un phonème , la machine procède par analyse statistique : elle sélectionne, à partir du dernier phonème identifié, le groupe de phonèmes qui ont la plus forte probabilité de lui succéder immédiatement. Ce premier tri réalisé, l'écart entre le phonème prononcé et chacun des phonèmes retenus est estimé. C'est celui présentant le moins d'écart qui est conservé. Cette analyse statistique est aussi utilisée pour la méthode globale, où elle intervient dans le choix d’un mot en fonction de ce qu’il y a avant (par exemple, on ne peut pas trouver deux verbes conjugués successivement…).

Pour que le taux d'erreur soit aussi faible que possible, les logiciels actuels utilisent également des dictionnaires au vocabulaire spécialisé, choisis selon le type d'activités.

Bilan

En bref, on peut donc dire que le choix de la technique de reconnaissance vocale dépend de l'utilisation :

Dans le cas de la reconnaissance de mots isolés (avec un vocabulaire limité), c'est la méthode de reconnaissance globale qui s'applique le mieux . En effet, les images acoustiques des mots peuvent être facilement isolées les unes des autres car tous les mots prononcés sont supposés être séparés par des silences.

Dans cette partie ont été décrit les principes et techniques de base largement utilisés dans les systèmes de reconnaissance par mot. Bien qu'il s'agisse en fait de méthodes très générales qui peuvent être appliquées à la reconnaissance de type phonétique utilisant des unités de décision plus petites que le mot telles que le phonème , cette approche globale est particulièrement adaptée à la reconnaissance de mots isolés (avec un vocabulaire qui ne dépasse pas une centaine de mots) en évitant presque totalement les problèmes de segmentation et de co-articulation. Cependant cette méthode de mots isolés trouve les solutions d’un grand nombre de problèmes comme celui du bruit, ou encore celui de la vitesse d’élocution.

1° Le premier niveau de stratégie : lire ou prédire ?

On distingue deux approches différentes. La première consiste à reconstituer la phrase à partir du signal. Il s’agit là d’une approche ascendante. On " lit " tout simplement le signal. On ne cherche pas à comprendre le résultat obtenu, on se contente de le décrypter. L’inconvénient majeur est qu’il nécessite de tester à chaque portion de phrase l’ensemble des mots contenus dans le vocabulaire. On comprend aisément que dans la parole, le vocabulaire peut très rapidement devenir gigantesque, et cela prend beaucoup de temps machine.

La deuxième approche consiste à prédire le mot à reconnaître. On a ici en opposition une approche descendante. En implantant dans le système une certaine intelligence, la machine pourra prévoir ce qui va être dit. Par exemple, dans un système d’interrogation d’une base de données par téléphone, le premier mot à tester est le mot " allô " ou " bonjour ". Un autre exemple, si la machine reconnaît le mot " monsieur ", le vocabulaire à tester ensuite est celui des noms de personnes contenus dans sa mémoire. Ainsi, cette approche permet de ne pas avoir à tester tout le dictionnaire de la machine, et ainsi à gagner du temps.

On remarquera cependant qu’aucun système ne fonctionne en approche uniquement descendante, et rares sont ceux qui fonctionnent en approche uniquement ascendante. Seuls les systèmes à vocabulaire très restreint peuvent se permettre une approche uniquement ascendante.

2° Le deuxième niveau de stratégie : traitement de gauche à droite ou du milieu vers les cotés ?

A un moment ou à un autre, il faut bien commencer à analyser le signal lui-même. C’est là qu’on doit déterminer la stratégie latérale. Le plus naturel est de procéder par ordre chronologique. C’est ce qu’on appelle le traitement gauche - droite. Il peut cependant s’avérer intéressant d’appliquer le traitement du milieu vers les cotés. Dans cette méthode, on balaye le signal sans une analyse très poussée, on recherche des mots - clés. On accentue la recherche de quelques mots du vocabulaire. Ainsi, après l’application de cette méthode, il est possible d’appliquer une stratégie descendante pour combler les " trous ".

3° Le troisième niveau de stratégie : la recherche d’une solution optimale

On appelle stratégie de recherche l’ensemble des règles qui permettent d’atteindre la solution optimale. On distingue deux grand types de stratégies.

On considère tout d’abord les stratégies totales. Elles consistent en l’exame