{"id":8512,"date":"2021-05-05T10:07:25","date_gmt":"2021-05-05T14:07:25","guid":{"rendered":"https:\/\/zux.zsm.mybluehost.me\/news-events\/there-is-a-new-ivr-in-town-heres-what-it-means\/"},"modified":"2022-05-05T11:26:25","modified_gmt":"2022-05-05T15:26:25","slug":"la-nouvelle-rvi-arrive-en-ville-quest-ce-que-ca-signifie","status":"publish","type":"post","link":"https:\/\/www.nuecho.com\/fr\/la-nouvelle-rvi-arrive-en-ville-quest-ce-que-ca-signifie\/","title":{"rendered":"La nouvelle RVI arrive en ville. Qu\u2019est-ce que \u00e7a signifie?"},"content":{"rendered":"<p>[et_pb_section fb_built=\u00a0\u00bb1&Prime; admin_label=\u00a0\u00bbsection\u00a0\u00bb _builder_version=\u00a0\u00bb3.22&Prime; global_colors_info=\u00a0\u00bb{}\u00a0\u00bb][et_pb_row admin_label=\u00a0\u00bbrow\u00a0\u00bb _builder_version=\u00a0\u00bb3.25&Prime; background_size=\u00a0\u00bbinitial\u00a0\u00bb background_position=\u00a0\u00bbtop_left\u00a0\u00bb background_repeat=\u00a0\u00bbrepeat\u00a0\u00bb global_colors_info=\u00a0\u00bb{}\u00a0\u00bb][et_pb_column type=\u00a0\u00bb4_4&Prime; _builder_version=\u00a0\u00bb3.25&Prime; custom_padding=\u00a0\u00bb|||\u00a0\u00bb global_colors_info=\u00a0\u00bb{}\u00a0\u00bb custom_padding__hover=\u00a0\u00bb|||\u00a0\u00bb][et_pb_text admin_label=\u00a0\u00bbText\u00a0\u00bb _builder_version=\u00a0\u00bb3.27.4&Prime; background_size=\u00a0\u00bbinitial\u00a0\u00bb background_position=\u00a0\u00bbtop_left\u00a0\u00bb background_repeat=\u00a0\u00bbrepeat\u00a0\u00bb global_colors_info=\u00a0\u00bb{}\u00a0\u00bb]Et en fait, \u00e7a n\u2019a rien de bien nouveau. Nous appelons habituellement \u00e7a \u00ab RVI avec reconnaissance vocale \u00bb et c\u2019est ce type d\u2019exp\u00e9riences conversationnelles que nous cr\u00e9ons depuis 20 ans.<\/p>\n<p>Ce qui est nouveau, c&rsquo;est qu&rsquo;il existe d\u00e9sormais de nouvelles technologies et de nouvelles plateformes qui promettent d\u2019acc\u00e9l\u00e9rer et de faciliter la cr\u00e9ation de ce type d\u2019exp\u00e9riences conversationnelles tout en bonifiant consid\u00e9rablement l\u2019\u00e9ventail des t\u00e2ches que les agents virtuels vocaux (comme nous les appelons) peuvent ex\u00e9cuter.<\/p>\n<p>Ces nouvelles technologies ont initialement vu le jour chez les assistants vocaux (Siri, Amazon Echo, Google Home) et sont en train de changer fondamentalement la fa\u00e7on dont les solutions RVI sont d\u00e9velopp\u00e9es.<\/p>\n<p>Pour comprendre comment, comparons la \u00ab RVI traditionnelle avec reconnaissance vocale \u00bb avec cette \u00ab nouvelle RVI \u00bb.<\/p>\n<table class=\"MsoNormalTable\" style=\"border-collapse: collapse; border: none; mso-border-alt: solid black 1.0pt; mso-yfti-tbllook: 1184; mso-border-insideh: 1.0pt solid black; mso-border-insidev: 1.0pt solid black;\" border=\"1\" cellspacing=\"0\" cellpadding=\"0\">\n<tbody>\n<tr style=\"mso-yfti-irow: 0; mso-yfti-firstrow: yes;\">\n<td style=\"border: solid black 1.0pt; background: #EFEFEF; padding: 5.0pt 5.0pt 5.0pt 5.0pt;\" valign=\"top\">\n<p class=\"MsoNormal\" style=\"margin-bottom: 6.0pt; line-height: normal;\"><b><br \/>\n<span style=\"font-family: 'Arial',sans-serif; mso-fareast-font-family: 'Times New Roman'; color: black; mso-fareast-language: FR-CA;\">Technologie<\/span><\/b><\/p>\n<\/td>\n<td style=\"border: solid black 1.0pt; border-left: none; mso-border-left-alt: solid black 1.0pt; background: #EFEFEF; padding: 5.0pt 5.0pt 5.0pt 5.0pt;\" valign=\"top\">\n<p class=\"MsoNormal\" style=\"margin-bottom: 6.0pt; line-height: normal;\"><b><br \/>\n<span style=\"font-family: 'Arial',sans-serif; mso-fareast-font-family: 'Times New Roman'; color: black; mso-fareast-language: FR-CA;\">RVI traditionnelle avec reconnaissance vocale<\/span><\/b><\/p>\n<\/td>\n<td style=\"border: solid black 1.0pt; border-left: none; mso-border-left-alt: solid black 1.0pt; background: #EFEFEF; padding: 5.0pt 5.0pt 5.0pt 5.0pt;\" valign=\"top\">\n<p class=\"MsoNormal\" style=\"margin-bottom: 6.0pt; line-height: normal;\"><b><br \/>\n<span style=\"font-family: 'Arial',sans-serif; mso-fareast-font-family: 'Times New Roman'; color: black; mso-fareast-language: FR-CA;\">Nouvelle RVI<\/span><\/b><\/p>\n<\/td>\n<\/tr>\n<tr style=\"mso-yfti-irow: 1;\">\n<td style=\"border: solid black 1.0pt; border-top: none; mso-border-top-alt: solid black 1.0pt; padding: 5.0pt 5.0pt 5.0pt 5.0pt;\" valign=\"top\">\n<p class=\"MsoNormal\" style=\"margin-bottom: 6.0pt; line-height: normal;\"><span style=\"font-family: 'Arial',sans-serif; mso-fareast-font-family: 'Times New Roman'; color: black; mso-fareast-language: FR-CA;\">Reconnaissance vocale<\/span><\/p>\n<\/td>\n<td style=\"border-top: none; border-left: none; border-bottom: solid black 1.0pt; border-right: solid black 1.0pt; mso-border-top-alt: solid black 1.0pt; mso-border-left-alt: solid black 1.0pt; padding: 5.0pt 5.0pt 5.0pt 5.0pt;\" valign=\"top\">\n<p class=\"MsoNormal\" style=\"margin-bottom: 6.0pt; line-height: normal;\"><span lang=\"EN-CA\" style=\"font-family: 'Arial',sans-serif; mso-fareast-font-family: 'Times New Roman'; color: black; mso-ansi-language: EN-CA; mso-fareast-language: FR-CA;\">Grammaires et mod\u00e8les de langage statistiques<\/span><\/p>\n<\/td>\n<td style=\"border-top: none; border-left: none; border-bottom: solid black 1.0pt; border-right: solid black 1.0pt; mso-border-top-alt: solid black 1.0pt; mso-border-left-alt: solid black 1.0pt; padding: 5.0pt 5.0pt 5.0pt 5.0pt;\" valign=\"top\">\n<p class=\"MsoNormal\" style=\"margin-bottom: 6.0pt; line-height: normal;\"><span style=\"font-family: 'Arial',sans-serif; mso-fareast-font-family: 'Times New Roman'; color: black; mso-fareast-language: FR-CA;\">Transcription automatique de la parole (speech-to-text)<\/span><\/p>\n<\/td>\n<\/tr>\n<tr style=\"mso-yfti-irow: 2;\">\n<td style=\"border: solid black 1.0pt; border-top: none; mso-border-top-alt: solid black 1.0pt; padding: 5.0pt 5.0pt 5.0pt 5.0pt;\" valign=\"top\">\n<p class=\"MsoNormal\" style=\"margin-bottom: 6.0pt; line-height: normal;\"><span style=\"font-family: 'Arial',sans-serif; mso-fareast-font-family: 'Times New Roman'; color: black; mso-fareast-language: FR-CA;\">Compr\u00e9hension du langage naturel (CLN\/NLU)<\/span><\/p>\n<\/td>\n<td style=\"border-top: none; border-left: none; border-bottom: solid black 1.0pt; border-right: solid black 1.0pt; mso-border-top-alt: solid black 1.0pt; mso-border-left-alt: solid black 1.0pt; padding: 5.0pt 5.0pt 5.0pt 5.0pt;\" valign=\"top\">\n<p class=\"MsoNormal\" style=\"margin-bottom: 6.0pt; line-height: normal;\"><span style=\"font-family: 'Arial',sans-serif; mso-fareast-font-family: 'Times New Roman'; color: black; mso-fareast-language: FR-CA;\">Grammaires et classificateurs simples<\/span><\/p>\n<\/td>\n<td style=\"border-top: none; border-left: none; border-bottom: solid black 1.0pt; border-right: solid black 1.0pt; mso-border-top-alt: solid black 1.0pt; mso-border-left-alt: solid black 1.0pt; padding: 5.0pt 5.0pt 5.0pt 5.0pt;\" valign=\"top\">\n<p class=\"MsoNormal\" style=\"margin-bottom: 6.0pt; line-height: normal;\"><span style=\"font-family: 'Arial',sans-serif; mso-fareast-font-family: 'Times New Roman'; color: black; mso-fareast-language: FR-CA;\">Traitement automatique du langage naturel (TALN) par apprentissage profond (deep learning)<\/span><\/p>\n<\/td>\n<\/tr>\n<tr style=\"mso-yfti-irow: 3; mso-yfti-lastrow: yes;\">\n<td style=\"border: solid black 1.0pt; border-top: none; mso-border-top-alt: solid black 1.0pt; padding: 5.0pt 5.0pt 5.0pt 5.0pt;\" valign=\"top\">\n<p class=\"MsoNormal\" style=\"margin-bottom: 6.0pt; line-height: normal;\"><span style=\"font-family: 'Arial',sans-serif; mso-fareast-font-family: 'Times New Roman'; color: black; mso-fareast-language: FR-CA;\">Synth\u00e8se de la parole<\/span><\/p>\n<\/td>\n<td style=\"border-top: none; border-left: none; border-bottom: solid black 1.0pt; border-right: solid black 1.0pt; mso-border-top-alt: solid black 1.0pt; mso-border-left-alt: solid black 1.0pt; padding: 5.0pt 5.0pt 5.0pt 5.0pt;\" valign=\"top\">\n<p class=\"MsoNormal\" style=\"margin-bottom: 6.0pt; line-height: normal;\"><span lang=\"EN-CA\" style=\"font-family: 'Arial',sans-serif; mso-fareast-font-family: 'Times New Roman'; color: black; mso-ansi-language: EN-CA; mso-fareast-language: FR-CA;\">Concat\u00e9nation de segment vocaux + synth\u00e8se vocale (TTS)<\/span><\/p>\n<\/td>\n<td style=\"border-top: none; border-left: none; border-bottom: solid black 1.0pt; border-right: solid black 1.0pt; mso-border-top-alt: solid black 1.0pt; mso-border-left-alt: solid black 1.0pt; padding: 5.0pt 5.0pt 5.0pt 5.0pt;\" valign=\"top\">\n<p class=\"MsoNormal\" style=\"margin-bottom: 6.0pt; line-height: normal;\"><span style=\"font-family: 'Arial',sans-serif; mso-fareast-font-family: 'Times New Roman'; color: black; mso-fareast-language: FR-CA;\">Synth\u00e8se vocale (TTS), principalement<\/span><\/p>\n<\/td>\n<\/tr>\n<\/tbody>\n<\/table>\n<p>Regardons tout cela plus en d\u00e9tails.<\/p>\n<h2><b>RVI traditionnelle avec reconnaissance vocale<\/b><\/h2>\n<p><span style=\"font-weight: 400;\">Les engins de reconnaissance vocale traditionnellement utilis\u00e9s dans les RVI (par exemple,<\/span><a href=\"https:\/\/www.nuance.com\/omni-channel-customer-engagement\/voice-and-ivr\/automatic-speech-recognition\/nuance-recognizer.html\" target=\"_blank\" rel=\"noopener\"> <span style=\"font-weight: 400;\">Nuance Recognizer<\/span><\/a><span style=\"font-weight: 400;\">) ne sont pas en mesure de fonctionner \u201cout-of-the-box\u201d. Pour cela, on doit faire appel \u00e0 des grammaires de reconnaissance vocale. Il existe deux types principaux de grammaires :<\/span><\/p>\n<ol>\n<li><b>Les grammaires SRGS <\/b><span style=\"font-weight: 400;\">sont d\u00e9finies par<\/span><a href=\"https:\/\/www.w3.org\/TR\/speech-grammar\/\" target=\"_blank\" rel=\"noopener\"> <span style=\"font-weight: 400;\">un ensemble de r\u00e8gles<\/span><\/a><span style=\"font-weight: 400;\">, \u00e9labor\u00e9es manuellement par un d\u00e9veloppeur de grammaires. Elles fournissent une description formelle des \u00e9nonc\u00e9s qui peuvent \u00eatre reconnus par l\u2019engin de reconnaissance. Le langage d\u00e9fini par les grammaires SRGS est rigide et seuls les \u00e9nonc\u00e9s pr\u00e9vus dans ces grammaires peuvent \u00eatre reconnus par l\u2019engin. Les grammaires SRGS sont bien adapt\u00e9es aux dialogues dirig\u00e9s, qui pr\u00e9sentent typiquement un ensemble pr\u00e9visible d&rsquo;\u00e9nonc\u00e9s qui seront fournis par l&rsquo;utilisateur.<\/span><\/li>\n<li><b>Les mod\u00e8les de langage statistique (SLM)<\/b><span style=\"font-weight: 400;\"> sont d\u00e9finis par des<\/span><a href=\"https:\/\/en.wikipedia.org\/wiki\/N-gram\" target=\"_blank\" rel=\"noopener\"> <span style=\"font-weight: 400;\">N-grammes<\/span><\/a><span style=\"font-weight: 400;\">; ce sont les probabilit\u00e9s d&rsquo;occurrence un mot \u00e9tant donn\u00e9s les mots pr\u00e9c\u00e9dents dans la phrase, probabilit\u00e9s apprises \u00e0 partir d&rsquo;un \u00e9chantillon de phrases. Les mod\u00e8les SLM fournissent un mod\u00e8le de langage beaucoup moins rigide que les grammaires SRGS et sont donc beaucoup mieux adapt\u00e9s pour traiter les r\u00e9ponses aux questions ouvertes (par exemple, \u00ab Comment puis-je vous aider? \u00bb), r\u00e9ponses normalement plus spontan\u00e9es, et fournies par l\u2019utilisateur en langage naturel. Pour bien performer, les mod\u00e8les SLM doivent pouvoir s\u2019entra\u00eener sur un corpus de phrases suffisamment grand et repr\u00e9sentatif du domaine cibl\u00e9.<\/span><\/li>\n<\/ol>\n<p><span style=\"font-weight: 400;\">Le d\u00e9veloppement d&rsquo;une application RVI traditionnelle avec reconnaissance vocale n\u00e9cessite la cr\u00e9ation d&rsquo;une grammaire distincte pour chacune des \u00e9tapes du dialogue. De plus, pour atteindre un niveau de pr\u00e9cision de reconnaissance suffisant, ces grammaires doivent subir de nombreux r\u00e9glages bas\u00e9s sur des \u00e9nonc\u00e9s d&rsquo;utilisateurs r\u00e9els, qui auront \u00e9t\u00e9 collect\u00e9s par l&rsquo;application RVI en production.<\/span><\/p>\n<p><span style=\"font-weight: 400;\">Le d\u00e9veloppement et le r\u00e9glage de ces grammaires sont des t\u00e2ches chronophages qui n\u00e9cessitent l\u2019intervention de sp\u00e9cialistes de la parole hautement qualifi\u00e9s. Si cela est bien fait, on peut atteindre une tr\u00e8s grande pr\u00e9cision dans la reconnaissance et cr\u00e9er des exp\u00e9riences utilisateur positives. Malheureusement, ces t\u00e2ches sont trop souvent n\u00e9glig\u00e9es, ce qui se traduit in\u00e9vitablement par des performances de l\u2019engin de reconnaissance d\u00e9cevantes, ce qui \u00e0 son tour entra\u00eene une exp\u00e9rience utilisateur m\u00e9diocre. C&rsquo;est d\u2019ailleurs une des principales raisons pour lesquelles les RVI avec reconnaissance vocale ont si souvent mauvaise r\u00e9putation.<\/span><\/p>\n<h2><b>Transcription automatique de la parole (<\/b><b><i>speech-to-text, STT<\/i><\/b><b>)<\/b><\/h2>\n<p><span style=\"font-weight: 400;\">Au cours des derni\u00e8res ann\u00e9es, et gr\u00e2ce \u00e0 l&rsquo;apprentissage profond, nous avons assist\u00e9 \u00e0 une \u00e9volution fulgurante des technologies de reconnaissance vocale. Cette importante perc\u00e9e a permis d\u2019entra\u00eener des engins STT qui arrivent \u00e0 fournir des transcriptions vocales de haute pr\u00e9cision pour des types presque illimit\u00e9s de vocabulaires. De nos jours, bon nombre de fournisseurs proposent des engins STT (par exemple,<\/span><a href=\"https:\/\/cloud.google.com\/speech-to-text\" target=\"_blank\" rel=\"noopener\"> <span style=\"font-weight: 400;\">Google STT<\/span><\/a><span style=\"font-weight: 400;\">,<\/span><a href=\"https:\/\/docs.mix.nuance.com\/asr-grpc\/v1\/#asr-as-a-service-grpc-api\" target=\"_blank\" rel=\"noopener\"> <span style=\"font-weight: 400;\">Nuance Krypton<\/span><\/a><span style=\"font-weight: 400;\">,<\/span><a href=\"https:\/\/aws.amazon.com\/transcribe\/\" target=\"_blank\" rel=\"noopener\"> <span style=\"font-weight: 400;\">Amazon Transcribe<\/span><\/a><span style=\"font-weight: 400;\">,<\/span><a href=\"https:\/\/deepgram.com\/\" target=\"_blank\" rel=\"noopener\"> <span style=\"font-weight: 400;\">Deepgram<\/span><\/a><span style=\"font-weight: 400;\">, etc.) et il existe \u00e9galement des versions en code source libre (<\/span><i><span style=\"font-weight: 400;\">open-source<\/span><\/i><span style=\"font-weight: 400;\">).<\/span><\/p>\n<p><span style=\"font-weight: 400;\">Avec l\u2019utilisation des engins STT, il n&rsquo;est plus n\u00e9cessaire de d\u00e9velopper des grammaires, un gain de temps non n\u00e9gligeable lors de la cr\u00e9ation d&rsquo;applications RVI conversationnelles. Est-ce que l\u2019on vient ici de r\u00e9soudre l\u2019\u00e9nigme de la reconnaissance vocale? Loin de l\u00e0! Atteindre un niveau de pr\u00e9cision acceptable reste un enjeu majeur. En fait, des grammaires ad\u00e9quatement r\u00e9gl\u00e9es apporteront un niveau de pr\u00e9cision souvent nettement plus \u00e9lev\u00e9 que le meilleur des engins STT.<\/span><\/p>\n<p><span style=\"font-weight: 400;\">Actuellement, les principaux probl\u00e8mes rencontr\u00e9s lors de l\u2019utilisation d\u2019engins STT sont:<\/span><\/p>\n<ul>\n<li><b>Donn\u00e9es d&rsquo;entra\u00eenement<\/b><span style=\"font-weight: 400;\">. Comme pour tout mod\u00e8le bas\u00e9 sur l&rsquo;apprentissage automatique, les performances du mod\u00e8le STT seront optimales si ses donn\u00e9es d&rsquo;entra\u00eenement sont repr\u00e9sentatives des conditions dans lesquelles il est utilis\u00e9. Ainsi, si un mod\u00e8le \u00e9tait, par exemple, principalement entra\u00een\u00e9 sur des enregistrements obtenus \u00e0 partir d\u2019un haut-parleur intelligent, abordant typiquement des th\u00e8mes tels que la m\u00e9t\u00e9o, le r\u00e9glage des alarmes, la lecture de musique et des questions de connaissances g\u00e9n\u00e9rales, il est fort probable que ce mod\u00e8le n\u2019offrirait pas des performances optimales dans le cadre d\u2019une application RVI de type bancaire. S\u2019il \u00e9tait possible d&rsquo;affiner les r\u00e9glages d\u2019un mod\u00e8le STT en l\u2019entra\u00eenant sur des donn\u00e9es sp\u00e9cifiques \u00e0 un domaine pr\u00e9cis, cela pourrait faire une \u00e9norme diff\u00e9rence en ce qui a trait \u00e0 la pr\u00e9cision. Malheureusement, la plupart des fournisseurs d\u2019engins STT ne permettent pas cette option (exception faite de Deepgram). Notons toutefois que Nuance fournit une solution partielle en permettant d\u2019entra\u00eener le mod\u00e8le par langue de domaine (<\/span><i><span style=\"font-weight: 400;\">domain language model, DLM<\/span><\/i><span style=\"font-weight: 400;\">) sur des phrases sp\u00e9cifiques \u00e0 chaque domaine cibl\u00e9.<\/span><\/li>\n<\/ul>\n<ul>\n<li><b>Contextualisation.<\/b><span style=\"font-weight: 400;\"> Les engins STT peuvent conceptuellement reconna\u00eetre n&rsquo;importe quel \u00e9nonc\u00e9 d&rsquo;utilisateur, que celui-ci parle de films, de politique, de m\u00e9t\u00e9o, de musique, peu importe. C\u2019est une fonctionnalit\u00e9 tr\u00e8s puissante, mais qui peut aussi devenir un handicap dans le contexte des applications conversationnelles, qui sont g\u00e9n\u00e9ralement sp\u00e9cifiques \u00e0 un domaine particulier en plus d\u2019\u00eatre fortement contextualis\u00e9es. Si un agent virtuel demande \u00e0 un utilisateur de fournir une date de naissance, il y a fort \u00e0 parier que l&rsquo;utilisateur r\u00e9ponde en fournissant une date de naissance. La fait de savoir tirer profit de ces connaissances contextualis\u00e9es peut grandement am\u00e9liorer la pr\u00e9cision de la reconnaissance vocale. Les humains font cela constamment, sans m\u00eame s&rsquo;en rendre compte. Certains engins STT fournissent quelques capacit\u00e9s de contextualisation (par exemple,<\/span><a href=\"https:\/\/cloud.google.com\/speech-to-text\/docs\/adaptation-model\" target=\"_blank\" rel=\"noopener\"> <span style=\"font-weight: 400;\">la fonctionnalit\u00e9 d&rsquo;adaptation de mod\u00e8le de l\u2019engin STT de Google<\/span><\/a><span style=\"font-weight: 400;\">), mais celles-ci restent assez limit\u00e9es pour le moment.<\/span><\/li>\n<\/ul>\n<ul>\n<li><b>Optimisation.<\/b><span style=\"font-weight: 400;\"> Les engins de reconnaissance vocale des RVI traditionnelles offrent plusieurs moyens efficaces d&rsquo;optimiser la pr\u00e9cision. Par exemple, d\u2019importants gains de pr\u00e9cision peuvent \u00eatre obtenus en affinant les transcriptions phon\u00e9tiques, en mod\u00e9lisant la coarticulation \u00e0 l\u2019int\u00e9rieur des mots et entre les mots, en mod\u00e9lisant les disfluences verbales, en ajustant les poids des diff\u00e9rents \u00e9l\u00e9ments d\u2019une grammaires ou les poids des diff\u00e9rentes grammaires, en intervenant dans le post-traitement des meilleurs r\u00e9sultats (<\/span><i><span style=\"font-weight: 400;\">N-best results<\/span><\/i><span style=\"font-weight: 400;\">), etc. La plupart des engin STT offrent peu, sinon pas de moyens d\u2019optimiser la pr\u00e9cision.<\/span><\/li>\n<\/ul>\n<ul>\n<li><b>Support multilingue.<\/b><span style=\"font-weight: 400;\"> Nu Echo \u00e9tant situ\u00e9e \u00e0 Montr\u00e9al, ville bilingue, la plupart des applications conversationnelles que nous d\u00e9ployons doivent savoir traiter les mots anglais dans les phrases en fran\u00e7ais et vice-versa (la reconnaissance d&rsquo;adresses en est un tr\u00e8s bon exemple). Cela ne peut \u00eatre fait efficacement qu&rsquo;avec un engin de reconnaissance vocale capable de traiter deux langues diff\u00e9rentes \u00e0 l\u2019int\u00e9rieur d\u2019un seul et m\u00eame \u00e9nonc\u00e9, une fonctionnalit\u00e9 disponible chez certains engins de reconnaissance vocale des RVI traditionnelles, mais dans aucun engin STT de notre connaissance.<\/span><\/li>\n<\/ul>\n<p><span style=\"font-weight: 400;\">Les technologies STT \u00e9voluent extr\u00eamement rapidement. Nous pouvons donc nous attendre \u00e0 ce que le niveau de pr\u00e9cision de reconnaissance soit en constante am\u00e9lioration, \u00e0 pouvoir profiter d\u2019outils de contextualisation et d&rsquo;optimisation de plus en plus efficaces, \u00e0 acc\u00e9der plus facilement \u00e0 des mod\u00e8les pouvant \u00eatre optimis\u00e9s en fonction de domaines sp\u00e9cifiques. En attendant, la solution id\u00e9ale pourrait tr\u00e8s bien \u00eatre une combinaison engins STT, engins RVI traditionnelles.<\/span><\/p>\n<h2><b>Compr\u00e9hension du langage naturel (<\/b><b><i>natural language understanding<\/i><\/b><b>, <\/b><b><i>NLU<\/i><\/b><b>)<\/b><\/h2>\n<p><span style=\"font-weight: 400;\">Les premi\u00e8res applications RVI avec reconnaissance vocale reposaient exclusivement sur les grammaires SRGS pour la reconnaissance vocale; la compr\u00e9hension du langage naturel (NLU) n&rsquo;\u00e9tait donc pas un probl\u00e8me, le NLU \u00e9tant int\u00e9gr\u00e9 \u00e0 la grammaire.<\/span><\/p>\n<p><span style=\"font-weight: 400;\">L&rsquo;utilisation de mod\u00e8les de langage statistiques (SLM) a fait na\u00eetre le besoin d&rsquo;avoir un engin NLU distinct, capable de comprendre les r\u00e9sultats de reconnaissance pour des \u00e9nonc\u00e9s spontan\u00e9s. Des techniques de d\u00e9tection d&rsquo;intentions, bas\u00e9es sur des techniques simples d&rsquo;apprentissage automatique,<\/span><a href=\"http:\/\/www.aclweb.org\/anthology\/J99-3003.pdf\" target=\"_blank\" rel=\"noopener\"> <span style=\"font-weight: 400;\">ont \u00e9t\u00e9 introduites il y a plus de 20 ans<\/span><\/a><span style=\"font-weight: 400;\">, pour des besoins reli\u00e9s \u00e0 l\u2019aiguillage d&rsquo;appels en langage naturel. Ces techniques font tr\u00e8s bien fait l\u2019affaire, mais elles n\u00e9cessitent habituellement un imposant \u00e9chantillon de phrases, pour chacune des intentions, afin que le mod\u00e8le soit correctement entra\u00een\u00e9, ce qui repr\u00e9sente souvent un obstacle de taille \u00e0 la mise en service d&rsquo;un syst\u00e8me.<\/span><\/p>\n<p><span style=\"font-weight: 400;\">Durant bon nombres d\u2019ann\u00e9es, ces techniques n&rsquo;ont pas beaucoup \u00e9volu\u00e9. Puis, est arriv\u00e9 l&rsquo;apprentissage profond, qui a totalement chang\u00e9 le paysage des technologies de traitement du langage naturel. Un premier grand changement a \u00e9t\u00e9 l&rsquo;introduction des repr\u00e9sentations vectorielles continues de mots (<\/span><i><span style=\"font-weight: 400;\">word embeddings<\/span><\/i><span style=\"font-weight: 400;\">), qui am\u00e9liorent la g\u00e9n\u00e9ralisabilit\u00e9 et permettent de diminuer de fa\u00e7on consid\u00e9rable la taille de l\u2019\u00e9chantillon de phrases n\u00e9cessaire pour entra\u00eener les mod\u00e8les NLU. Plus r\u00e9cemment, des mod\u00e8les de langage de grande taille (entra\u00een\u00e9s sur de gros corpus de donn\u00e9es, par exemple BERT) et de nouvelles architectures de r\u00e9seaux neuronaux apportent d\u2019autres am\u00e9liorations d\u2019envergure.<\/span><\/p>\n<p><span style=\"font-weight: 400;\">Il est int\u00e9ressant de noter que les technologies NLU utilis\u00e9es pour traiter les conversations textuelles sont les m\u00eame que celles utilis\u00e9es pour traiter les conversations vocales, alors qu\u2019il existe des diff\u00e9rences importantes entre ces deux types de conversation. Par exemple, les syst\u00e8mes traitant des conversations textuelles doivent \u00eatre capables de g\u00e9rer de mani\u00e8re fiable les fautes de frappe, les acronymes et les sigles (par exemple, \u00ab lol \u00bb, \u00ab mdr \u00bb), les \u00e9motic\u00f4nes, etc., alors que les syst\u00e8mes traitant les conversations vocales doivent, de leur c\u00f4t\u00e9, savoir g\u00e9rer les diff\u00e9rences orthographiques entre homophones (par exemple, \u00ab cent \u00bb vs. \u00ab sans \u00bb, \u00ab Desjardins \u00bb vs. \u00ab des jardins \u00bb ou \u00ab soixante-treize \u00bb (73) vs. \u00ab soixante treize \u00bb (60 13)), les normalisations de l\u2019engin STT non-souhait\u00e9es (par exemple, \u00ab H 1 M 2 L 5 \u00bb \u2192 \u00ab H un m\u00e8tre deux L cinq \u00bb), sans parler des erreurs de reconnaissance vocale.<\/span><\/p>\n<p><span style=\"font-weight: 400;\">Abordons maintenant certains probl\u00e8mes reli\u00e9s \u00e0 l\u2019utilisation des engins NLU :<\/span><\/p>\n<ul>\n<li><b>Contextualisation.<\/b><span style=\"font-weight: 400;\"> La plupart des engins NLU ne sont pas contextuels (\u00e0 l\u2019exception de Dialogflow), ce qui peut \u00eatre un probl\u00e8me car le m\u00eame \u00e9nonc\u00e9 peut avoir des interpr\u00e9tations diff\u00e9rentes en fonction du contexte dans lequel il appara\u00eet. Par exemple, l\u2019interpr\u00e9tation de l\u2019\u00e9nonc\u00e9 \u00ab Montr\u00e9al \u00bb sera diff\u00e9rente selon que la question pos\u00e9e \u00e9tait \u00ab quelle est votre destination? \u00bb ou \u00ab quelle est la ville de d\u00e9part? \u00bb<\/span><\/li>\n<\/ul>\n<ul>\n<li><b>Score de confiance.<\/b><span style=\"font-weight: 400;\"> Un dialogue de r\u00e9paration efficace doit pouvoir s\u2019appuyer sur des scores de confiance fiables mais malheureusement, les scores de confiance des engins NLU n\u2019ont pas tendance \u00e0 \u00eatre tr\u00e8s pr\u00e9cis. De plus, les scores des engins NLU ne prennent g\u00e9n\u00e9ralement pas en compte le score de confiance de reconnaissance vocale. Or, comment se fier \u00e0 un r\u00e9sultat NLU s&rsquo;il est lui-m\u00eame bas\u00e9 sur un r\u00e9sultat de reconnaissance vocale \u00e0 faible score de confiance? Pour \u00eatre consid\u00e9r\u00e9s comme s\u00fbrs, les scores de confiance des applications conversationnelles vocales doivent prendre en compte \u00e0 la fois les scores STT et les scores NLU.<\/span><\/li>\n<\/ul>\n<ul>\n<li><b>Meilleurs r\u00e9sultats (<\/b><b><i>N-best results<\/i><\/b><b>).<\/b><span style=\"font-weight: 400;\"> De nombreux engins NLU ne renvoient qu\u2019une seule intention, celle avec le score de confiance le plus \u00e9lev\u00e9, m\u00eame si elle appara\u00eet aupr\u00e8s d\u2019autres intentions ayant des scores presque identiques. Le fait de pouvoir avoir acc\u00e8s \u00e0 une liste des meilleurs r\u00e9sultats (<\/span><i><span style=\"font-weight: 400;\">N-best results<\/span><\/i><span style=\"font-weight: 400;\">) permet de prendre de meilleures d\u00e9cisions en ce qui a trait au dialogue (par exemple, lorsque vient le temps de d\u00e9sambigu\u00efser certains \u00e9nonc\u00e9s) ou de choisir la meilleure hypoth\u00e8se en fonction d\u2019informations contextuelles qui ne seraient pas disponibles pour l\u2019engin NLU.<\/span><\/li>\n<\/ul>\n<p><span style=\"font-weight: 400;\">Le traitement automatique du langage naturel est actuellement l&rsquo;un des domaines de recherche en intelligence artificielle des plus dynamiques et nous nous attendons \u00e0 ce que les syst\u00e8mes d&rsquo;IA conversationnels b\u00e9n\u00e9ficient d\u2019un flux continu d&rsquo;avanc\u00e9es technologiques.<\/span><\/p>\n<h2><b>Synth\u00e8se de la parole<\/b><\/h2>\n<p><span style=\"font-weight: 400;\">Les technologies de synth\u00e8se vocale (TTS) existent depuis tr\u00e8s longtemps, mais jusqu&rsquo;\u00e0 tout r\u00e9cemment, la qualit\u00e9 et l&rsquo;intelligibilit\u00e9 des r\u00e9sultats n&rsquo;\u00e9taient pas assez bonnes pour offrir une exp\u00e9rience conversationnelle convenable. Les segments vocaux des meilleures applications RVI avec reconnaissance vocale \u00e9taient presque tous enregistr\u00e9s en studio avec des voix professionnelles. Pour ce qui est du rendu des phrases comprenant des donn\u00e9es dynamiques, on devait alors proc\u00e9der \u00e0 de la concat\u00e9nation de segments, ce qui est assez complexe \u00e0 faire correctement.<\/span><\/p>\n<p><span style=\"font-weight: 400;\">Mais des progr\u00e8s ph\u00e9nom\u00e9naux ont r\u00e9cemment vu le jour du c\u00f4t\u00e9 des technologies TTS. Il est ainsi d\u00e9sormais raisonnable, dans la plupart des cas, d&rsquo;utiliser des voix de synth\u00e8se plut\u00f4t que des enregistrements studio. C\u2019est particuli\u00e8rement vrai en anglais, o\u00f9 la qualit\u00e9 de la meilleure voix de synth\u00e8se est telle qu\u2019il est parfois difficile de la distinguer d\u2019une voix humaine. De plus, on peut maintenant cr\u00e9er des voix de synth\u00e8se personnalis\u00e9es qui peuvent imiter notre voix professionnelle pr\u00e9f\u00e9r\u00e9e.<\/span><\/p>\n<p><span style=\"font-weight: 400;\">Le recours aux technologies TTS change vraiment la donne pour tout ce qui a trait \u00e0 la cr\u00e9ation et au d\u00e9veloppement des applications RVI conversationnelles. D\u2019une part, elles \u00e9liminent le besoin de retourner constamment en studio pour enregistrer de nouveaux segments vocaux d\u00e8s que survient un changement \u00e0 l\u2019application. D\u2019autre part, elles nous \u00e9pargnent de fastidieuses manipulations de milliers de segments vocaux (dans souvent plus d\u2019une langue), t\u00e2ches trop souvent sources d\u2019erreurs. D\u00e9sormais, les applications peuvent \u00eatre modifi\u00e9es, test\u00e9es et mises en production dans la foul\u00e9e.<\/span><\/p>\n<p><span style=\"font-weight: 400;\">Bien s\u00fbr, les technologies TTS ne sont pas parfaites et nous rencontrons encore des erreurs occasionnelles, mais g\u00e9n\u00e9ralement il s\u2019agit d\u2019un faible prix \u00e0 payer en comparaison avec l&rsquo;immense valeur ajout\u00e9e qu&rsquo;elles apportent. La solution id\u00e9ale pourrait tr\u00e8s bien \u00eatre une combinaison d\u2019enregistrements en studio, pour les segments audios cl\u00e9s o\u00f9 nous recherchons une intonation et une \u00e9motion pr\u00e9cise, et de segments de synth\u00e8se personnalis\u00e9s, construits \u00e0 partir de la m\u00eame voix professionnelle que celle utilis\u00e9e dans les segments pr\u00e9-enregistr\u00e9s.<\/span><\/p>\n<h2><b>Int\u00e9gration avec les plateformes de centre de contacts<\/b><\/h2>\n<p><span style=\"font-weight: 400;\">Les applications RVI traditionnelles avec reconnaissance vocale ont longtemps adh\u00e9r\u00e9 \u00e0 des standards \u00e9prouv\u00e9s pour r\u00e9aliser l\u2019int\u00e9gration de technologies conversationnelles; qu\u2019on pense au<\/span><a href=\"https:\/\/tools.ietf.org\/html\/rfc6787\" target=\"_blank\" rel=\"noopener\"> <span style=\"font-weight: 400;\">protocole MRCP<\/span><\/a><span style=\"font-weight: 400;\"> pour la reconnaissance et la synth\u00e8se vocale, au<\/span><a href=\"https:\/\/www.w3.org\/TR\/voicexml20\/\" target=\"_blank\" rel=\"noopener\"> <span style=\"font-weight: 400;\">langage VoiceXML<\/span><\/a><span style=\"font-weight: 400;\"> pour les dialogues, \u00e0 la<\/span><a href=\"https:\/\/www.w3.org\/TR\/speech-grammar\/\" target=\"_blank\" rel=\"noopener\"> <span style=\"font-weight: 400;\">sp\u00e9cification SRGS<\/span><\/a><span style=\"font-weight: 400;\"> pour les grammaires de reconnaissance vocale ou au<\/span><a href=\"https:\/\/www.w3.org\/TR\/semantic-interpretation\/\" target=\"_blank\" rel=\"noopener\"> <span style=\"font-weight: 400;\">m\u00e9canisme SISR<\/span><\/a><span style=\"font-weight: 400;\"> pour l&rsquo;interpr\u00e9tation s\u00e9mantique.<\/span><\/p>\n<p><span style=\"font-weight: 400;\">D\u00e9sormais, avec l&rsquo;\u00e9mergence d&rsquo;une nouvelle g\u00e9n\u00e9ration de plateformes de centre de contacts infonuagiques et l&rsquo;arriv\u00e9e des plus r\u00e9centes technologies bas\u00e9es sur l\u2019apprentissage profond, tous ces standards deviennent obsol\u00e8tes et sont remplac\u00e9es par un \u00e9ventail d&rsquo;interfaces de programmation (API) propri\u00e9taires et de nouveaux standards \u00e9mergents (par exemple,<\/span><a href=\"https:\/\/grpc.io\/\" target=\"_blank\" rel=\"noopener\"> <span style=\"font-weight: 400;\">l\u2019environnement gRPC<\/span><\/a><span style=\"font-weight: 400;\">).<\/span><\/p>\n<p><span style=\"font-weight: 400;\">L&rsquo;int\u00e9gration de ces nouvelles technologies conversationnelles avec les plateformes de centre de contacts demeure une t\u00e2che en cours d\u2019\u00e9volution. Voici ce que nous constatons:<\/span><\/p>\n<ul>\n<li><span style=\"font-weight: 400;\">Certaines fonctionnalit\u00e9s de base que nous tenions habituellement pour acquises (par exemple, les interruptions (<\/span><i><span style=\"font-weight: 400;\">barge-in<\/span><\/i><span style=\"font-weight: 400;\">) et le repli DTMF) ne sont pas toujours disponibles<\/span><\/li>\n<li><span style=\"font-weight: 400;\">Le choix des technologies conversationnelles disponibles sur plusieurs plateformes de centres de contacts reste limit\u00e9<\/span><\/li>\n<li><span style=\"font-weight: 400;\">M\u00eame lorsque des int\u00e9grations sont disponibles, il est souvent tr\u00e8s difficile de tirer pleinement profit du potentiel des nouvelles technologies (par exemple, le fait de ne pas avoir acc\u00e8s aux scores de confiance ou aux listes des meilleurs r\u00e9sultats (<\/span><i><span style=\"font-weight: 400;\">N-best<\/span><\/i><span style=\"font-weight: 400;\">), le fait qu\u2019il soit impossible de faire du post-traitement sur les r\u00e9sultats STT avant de les envoyer \u00e0 l\u2019engin NLU, etc.)<\/span><\/li>\n<\/ul>\n<p><span style=\"font-weight: 400;\">Certaines solutions voient tranquillement le jour afin de combler ces probl\u00e8mes d&rsquo;int\u00e9gration. Par exemple, Audiocodes, avec son<\/span><a href=\"https:\/\/voiceaiconnect.audiocodes.com\/\" target=\"_blank\" rel=\"noopener\"> <span style=\"font-weight: 400;\">VoiceAI Connect<\/span><\/a><span style=\"font-weight: 400;\">, pr\u00e9tend fournir \u00ab une connectivit\u00e9 facile entre toute plateforme de centre de contacts et tout environnement de d\u00e9veloppement robot ou tout engin vocal \u00bb (<\/span><i><span style=\"font-weight: 400;\">\u201ceasy connectivity between any CC platform and any bot frameworks or speech engine\u201d<\/span><\/i><span style=\"font-weight: 400;\">). Cela pourrait permettre d\u2019exploiter au mieux les technologies conversationnelles en fonction des exigences propres \u00e0 chaque solution \u00e0 implanter.<\/span><\/p>\n<h2><b>Le meilleur des deux mondes<\/b><\/h2>\n<p><span style=\"font-weight: 400;\">L&rsquo;apprentissage profond a un impact fondamental sur les technologies d&rsquo;IA conversationnelles et cela change consid\u00e9rablement la fa\u00e7on dont nous envisageons le d\u00e9veloppement des applications RVI. Nous sommes encore aux balbutiements de cette transformation. Ces nouvelles technologies sont encore trop immatures mais \u00e9volueront probablement tr\u00e8s rapidement dans un avenir proche. \u00c0 nous de nous adapter \u00e0 leur \u00e9volution rapide et de comprendre comment les exploiter le plus efficacement possible.<\/span><\/p>\n<p><span style=\"font-weight: 400;\">N\u00e9anmoins, ces nouvelles technologies offrent d\u00e9j\u00e0 des avantages concrets tr\u00e8s significatifs. Par exemple :<\/span><\/p>\n<ul>\n<li><span style=\"font-weight: 400;\">Il n&rsquo;est d\u00e9sormais plus n\u00e9cessaire, pour que la reconnaissance vocale fonctionne, de cr\u00e9er des grammaires complexes ou de recueillir des milliers d&rsquo;\u00e9nonc\u00e9s d\u2019entrainement pour des mod\u00e8les SLM. La pr\u00e9cision de reconnaissance vocale des meilleurs engins STT est, d\u2019embl\u00e9e, suffisamment acceptable, de sorte qu&rsquo;il est d\u00e9sormais possible de mettre rapidement en production un syst\u00e8me op\u00e9rationnel.<\/span><\/li>\n<li><span style=\"font-weight: 400;\">Les plus r\u00e9cents engins NLU peuvent \u00eatre entra\u00een\u00e9s avec \u00e9norm\u00e9ment moins de phrases que les anciennes technologies de classification NLU, ce qui permet, ici encore, de pouvoir mettre tr\u00e8s rapidement en production la premi\u00e8re version d\u2019un syst\u00e8me.<\/span><\/li>\n<li><span style=\"font-weight: 400;\">Les plus r\u00e9centes technologies de synth\u00e8se vocale sont devenues si performantes qu&rsquo;il n&rsquo;est maintenant presque plus n\u00e9cessaire de recourir \u00e0 des segments audios pr\u00e9-enregistr\u00e9s (en particulier pour l\u2019anglais). Cela r\u00e9duit consid\u00e9rablement le d\u00e9lai n\u00e9cessaire pour concevoir et mettre en production des nouvelles versions d&rsquo;une application, facilitant et acc\u00e9l\u00e9rant ainsi grandement leur d\u00e9ploiement.<\/span><\/li>\n<\/ul>\n<p><span style=\"font-weight: 400;\">La possibilit\u00e9 de mettre rapidement en service une premi\u00e8re version d&rsquo;une application est cruciale car elle permet de commencer rapidement \u00e0 recueillir de vraies donn\u00e9es conversationnelles et des \u00e9nonc\u00e9s d\u2019usagers r\u00e9els, mati\u00e8re premi\u00e8re avec laquelle le syst\u00e8me peut \u00eatre am\u00e9lior\u00e9 et optimis\u00e9 de fa\u00e7on continue.<\/span><\/p>\n<p><span style=\"font-weight: 400;\">Alors que certaines des limites des technologies STT commencent \u00e0 \u00eatre prises en consid\u00e9ration (par exemple, en termes de contextualisation, d&rsquo;optimisation, de traitement multilingue, etc.), les d\u00e9veloppeurs d&rsquo;applications RVI conversationnelles devraient envisager de combiner les technologies STT avec les technologies de reconnaissance vocale des RVI traditionnelles afin d&rsquo;obtenir le meilleur des deux mondes et d\u2019offrir aux utilisateurs de RVI conversationnelles des exp\u00e9riences remarquables (certaines plateformes RVI, par exemple la<\/span><a href=\"https:\/\/docs.genesys.com\/Documentation\/GVP\" target=\"_blank\" rel=\"noopener\"> <span style=\"font-weight: 400;\">plateforme vocale de Genesys<\/span><\/a><span style=\"font-weight: 400;\">, permettent cette combinaison d\u2019approches).<\/span>[\/et_pb_text][\/et_pb_column][\/et_pb_row][\/et_pb_section]<\/p>\n","protected":false},"excerpt":{"rendered":"<p>[et_pb_section fb_built=\u00a0\u00bb1&Prime; admin_label=\u00a0\u00bbsection\u00a0\u00bb _builder_version=\u00a0\u00bb3.22&Prime; global_colors_info=\u00a0\u00bb{}\u00a0\u00bb][et_pb_row admin_label=\u00a0\u00bbrow\u00a0\u00bb _builder_version=\u00a0\u00bb3.25&Prime; background_size=\u00a0\u00bbinitial\u00a0\u00bb background_position=\u00a0\u00bbtop_left\u00a0\u00bb background_repeat=\u00a0\u00bbrepeat\u00a0\u00bb global_colors_info=\u00a0\u00bb{}\u00a0\u00bb][et_pb_column type=\u00a0\u00bb4_4&Prime; _builder_version=\u00a0\u00bb3.25&Prime; custom_padding=\u00a0\u00bb|||\u00a0\u00bb global_colors_info=\u00a0\u00bb{}\u00a0\u00bb custom_padding__hover=\u00a0\u00bb|||\u00a0\u00bb][et_pb_text admin_label=\u00a0\u00bbText\u00a0\u00bb _builder_version=\u00a0\u00bb3.27.4&Prime; background_size=\u00a0\u00bbinitial\u00a0\u00bb background_position=\u00a0\u00bbtop_left\u00a0\u00bb background_repeat=\u00a0\u00bbrepeat\u00a0\u00bb global_colors_info=\u00a0\u00bb{}\u00a0\u00bb]Et en fait, \u00e7a n\u2019a rien de bien nouveau. Nous appelons habituellement \u00e7a \u00ab RVI avec reconnaissance vocale \u00bb et c\u2019est ce type d\u2019exp\u00e9riences conversationnelles que nous cr\u00e9ons depuis 20 ans. Ce qui est [&hellip;]<\/p>\n","protected":false},"author":7,"featured_media":8453,"comment_status":"closed","ping_status":"closed","sticky":false,"template":"","format":"standard","meta":{"_et_pb_use_builder":"off","_et_pb_old_content":"<p>[et_pb_section fb_built=\"1\" admin_label=\"section\" _builder_version=\"3.22\" global_colors_info=\"{}\"][et_pb_row admin_label=\"row\" _builder_version=\"3.25\" background_size=\"initial\" background_position=\"top_left\" background_repeat=\"repeat\" global_colors_info=\"{}\"][et_pb_column type=\"4_4\" _builder_version=\"3.25\" custom_padding=\"|||\" global_colors_info=\"{}\" custom_padding__hover=\"|||\"][et_pb_text admin_label=\"Text\" _builder_version=\"3.27.4\" background_size=\"initial\" background_position=\"top_left\" background_repeat=\"repeat\" global_colors_info=\"{}\"]Et en fait, \u00e7a n\u2019a rien de bien nouveau. Nous appelons habituellement \u00e7a \u00ab RVI avec reconnaissance vocale \u00bb et c\u2019est ce type d\u2019exp\u00e9riences conversationnelles que nous cr\u00e9ons depuis 20 ans.<\/p><p>Ce qui est nouveau, c'est qu'il existe d\u00e9sormais de nouvelles technologies et de nouvelles plateformes qui promettent d\u2019acc\u00e9l\u00e9rer et de faciliter la cr\u00e9ation de ce type d\u2019exp\u00e9riences conversationnelles tout en bonifiant consid\u00e9rablement l\u2019\u00e9ventail des t\u00e2ches que les agents virtuels vocaux (comme nous les appelons) peuvent ex\u00e9cuter.<\/p><p>Ces nouvelles technologies ont initialement vu le jour chez les assistants vocaux (Siri, Amazon Echo, Google Home) et sont en train de changer fondamentalement la fa\u00e7on dont les solutions RVI sont d\u00e9velopp\u00e9es.<\/p><p>Pour comprendre comment, comparons la \u00ab RVI traditionnelle avec reconnaissance vocale \u00bb avec cette \u00ab nouvelle RVI \u00bb.<\/p><table class=\"MsoNormalTable\" style=\"border-collapse: collapse; border: none; mso-border-alt: solid black 1.0pt; mso-yfti-tbllook: 1184; mso-border-insideh: 1.0pt solid black; mso-border-insidev: 1.0pt solid black;\" border=\"1\" cellspacing=\"0\" cellpadding=\"0\"><tbody><tr style=\"mso-yfti-irow: 0; mso-yfti-firstrow: yes;\"><td style=\"border: solid black 1.0pt; background: #EFEFEF; padding: 5.0pt 5.0pt 5.0pt 5.0pt;\" valign=\"top\"><p class=\"MsoNormal\" style=\"margin-bottom: 6.0pt; line-height: normal;\"><b><br \/><span style=\"font-family: 'Arial',sans-serif; mso-fareast-font-family: 'Times New Roman'; color: black; mso-fareast-language: FR-CA;\">Technologie<\/span><\/b><\/p><\/td><td style=\"border: solid black 1.0pt; border-left: none; mso-border-left-alt: solid black 1.0pt; background: #EFEFEF; padding: 5.0pt 5.0pt 5.0pt 5.0pt;\" valign=\"top\"><p class=\"MsoNormal\" style=\"margin-bottom: 6.0pt; line-height: normal;\"><b><br \/><span style=\"font-family: 'Arial',sans-serif; mso-fareast-font-family: 'Times New Roman'; color: black; mso-fareast-language: FR-CA;\">RVI traditionnelle avec reconnaissance vocale<\/span><\/b><\/p><\/td><td style=\"border: solid black 1.0pt; border-left: none; mso-border-left-alt: solid black 1.0pt; background: #EFEFEF; padding: 5.0pt 5.0pt 5.0pt 5.0pt;\" valign=\"top\"><p class=\"MsoNormal\" style=\"margin-bottom: 6.0pt; line-height: normal;\"><b><br \/><span style=\"font-family: 'Arial',sans-serif; mso-fareast-font-family: 'Times New Roman'; color: black; mso-fareast-language: FR-CA;\">Nouvelle RVI<\/span><\/b><\/p><\/td><\/tr><tr style=\"mso-yfti-irow: 1;\"><td style=\"border: solid black 1.0pt; border-top: none; mso-border-top-alt: solid black 1.0pt; padding: 5.0pt 5.0pt 5.0pt 5.0pt;\" valign=\"top\"><p class=\"MsoNormal\" style=\"margin-bottom: 6.0pt; line-height: normal;\"><span style=\"font-family: 'Arial',sans-serif; mso-fareast-font-family: 'Times New Roman'; color: black; mso-fareast-language: FR-CA;\">Reconnaissance vocale<\/span><\/p><\/td><td style=\"border-top: none; border-left: none; border-bottom: solid black 1.0pt; border-right: solid black 1.0pt; mso-border-top-alt: solid black 1.0pt; mso-border-left-alt: solid black 1.0pt; padding: 5.0pt 5.0pt 5.0pt 5.0pt;\" valign=\"top\"><p class=\"MsoNormal\" style=\"margin-bottom: 6.0pt; line-height: normal;\"><span lang=\"EN-CA\" style=\"font-family: 'Arial',sans-serif; mso-fareast-font-family: 'Times New Roman'; color: black; mso-ansi-language: EN-CA; mso-fareast-language: FR-CA;\">Grammaires et mod\u00e8les de langage statistiques<\/span><\/p><\/td><td style=\"border-top: none; border-left: none; border-bottom: solid black 1.0pt; border-right: solid black 1.0pt; mso-border-top-alt: solid black 1.0pt; mso-border-left-alt: solid black 1.0pt; padding: 5.0pt 5.0pt 5.0pt 5.0pt;\" valign=\"top\"><p class=\"MsoNormal\" style=\"margin-bottom: 6.0pt; line-height: normal;\"><span style=\"font-family: 'Arial',sans-serif; mso-fareast-font-family: 'Times New Roman'; color: black; mso-fareast-language: FR-CA;\">Transcription automatique de la parole (speech-to-text)<\/span><\/p><\/td><\/tr><tr style=\"mso-yfti-irow: 2;\"><td style=\"border: solid black 1.0pt; border-top: none; mso-border-top-alt: solid black 1.0pt; padding: 5.0pt 5.0pt 5.0pt 5.0pt;\" valign=\"top\"><p class=\"MsoNormal\" style=\"margin-bottom: 6.0pt; line-height: normal;\"><span style=\"font-family: 'Arial',sans-serif; mso-fareast-font-family: 'Times New Roman'; color: black; mso-fareast-language: FR-CA;\">Compr\u00e9hension du langage naturel (CLN\/NLU)<\/span><\/p><\/td><td style=\"border-top: none; border-left: none; border-bottom: solid black 1.0pt; border-right: solid black 1.0pt; mso-border-top-alt: solid black 1.0pt; mso-border-left-alt: solid black 1.0pt; padding: 5.0pt 5.0pt 5.0pt 5.0pt;\" valign=\"top\"><p class=\"MsoNormal\" style=\"margin-bottom: 6.0pt; line-height: normal;\"><span style=\"font-family: 'Arial',sans-serif; mso-fareast-font-family: 'Times New Roman'; color: black; mso-fareast-language: FR-CA;\">Grammaires et classificateurs simples<\/span><\/p><\/td><td style=\"border-top: none; border-left: none; border-bottom: solid black 1.0pt; border-right: solid black 1.0pt; mso-border-top-alt: solid black 1.0pt; mso-border-left-alt: solid black 1.0pt; padding: 5.0pt 5.0pt 5.0pt 5.0pt;\" valign=\"top\"><p class=\"MsoNormal\" style=\"margin-bottom: 6.0pt; line-height: normal;\"><span style=\"font-family: 'Arial',sans-serif; mso-fareast-font-family: 'Times New Roman'; color: black; mso-fareast-language: FR-CA;\">Traitement automatique du langage naturel (TALN) par apprentissage profond (deep learning)<\/span><\/p><\/td><\/tr><tr style=\"mso-yfti-irow: 3; mso-yfti-lastrow: yes;\"><td style=\"border: solid black 1.0pt; border-top: none; mso-border-top-alt: solid black 1.0pt; padding: 5.0pt 5.0pt 5.0pt 5.0pt;\" valign=\"top\"><p class=\"MsoNormal\" style=\"margin-bottom: 6.0pt; line-height: normal;\"><span style=\"font-family: 'Arial',sans-serif; mso-fareast-font-family: 'Times New Roman'; color: black; mso-fareast-language: FR-CA;\">Synth\u00e8se de la parole<\/span><\/p><\/td><td style=\"border-top: none; border-left: none; border-bottom: solid black 1.0pt; border-right: solid black 1.0pt; mso-border-top-alt: solid black 1.0pt; mso-border-left-alt: solid black 1.0pt; padding: 5.0pt 5.0pt 5.0pt 5.0pt;\" valign=\"top\"><p class=\"MsoNormal\" style=\"margin-bottom: 6.0pt; line-height: normal;\"><span lang=\"EN-CA\" style=\"font-family: 'Arial',sans-serif; mso-fareast-font-family: 'Times New Roman'; color: black; mso-ansi-language: EN-CA; mso-fareast-language: FR-CA;\">Concat\u00e9nation de segment vocaux + synth\u00e8se vocale (TTS)<\/span><\/p><\/td><td style=\"border-top: none; border-left: none; border-bottom: solid black 1.0pt; border-right: solid black 1.0pt; mso-border-top-alt: solid black 1.0pt; mso-border-left-alt: solid black 1.0pt; padding: 5.0pt 5.0pt 5.0pt 5.0pt;\" valign=\"top\"><p class=\"MsoNormal\" style=\"margin-bottom: 6.0pt; line-height: normal;\"><span style=\"font-family: 'Arial',sans-serif; mso-fareast-font-family: 'Times New Roman'; color: black; mso-fareast-language: FR-CA;\">Synth\u00e8se vocale (TTS), principalement<\/span><\/p><\/td><\/tr><\/tbody><\/table><p>Regardons tout cela plus en d\u00e9tails.<\/p><h2><b>RVI traditionnelle avec reconnaissance vocale<\/b><\/h2><p><span style=\"font-weight: 400;\">Les engins de reconnaissance vocale traditionnellement utilis\u00e9s dans les RVI (par exemple,<\/span><a href=\"https:\/\/www.nuance.com\/omni-channel-customer-engagement\/voice-and-ivr\/automatic-speech-recognition\/nuance-recognizer.html\" target=\"_blank\" rel=\"noopener\"> <span style=\"font-weight: 400;\">Nuance Recognizer<\/span><\/a><span style=\"font-weight: 400;\">) ne sont pas en mesure de fonctionner \u201cout-of-the-box\u201d. Pour cela, on doit faire appel \u00e0 des grammaires de reconnaissance vocale. Il existe deux types principaux de grammaires :<\/span><\/p><ol><li><b>Les grammaires SRGS <\/b><span style=\"font-weight: 400;\">sont d\u00e9finies par<\/span><a href=\"https:\/\/www.w3.org\/TR\/speech-grammar\/\" target=\"_blank\" rel=\"noopener\"> <span style=\"font-weight: 400;\">un ensemble de r\u00e8gles<\/span><\/a><span style=\"font-weight: 400;\">, \u00e9labor\u00e9es manuellement par un d\u00e9veloppeur de grammaires. Elles fournissent une description formelle des \u00e9nonc\u00e9s qui peuvent \u00eatre reconnus par l\u2019engin de reconnaissance. Le langage d\u00e9fini par les grammaires SRGS est rigide et seuls les \u00e9nonc\u00e9s pr\u00e9vus dans ces grammaires peuvent \u00eatre reconnus par l\u2019engin. Les grammaires SRGS sont bien adapt\u00e9es aux dialogues dirig\u00e9s, qui pr\u00e9sentent typiquement un ensemble pr\u00e9visible d'\u00e9nonc\u00e9s qui seront fournis par l'utilisateur.<\/span><\/li><li><b>Les mod\u00e8les de langage statistique (SLM)<\/b><span style=\"font-weight: 400;\"> sont d\u00e9finis par des<\/span><a href=\"https:\/\/en.wikipedia.org\/wiki\/N-gram\" target=\"_blank\" rel=\"noopener\"> <span style=\"font-weight: 400;\">N-grammes<\/span><\/a><span style=\"font-weight: 400;\">; ce sont les probabilit\u00e9s d'occurrence un mot \u00e9tant donn\u00e9s les mots pr\u00e9c\u00e9dents dans la phrase, probabilit\u00e9s apprises \u00e0 partir d'un \u00e9chantillon de phrases. Les mod\u00e8les SLM fournissent un mod\u00e8le de langage beaucoup moins rigide que les grammaires SRGS et sont donc beaucoup mieux adapt\u00e9s pour traiter les r\u00e9ponses aux questions ouvertes (par exemple, \u00ab Comment puis-je vous aider? \u00bb), r\u00e9ponses normalement plus spontan\u00e9es, et fournies par l\u2019utilisateur en langage naturel. Pour bien performer, les mod\u00e8les SLM doivent pouvoir s\u2019entra\u00eener sur un corpus de phrases suffisamment grand et repr\u00e9sentatif du domaine cibl\u00e9.<\/span><\/li><\/ol><p><span style=\"font-weight: 400;\">Le d\u00e9veloppement d'une application RVI traditionnelle avec reconnaissance vocale n\u00e9cessite la cr\u00e9ation d'une grammaire distincte pour chacune des \u00e9tapes du dialogue. De plus, pour atteindre un niveau de pr\u00e9cision de reconnaissance suffisant, ces grammaires doivent subir de nombreux r\u00e9glages bas\u00e9s sur des \u00e9nonc\u00e9s d'utilisateurs r\u00e9els, qui auront \u00e9t\u00e9 collect\u00e9s par l'application RVI en production.<\/span><\/p><p><span style=\"font-weight: 400;\">Le d\u00e9veloppement et le r\u00e9glage de ces grammaires sont des t\u00e2ches chronophages qui n\u00e9cessitent l\u2019intervention de sp\u00e9cialistes de la parole hautement qualifi\u00e9s. Si cela est bien fait, on peut atteindre une tr\u00e8s grande pr\u00e9cision dans la reconnaissance et cr\u00e9er des exp\u00e9riences utilisateur positives. Malheureusement, ces t\u00e2ches sont trop souvent n\u00e9glig\u00e9es, ce qui se traduit in\u00e9vitablement par des performances de l\u2019engin de reconnaissance d\u00e9cevantes, ce qui \u00e0 son tour entra\u00eene une exp\u00e9rience utilisateur m\u00e9diocre. C'est d\u2019ailleurs une des principales raisons pour lesquelles les RVI avec reconnaissance vocale ont si souvent mauvaise r\u00e9putation.<\/span><\/p><h2><b>Transcription automatique de la parole (<\/b><b><i>speech-to-text, STT<\/i><\/b><b>)<\/b><\/h2><p><span style=\"font-weight: 400;\">Au cours des derni\u00e8res ann\u00e9es, et gr\u00e2ce \u00e0 l'apprentissage profond, nous avons assist\u00e9 \u00e0 une \u00e9volution fulgurante des technologies de reconnaissance vocale. Cette importante perc\u00e9e a permis d\u2019entra\u00eener des engins STT qui arrivent \u00e0 fournir des transcriptions vocales de haute pr\u00e9cision pour des types presque illimit\u00e9s de vocabulaires. De nos jours, bon nombre de fournisseurs proposent des engins STT (par exemple,<\/span><a href=\"https:\/\/cloud.google.com\/speech-to-text\" target=\"_blank\" rel=\"noopener\"> <span style=\"font-weight: 400;\">Google STT<\/span><\/a><span style=\"font-weight: 400;\">,<\/span><a href=\"https:\/\/docs.mix.nuance.com\/asr-grpc\/v1\/#asr-as-a-service-grpc-api\" target=\"_blank\" rel=\"noopener\"> <span style=\"font-weight: 400;\">Nuance Krypton<\/span><\/a><span style=\"font-weight: 400;\">,<\/span><a href=\"https:\/\/aws.amazon.com\/transcribe\/\" target=\"_blank\" rel=\"noopener\"> <span style=\"font-weight: 400;\">Amazon Transcribe<\/span><\/a><span style=\"font-weight: 400;\">,<\/span><a href=\"https:\/\/deepgram.com\/\" target=\"_blank\" rel=\"noopener\"> <span style=\"font-weight: 400;\">Deepgram<\/span><\/a><span style=\"font-weight: 400;\">, etc.) et il existe \u00e9galement des versions en code source libre (<\/span><i><span style=\"font-weight: 400;\">open-source<\/span><\/i><span style=\"font-weight: 400;\">).<\/span><\/p><p><span style=\"font-weight: 400;\">Avec l\u2019utilisation des engins STT, il n'est plus n\u00e9cessaire de d\u00e9velopper des grammaires, un gain de temps non n\u00e9gligeable lors de la cr\u00e9ation d'applications RVI conversationnelles. Est-ce que l\u2019on vient ici de r\u00e9soudre l\u2019\u00e9nigme de la reconnaissance vocale? Loin de l\u00e0! Atteindre un niveau de pr\u00e9cision acceptable reste un enjeu majeur. En fait, des grammaires ad\u00e9quatement r\u00e9gl\u00e9es apporteront un niveau de pr\u00e9cision souvent nettement plus \u00e9lev\u00e9 que le meilleur des engins STT.<\/span><\/p><p><span style=\"font-weight: 400;\">Actuellement, les principaux probl\u00e8mes rencontr\u00e9s lors de l\u2019utilisation d\u2019engins STT sont:<\/span><\/p><ul><li><b>Donn\u00e9es d'entra\u00eenement<\/b><span style=\"font-weight: 400;\">. Comme pour tout mod\u00e8le bas\u00e9 sur l'apprentissage automatique, les performances du mod\u00e8le STT seront optimales si ses donn\u00e9es d'entra\u00eenement sont repr\u00e9sentatives des conditions dans lesquelles il est utilis\u00e9. Ainsi, si un mod\u00e8le \u00e9tait, par exemple, principalement entra\u00een\u00e9 sur des enregistrements obtenus \u00e0 partir d\u2019un haut-parleur intelligent, abordant typiquement des th\u00e8mes tels que la m\u00e9t\u00e9o, le r\u00e9glage des alarmes, la lecture de musique et des questions de connaissances g\u00e9n\u00e9rales, il est fort probable que ce mod\u00e8le n\u2019offrirait pas des performances optimales dans le cadre d\u2019une application RVI de type bancaire. S\u2019il \u00e9tait possible d'affiner les r\u00e9glages d\u2019un mod\u00e8le STT en l\u2019entra\u00eenant sur des donn\u00e9es sp\u00e9cifiques \u00e0 un domaine pr\u00e9cis, cela pourrait faire une \u00e9norme diff\u00e9rence en ce qui a trait \u00e0 la pr\u00e9cision. Malheureusement, la plupart des fournisseurs d\u2019engins STT ne permettent pas cette option (exception faite de Deepgram). Notons toutefois que Nuance fournit une solution partielle en permettant d\u2019entra\u00eener le mod\u00e8le par langue de domaine (<\/span><i><span style=\"font-weight: 400;\">domain language model, DLM<\/span><\/i><span style=\"font-weight: 400;\">) sur des phrases sp\u00e9cifiques \u00e0 chaque domaine cibl\u00e9.<\/span><\/li><\/ul><ul><li><b>Contextualisation.<\/b><span style=\"font-weight: 400;\"> Les engins STT peuvent conceptuellement reconna\u00eetre n'importe quel \u00e9nonc\u00e9 d'utilisateur, que celui-ci parle de films, de politique, de m\u00e9t\u00e9o, de musique, peu importe. C\u2019est une fonctionnalit\u00e9 tr\u00e8s puissante, mais qui peut aussi devenir un handicap dans le contexte des applications conversationnelles, qui sont g\u00e9n\u00e9ralement sp\u00e9cifiques \u00e0 un domaine particulier en plus d\u2019\u00eatre fortement contextualis\u00e9es. Si un agent virtuel demande \u00e0 un utilisateur de fournir une date de naissance, il y a fort \u00e0 parier que l'utilisateur r\u00e9ponde en fournissant une date de naissance. La fait de savoir tirer profit de ces connaissances contextualis\u00e9es peut grandement am\u00e9liorer la pr\u00e9cision de la reconnaissance vocale. Les humains font cela constamment, sans m\u00eame s'en rendre compte. Certains engins STT fournissent quelques capacit\u00e9s de contextualisation (par exemple,<\/span><a href=\"https:\/\/cloud.google.com\/speech-to-text\/docs\/adaptation-model\" target=\"_blank\" rel=\"noopener\"> <span style=\"font-weight: 400;\">la fonctionnalit\u00e9 d'adaptation de mod\u00e8le de l\u2019engin STT de Google<\/span><\/a><span style=\"font-weight: 400;\">), mais celles-ci restent assez limit\u00e9es pour le moment.<\/span><\/li><\/ul><ul><li><b>Optimisation.<\/b><span style=\"font-weight: 400;\"> Les engins de reconnaissance vocale des RVI traditionnelles offrent plusieurs moyens efficaces d'optimiser la pr\u00e9cision. Par exemple, d\u2019importants gains de pr\u00e9cision peuvent \u00eatre obtenus en affinant les transcriptions phon\u00e9tiques, en mod\u00e9lisant la coarticulation \u00e0 l\u2019int\u00e9rieur des mots et entre les mots, en mod\u00e9lisant les disfluences verbales, en ajustant les poids des diff\u00e9rents \u00e9l\u00e9ments d\u2019une grammaires ou les poids des diff\u00e9rentes grammaires, en intervenant dans le post-traitement des meilleurs r\u00e9sultats (<\/span><i><span style=\"font-weight: 400;\">N-best results<\/span><\/i><span style=\"font-weight: 400;\">), etc. La plupart des engin STT offrent peu, sinon pas de moyens d\u2019optimiser la pr\u00e9cision.<\/span><\/li><\/ul><ul><li><b>Support multilingue.<\/b><span style=\"font-weight: 400;\"> Nu Echo \u00e9tant situ\u00e9e \u00e0 Montr\u00e9al, ville bilingue, la plupart des applications conversationnelles que nous d\u00e9ployons doivent savoir traiter les mots anglais dans les phrases en fran\u00e7ais et vice-versa (la reconnaissance d'adresses en est un tr\u00e8s bon exemple). Cela ne peut \u00eatre fait efficacement qu'avec un engin de reconnaissance vocale capable de traiter deux langues diff\u00e9rentes \u00e0 l\u2019int\u00e9rieur d\u2019un seul et m\u00eame \u00e9nonc\u00e9, une fonctionnalit\u00e9 disponible chez certains engins de reconnaissance vocale des RVI traditionnelles, mais dans aucun engin STT de notre connaissance.<\/span><\/li><\/ul><p><span style=\"font-weight: 400;\">Les technologies STT \u00e9voluent extr\u00eamement rapidement. Nous pouvons donc nous attendre \u00e0 ce que le niveau de pr\u00e9cision de reconnaissance soit en constante am\u00e9lioration, \u00e0 pouvoir profiter d\u2019outils de contextualisation et d'optimisation de plus en plus efficaces, \u00e0 acc\u00e9der plus facilement \u00e0 des mod\u00e8les pouvant \u00eatre optimis\u00e9s en fonction de domaines sp\u00e9cifiques. En attendant, la solution id\u00e9ale pourrait tr\u00e8s bien \u00eatre une combinaison engins STT, engins RVI traditionnelles.<\/span><\/p><h2><b>Compr\u00e9hension du langage naturel (<\/b><b><i>natural language understanding<\/i><\/b><b>, <\/b><b><i>NLU<\/i><\/b><b>)<\/b><\/h2><p><span style=\"font-weight: 400;\">Les premi\u00e8res applications RVI avec reconnaissance vocale reposaient exclusivement sur les grammaires SRGS pour la reconnaissance vocale; la compr\u00e9hension du langage naturel (NLU) n'\u00e9tait donc pas un probl\u00e8me, le NLU \u00e9tant int\u00e9gr\u00e9 \u00e0 la grammaire.<\/span><\/p><p><span style=\"font-weight: 400;\">L'utilisation de mod\u00e8les de langage statistiques (SLM) a fait na\u00eetre le besoin d'avoir un engin NLU distinct, capable de comprendre les r\u00e9sultats de reconnaissance pour des \u00e9nonc\u00e9s spontan\u00e9s. Des techniques de d\u00e9tection d'intentions, bas\u00e9es sur des techniques simples d'apprentissage automatique,<\/span><a href=\"http:\/\/www.aclweb.org\/anthology\/J99-3003.pdf\" target=\"_blank\" rel=\"noopener\"> <span style=\"font-weight: 400;\">ont \u00e9t\u00e9 introduites il y a plus de 20 ans<\/span><\/a><span style=\"font-weight: 400;\">, pour des besoins reli\u00e9s \u00e0 l\u2019aiguillage d'appels en langage naturel. Ces techniques font tr\u00e8s bien fait l\u2019affaire, mais elles n\u00e9cessitent habituellement un imposant \u00e9chantillon de phrases, pour chacune des intentions, afin que le mod\u00e8le soit correctement entra\u00een\u00e9, ce qui repr\u00e9sente souvent un obstacle de taille \u00e0 la mise en service d'un syst\u00e8me.<\/span><\/p><p><span style=\"font-weight: 400;\">Durant bon nombres d\u2019ann\u00e9es, ces techniques n'ont pas beaucoup \u00e9volu\u00e9. Puis, est arriv\u00e9 l'apprentissage profond, qui a totalement chang\u00e9 le paysage des technologies de traitement du langage naturel. Un premier grand changement a \u00e9t\u00e9 l'introduction des repr\u00e9sentations vectorielles continues de mots (<\/span><i><span style=\"font-weight: 400;\">word embeddings<\/span><\/i><span style=\"font-weight: 400;\">), qui am\u00e9liorent la g\u00e9n\u00e9ralisabilit\u00e9 et permettent de diminuer de fa\u00e7on consid\u00e9rable la taille de l\u2019\u00e9chantillon de phrases n\u00e9cessaire pour entra\u00eener les mod\u00e8les NLU. Plus r\u00e9cemment, des mod\u00e8les de langage de grande taille (entra\u00een\u00e9s sur de gros corpus de donn\u00e9es, par exemple BERT) et de nouvelles architectures de r\u00e9seaux neuronaux apportent d\u2019autres am\u00e9liorations d\u2019envergure.<\/span><\/p><p><span style=\"font-weight: 400;\">Il est int\u00e9ressant de noter que les technologies NLU utilis\u00e9es pour traiter les conversations textuelles sont les m\u00eame que celles utilis\u00e9es pour traiter les conversations vocales, alors qu\u2019il existe des diff\u00e9rences importantes entre ces deux types de conversation. Par exemple, les syst\u00e8mes traitant des conversations textuelles doivent \u00eatre capables de g\u00e9rer de mani\u00e8re fiable les fautes de frappe, les acronymes et les sigles (par exemple, \u00ab lol \u00bb, \u00ab mdr \u00bb), les \u00e9motic\u00f4nes, etc., alors que les syst\u00e8mes traitant les conversations vocales doivent, de leur c\u00f4t\u00e9, savoir g\u00e9rer les diff\u00e9rences orthographiques entre homophones (par exemple, \u00ab cent \u00bb vs. \u00ab sans \u00bb, \u00ab Desjardins \u00bb vs. \u00ab des jardins \u00bb ou \u00ab soixante-treize \u00bb (73) vs. \u00ab soixante treize \u00bb (60 13)), les normalisations de l\u2019engin STT non-souhait\u00e9es (par exemple, \u00ab H 1 M 2 L 5 \u00bb \u2192 \u00ab H un m\u00e8tre deux L cinq \u00bb), sans parler des erreurs de reconnaissance vocale.<\/span><\/p><p><span style=\"font-weight: 400;\">Abordons maintenant certains probl\u00e8mes reli\u00e9s \u00e0 l\u2019utilisation des engins NLU :<\/span><\/p><ul><li><b>Contextualisation.<\/b><span style=\"font-weight: 400;\"> La plupart des engins NLU ne sont pas contextuels (\u00e0 l\u2019exception de Dialogflow), ce qui peut \u00eatre un probl\u00e8me car le m\u00eame \u00e9nonc\u00e9 peut avoir des interpr\u00e9tations diff\u00e9rentes en fonction du contexte dans lequel il appara\u00eet. Par exemple, l\u2019interpr\u00e9tation de l\u2019\u00e9nonc\u00e9 \u00ab Montr\u00e9al \u00bb sera diff\u00e9rente selon que la question pos\u00e9e \u00e9tait \u00ab quelle est votre destination? \u00bb ou \u00ab quelle est la ville de d\u00e9part? \u00bb<\/span><\/li><\/ul><ul><li><b>Score de confiance.<\/b><span style=\"font-weight: 400;\"> Un dialogue de r\u00e9paration efficace doit pouvoir s\u2019appuyer sur des scores de confiance fiables mais malheureusement, les scores de confiance des engins NLU n\u2019ont pas tendance \u00e0 \u00eatre tr\u00e8s pr\u00e9cis. De plus, les scores des engins NLU ne prennent g\u00e9n\u00e9ralement pas en compte le score de confiance de reconnaissance vocale. Or, comment se fier \u00e0 un r\u00e9sultat NLU s'il est lui-m\u00eame bas\u00e9 sur un r\u00e9sultat de reconnaissance vocale \u00e0 faible score de confiance? Pour \u00eatre consid\u00e9r\u00e9s comme s\u00fbrs, les scores de confiance des applications conversationnelles vocales doivent prendre en compte \u00e0 la fois les scores STT et les scores NLU.<\/span><\/li><\/ul><ul><li><b>Meilleurs r\u00e9sultats (<\/b><b><i>N-best results<\/i><\/b><b>).<\/b><span style=\"font-weight: 400;\"> De nombreux engins NLU ne renvoient qu\u2019une seule intention, celle avec le score de confiance le plus \u00e9lev\u00e9, m\u00eame si elle appara\u00eet aupr\u00e8s d\u2019autres intentions ayant des scores presque identiques. Le fait de pouvoir avoir acc\u00e8s \u00e0 une liste des meilleurs r\u00e9sultats (<\/span><i><span style=\"font-weight: 400;\">N-best results<\/span><\/i><span style=\"font-weight: 400;\">) permet de prendre de meilleures d\u00e9cisions en ce qui a trait au dialogue (par exemple, lorsque vient le temps de d\u00e9sambigu\u00efser certains \u00e9nonc\u00e9s) ou de choisir la meilleure hypoth\u00e8se en fonction d\u2019informations contextuelles qui ne seraient pas disponibles pour l\u2019engin NLU.<\/span><\/li><\/ul><p><span style=\"font-weight: 400;\">Le traitement automatique du langage naturel est actuellement l'un des domaines de recherche en intelligence artificielle des plus dynamiques et nous nous attendons \u00e0 ce que les syst\u00e8mes d'IA conversationnels b\u00e9n\u00e9ficient d\u2019un flux continu d'avanc\u00e9es technologiques.<\/span><\/p><h2><b>Synth\u00e8se de la parole<\/b><\/h2><p><span style=\"font-weight: 400;\">Les technologies de synth\u00e8se vocale (TTS) existent depuis tr\u00e8s longtemps, mais jusqu'\u00e0 tout r\u00e9cemment, la qualit\u00e9 et l'intelligibilit\u00e9 des r\u00e9sultats n'\u00e9taient pas assez bonnes pour offrir une exp\u00e9rience conversationnelle convenable. Les segments vocaux des meilleures applications RVI avec reconnaissance vocale \u00e9taient presque tous enregistr\u00e9s en studio avec des voix professionnelles. Pour ce qui est du rendu des phrases comprenant des donn\u00e9es dynamiques, on devait alors proc\u00e9der \u00e0 de la concat\u00e9nation de segments, ce qui est assez complexe \u00e0 faire correctement.<\/span><\/p><p><span style=\"font-weight: 400;\">Mais des progr\u00e8s ph\u00e9nom\u00e9naux ont r\u00e9cemment vu le jour du c\u00f4t\u00e9 des technologies TTS. Il est ainsi d\u00e9sormais raisonnable, dans la plupart des cas, d'utiliser des voix de synth\u00e8se plut\u00f4t que des enregistrements studio. C\u2019est particuli\u00e8rement vrai en anglais, o\u00f9 la qualit\u00e9 de la meilleure voix de synth\u00e8se est telle qu\u2019il est parfois difficile de la distinguer d\u2019une voix humaine. De plus, on peut maintenant cr\u00e9er des voix de synth\u00e8se personnalis\u00e9es qui peuvent imiter notre voix professionnelle pr\u00e9f\u00e9r\u00e9e.<\/span><\/p><p><span style=\"font-weight: 400;\">Le recours aux technologies TTS change vraiment la donne pour tout ce qui a trait \u00e0 la cr\u00e9ation et au d\u00e9veloppement des applications RVI conversationnelles. D\u2019une part, elles \u00e9liminent le besoin de retourner constamment en studio pour enregistrer de nouveaux segments vocaux d\u00e8s que survient un changement \u00e0 l\u2019application. D\u2019autre part, elles nous \u00e9pargnent de fastidieuses manipulations de milliers de segments vocaux (dans souvent plus d\u2019une langue), t\u00e2ches trop souvent sources d\u2019erreurs. D\u00e9sormais, les applications peuvent \u00eatre modifi\u00e9es, test\u00e9es et mises en production dans la foul\u00e9e.<\/span><\/p><p><span style=\"font-weight: 400;\">Bien s\u00fbr, les technologies TTS ne sont pas parfaites et nous rencontrons encore des erreurs occasionnelles, mais g\u00e9n\u00e9ralement il s\u2019agit d\u2019un faible prix \u00e0 payer en comparaison avec l'immense valeur ajout\u00e9e qu'elles apportent. La solution id\u00e9ale pourrait tr\u00e8s bien \u00eatre une combinaison d\u2019enregistrements en studio, pour les segments audios cl\u00e9s o\u00f9 nous recherchons une intonation et une \u00e9motion pr\u00e9cise, et de segments de synth\u00e8se personnalis\u00e9s, construits \u00e0 partir de la m\u00eame voix professionnelle que celle utilis\u00e9e dans les segments pr\u00e9-enregistr\u00e9s.<\/span><\/p><h2><b>Int\u00e9gration avec les plateformes de centre de contacts<\/b><\/h2><p><span style=\"font-weight: 400;\">Les applications RVI traditionnelles avec reconnaissance vocale ont longtemps adh\u00e9r\u00e9 \u00e0 des standards \u00e9prouv\u00e9s pour r\u00e9aliser l\u2019int\u00e9gration de technologies conversationnelles; qu\u2019on pense au<\/span><a href=\"https:\/\/tools.ietf.org\/html\/rfc6787\" target=\"_blank\" rel=\"noopener\"> <span style=\"font-weight: 400;\">protocole MRCP<\/span><\/a><span style=\"font-weight: 400;\"> pour la reconnaissance et la synth\u00e8se vocale, au<\/span><a href=\"https:\/\/www.w3.org\/TR\/voicexml20\/\" target=\"_blank\" rel=\"noopener\"> <span style=\"font-weight: 400;\">langage VoiceXML<\/span><\/a><span style=\"font-weight: 400;\"> pour les dialogues, \u00e0 la<\/span><a href=\"https:\/\/www.w3.org\/TR\/speech-grammar\/\" target=\"_blank\" rel=\"noopener\"> <span style=\"font-weight: 400;\">sp\u00e9cification SRGS<\/span><\/a><span style=\"font-weight: 400;\"> pour les grammaires de reconnaissance vocale ou au<\/span><a href=\"https:\/\/www.w3.org\/TR\/semantic-interpretation\/\" target=\"_blank\" rel=\"noopener\"> <span style=\"font-weight: 400;\">m\u00e9canisme SISR<\/span><\/a><span style=\"font-weight: 400;\"> pour l'interpr\u00e9tation s\u00e9mantique.<\/span><\/p><p><span style=\"font-weight: 400;\">D\u00e9sormais, avec l'\u00e9mergence d'une nouvelle g\u00e9n\u00e9ration de plateformes de centre de contacts infonuagiques et l'arriv\u00e9e des plus r\u00e9centes technologies bas\u00e9es sur l\u2019apprentissage profond, tous ces standards deviennent obsol\u00e8tes et sont remplac\u00e9es par un \u00e9ventail d'interfaces de programmation (API) propri\u00e9taires et de nouveaux standards \u00e9mergents (par exemple,<\/span><a href=\"https:\/\/grpc.io\/\" target=\"_blank\" rel=\"noopener\"> <span style=\"font-weight: 400;\">l\u2019environnement gRPC<\/span><\/a><span style=\"font-weight: 400;\">).<\/span><\/p><p><span style=\"font-weight: 400;\">L'int\u00e9gration de ces nouvelles technologies conversationnelles avec les plateformes de centre de contacts demeure une t\u00e2che en cours d\u2019\u00e9volution. Voici ce que nous constatons:<\/span><\/p><ul><li><span style=\"font-weight: 400;\">Certaines fonctionnalit\u00e9s de base que nous tenions habituellement pour acquises (par exemple, les interruptions (<\/span><i><span style=\"font-weight: 400;\">barge-in<\/span><\/i><span style=\"font-weight: 400;\">) et le repli DTMF) ne sont pas toujours disponibles<\/span><\/li><li><span style=\"font-weight: 400;\">Le choix des technologies conversationnelles disponibles sur plusieurs plateformes de centres de contacts reste limit\u00e9<\/span><\/li><li><span style=\"font-weight: 400;\">M\u00eame lorsque des int\u00e9grations sont disponibles, il est souvent tr\u00e8s difficile de tirer pleinement profit du potentiel des nouvelles technologies (par exemple, le fait de ne pas avoir acc\u00e8s aux scores de confiance ou aux listes des meilleurs r\u00e9sultats (<\/span><i><span style=\"font-weight: 400;\">N-best<\/span><\/i><span style=\"font-weight: 400;\">), le fait qu\u2019il soit impossible de faire du post-traitement sur les r\u00e9sultats STT avant de les envoyer \u00e0 l\u2019engin NLU, etc.)<\/span><\/li><\/ul><p><span style=\"font-weight: 400;\">Certaines solutions voient tranquillement le jour afin de combler ces probl\u00e8mes d'int\u00e9gration. Par exemple, Audiocodes, avec son<\/span><a href=\"https:\/\/voiceaiconnect.audiocodes.com\/\" target=\"_blank\" rel=\"noopener\"> <span style=\"font-weight: 400;\">VoiceAI Connect<\/span><\/a><span style=\"font-weight: 400;\">, pr\u00e9tend fournir \u00ab une connectivit\u00e9 facile entre toute plateforme de centre de contacts et tout environnement de d\u00e9veloppement robot ou tout engin vocal \u00bb (<\/span><i><span style=\"font-weight: 400;\">\u201ceasy connectivity between any CC platform and any bot frameworks or speech engine\u201d<\/span><\/i><span style=\"font-weight: 400;\">). Cela pourrait permettre d\u2019exploiter au mieux les technologies conversationnelles en fonction des exigences propres \u00e0 chaque solution \u00e0 implanter.<\/span><\/p><h2><b>Le meilleur des deux mondes<\/b><\/h2><p><span style=\"font-weight: 400;\">L'apprentissage profond a un impact fondamental sur les technologies d'IA conversationnelles et cela change consid\u00e9rablement la fa\u00e7on dont nous envisageons le d\u00e9veloppement des applications RVI. Nous sommes encore aux balbutiements de cette transformation. Ces nouvelles technologies sont encore trop immatures mais \u00e9volueront probablement tr\u00e8s rapidement dans un avenir proche. \u00c0 nous de nous adapter \u00e0 leur \u00e9volution rapide et de comprendre comment les exploiter le plus efficacement possible.<\/span><\/p><p><span style=\"font-weight: 400;\">N\u00e9anmoins, ces nouvelles technologies offrent d\u00e9j\u00e0 des avantages concrets tr\u00e8s significatifs. Par exemple :<\/span><\/p><ul><li><span style=\"font-weight: 400;\">Il n'est d\u00e9sormais plus n\u00e9cessaire, pour que la reconnaissance vocale fonctionne, de cr\u00e9er des grammaires complexes ou de recueillir des milliers d'\u00e9nonc\u00e9s d\u2019entrainement pour des mod\u00e8les SLM. La pr\u00e9cision de reconnaissance vocale des meilleurs engins STT est, d\u2019embl\u00e9e, suffisamment acceptable, de sorte qu'il est d\u00e9sormais possible de mettre rapidement en production un syst\u00e8me op\u00e9rationnel.<\/span><\/li><li><span style=\"font-weight: 400;\">Les plus r\u00e9cents engins NLU peuvent \u00eatre entra\u00een\u00e9s avec \u00e9norm\u00e9ment moins de phrases que les anciennes technologies de classification NLU, ce qui permet, ici encore, de pouvoir mettre tr\u00e8s rapidement en production la premi\u00e8re version d\u2019un syst\u00e8me.<\/span><\/li><li><span style=\"font-weight: 400;\">Les plus r\u00e9centes technologies de synth\u00e8se vocale sont devenues si performantes qu'il n'est maintenant presque plus n\u00e9cessaire de recourir \u00e0 des segments audios pr\u00e9-enregistr\u00e9s (en particulier pour l\u2019anglais). Cela r\u00e9duit consid\u00e9rablement le d\u00e9lai n\u00e9cessaire pour concevoir et mettre en production des nouvelles versions d'une application, facilitant et acc\u00e9l\u00e9rant ainsi grandement leur d\u00e9ploiement.<\/span><\/li><\/ul><p><span style=\"font-weight: 400;\">La possibilit\u00e9 de mettre rapidement en service une premi\u00e8re version d'une application est cruciale car elle permet de commencer rapidement \u00e0 recueillir de vraies donn\u00e9es conversationnelles et des \u00e9nonc\u00e9s d\u2019usagers r\u00e9els, mati\u00e8re premi\u00e8re avec laquelle le syst\u00e8me peut \u00eatre am\u00e9lior\u00e9 et optimis\u00e9 de fa\u00e7on continue.<\/span><\/p><p><span style=\"font-weight: 400;\">Alors que certaines des limites des technologies STT commencent \u00e0 \u00eatre prises en consid\u00e9ration (par exemple, en termes de contextualisation, d'optimisation, de traitement multilingue, etc.), les d\u00e9veloppeurs d'applications RVI conversationnelles devraient envisager de combiner les technologies STT avec les technologies de reconnaissance vocale des RVI traditionnelles afin d'obtenir le meilleur des deux mondes et d\u2019offrir aux utilisateurs de RVI conversationnelles des exp\u00e9riences remarquables (certaines plateformes RVI, par exemple la<\/span><a href=\"https:\/\/docs.genesys.com\/Documentation\/GVP\" target=\"_blank\" rel=\"noopener\"> <span style=\"font-weight: 400;\">plateforme vocale de Genesys<\/span><\/a><span style=\"font-weight: 400;\">, permettent cette combinaison d\u2019approches).<\/span>[\/et_pb_text][\/et_pb_column][\/et_pb_row][\/et_pb_section]<\/p>","_et_gb_content_width":"","om_disable_all_campaigns":false,"_monsterinsights_skip_tracking":false,"_monsterinsights_sitenote_active":false,"_monsterinsights_sitenote_note":"","_monsterinsights_sitenote_category":0,"footnotes":""},"categories":[5],"tags":[],"class_list":["post-8512","post","type-post","status-publish","format-standard","has-post-thumbnail","hentry","category-blogue"],"aioseo_notices":[],"yoast_head":"<!-- This site is optimized with the Yoast SEO plugin v26.9 - https:\/\/yoast.com\/product\/yoast-seo-wordpress\/ -->\n<title>La nouvelle RVI arrive en ville. Qu\u2019est-ce que \u00e7a signifie? &#183; AI Virtual Voice Experts with Google Dialogflow CX - CCAI - Nu Echo<\/title>\n<meta name=\"description\" content=\"We\u2019ve been hearing a lot about \u201cConversational IVR\u201d or the \u201cModern IVR\u201d, but what is it exactly and why does it matter?\" \/>\n<meta name=\"robots\" content=\"index, follow, max-snippet:-1, max-image-preview:large, max-video-preview:-1\" \/>\n<link rel=\"canonical\" href=\"https:\/\/www.nuecho.com\/fr\/la-nouvelle-rvi-arrive-en-ville-quest-ce-que-ca-signifie\/\" \/>\n<meta property=\"og:locale\" content=\"fr_FR\" \/>\n<meta property=\"og:type\" content=\"article\" \/>\n<meta property=\"og:title\" content=\"La nouvelle RVI arrive en ville. Qu\u2019est-ce que \u00e7a signifie? &#183; AI Virtual Voice Experts with Google Dialogflow CX - CCAI - Nu Echo\" \/>\n<meta property=\"og:description\" content=\"We\u2019ve been hearing a lot about \u201cConversational IVR\u201d or the \u201cModern IVR\u201d, but what is it exactly and why does it matter?\" \/>\n<meta property=\"og:url\" content=\"https:\/\/www.nuecho.com\/fr\/la-nouvelle-rvi-arrive-en-ville-quest-ce-que-ca-signifie\/\" \/>\n<meta property=\"og:site_name\" content=\"AI Virtual Voice Experts with Google Dialogflow CX - CCAI - Nu Echo\" \/>\n<meta property=\"article:publisher\" content=\"https:\/\/www.facebook.com\/nuechoinc\/\" \/>\n<meta property=\"article:published_time\" content=\"2021-05-05T14:07:25+00:00\" \/>\n<meta property=\"article:modified_time\" content=\"2022-05-05T15:26:25+00:00\" \/>\n<meta property=\"og:image\" content=\"https:\/\/www.nuecho.com\/wp-content\/uploads\/2021\/05\/light-shutterstock_60165622-scaled.jpg\" \/>\n\t<meta property=\"og:image:width\" content=\"2560\" \/>\n\t<meta property=\"og:image:height\" content=\"2048\" \/>\n\t<meta property=\"og:image:type\" content=\"image\/jpeg\" \/>\n<meta name=\"author\" content=\"Yves Normandin\" \/>\n<meta name=\"twitter:card\" content=\"summary_large_image\" \/>\n<meta name=\"twitter:creator\" content=\"@nuecho\" \/>\n<meta name=\"twitter:site\" content=\"@nuecho\" \/>\n<meta name=\"twitter:label1\" content=\"\u00c9crit par\" \/>\n\t<meta name=\"twitter:data1\" content=\"Yves Normandin\" \/>\n\t<meta name=\"twitter:label2\" content=\"Dur\u00e9e de lecture estim\u00e9e\" \/>\n\t<meta name=\"twitter:data2\" content=\"13 minutes\" \/>\n<script type=\"application\/ld+json\" class=\"yoast-schema-graph\">{\"@context\":\"https:\/\/schema.org\",\"@graph\":[{\"@type\":\"Article\",\"@id\":\"https:\/\/www.nuecho.com\/fr\/la-nouvelle-rvi-arrive-en-ville-quest-ce-que-ca-signifie\/#article\",\"isPartOf\":{\"@id\":\"https:\/\/www.nuecho.com\/fr\/la-nouvelle-rvi-arrive-en-ville-quest-ce-que-ca-signifie\/\"},\"author\":{\"name\":\"Yves Normandin\",\"@id\":\"https:\/\/www.nuecho.com\/fr\/#\/schema\/person\/af513a0c546f54b84095e2a58d787e2a\"},\"headline\":\"La nouvelle RVI arrive en ville. Qu\u2019est-ce que \u00e7a signifie?\",\"datePublished\":\"2021-05-05T14:07:25+00:00\",\"dateModified\":\"2022-05-05T15:26:25+00:00\",\"mainEntityOfPage\":{\"@id\":\"https:\/\/www.nuecho.com\/fr\/la-nouvelle-rvi-arrive-en-ville-quest-ce-que-ca-signifie\/\"},\"wordCount\":3501,\"publisher\":{\"@id\":\"https:\/\/www.nuecho.com\/fr\/#organization\"},\"image\":{\"@id\":\"https:\/\/www.nuecho.com\/fr\/la-nouvelle-rvi-arrive-en-ville-quest-ce-que-ca-signifie\/#primaryimage\"},\"thumbnailUrl\":\"https:\/\/www.nuecho.com\/wp-content\/uploads\/2021\/05\/light-shutterstock_60165622-scaled.jpg\",\"articleSection\":[\"Blogue\"],\"inLanguage\":\"fr-FR\"},{\"@type\":\"WebPage\",\"@id\":\"https:\/\/www.nuecho.com\/fr\/la-nouvelle-rvi-arrive-en-ville-quest-ce-que-ca-signifie\/\",\"url\":\"https:\/\/www.nuecho.com\/fr\/la-nouvelle-rvi-arrive-en-ville-quest-ce-que-ca-signifie\/\",\"name\":\"La nouvelle RVI arrive en ville. Qu\u2019est-ce que \u00e7a signifie? &#183; AI Virtual Voice Experts with Google Dialogflow CX - CCAI - Nu Echo\",\"isPartOf\":{\"@id\":\"https:\/\/www.nuecho.com\/fr\/#website\"},\"primaryImageOfPage\":{\"@id\":\"https:\/\/www.nuecho.com\/fr\/la-nouvelle-rvi-arrive-en-ville-quest-ce-que-ca-signifie\/#primaryimage\"},\"image\":{\"@id\":\"https:\/\/www.nuecho.com\/fr\/la-nouvelle-rvi-arrive-en-ville-quest-ce-que-ca-signifie\/#primaryimage\"},\"thumbnailUrl\":\"https:\/\/www.nuecho.com\/wp-content\/uploads\/2021\/05\/light-shutterstock_60165622-scaled.jpg\",\"datePublished\":\"2021-05-05T14:07:25+00:00\",\"dateModified\":\"2022-05-05T15:26:25+00:00\",\"description\":\"We\u2019ve been hearing a lot about \u201cConversational IVR\u201d or the \u201cModern IVR\u201d, but what is it exactly and why does it matter?\",\"breadcrumb\":{\"@id\":\"https:\/\/www.nuecho.com\/fr\/la-nouvelle-rvi-arrive-en-ville-quest-ce-que-ca-signifie\/#breadcrumb\"},\"inLanguage\":\"fr-FR\",\"potentialAction\":[{\"@type\":\"ReadAction\",\"target\":[\"https:\/\/www.nuecho.com\/fr\/la-nouvelle-rvi-arrive-en-ville-quest-ce-que-ca-signifie\/\"]}]},{\"@type\":\"ImageObject\",\"inLanguage\":\"fr-FR\",\"@id\":\"https:\/\/www.nuecho.com\/fr\/la-nouvelle-rvi-arrive-en-ville-quest-ce-que-ca-signifie\/#primaryimage\",\"url\":\"https:\/\/www.nuecho.com\/wp-content\/uploads\/2021\/05\/light-shutterstock_60165622-scaled.jpg\",\"contentUrl\":\"https:\/\/www.nuecho.com\/wp-content\/uploads\/2021\/05\/light-shutterstock_60165622-scaled.jpg\",\"width\":2560,\"height\":2048,\"caption\":\"New IVR in Town\"},{\"@type\":\"BreadcrumbList\",\"@id\":\"https:\/\/www.nuecho.com\/fr\/la-nouvelle-rvi-arrive-en-ville-quest-ce-que-ca-signifie\/#breadcrumb\",\"itemListElement\":[{\"@type\":\"ListItem\",\"position\":1,\"name\":\"Home\",\"item\":\"https:\/\/www.nuecho.com\/fr\/\"},{\"@type\":\"ListItem\",\"position\":2,\"name\":\"La nouvelle RVI arrive en ville. Qu\u2019est-ce que \u00e7a signifie?\"}]},{\"@type\":\"WebSite\",\"@id\":\"https:\/\/www.nuecho.com\/fr\/#website\",\"url\":\"https:\/\/www.nuecho.com\/fr\/\",\"name\":\"AI Virtual Voice Experts with Google Dialogflow CX - CCAI - Nu Echo\",\"description\":\"Nu Echo\",\"publisher\":{\"@id\":\"https:\/\/www.nuecho.com\/fr\/#organization\"},\"potentialAction\":[{\"@type\":\"SearchAction\",\"target\":{\"@type\":\"EntryPoint\",\"urlTemplate\":\"https:\/\/www.nuecho.com\/fr\/?s={search_term_string}\"},\"query-input\":{\"@type\":\"PropertyValueSpecification\",\"valueRequired\":true,\"valueName\":\"search_term_string\"}}],\"inLanguage\":\"fr-FR\"},{\"@type\":\"Organization\",\"@id\":\"https:\/\/www.nuecho.com\/fr\/#organization\",\"name\":\"Nu Echo - Conversation AI | IA Conversationnelle\",\"url\":\"https:\/\/www.nuecho.com\/fr\/\",\"logo\":{\"@type\":\"ImageObject\",\"inLanguage\":\"fr-FR\",\"@id\":\"https:\/\/www.nuecho.com\/fr\/#\/schema\/logo\/image\/\",\"url\":\"https:\/\/www.nuecho.com\/wp-content\/uploads\/2019\/03\/bottom-logo.png\",\"contentUrl\":\"https:\/\/www.nuecho.com\/wp-content\/uploads\/2019\/03\/bottom-logo.png\",\"width\":138,\"height\":27,\"caption\":\"Nu Echo - Conversation AI | IA Conversationnelle\"},\"image\":{\"@id\":\"https:\/\/www.nuecho.com\/fr\/#\/schema\/logo\/image\/\"},\"sameAs\":[\"https:\/\/www.facebook.com\/nuechoinc\/\",\"https:\/\/x.com\/nuecho\",\"https:\/\/ca.linkedin.com\/company\/nu-echo\"]},{\"@type\":\"Person\",\"@id\":\"https:\/\/www.nuecho.com\/fr\/#\/schema\/person\/af513a0c546f54b84095e2a58d787e2a\",\"name\":\"Yves Normandin\",\"image\":{\"@type\":\"ImageObject\",\"inLanguage\":\"fr-FR\",\"@id\":\"https:\/\/www.nuecho.com\/fr\/#\/schema\/person\/image\/\",\"url\":\"https:\/\/www.nuecho.com\/wp-content\/uploads\/2021\/03\/Yves-photo-1-150x150.jpg\",\"contentUrl\":\"https:\/\/www.nuecho.com\/wp-content\/uploads\/2021\/03\/Yves-photo-1-150x150.jpg\",\"caption\":\"Yves Normandin\"},\"description\":\"A leading authority in speech recognition, natural language processing and machine learning, Yves brings over 30 years of experience to the team. His career has included research, product and application development, and business development. Today, he\u2019s responsible for defining the corporate direction and technological vision of Nu Echo, as well as leading our speech platform and building strategic alliances.\",\"sameAs\":[\"https:\/\/www.linkedin.com\/in\/yvesnormandin\/\"],\"url\":\"https:\/\/www.nuecho.com\/fr\/author\/ynormandin\/\"}]}<\/script>\n<!-- \/ Yoast SEO plugin. -->","yoast_head_json":{"title":"La nouvelle RVI arrive en ville. Qu\u2019est-ce que \u00e7a signifie? &#183; AI Virtual Voice Experts with Google Dialogflow CX - CCAI - Nu Echo","description":"We\u2019ve been hearing a lot about \u201cConversational IVR\u201d or the \u201cModern IVR\u201d, but what is it exactly and why does it matter?","robots":{"index":"index","follow":"follow","max-snippet":"max-snippet:-1","max-image-preview":"max-image-preview:large","max-video-preview":"max-video-preview:-1"},"canonical":"https:\/\/www.nuecho.com\/fr\/la-nouvelle-rvi-arrive-en-ville-quest-ce-que-ca-signifie\/","og_locale":"fr_FR","og_type":"article","og_title":"La nouvelle RVI arrive en ville. Qu\u2019est-ce que \u00e7a signifie? &#183; AI Virtual Voice Experts with Google Dialogflow CX - CCAI - Nu Echo","og_description":"We\u2019ve been hearing a lot about \u201cConversational IVR\u201d or the \u201cModern IVR\u201d, but what is it exactly and why does it matter?","og_url":"https:\/\/www.nuecho.com\/fr\/la-nouvelle-rvi-arrive-en-ville-quest-ce-que-ca-signifie\/","og_site_name":"AI Virtual Voice Experts with Google Dialogflow CX - CCAI - Nu Echo","article_publisher":"https:\/\/www.facebook.com\/nuechoinc\/","article_published_time":"2021-05-05T14:07:25+00:00","article_modified_time":"2022-05-05T15:26:25+00:00","og_image":[{"width":2560,"height":2048,"url":"https:\/\/www.nuecho.com\/wp-content\/uploads\/2021\/05\/light-shutterstock_60165622-scaled.jpg","type":"image\/jpeg"}],"author":"Yves Normandin","twitter_card":"summary_large_image","twitter_creator":"@nuecho","twitter_site":"@nuecho","twitter_misc":{"\u00c9crit par":"Yves Normandin","Dur\u00e9e de lecture estim\u00e9e":"13 minutes"},"schema":{"@context":"https:\/\/schema.org","@graph":[{"@type":"Article","@id":"https:\/\/www.nuecho.com\/fr\/la-nouvelle-rvi-arrive-en-ville-quest-ce-que-ca-signifie\/#article","isPartOf":{"@id":"https:\/\/www.nuecho.com\/fr\/la-nouvelle-rvi-arrive-en-ville-quest-ce-que-ca-signifie\/"},"author":{"name":"Yves Normandin","@id":"https:\/\/www.nuecho.com\/fr\/#\/schema\/person\/af513a0c546f54b84095e2a58d787e2a"},"headline":"La nouvelle RVI arrive en ville. Qu\u2019est-ce que \u00e7a signifie?","datePublished":"2021-05-05T14:07:25+00:00","dateModified":"2022-05-05T15:26:25+00:00","mainEntityOfPage":{"@id":"https:\/\/www.nuecho.com\/fr\/la-nouvelle-rvi-arrive-en-ville-quest-ce-que-ca-signifie\/"},"wordCount":3501,"publisher":{"@id":"https:\/\/www.nuecho.com\/fr\/#organization"},"image":{"@id":"https:\/\/www.nuecho.com\/fr\/la-nouvelle-rvi-arrive-en-ville-quest-ce-que-ca-signifie\/#primaryimage"},"thumbnailUrl":"https:\/\/www.nuecho.com\/wp-content\/uploads\/2021\/05\/light-shutterstock_60165622-scaled.jpg","articleSection":["Blogue"],"inLanguage":"fr-FR"},{"@type":"WebPage","@id":"https:\/\/www.nuecho.com\/fr\/la-nouvelle-rvi-arrive-en-ville-quest-ce-que-ca-signifie\/","url":"https:\/\/www.nuecho.com\/fr\/la-nouvelle-rvi-arrive-en-ville-quest-ce-que-ca-signifie\/","name":"La nouvelle RVI arrive en ville. Qu\u2019est-ce que \u00e7a signifie? &#183; AI Virtual Voice Experts with Google Dialogflow CX - CCAI - Nu Echo","isPartOf":{"@id":"https:\/\/www.nuecho.com\/fr\/#website"},"primaryImageOfPage":{"@id":"https:\/\/www.nuecho.com\/fr\/la-nouvelle-rvi-arrive-en-ville-quest-ce-que-ca-signifie\/#primaryimage"},"image":{"@id":"https:\/\/www.nuecho.com\/fr\/la-nouvelle-rvi-arrive-en-ville-quest-ce-que-ca-signifie\/#primaryimage"},"thumbnailUrl":"https:\/\/www.nuecho.com\/wp-content\/uploads\/2021\/05\/light-shutterstock_60165622-scaled.jpg","datePublished":"2021-05-05T14:07:25+00:00","dateModified":"2022-05-05T15:26:25+00:00","description":"We\u2019ve been hearing a lot about \u201cConversational IVR\u201d or the \u201cModern IVR\u201d, but what is it exactly and why does it matter?","breadcrumb":{"@id":"https:\/\/www.nuecho.com\/fr\/la-nouvelle-rvi-arrive-en-ville-quest-ce-que-ca-signifie\/#breadcrumb"},"inLanguage":"fr-FR","potentialAction":[{"@type":"ReadAction","target":["https:\/\/www.nuecho.com\/fr\/la-nouvelle-rvi-arrive-en-ville-quest-ce-que-ca-signifie\/"]}]},{"@type":"ImageObject","inLanguage":"fr-FR","@id":"https:\/\/www.nuecho.com\/fr\/la-nouvelle-rvi-arrive-en-ville-quest-ce-que-ca-signifie\/#primaryimage","url":"https:\/\/www.nuecho.com\/wp-content\/uploads\/2021\/05\/light-shutterstock_60165622-scaled.jpg","contentUrl":"https:\/\/www.nuecho.com\/wp-content\/uploads\/2021\/05\/light-shutterstock_60165622-scaled.jpg","width":2560,"height":2048,"caption":"New IVR in Town"},{"@type":"BreadcrumbList","@id":"https:\/\/www.nuecho.com\/fr\/la-nouvelle-rvi-arrive-en-ville-quest-ce-que-ca-signifie\/#breadcrumb","itemListElement":[{"@type":"ListItem","position":1,"name":"Home","item":"https:\/\/www.nuecho.com\/fr\/"},{"@type":"ListItem","position":2,"name":"La nouvelle RVI arrive en ville. Qu\u2019est-ce que \u00e7a signifie?"}]},{"@type":"WebSite","@id":"https:\/\/www.nuecho.com\/fr\/#website","url":"https:\/\/www.nuecho.com\/fr\/","name":"AI Virtual Voice Experts with Google Dialogflow CX - CCAI - Nu Echo","description":"Nu Echo","publisher":{"@id":"https:\/\/www.nuecho.com\/fr\/#organization"},"potentialAction":[{"@type":"SearchAction","target":{"@type":"EntryPoint","urlTemplate":"https:\/\/www.nuecho.com\/fr\/?s={search_term_string}"},"query-input":{"@type":"PropertyValueSpecification","valueRequired":true,"valueName":"search_term_string"}}],"inLanguage":"fr-FR"},{"@type":"Organization","@id":"https:\/\/www.nuecho.com\/fr\/#organization","name":"Nu Echo - Conversation AI | IA Conversationnelle","url":"https:\/\/www.nuecho.com\/fr\/","logo":{"@type":"ImageObject","inLanguage":"fr-FR","@id":"https:\/\/www.nuecho.com\/fr\/#\/schema\/logo\/image\/","url":"https:\/\/www.nuecho.com\/wp-content\/uploads\/2019\/03\/bottom-logo.png","contentUrl":"https:\/\/www.nuecho.com\/wp-content\/uploads\/2019\/03\/bottom-logo.png","width":138,"height":27,"caption":"Nu Echo - Conversation AI | IA Conversationnelle"},"image":{"@id":"https:\/\/www.nuecho.com\/fr\/#\/schema\/logo\/image\/"},"sameAs":["https:\/\/www.facebook.com\/nuechoinc\/","https:\/\/x.com\/nuecho","https:\/\/ca.linkedin.com\/company\/nu-echo"]},{"@type":"Person","@id":"https:\/\/www.nuecho.com\/fr\/#\/schema\/person\/af513a0c546f54b84095e2a58d787e2a","name":"Yves Normandin","image":{"@type":"ImageObject","inLanguage":"fr-FR","@id":"https:\/\/www.nuecho.com\/fr\/#\/schema\/person\/image\/","url":"https:\/\/www.nuecho.com\/wp-content\/uploads\/2021\/03\/Yves-photo-1-150x150.jpg","contentUrl":"https:\/\/www.nuecho.com\/wp-content\/uploads\/2021\/03\/Yves-photo-1-150x150.jpg","caption":"Yves Normandin"},"description":"A leading authority in speech recognition, natural language processing and machine learning, Yves brings over 30 years of experience to the team. His career has included research, product and application development, and business development. Today, he\u2019s responsible for defining the corporate direction and technological vision of Nu Echo, as well as leading our speech platform and building strategic alliances.","sameAs":["https:\/\/www.linkedin.com\/in\/yvesnormandin\/"],"url":"https:\/\/www.nuecho.com\/fr\/author\/ynormandin\/"}]}},"_links":{"self":[{"href":"https:\/\/www.nuecho.com\/fr\/wp-json\/wp\/v2\/posts\/8512","targetHints":{"allow":["GET"]}}],"collection":[{"href":"https:\/\/www.nuecho.com\/fr\/wp-json\/wp\/v2\/posts"}],"about":[{"href":"https:\/\/www.nuecho.com\/fr\/wp-json\/wp\/v2\/types\/post"}],"author":[{"embeddable":true,"href":"https:\/\/www.nuecho.com\/fr\/wp-json\/wp\/v2\/users\/7"}],"replies":[{"embeddable":true,"href":"https:\/\/www.nuecho.com\/fr\/wp-json\/wp\/v2\/comments?post=8512"}],"version-history":[{"count":8,"href":"https:\/\/www.nuecho.com\/fr\/wp-json\/wp\/v2\/posts\/8512\/revisions"}],"predecessor-version":[{"id":9378,"href":"https:\/\/www.nuecho.com\/fr\/wp-json\/wp\/v2\/posts\/8512\/revisions\/9378"}],"wp:featuredmedia":[{"embeddable":true,"href":"https:\/\/www.nuecho.com\/fr\/wp-json\/wp\/v2\/media\/8453"}],"wp:attachment":[{"href":"https:\/\/www.nuecho.com\/fr\/wp-json\/wp\/v2\/media?parent=8512"}],"wp:term":[{"taxonomy":"category","embeddable":true,"href":"https:\/\/www.nuecho.com\/fr\/wp-json\/wp\/v2\/categories?post=8512"},{"taxonomy":"post_tag","embeddable":true,"href":"https:\/\/www.nuecho.com\/fr\/wp-json\/wp\/v2\/tags?post=8512"}],"curies":[{"name":"wp","href":"https:\/\/api.w.org\/{rel}","templated":true}]}}