Aller au contenu principal

Une équipe de recherche de l’Université Concordia conçoit une nouvelle approche pour aider les grands modèles de langage à apprendre à partir des paroles

« En allégeant les paroles et en facilitant leur intégration, on obtient de plus en plus des systèmes d’IA qui comprennent le son aussi efficacement que le texte »
1 décembre 2025
|

Les grands modèles de langage (GML) comme ChatGPT et Gemini ont été initialement conçus pour fonctionner uniquement avec du texte. Aujourd’hui, ils ont évolué pour devenir des systèmes capables de traiter plusieurs types de renseignement à la fois (systèmes multimodaux) ainsi que de comprendre et de générer des images, du son, des paroles et de la musique.

En règle générale, on ajoute des paroles aux modèles multimodaux en les convertissant en petits blocs appelés « jetons audio », qui fonctionnent pour le son comme les caractères le font pour le texte. Or, les jetons audio contiennent énormément de données, ce qui rend les paroles plus difficiles à traiter que les textes. Malgré de récents progrès en la matière, l’intégration de la parole aux grands modèles de langage continue de poser un défi majeur.

« Les paroles représentent un signal extrêmement riche et complexe », explique Luca Della Libera, doctorant à l’École de génie et d’informatique Gina-Cody. « Au-delà des mots que nous prononçons, elles véhiculent de l’information sur nos émotions, notre accent, notre identité et bien d’autres éléments. »

« En raison de cette complexité, les jetons audio courants ont souvent un débit binaire élevé (quantité d’information contenue dans chaque seconde d’audio). Ce nombre très élevé de données dans chaque seconde d’audio rend difficile pour les grands modèles de langage d’apprendre efficacement à partir de paroles. »

Portraits côte à côte de deux hommes sur fond blanc Luca Della Libera, doctorant (à gauche) et Mirco Ravanelli, professeur adjoint et directeur de Libera.

Mettre l’accent sur le sens des paroles

Luca Della Libera et ses collaborateurs ont mis au point FocalCodec, une nouvelle méthode de jetonisation audio qui compresse les paroles avec beaucoup plus d’efficacité que les techniques précédentes. FocalCodec préserve à la fois le son et le sens des mots à un débit binaire extrêmement faible.

Au lieu de s’appuyer sur des étapes de traitement complexes, le système utilise une méthode simple pour transformer l’audio en unités compactes (quantification sphérique binaire) et une technique qui aide le modèle à cibler les parties les plus pertinentes des paroles en matière de sens (modulation focale). Cela permet d’accélérer l’analyse tout en conservant les qualités essentielles de la voix.

Pour tester FocalCodec, l’équipe a mené une étude d’écoute auprès de 33 personnes qui ont comparé différents échantillons audio. Résultat : les participantes et participants ont souvent jugé que les paroles reconstituées étaient presque identiques aux enregistrements originaux. Le système peut ainsi réduire considérablement la taille des fichiers audio sans leur donner un son robotique ou déformé.

Reconnaissance lors d’un colloque majeur sur l’IA

Les travaux de l’équipe ont été reconnus dans le cadre de la 39e Annual Conference on Neural Information Processing Systems, l’un des colloques les plus sélectifs dans le domaine de l’apprentissage automatique et de l’intelligence artificielle.

« Ces travaux sont particulièrement importants, car ils présentent une nouvelle approche qui peut s’avérer très utile dans la création de GML multimodaux modernes », indique Mirco Ravanelli, professeur adjoint et directeur de thèse de Luca Della Libera. « En allégeant les paroles et en facilitant leur intégration, on obtient de plus en plus des systèmes d’IA qui comprennent le son aussi efficacement que le texte. »

Par ailleurs, ces recherches s’inscrivent dans une collaboration continue entre l’Université Concordia et Mila – l’Institut québécois d’intelligence artificielle.

Ont également collaboré à l’article Francesco Paissan, chercheur invité à Mila et étudiant de 1er cycle à l’Université de Trente, et Cem Subakan, professeur adjoint affilié à Concordia.

Apprenez-en plus sur l’École de génie et d’informatique Gina-Cody de l’Université Concordia



Retour en haut de page

© Université Concordia