Bitget App
Trade smarter
Acheter des cryptosMarchésTradingFuturesEarnCommunautéPlus
Meta AI présente une solution de reconnaissance vocale automatique omnilingue, faisant progresser la reconnaissance vocale automatique dans plus de 1

Meta AI présente une solution de reconnaissance vocale automatique omnilingue, faisant progresser la reconnaissance vocale automatique dans plus de 1

MPOSTMPOST2025/11/12 02:36
Par:MPOST

En bref Meta AI a lancé le système Omnilingual ASR, qui assure la reconnaissance vocale pour plus de 1 600 langues, et a publié des modèles open source ainsi qu'un corpus pour 350 langues sous-représentées.

Division de recherche de la société technologique Meta, spécialisée dans l'IA et la réalité augmentée, Méta IA a annoncé la sortie du système de reconnaissance vocale automatique (ASR) Meta Omnilingual. 

Cette suite de modèles assure la reconnaissance vocale automatique pour plus de 1 600 langues, offrant des performances de haute qualité à une échelle sans précédent. Par ailleurs, Meta AI met à disposition en open source Omnilingual wav2vec 2.0, un modèle de représentation vocale massivement multilingue et auto-supervisé, doté de 7 milliards de paramètres et conçu pour prendre en charge diverses tâches de traitement vocal.

En parallèle de ces outils, l'organisation publie également le corpus ASR omnilingue, une collection soigneusement sélectionnée de transcriptions vocales issues de 350 langues sous-représentées, développée en partenariat avec des collaborateurs du monde entier.

La reconnaissance vocale automatique a progressé ces dernières années, atteignant une précision quasi parfaite pour de nombreuses langues largement parlées. Cependant, son extension aux langues moins bien dotées en ressources reste un défi en raison des exigences élevées en matière de données et de calcul des architectures d'IA existantes. Le système Omnilingual ASR surmonte cette limitation en adaptant l'encodeur vocal wav2vec 2.0 à 7 milliards de paramètres, créant ainsi de riches représentations multilingues à partir de la parole brute non transcrite. Deux variantes de décodeur transforment ces représentations en jetons de caractères : l'une utilise la classification temporelle connexionniste (CTC) et l'autre une approche basée sur les transformateurs, similaire à celle employée dans les grands modèles de langage.

Cette approche ASR inspirée par LLM atteint des performances de pointe sur plus de 1 600 langues, avec des taux d'erreur de caractères inférieurs à 10 pour 78 % d'entre elles, et introduit une méthode plus flexible pour l'ajout de nouvelles langues. 

Contrairement aux systèmes traditionnels qui nécessitent un paramétrage précis par des experts, la reconnaissance automatique de la parole omnilingue (Omnilingual ASR) peut intégrer une langue auparavant non prise en charge à partir de quelques exemples audio-texte seulement, permettant ainsi la transcription sans avoir besoin de données volumineuses, d'expertise spécialisée ni de puissance de calcul importante. Bien que les résultats obtenus avec un seul exemple ne soient pas encore aussi bons que ceux des systèmes entièrement entraînés, cette méthode offre une solution évolutive pour intégrer les langues sous-représentées à l'écosystème numérique.

Meta AI pour faire progresser la reconnaissance vocale grâce à une suite ASR omnilingue et un corpus 

Le département de recherche de FAIR a publié une suite complète de modèles et un jeu de données conçus pour faire progresser la technologie vocale dans toutes les langues. S'appuyant sur les travaux antérieurs de FAIR, Omnilingual ASR inclut deux variantes de décodeur : des modèles légers de 300 Mo pour les appareils à faible consommation et des modèles de 7 Mo offrant une haute précision pour diverses applications. Le modèle de base vocal wav2vec 2.0, polyvalent, est également disponible en plusieurs tailles, permettant ainsi de réaliser un large éventail de tâches liées à la parole, au-delà de la simple reconnaissance automatique de la parole (ASR). Tous les modèles sont distribués sous licence Apache 2.0 et le jeu de données est disponible sous licence CC-BY, permettant aux chercheurs, aux développeurs et aux défenseurs des langues d'adapter et d'enrichir les solutions vocales grâce au framework open source fairseq2 de FAIR, intégré à l'écosystème PyTorch.

Le système de reconnaissance automatique de la parole omnilingue (ASR) est entraîné sur l'un des corpus ASR les plus vastes et les plus diversifiés linguistiquement jamais constitués, combinant des ensembles de données accessibles au public et des enregistrements issus de la communauté. Afin de prendre en charge les langues ayant une présence numérique limitée, Méta IA En partenariat avec des organisations locales, nous avons recruté et rémunéré des locuteurs natifs dans des régions isolées ou sous-représentées, créant ainsi le corpus de reconnaissance automatique de la parole omnilingue (Omnilingual ASR Corpus), le plus vaste ensemble de données de reconnaissance automatique de la parole spontanée à très faibles ressources jamais constitué. D'autres collaborations, menées dans le cadre du Programme de partenariat en technologies linguistiques, ont réuni linguistes, chercheurs et communautés linguistiques du monde entier, notamment grâce à des partenariats avec Common Voice de la Fondation Mozilla et Lanfrica/NaijaVoices. Ces efforts ont permis d'acquérir une connaissance linguistique approfondie et un contexte culturel précieux, garantissant ainsi que la technologie réponde aux besoins locaux tout en contribuant à l'autonomisation des diverses communautés linguistiques à l'échelle mondiale.

0

Avertissement : le contenu de cet article reflète uniquement le point de vue de l'auteur et ne représente en aucun cas la plateforme. Cet article n'est pas destiné à servir de référence pour prendre des décisions d'investissement.

PoolX : Bloquez vos actifs pour gagner de nouveaux tokens
Jusqu'à 12% d'APR. Gagnez plus d'airdrops en bloquant davantage.
Bloquez maintenant !

Vous pourriez également aimer

Meta permet désormais à vos amis de rejoindre vos espaces VR scannés avec Hyperscape.

Partager le lien:Dans cet article : Meta permet désormais à huit personnes maximum de rejoindre des répliques VR partagées de pièces réelles capturées avec Hyperscape. Cette fonctionnalité est déployée progressivement, permettant aux utilisateurs d'inviter d'autres personnes via de simples liens partageables. Malgré des pertes passées, Meta continue d'élargir sa gamme de matériel AR/VR.

Cryptopolitan2025/11/23 03:33
Meta permet désormais à vos amis de rejoindre vos espaces VR scannés avec Hyperscape.

La croissance des ventes au détail devrait ralentir, les prix élevés pesant sur les consommateurs américains.

Partager le lien:Dans cet article : Les dépenses de consommation aux États-Unis devraient ralentir en raison des prix élevés et des inquiétudes liées au marché du travail. De nombreux ménages rencontrent des difficultés financières et reportent leurs achats. Un ralentissement des embauches et un marché du travail en berne pourraient encore réduire les dépenses.

Cryptopolitan2025/11/23 03:33
La croissance des ventes au détail devrait ralentir, les prix élevés pesant sur les consommateurs américains.

Une entreprise de distributeurs automatiques Bitcoin vise une vente de 100 millions de dollars suite à un coup de filet contre le blanchiment d'argen

Partager le lien:Dans cet article : Crypto Dispensers envisage une vente de 100 millions de dollars face aux pressions du marché et aux contraintes juridiques. Le PDG Firas Isa et son entreprise sont accusés de blanchiment d'argent à hauteur de 10 millions de dollars et ont plaidé non coupables. L'entreprise a retenu les services de conseillers pour examiner les options stratégiques, notamment la vente, la fusion ou la restructuration.

Cryptopolitan2025/11/23 03:33
Une entreprise de distributeurs automatiques Bitcoin vise une vente de 100 millions de dollars suite à un coup de filet contre le blanchiment d'argen

Le ministre suisse affirme que les États-Unis réduiront leurs droits de douane à 15 % d'ici décembre.

Partager le lien:Dans cet article : Les États-Unis devraient réduire les droits de douane sur les importations suisses de 39 % à 15 % début décembre. Le 14 novembre, les deux pays se sont mis d'accord sur le principe d'une réduction des droits de douane, les entreprises suisses s'engageant à investir 200 milliards de dollars aux États-Unis d'ici 2028. Parmelin a défendu l'accord, affirmant que le gouvernement avait agi avecdent, protégeant ainsi ses intérêts économiques et politiques.

Cryptopolitan2025/11/23 03:33
Le ministre suisse affirme que les États-Unis réduiront leurs droits de douane à 15 % d'ici décembre.