Meta anuncia SeamlessM4T: tradução universal em tempo real
A Meta revelou nesta terça-feira (22) o SeamlessM4T, um modelo de inteligência artificial capaz de traduzir fala e texto em tempo real entre 101 idiomas. A tecnologia, disponibilizada como código aberto, promete derrubar barreiras linguísticas de forma mais natural, sem depender de intermediários de texto.
Segundo a empresa, o SeamlessM4T consegue realizar tradução direta de áudio para áudio, ou seja, o usuário fala em seu idioma e ouve a tradução em outro sem que haja conversão para texto no meio do processo. Isso reduz latência e preserva nuances da fala, como tom e emoção.
O modelo cobre 101 idiomas para entrada de texto e 96 para entrada de fala. A Meta disponibilizou pesos, código e dados de treinamento como open source, permitindo que pesquisadores e desenvolvedores o utilizem e aprimorem.
Como funciona?
O SeamlessM4T é um modelo multimodal que combina processamento de fala e texto. Ele pode:
- Traduzir fala para fala
- Traduzir fala para texto
- Traduzir texto para fala
- Traduzir texto para texto
A inovação está na capacidade de fazer tradução áudio-áudio sem estágio textual, algo que modelos anteriores não conseguiam com tanta fluência.
Implicações e disponibilidade
A Meta afirmou que a tecnologia pode ser usada em aplicações como legendas automáticas, assistentes virtuais multilíngues e comunicação em tempo real entre pessoas que falam idiomas diferentes. Por ser código aberto, espera-se que a comunidade contribua para melhorar o modelo e expandir seu uso.
A empresa também destacou preocupações éticas e de segurança, incluindo filtros para evitar usos maliciosos como deepfakes de áudio. O modelo foi treinado com dados de fala e texto de diversas fontes públicas.
O anúncio ocorre em um momento de crescente competição no setor de IA, com gigantes como Google e OpenAI também investindo em tradução automática. O SeamlessM4T se destaca pela abrangência de idiomas e pela abordagem open source.