A Microsoft lança três modelos de IA «ver, ouvir e falar», visando fluxos de trabalho de empresas a nível comercial

ChainNewsAbmedia

Após a introdução do modelo de geração de imagens MAI-Image-2 em 18 de março, a Microsoft voltou a disponibilizar, a 2 de abril, dois modelos relacionados com voz: MAI-Transcribe-1 e MAI-Voice-1. Num curto espaço de tempo, completou de forma consecutiva as capacidades de imagem e de voz, sendo visto como um avanço importante da sua estratégia de IA multimodal. Estes três modelos não representam atualizações avulsas, mas sim um puzzle completo que vai da geração visual à compreensão de voz e, por fim, à saída de voz, mostrando que a Microsoft procura construir uma base de capacidades de IA que possa ser integrada diretamente nos fluxos de trabalho das empresas.

MAI-Image-2 da Microsoft mira a geração de imagens para uso comercial

O MAI-Image-2, lançado pela Microsoft a 18 de março, coloca claramente o foco no “uso comercial” em vez de uma mera geração criativa. Em comparação com modelos de imagem anteriores, mais inclinados ao entretenimento ou a carácter experimental, o MAI-Image-2 dá mais ênfase à estabilidade da saída e à exatidão semântica. Assim, consegue manter a consistência da composição e a integridade dos detalhes sob instruções complexas. Isso torna-o mais adequado para cenários como materiais de marketing de marca, visão de produtos e design de publicidade.

Para as empresas, o valor destes modelos não está em saber se conseguem gerar imagens impressionantes, mas sim em conseguir produzir de forma contínua conteúdo “utilizável e controlável”, e é exatamente esse o núcleo reforçado pelo MAI-Image-2.

Clipto 挫勒但!微軟推會議逐字稿模型 MAI-Transcribe-1

O MAI-Transcribe-1, lançado logo a seguir a 2 de abril, foca-se na capacidade de compreensão de voz. A proposta deste modelo é bastante clara: trata-se de uma camada base que converte áudio em dados de texto estruturados. Consegue processar entrada de voz em tempo real e manter uma elevada precisão de reconhecimento em contextos de multilinguismo e diferentes sotaques, ao mesmo tempo que oferece alguma resistência a interferências provocadas por ruído de fundo.

Estas capacidades são especialmente críticas em cenários empresariais. Quer se trate de atas de reuniões palavra por palavra, registos de chamadas de atendimento ao cliente, ou organização de conteúdos mediáticos, tudo depende da qualidade estável da conversão de voz para texto. Assim que os dados de voz forem convertidos com exatidão em texto, os processos subsequentes de pesquisa, sumarização e análise podem ser totalmente automatizados, o que torna o MAI-Transcribe-1 um papel-chave na arquitetura global de IA.

Usar o modelo MAI-Voice-1 para atendimento ao cliente, Podcast e voz

O MAI-Voice-1 correspondente é responsável pela ponta da saída de voz. O foco do modelo é fazer com que as vozes geradas por IA fiquem mais próximas do desempenho de um ser humano, incluindo naturalidade de entoação, ritmo e emoção. Isso permite a sua aplicação em cenários como voz de atendimento ao cliente, assistentes de IA, narração de vídeos e até produção de podcast. Em comparação com a síntese de voz mais mecânica do passado, o MAI-Voice-1 dá maior ênfase a entoações e estilos ajustáveis, fazendo com que a voz deixe de ser apenas uma ferramenta de transmissão de informação e passe a ser uma interface com capacidade de comunicação e expressão.

Resumo geral dos três modelos de IA “ver, ouvir, falar” da Microsoft

Ao observar os três no mesmo contexto, percebe-se que o plano da Microsoft não é uma rutura pontual, mas sim um avanço rápido para a integração multimodal. O MAI-Image-2 trata da geração visual, o MAI-Transcribe-1 fica encarregue da compreensão de voz, e o MAI-Voice-1 conclui a geração de voz; em conjunto, formam a estrutura base das capacidades de “ver, ouvir, falar”.

Uma vez que estas capacidades sejam combinadas com os modelos de linguagem e serviços cloud existentes, consegue-se formar um fluxo de trabalho de IA completo: desde a introdução de dados, passando pela compreensão e pela geração, até à saída, tudo concluído dentro do mesmo sistema.

Características

MAI-Transcribe-1

(conversão de voz para texto)

MAI-Voice-1 (texto para voz) MAI-Image-2 (geração de imagens a partir de texto) Função principal

Converter voz em transcrição palavra por palavra

Gerar voz natural, fluida e com emoção

Gerar imagens com base em descrições de texto

Data de publicação

2 de abril de 2026

2 de abril de 2026

18 de março de 2026

Tecnologias e características-chave

Alta resistência a ruído, reconhecimento automático de idioma

Controlo de emoções, cópia de voz (Voice Prompting)

Arquitetura de modelos de difusão (Diffusion-based), alta fidelidade

Suporta idiomas

Inglês, chinês, espanhol e outros 25 idiomas

Atualmente apenas inglês (a expandir para 10+ idiomas)

Predomina entrada por texto (sem indicação específica de suporte a multi-idioma)

Modelo de preços

Som por hora $0.36 USD

Por cada milhão de palavras $22.00 USD

Depende da plataforma de implementação (como MAI Playground)

Limites de entrada/saída

Entrada: WAV, MP3, FLAC

Entrada: texto puro ou SSML

Saída: até 1024×1024 pixels

Este artigo “A Microsoft lança três modelos de IA ‘ver, ouvir, falar’ para o fluxo de trabalho empresarial de nível comercial” aparece pela primeira vez em 链新闻 ABMedia.

Aviso: As informações nesta página podem ser provenientes de terceiros e não representam as opiniões ou pontos de vista da Gate. O conteúdo exibido nesta página é apenas para referência e não constitui aconselhamento financeiro, de investimento ou jurídico. A Gate não garante a exatidão ou integridade das informações e não será responsável por quaisquer perdas decorrentes do uso dessas informações. Os investimentos em ativos virtuais apresentam altos riscos e estão sujeitos a uma volatilidade de preços significativa. Você pode perder todo o capital investido. Por favor, compreenda completamente os riscos envolvidos e tome decisões prudentes com base em sua própria situação financeira e tolerância ao risco. Para mais detalhes, consulte o Aviso Legal.
Comentário
0/400
Sem comentários