Início Tecnologia Tive um grande problema de transcrição de áudio – Gemini resolveu e...

Tive um grande problema de transcrição de áudio – Gemini resolveu e ChatGPT não | cinetotal.com.br

4
0
Tive um grande problema de transcrição de áudio – Gemini resolveu e ChatGPT não
| cinetotal.com.br
(Image credit: Getty Images)

Tive um grande problema de transcrição de áudio – Gemini resolveu e ChatGPT não

Você sabe como dizem: “Não é uma competição!” Bem, não deixe que eles mintam para você; tudo é uma competição, principalmente quando se trata de IA. Raramente há um dia em que não estou testando os recursos de IA entre vários chatbots e quase sempre fico surpreso com os resultados. Algumas plataformas são realmente melhores que outras – pelo menos para algumas tarefas. Esta jornada começou com o Notes no meu iPhone 17 Pro Max. Normalmente, gosto de gravar entrevistas em um smartphone Android como o Google Pixel 10 Pro Fold, onde o fantástico aplicativo Recorder captura habilmente cada expressão e, na transcrição, faz um trabalho hábil de separar e rotular cada locutor. Eu sei que enterrados no Notes, um aplicativo que uso obsessivamente no iPhone e no desktop (tenho quase 2.500 notas), estão os recursos de gravação de áudio ocultos sob o ícone do anexo (um clipe de papel). Você pode gostar que o Notes faça um bom trabalho de gravação de áudio e descobri que minha gravação de 20 minutos foi perfeitamente capturada em uma nota. Incluído estava o que parecia ser uma transcrição útil. Uma rápida varredura confirmou sua precisão, mas havia um grande problema: não identificava os alto-falantes; tudo se misturou em um longo solilóquio. Isso tornaria difícil digitalizar e separar as citações do meu assunto a partir de minhas próprias dúvidas e observações.Resignei-me a uma nova escuta, durante a qual adicionei meus próprios rótulos… até que tive um pensamento diferente: E se o Gemini pudesse ajudar?O Gemini 3 Pro calça as luvasNos últimos meses, fiquei impressionado com os recursos do Google Gemini, especialmente os modelos 3 Pro mais recentes, e como ele parece lidar com quase qualquer solicitação imediata com desenvoltura.Agora que tive a ideia, tive para descobrir como fazer Gêmeos ouvir a gravação. Reproduzir o áudio nos alto-falantes do iPhone e pedir ao Gemini para ouvir estava fora de questão porque eu me preocupava com o quão bem, digamos, meus microfones de mesa poderiam captar o som que sai dos alto-falantes do iPhone. Além disso, eu estava no escritório e não queria que as pessoas ouvissem a conversa privada (até publicar uma história).Inscreva-se para receber as últimas notícias, análises, opiniões, as principais ofertas de tecnologia e muito mais.Primeiro, descobri que você pode baixar o arquivo de áudio do Notes. Na reprodução, sob os três pontos, há um botão Compartilhar que me permite lançar o arquivo de áudio no meu MacBook Pro de 14 polegadas. Ele é apresentado como um arquivo MPEG-4 (M4A). De volta ao Gemini 3 Pro, selecionei o sinal “+” no campo de prompt, escolhi o arquivo de áudio M4A e adicionei este breve prompt: “Ouça isto, transcreva-o e certifique-se de identificar os diferentes alto-falantes.” (Crédito da imagem: Futuro) Não houve idas e vindas. Germini 3 Pro rapidamente começou a cuspir a transcrição completa com palestrantes identificados como “Entrevistador” e o nome e título do meu assunto. É importante notar aqui que esta é a única coisa que o Gemini 3 Pro inexplicavelmente errou completamente. Embora meu sujeito tenha escrito seu nome no final do bate-papo, Gêmeos escolheu outro. Fora isso, porém, Gêmeos identificou perfeitamente quando era eu ou o sujeito falando. E a precisão foi realmente impressionante. Você pode gostar Para ser mais completo, pedi ao Gemini 3 Pro para corrigir a identificação do meu sujeito e me listar como o “entrevistador”. Com isso corrigido, felizmente usei a transcrição para ajudar a conduzir minha história completa. Neste canto, ChatGPTNaturalmente, porém, eu estava curioso para saber se o ChatGPT 5.1 (com uma conta Plus) poderia realizar a mesma tarefa. ChatGPT me disse: “Definitivamente posso transcrever áudio, mas não consigo acessar ou reproduzir o arquivo .m4a diretamente do local que você mencionou”. Não importa o que eu fizesse, o ChatGPT mostrava o arquivo de áudio na janela de prompt, mas não conseguia ouvi-lo. Nesta pequena competição, ao que parece, o Gemini 3 Pro é o vencedor, transformando um problema frustrante em uma vitória fácil. Quanto menos se falar sobre o quão inútil é a transcrição do Notes da Apple, melhor.Os melhores laptops empresariais para todos os orçamentosNossas principais escolhas, com base em testes e comparações do mundo realSiga o TechRadar no Google Notícias e adicione-nos como fonte preferida para obter notícias, análises e opiniões de especialistas em seus feeds. Certifique-se de clicar no botão Seguir! E é claro que você também pode seguir o TechRadar no TikTok para notícias, análises, unboxings em formato de vídeo e obter atualizações regulares nossas no WhatsApp também.


Publicado: 2025-12-05 16:00:00

fonte: www.techradar.com