Como a transcrição de áudio da Siri e sua dependência de conexão impede o CarPlay de atingir seu potencial

24/06/2024

Captura de tela do painel do CarPlay, com o app Apple Music aberto. Na imagem, é exibida a música Girl, So Confusing de Charli XCX e Lorde

Há muito tempo penso em escrever sobre como minha experiência usando a Siri no Apple CarPlay deixa a desejar em vários aspectos. Com a revelação das novas versões dos sistemas operacionais da Apple, acho que é um bom momento de compartilhar esses pensamentos.

O CarPlay e o Android Auto são soluções criadas pela Apple e Google, respectivamente, para integrar os smartphones ao painel multimídia dos carros. É como se fosse um espelhamento de tela bombado, permitindo que você mova a responsabilidade de execução de apps do software da multimídia para o seu celular.

As vantagens são muitas, como a adição de novos apps, possibilidade de atualizações periódicas sem depender do fabricante do veículo e, principalmente, usar a Siri ou Google Assistente para executar comandos sem a necessidade de tocar na tela do painel.

Controlar os apps do veículo por voz é ótimo, mas você vai ter problemas se mesclar diferentes idiomas na mesma frase ou realizar comandos offline. Pelo menos no iOS, meu principal sistema operacional móvel nos últimos anos.

A versão mais recente do iOS (17) tem dificuldade em entender frases que mesclam palavras em múltiplos idiomas. Minhas playlists e podcasts, por exemplo, são primariamente compostas de conteúdo em inglês. Isso me obriga a "aportuguesar" as palavras ao pedir para tocar uma música ou podcast.

Enviar mensagens é pior do que deveria ser. Por algum motivo, não é possível enviar mensagens de áudio pelo CarPlay: a Siri transcreve o que você fala em texto, sem pontuação. Além, claro, de não reconhecer múltiplos idiomas.

Se eu quiser enviar a mensagem “Oi! Estou saindo de casa agora. Quer que eu dê um pulo no mercado e traga alguma coisa?”, preciso falar: “Oi ponto de exclamação estou saindo de casa agora ponto final quer que eu dê um pulo no mercado e traga alguma coisa ponto de interrogação”. Terrível e injustificável.

Captura de tela de uma conversa do Whatsapp. Na imagem, o remetente me envia o texto 'Fortnite ou RuPaul?' e eu respondo usando a Siri, no carro 'RuPaul, não trouxe meu Switch'. Porém, a transcrição é feita incorretamente, escrevendo 'Rule por favor. Não trouxe o meu suíte.'

Se eu ousar misturar idiomas, isso aqui vai acontecer com frequência - mesmo os termos RuPaul e Switch sendo frequentemente usados e já memorizados no corretor do teclado.

A dependência de internet para ações simples também incomoda. Se estou em um trecho da estrada sem sinal de internet, a Siri não tem utilidade. Tocar uma playlist baixada no Apple Music? Sem chance. Agendar uma mensagem para ser enviada quando o sinal de internet for reestablecido? Pode esquecer. Mudar a rota no aplicativo de mapas? Nope.

E dá pra resolver esses problemas com a tecnologia atual?

Os problemas de transcrição seriam facilmente resolvidos usando algo como o Whisper, da OpenAI (que inclusive é open source). Tenho utilizado o MacWhisper há alguns meses no computador e valeu cada centavo. A transcrição é incrível, com ótimo suporte à múltiplos idiomas, termos técnicos, acentuação e entonação.

O Whisper possui diferentes modelos que podem ser utilizados para transcrever áudio em texto. Modelos maiores oferecem maior precisão, mas têm um custo computacional mais alto e são mais lentos. A comunidade também cria modelos customizados, com otimizações para execução em dispositivos com pouca memória ou poder de processamento.

Para este artigo fiz alguns testes, replicando a mesma frase que a Siri transcreveu incorretamente no Whatsapp: "RuPaul, por favor. Não trouxe o meu Switch". Os resultados foram bem interessantes:

Captura de tela do software MacWhisper, rodando no Mac, transcrevendo a mesma resposta que enviei anteriormente no WhatsApp perfeitamente, em 2 segundos.

Usando o MacWhisper, em um Macbook M1 com 8GB de RAM, a transcrição foi feita em 3s (usando o modelo medium).

Já utilizando o modelo customizado nano no app SuperWhisper, a transcrição foi executada em 3,07s em um iPhone XR e em 0,28s segundos em um iPhone 15 Pro.

Captura de tela do software SuperWhisper, rodando em um iPhone XR, transcrevendo a mesma resposta que enviei anteriormente no WhatsApp perfeitamente, em 3,07 segundos.

Captura de tela do software SuperWhisper, rodando em um iPhone XR, transcrevendo a mesma resposta que enviei anteriormente no WhatsApp perfeitamente, em 0,28 segundos.

Em pleno 2024, transcrição e reconhecimento de voz ruins não colam mais.

WWDC 24, promessas, Apple Intelligence e outras coisas

Na WWDC deste ano, a Apple anunciou o Apple Intelligence, um conjunto de recursos baseados em inteligência artificial que prometem utilizar informações locais e contextuais para ajudar os usuários no dia-a-dia. Sim, é isso mesmo: os serviços de IA serão executados primariamente no próprio dispositivo, offline. E no centro do Apple Intelligence, está a nova Siri, disponível apenas em dispositivos com chip M ou iPhone 15 Pro e superiores.

Com melhorias no reconhecimento de voz e processamento de linguagem natural, a nova Siri promete resolver os problemas que mencionei anteriormente. No entanto, a decisão da Apple de limitar essa tecnologia à dispositivos mais recentes é questionável. Afinal, se um iPhone XR de 2019 com 3GB de RAM, consegue realizar transcrições multilíngues com um modelo otimizado do Whisper, por que não expandir a nova Siri para modelos de iPhones mais antigos, seja através de modelos de IA simplificados ou utilizando processamento em nuvem, como sempre foi?

Captura de tela do software MacWhisper, transcrevendo a mesma resposta que enviei anteriormente no WhatsApp perfeitamente, em 2 segundos.

Resta aguardar o desempenho do suporte em Português do Brasil da nova Siri e os impactos das suas melhorias no CarPlay. Uma Siri mais inteligente, com comandos de voz aprimorados e que funcionam de verdade pode reduzir distrações durante e garantir que o motorista esteja focado na direção.

Continue lendo...