Há muito tempo penso em escrever sobre como minha experiência usando a Siri no Apple CarPlay deixa a desejar em vários aspectos. Com a revelação das novas versões dos sistemas operacionais da Apple, acho que é um bom momento de compartilhar esses pensamentos.
O CarPlay e o Android Auto são soluções criadas pela Apple e Google, respectivamente, para integrar os smartphones ao painel multimídia dos carros. É como se fosse um espelhamento de tela bombado, permitindo que você mova a responsabilidade de execução de apps do software da multimídia para o seu celular.
As vantagens são muitas, como a adição de novos apps, possibilidade de atualizações periódicas sem depender do fabricante do veículo e, principalmente, usar a Siri ou Google Assistente para executar comandos sem a necessidade de tocar na tela do painel.
Controlar os apps do veículo por voz é ótimo, mas você vai ter problemas se mesclar diferentes idiomas na mesma frase ou realizar comandos offline. Pelo menos no iOS, meu principal sistema operacional móvel nos últimos anos.
A versão mais recente do iOS (17) tem dificuldade em entender frases que mesclam palavras em múltiplos idiomas. Minhas playlists e podcasts, por exemplo, são primariamente compostas de conteúdo em inglês. Isso me obriga a "aportuguesar" as palavras ao pedir para tocar uma música ou podcast.
Enviar mensagens é pior do que deveria ser. Por algum motivo, não é possível enviar mensagens de áudio pelo CarPlay: a Siri transcreve o que você fala em texto, sem pontuação. Além, claro, de não reconhecer múltiplos idiomas.
Se eu quiser enviar a mensagem “Oi! Estou saindo de casa agora. Quer que eu dê um pulo no mercado e traga alguma coisa?”, preciso falar: “Oi ponto de exclamação estou saindo de casa agora ponto final quer que eu dê um pulo no mercado e traga alguma coisa ponto de interrogação”. Terrível e injustificável.
Se eu ousar misturar idiomas, isso aqui vai acontecer com frequência - mesmo os termos RuPaul e Switch sendo frequentemente usados e já memorizados no corretor do teclado.
A dependência de internet para ações simples também incomoda. Se estou em um trecho da estrada sem sinal de internet, a Siri não tem utilidade. Tocar uma playlist baixada no Apple Music? Sem chance. Agendar uma mensagem para ser enviada quando o sinal de internet for reestablecido? Pode esquecer. Mudar a rota no aplicativo de mapas? Nope.
E dá pra resolver esses problemas com a tecnologia atual?
Os problemas de transcrição seriam facilmente resolvidos usando algo como o Whisper, da OpenAI (que inclusive é open source). Tenho utilizado o MacWhisper há alguns meses no computador e valeu cada centavo. A transcrição é incrível, com ótimo suporte à múltiplos idiomas, termos técnicos, acentuação e entonação.
O Whisper possui diferentes modelos que podem ser utilizados para transcrever áudio em texto. Modelos maiores oferecem maior precisão, mas têm um custo computacional mais alto e são mais lentos. A comunidade também cria modelos customizados, com otimizações para execução em dispositivos com pouca memória ou poder de processamento.
Para este artigo fiz alguns testes, replicando a mesma frase que a Siri transcreveu incorretamente no Whatsapp: "RuPaul, por favor. Não trouxe o meu Switch". Os resultados foram bem interessantes:
Usando o MacWhisper, em um Macbook M1 com 8GB de RAM, a transcrição foi feita em 3s (usando o modelo medium).
Já utilizando o modelo customizado nano no app SuperWhisper, a transcrição foi executada em 3,07s em um iPhone XR e em 0,28s segundos em um iPhone 15 Pro.
Em pleno 2024, transcrição e reconhecimento de voz ruins não colam mais.
WWDC 24, promessas, Apple Intelligence e outras coisas
Na WWDC deste ano, a Apple anunciou o Apple Intelligence, um conjunto de recursos baseados em inteligência artificial que prometem utilizar informações locais e contextuais para ajudar os usuários no dia-a-dia. Sim, é isso mesmo: os serviços de IA serão executados primariamente no próprio dispositivo, offline. E no centro do Apple Intelligence, está a nova Siri, disponível apenas em dispositivos com chip M ou iPhone 15 Pro e superiores.
Com melhorias no reconhecimento de voz e processamento de linguagem natural, a nova Siri promete resolver os problemas que mencionei anteriormente. No entanto, a decisão da Apple de limitar essa tecnologia à dispositivos mais recentes é questionável. Afinal, se um iPhone XR de 2019 com 3GB de RAM, consegue realizar transcrições multilíngues com um modelo otimizado do Whisper, por que não expandir a nova Siri para modelos de iPhones mais antigos, seja através de modelos de IA simplificados ou utilizando processamento em nuvem, como sempre foi?
Resta aguardar o desempenho do suporte em Português do Brasil da nova Siri e os impactos das suas melhorias no CarPlay. Uma Siri mais inteligente, com comandos de voz aprimorados e que funcionam de verdade pode reduzir distrações durante e garantir que o motorista esteja focado na direção.