O aplicativo Google Recorder é como mágica, mas veja como funciona

Configuração inicial do aplicativo Google Recorder

Não há dúvida sobre o fato de o Google estar na vanguarda da inteligência artificial (IA) e do aprendizado de máquina (ML). A evidência está em uma variedade de produtos do Google – desde fotografias computacionais líderes do setor até sugestões enquanto escrevemos e-mails. AI e ML estão claramente no centro de todos os esforços do Google.

O aplicativo Recorder do Pixel 4 é mais um exemplo das proezas de ML do Google. A empresa lançou o aplicativo gravador de áudio inteligente ao lado do Pixel 4, usando o aprendizado de máquina no dispositivo para transcrever automaticamente a gravação. O aplicativo também chegou em dispositivos Pixel mais antigos alguns meses depois. Em uma postagem no blog, o Google agora detalhou como o novo aplicativo Recorder funciona.

Transcrição

O aplicativo gera transcrições em tempo real de gravações de áudio. O texto transcrito também é pesquisável, permitindo que você encontre rapidamente uma palavra específica em uma conversa sem ouvir a gravação inteira.

Para fazer isso, o Google usou as melhorias feitas em seu modelo de reconhecimento de fala no dispositivo. Este modelo garante que o aplicativo Recorder possa transcrever arquivos de áudio longos, até algumas horas. As palavras são mapeadas para o registro de data e hora de uma gravação de áudio. Portanto, quando você toca em uma palavra específica na transcrição, a reprodução de áudio também é iniciada a partir desse ponto na gravação. Também é assim que você pode procurar uma palavra e pular para o ponto exato da gravação.

Recurso de transcrição do aplicativo Google RecorderGoogle

Visualizando sons

Além disso, o Google explica que usa redes neurais convolucionais para associar sons diferentes a cores diferentes. Esse é o mesmo modelo de aprendizado de máquina no dispositivo que o Google usa para o recurso Live Caption do Android 10.

O modelo identifica sons diferentes, como um cachorro latindo ou um instrumento musical tocando. Em seguida, atribui uma cor a esse som na forma de onda do áudio. Isso ajuda os usuários a reconhecer sons visualmente. Portanto, na próxima vez que um cachorro latir na sua gravação, você poderá ignorá-lo facilmente, sem precisar percorrer o arquivo de áudio.

Cores da forma de onda do Google Recorder AppGoogle

O gravador verifica se há diferentes tipos de perfis sonoros – fala, música etc. – a cada 50 milissegundos em uma janela de 960 milissegundos. A empresa diz que esse processo "torna possível identificar os horários exatos de início e término de uma maneira menos propensa a erros do que analisar por si só grandes fatias consecutivas de 960ms de janelas".

Sugerindo títulos e tags

Sugestão de título do aplicativo Google Recorder

Depois que uma gravação termina, o aplicativo sugere tags e títulos para ela. Para fazer isso, o Recorder conta ocorrências de termo e seu papel gramatical em uma frase. Os termos identificados como entidades são capitalizados. Um algoritmo no dispositivo marca tags substantivos e substantivos próprios, dos quais os usuários tendem a se lembrar facilmente. Depois disso, os termos passam por um modelo de linguagem para pontuação e classificação. As seleções finais são o que você vê como sugestões de título ou tag.

Extração de tags do gravador do Google

Ufa! isso é muito trabalho nos bastidores. Claramente, criar um aplicativo de gravação inteligente não é brincadeira. O Google também parece ter pensado muito na privacidade do usuário, mantendo esses processos restritos ao seu dispositivo. O aplicativo ainda não consegue diferenciar entre os alto-falantes, mas talvez o Google possa adicionar isso no futuro para torná-lo ainda melhor.

Você está usando o novo aplicativo Google Recorder? Conte-nos sua experiência na seção de comentários abaixo.

Fonte

Deixe uma resposta

O seu endereço de e-mail não será publicado. Campos obrigatórios são marcados com *

Você pode usar estas HTML tags e atributos:

<a href="" title=""> <abbr title=""> <acronym title=""> <b> <blockquote cite=""> <cite> <code> <del datetime=""> <em> <i> <q cite=""> <s> <strike> <strong>