Três anos atrás, uma voz sintética era identificada imediatamente. O ritmo mecânico, as pausas mal calibradas, a entonação errada. Era uma tecnologia útil mas imperfeita, e o ouvinte percebia. Hoje essa distinção quase desapareceu. As vozes de IA de nova geração são produzidas por modelos treinados em milhões de horas de fala humana. O resultado é uma síntese que gerencia nuances prosódicas, pausas naturais e variações de ritmo.
As vozes em português da Everlit
A Everlit oferece vozes em português tanto para o mercado brasileiro quanto para o europeu, com variantes masculinas e femininas calibradas para diferentes estilos de leitura. As vozes jornalísticas são otimizadas para a leitura de notícias: ritmo sustentado, articulação clara e sem sotaque regional marcado. As vozes narrativas têm um ritmo mais lento e caloroso, adequadas para conteúdo longo e reportagens.
O sistema gerencia corretamente as particularidades do português: as diferenças de pronúncia entre o português brasileiro e o europeu, os nomes próprios em diferentes idiomas que aparecem frequentemente na linguagem jornalística contemporânea. Um editor pode configurar vozes diferentes para seu público brasileiro e para leitores em Portugal e nos países lusófonos de África, sem fluxos de trabalho separados.
Os 70 idiomas suportados
- Nível premium: português (brasileiro e europeu), inglês (americano e britânico), espanhol, francês, alemão, italiano
- Nível alto: neerlandês, polonês, russo, japonês, coreano, mandarim, árabe
- Nível padrão: línguas nórdicas, línguas da Europa Oriental, línguas asiáticas
- Em desenvolvimento: dialetos e variantes regionais
A clonagem de voz: o que é e como funciona
A clonagem de voz é a tecnologia que permite criar uma voz de IA que soa como uma pessoa específica. O ponto de partida é uma gravação de áudio dessa pessoa: no mínimo 30 minutos de fala limpa para uma voz básica, até várias horas para uma réplica de alta fidelidade.
O modelo analisa as características únicas dessa voz: a frequência fundamental, a forma como as consoantes se conectam às vogais, os hábitos respiratórios, o ritmo pessoal. O resultado é uma voz de IA que fala como aquela pessoa específica, não como uma voz genérica.
Clonamos a voz do nosso editor-chefe. É ele quem "lê" os editoriais, mesmo quando escritos por outros colegas. Os leitores sentem a continuidade. Tornou-se a assinatura sonora da redação.
O português no contexto do áudio editorial multilíngue
O português é falado por mais de 260 milhões de pessoas em todo o mundo, sendo a quinta língua mais falada do planeta. Para editoras com audiências em múltiplos mercados lusófonos, isso significa que a qualidade da voz em cada variante regional importa. A Everlit permite selecionar a variante de português mais apropriada para cada mercado, com a possibilidade de configurar vozes padrão diferentes por categoria de artigo ou seção do site.
A qualidade técnica do áudio
Além da naturalidade da voz, importa a qualidade técnica do áudio. A Everlit gera arquivos no formato MP3 a 128 kbps para distribuição padrão e WAV a 44,1 kHz para quem tem necessidades de qualidade profissional. A normalização de volume é automática: todos os episódios têm o mesmo nível de loudness, uma consistência que os ouvintes apreciam.