Tre anni fa, una voce sintetica si riconosceva immediatamente. Il ritmo meccanico, le pause mal calibrate, le intonazioni sbagliate nelle domande e nelle esclamazioni. Era una tecnologia utile ma imperfetta, e il lettore lo percepiva. Oggi quella distinzione è quasi scomparsa. Le voci AI di nuova generazione sono prodotte da modelli addestrati su milioni di ore di parlato umano. Il risultato è una sintesi che gestisce le sfumature prosodiche, le pause naturali e le variazioni di ritmo.
Le voci italiane di Everlit
Everlit offre diverse voci italiane standard, con varianti maschili e femminili calibrate su diversi stili di lettura. Le voci giornalistiche sono ottimizzate per la lettura di notizie: ritmo sostenuto, articolazione chiara, senza cadenza regionale marcata. Le voci narrative hanno un passo più lento e caldo, adatte a long form e reportage.
Ogni voce gestisce correttamente le particolarità dell'italiano: le doppie consonanti, i gruppi vocalici, i prestiti da altre lingue che appaiono spesso nel linguaggio giornalistico contemporaneo. Anche i nomi propri stranieri vengono gestiti con buona approssimazione.
Le 70 lingue supportate
- Livello premium: italiano, inglese (americano e britannico), spagnolo, francese, tedesco, portoghese
- Livello alto: olandese, polacco, russo, giapponese, coreano, cinese mandarino, arabo
- Livello standard: lingue nordeuropee, lingue dell'Europa orientale, lingue asiatiche minori
- In sviluppo: dialetti e varianti regionali
La clonazione vocale: cosa è e come funziona
La clonazione vocale è la tecnologia che permette di creare una voce AI che suona come una persona specifica. Il punto di partenza è una registrazione audio della persona: da un minimo di 30 minuti di parlato pulito per una voce di base, fino a diverse ore per una replica ad alta fedeltà.
Il modello analizza le caratteristiche uniche di quella voce: la frequenza fondamentale, il modo in cui le consonanti si connettono alle vocali, le abitudini respiratorie, il ritmo personale. Il risultato è una voce AI che parla come quella persona specifica, non come una voce generica.
Abbiamo clonato la voce del nostro direttore. È lui che "legge" gli editoriali, anche quando sono scritti da altri colleghi. I lettori sentono la continuità. È diventata una firma sonora della testata.
Il mercato italiano e l'opportunità audio editoriale
Il podcast in Italia ha avuto una crescita esplosiva tra il 2020 e il 2024. Il 38% degli italiani con più di 15 anni ha ascoltato almeno un podcast nell'ultimo mese. Tra i 25 e i 44 anni la percentuale supera il 50%. A fronte di questa crescita di audience, l'offerta editoriale audio in italiano è ancora limitata. Le grandi testate nazionali hanno lanciato podcast, spesso con qualità alta ma frequenza bassa. Le testate locali sono quasi completamente assenti.
La qualità tecnica dell'audio
Oltre alla naturalezza della voce, conta la qualità tecnica dell'audio. Everlit genera file in formato MP3 a 128 kbps per la distribuzione standard e WAV a 44.1 kHz per chi ha esigenze di qualità professionale. La normalizzazione del volume è automatica: tutti gli episodi hanno lo stesso livello di loudness, una coerenza che gli ascoltatori apprezzano.