Vor drei Jahren war eine synthetische Stimme sofort zu erkennen. Der mechanische Rhythmus, die schlecht kalibrierten Pausen, die falsche Intonation. Das war nützliche, aber unvollkommene Technologie, und der Hörer nahm es wahr. Heute ist diese Unterscheidung fast verschwunden. KI-Stimmen der neuen Generation werden mit Modellen produziert, die auf Millionen von Stunden menschlicher Sprache trainiert wurden. Das Ergebnis ist eine Synthese, die prosodische Nuancen, natürliche Pausen und Rhythmusvariationen verwaltet.
Die deutschen Stimmen von Everlit
Everlit bietet mehrere deutsche Stimmen mit männlichen und weiblichen Varianten, die für verschiedene Lesestile kalibriert sind. Die journalistischen Stimmen sind für das Vorlesen von Nachrichten optimiert: nachhaltiges Tempo, klare Artikulation, ohne ausgeprägte regionale Akzente. Die Erzählstimmen haben ein langsameres, wärmeres Tempo, geeignet für Langformat-Inhalte und Reportagen.
Das System verwaltet die Besonderheiten des Deutschen korrekt: Komposita, komplexe Satzstrukturen und Fremdwörter, die häufig in der modernen journalistischen Sprache vorkommen.
Die 30 unterstützten Sprachen
- Premium-Level: Deutsch, Englisch (amerikanisch und britisch), Spanisch, Französisch, Portugiesisch, Italienisch
- Hohes Level: Niederländisch, Polnisch, Russisch, Japanisch, Koreanisch, Mandarin, Arabisch
- Standardlevel: nordeuropäische Sprachen, osteuropäische Sprachen, asiatische Sprachen
- In Entwicklung: Dialekte und regionale Varianten
Voice Cloning: Was es ist und wie es funktioniert
Voice Cloning ist die Technologie, die es ermöglicht, eine KI-Stimme zu erstellen, die wie eine bestimmte Person klingt. Der Ausgangspunkt ist eine Audioaufnahme dieser Person: mindestens 30 Minuten saubere Sprache für eine Basisstimme, bis zu mehrere Stunden für eine hochwertige Replik.
Das Modell analysiert die einzigartigen Charakteristika dieser Stimme: die Grundfrequenz, wie Konsonanten mit Vokalen verbunden werden, Atemgewohnheiten, persönlichen Rhythmus. Das Ergebnis ist eine KI-Stimme, die wie diese bestimmte Person spricht, nicht wie eine generische Stimme.
Wir haben die Stimme unseres Chefredakteurs geklont. Jetzt "liest" er die Leitartikel, auch wenn sie von anderen Kollegen geschrieben wurden. Die Leser spüren die Kontinuität. Es ist zur akustischen Marke der Zeitung geworden.
Der DACH-Markt und mehrsprachige Verlage
Der deutschsprachige Raum umfasst Deutschland, Österreich und die Schweiz mit zusammen über 100 Millionen Muttersprachlern. Viele Verlage im DACH-Markt bedienen auch Zielgruppen in anderen Sprachen oder wollen ihre Reichweite auf benachbarte Märkte ausdehnen. Everlit ermöglicht es diesen Verlagen, Audio in Deutsch und in Partnersprachen wie Englisch, Französisch und Niederländisch zu produzieren, ohne separate Workflows.
Technische Audioqualität
Neben der Natürlichkeit der Stimme zählt die technische Audioqualität. Everlit generiert Dateien im MP3-Format mit 128 kbps für Standard-Distribution und WAV mit 44,1 kHz für professionelle Qualitätsanforderungen. Die Lautstärkenormalisierung ist automatisch: Alle Episoden haben denselben Loudness-Level, eine Konsistenz, die Hörer schätzen.