
So installierst du Vibe Voice in ComfyUI – dein Einstieg in die Open-Source Sprachsynthese
Die künstliche Stimme wird immer realistischer – und mit Vibe Voice bekommst du eines der spannendsten Open-Source-Projekte im Bereich Text-to-Speech (TTS) direkt auf deinen Rechner. Entwickelt von Microsoft, kann Vibe Voice Stimmen nicht nur natürlich klingen lassen, sondern sogar mehrere Sprecher*innen, Emotionen und Akzente realistisch nachbilden. In Kombination mit ComfyUI, der modularen Oberfläche für KI-Modelle, lässt sich diese Technologie bequem lokal nutzen – ganz ohne Cloud-Limitierungen.
In diesem Artikel zeige ich dir Schritt für Schritt, wie du Vibe Voice in ComfyUI installierst und lokal betreibst – inklusive aller Modelle und Zusatzdateien.
1. Voraussetzungen
Vor der Installation benötigst du:
- ComfyUI ist bereits auf deinem Computer installiert.
- Eine CUDA-kompatible GPU (z. B. NVIDIA) sorgt für beste Performance.
- Git ist installiert, um Repositories zu klonen.
Falls du ComfyUI noch nicht besitzt, bekommst du es hier: 👉 https://github.com/comfyanonymous/ComfyUI
2. Vibe Voice Node in ComfyUI installieren
- Öffne deinen ComfyUI-Installationsordner.
- Wechsle in den Ordner:
ComfyUI/custom_nodes - Öffne dort die Eingabeaufforderung (einfach in die Pfadleiste klicken und cmd eingeben).
- Führe folgenden Befehl aus:
git clone https://github.com/EnemyXNET/vibe-voice-comfyui - Nach dem Klonen ComfyUI neu starten.
- Der Vibe Voice Node wird beim Start automatisch installiert.
3. Modell-Dateien herunterladen
Damit Vibe Voice funktioniert, musst du das eigentliche Sprachmodell herunterladen.
a) Modell von Hugging Face laden
-
Besuche: 👉 https://huggingface.co/microsoft/VibeVoice-1.5B
-
Scrolle nach unten zum Bereich "Files and versions" bzw. „Models".
-
Lade alle Dateien des gewünschten Modells herunter (z. B. VibeVoice-1.5B).
-
Lege anschließend einen neuen Ordner mit dem Namen deines Modells an, etwa:
VibeVoice-1.5B -
Verschiebe diesen Ordner in dein ComfyUI-Verzeichnis.
Beispielpfad:
C:\Users\<DeinName>\ComfyUI\models\vibevoice\VibeVoice-1.5B(Ersetze
<DeinName>durch deinen tatsächlichen Windows-Benutzernamen.)
b) Tokenizer-Dateien hinzufügen
Vibe Voice benötigt außerdem Tokenizer-Dateien zur korrekten Textverarbeitung.
- Erstelle im selben Verzeichnis einen neuen Unterordner namens
tokenizer:C:\Users\<DeinName>\ComfyUI\models\vibevoice\tokenizer - Lade die folgenden Dateien von Hugging Face herunter und speichere sie in diesem Ordner:
👉 https://huggingface.co/Qwen/Qwen2.5-1.5B/tree/main
merges.txttokenizer.jsontokenizer_config.jsonvocab.json
Damit ist die Modellstruktur vollständig eingerichtet.
4. Beispiel-Workflow laden
Jetzt kannst du testen, ob alles korrekt funktioniert:
- Öffne ComfyUI.
- Navigiere zu:
ComfyUI/custom_nodes/vibe-voice-comfyui/examples - Wähle einen Workflow, z. B.:
vibe_voice_single_speaker.jsonvibe_voice_multiple_speakers.json
- Ziehe die Datei einfach per Drag & Drop ins ComfyUI-Fenster.
5. Einstellungen konfigurieren
Innerhalb des Workflows kannst du deine eigenen Sprecher, Texte und Parameter einstellen.
Sprecher-Audios
Lade kurze Referenz-Clips der Stimmen hoch, die du klonen möchtest. Das Modell nutzt sie, um Tonhöhe und Klangfarbe zu übernehmen.
Transkript
Gib deinen Text ein oder speichere ihn in einer .txt-Datei.
Beispiel:
[Speaker1] Hallo! Bist du bereit?
[Speaker2] Absolut, lass uns starten!
Modell-Auswahl
Wähle in der Node aus:
- vibe-voice-1_5B – kleiner, schneller, bis ca. 90 Minuten Audio
- vibe-voice-7B – größer, besserer Klang, aber mehr Rechenzeit
Empfohlene Grundeinstellungen
- Free memory after generate: →
False(wenn du mehrere Durchläufe planst) - Diffusion steps: →
20(ausgewogener Kompromiss aus Qualität & Geschwindigkeit) - Temperature / CFG / Top‑P: → feinjustierbar für Emotion und Ausdruck
6. Audio generieren
- Drücke Run in ComfyUI.
- Beim ersten Start lädt das Modell eventuell noch Dateien nach (~17 GB bei der 7B-Version).
- Nach der Berechnung findest du dein Ergebnis im Output-Ordner oder kannst es direkt anhören.
7. Optional: Textdatei-Eingabe
Falls du lieber mit gespeicherten Texten arbeitest:
- Füge einen Load Text File Node hinzu.
- Lade deine
.txt-Datei aus dem Ordner/ComfyUI/input/. - Verbinde sie mit dem „Transcript"-Node im Workflow.
8. Wichtige Hinweise
- Unterstützt bis zu 4 Sprecher*innen pro Audio.
- Funktioniert komplett offline – ideal für Podcasts, Hörbücher und Voiceovers.
- Einmal installiert: unbegrenzt nutzbar und kostenlos.
- Erkennt automatisch Emotionen und Betonungen.
Fazit
Mit Vibe Voice und ComfyUI kannst du beeindruckende KI-Stimmen direkt auf deinem PC generieren – ohne Online-Abhängigkeit oder Limitierungen. Mit etwas Feintuning erhältst du Ergebnisse, die professionellen TTS‑Systemen kaum nachstehen.
Besonders spannend ist die offene Struktur: Wer mag, kann eigene Modelle, Tokenizer oder Custom-Workflows hinzufügen und so seine eigene KI‑Sprecherlandschaft aufbauen.
Verwandte Artikel

Stable Diffusion auf CPU nutzen: Komplette Anleitung ohne GPU
Lerne, wie du Stable Diffusion auf einem normalen PC ohne GPU installierst und nutzt. Komplette Schritt-für-Schritt-Anleitung für Windows, Mac und Linux. KI-Bildgenerierung für alle zugänglich – keine teure Hardware nötig.
"Entfessle die Macht der KI: 15 Aufgaben, die du sofort automatisieren kannst!"
Tauchen Sie ein in die Welt der KI-Automatisierung: Verbessern Sie Arbeitsabläufe, optimieren Sie den Kundenservice und entdecken Sie neue Möglichkeiten!
"Optimiere Deine Website mit KI: Revolutioniere Dein SEO in 2022"
Tauchen Sie tief in die Welt der Künstlichen Intelligenz ein und entdecken Sie, wie Maschinelles Lernen, neuronale Netzwerke und Deep Learning SEO beeinflussen.