So installierst du Vibe Voice in ComfyUI – dein Einstieg in die Open-Source Sprachsynthese | KI.LAMPE - Der Künstliche Intelligenz Blog für Kreative Leuchten

Die künstliche Stimme wird immer realistischer – und mit Vibe Voice bekommst du eines der spannendsten Open-Source-Projekte im Bereich Text-to-Speech (TTS) direkt auf deinen Rechner. Entwickelt von Microsoft, kann Vibe Voice Stimmen nicht nur natürlich klingen lassen, sondern sogar mehrere Sprecher*innen, Emotionen und Akzente realistisch nachbilden. In Kombination mit ComfyUI, der modularen Oberfläche für KI-Modelle, lässt sich diese Technologie bequem lokal nutzen – ganz ohne Cloud-Limitierungen.

In diesem Artikel zeige ich dir Schritt für Schritt, wie du Vibe Voice in ComfyUI installierst und lokal betreibst – inklusive aller Modelle und Zusatzdateien.

1. Voraussetzungen

Vor der Installation benötigst du:

ComfyUI ist bereits auf deinem Computer installiert.
Eine CUDA-kompatible GPU (z. B. NVIDIA) sorgt für beste Performance.
Git ist installiert, um Repositories zu klonen.

Falls du ComfyUI noch nicht besitzt, bekommst du es hier: 🔗 https://github.com/comfyanonymous/ComfyUI

2. Vibe Voice Node in ComfyUI installieren

Öffne deinen ComfyUI-Installationsordner.
Wechsle in den Ordner:
```
ComfyUI/custom_nodes
```
Öffne dort die Eingabeaufforderung (einfach in die Pfadleiste klicken und cmd eingeben).

Führe folgenden Befehl aus:

git clone https://github.com/EnemyXNET/vibe-voice-comfyui

Nach dem Klonen ComfyUI neu starten.
Der Vibe Voice Node wird beim Start automatisch installiert.

3. Modell-Dateien herunterladen

Damit Vibe Voice funktioniert, musst du das eigentliche Sprachmodell herunterladen.

a) Modell von Hugging Face laden

Besuche: 🔗 https://huggingface.co/microsoft/VibeVoice-1.5B
Scrolle nach unten zum Bereich "Files and versions" bzw. "Models".
Lade alle Dateien des gewünschten Modells herunter (z. B. VibeVoice-1.5B).
Lege anschließend einen neuen Ordner mit dem Namen deines Modells an, etwa:
```
VibeVoice-1.5B
```
Verschiebe diesen Ordner in dein ComfyUI-Verzeichnis.

Beispielpfad:
```
C:\Users\<DeinName>\ComfyUI\models\vibevoice\VibeVoice-1.5B
```
(Ersetze <DeinName> durch deinen tatsächlichen Windows-Benutzernamen.)

b) Tokenizer-Dateien hinzufügen

Vibe Voice benötigt außerdem Tokenizer-Dateien zur korrekten Textverarbeitung.

Erstelle im selben Verzeichnis einen neuen Unterordner namens tokenizer:
```
C:\Users\<DeinName>\ComfyUI\models\vibevoice\tokenizer
```
Lade die folgenden Dateien von Hugging Face herunter und speichere sie in diesem Ordner: 🔗 https://huggingface.co/Qwen/Qwen2.5-1.5B/tree/main
- merges.txt
- tokenizer.json
- tokenizer_config.json
- vocab.json

Damit ist die Modellstruktur vollständig eingerichtet.

4. Beispiel-Workflow laden

Jetzt kannst du testen, ob alles korrekt funktioniert:

Öffne ComfyUI.

Navigiere zu:

ComfyUI/custom_nodes/vibe-voice-comfyui/examples

Wähle einen Workflow, z. B.:
- vibe_voice_single_speaker.json
- vibe_voice_multiple_speakers.json
Ziehe die Datei einfach per Drag & Drop ins ComfyUI-Fenster.

5. Einstellungen konfigurieren

Innerhalb des Workflows kannst du deine eigenen Sprecher, Texte und Parameter einstellen.

Sprecher-Audios

Lade kurze Referenz-Clips der Stimmen hoch, die du klonen möchtest. Das Modell nutzt sie, um Tonhöhe und Klangfarbe zu übernehmen.

Transkript

Gib deinen Text ein oder speichere ihn in einer .txt-Datei.

Beispiel:

[Speaker1] Hallo! Bist du bereit?
[Speaker2] Absolut, lass uns starten!

Modell-Auswahl

Wähle in der Node aus:

vibe-voice-1_5B – kleiner, schneller, bis ca. 90 Minuten Audio
vibe-voice-7B – größer, besserer Klang, aber mehr Rechenzeit

Empfohlene Grundeinstellungen

Free memory after generate: → False (wenn du mehrere Durchläufe planst)
Diffusion steps: → 20 (ausgewogener Kompromiss aus Qualität & Geschwindigkeit)
Temperature / CFG / Top—P: → feinjustierbar für Emotion und Ausdruck

6. Audio generieren

Drücke Run in ComfyUI.
Beim ersten Start lädt das Modell eventuell noch Dateien nach (~17 GB bei der 7B-Version).
Nach der Berechnung findest du dein Ergebnis im Output-Ordner oder kannst es direkt anhören.

7. Optional: Textdatei-Eingabe

Falls du lieber mit gespeicherten Texten arbeitest:

Füge einen Load Text File Node hinzu.
Lade deine .txt-Datei aus dem Ordner /ComfyUI/input/.
Verbinde sie mit dem "Transcript"-Node im Workflow.

8. Wichtige Hinweise

Unterstützt bis zu 4 Sprecher*innen pro Audio.
Funktioniert komplett offline – ideal für Podcasts, Hörbücher und Voiceovers.
Einmal installiert: unbegrenzt nutzbar und kostenlos.
Erkennt automatisch Emotionen und Betonungen.

Fazit

Mit Vibe Voice und ComfyUI kannst du beeindruckende KI-Stimmen direkt auf deinem PC generieren – ohne Online-Abhängigkeit oder Limitierungen. Mit etwas Feintuning erhältst du Ergebnisse, die professionellen TTS—Systemen kaum nachstehen.

Besonders spannend ist die offene Struktur: Wer mag, kann eigene Modelle, Tokenizer oder Custom-Workflows hinzufügen und so seine eigene KI—Sprecherlandschaft aufbauen.

So installierst du Vibe Voice in ComfyUI – dein Einstieg in die Open-Source Sprachsynthese