KI-Infrastruktur

Eigenes Sprachmodell Qwen3-30B auf Hetzner-GPUs, Embeddings mit BGE-M3, LiteLLM-Routing und Voice-Stack ab Oktober 2026.

KI-Infrastruktur

Der KI-Helfer in DARION-AI nutzt ein eigenes Sprachmodell auf eigener GPU-Hardware. So bleiben deine Daten in der EU, der Betrieb ist DSGVO-konform und es gibt keine US-Datenübermittlung.

Eigenes Sprachmodell

Modell: Qwen3-30B-A3B (Mixture-of-Experts, 30 Milliarden Parameter, 3 Milliarden aktiv).
Hosting: Self-Hosted auf Hetzner GPU-Server (GEX44).
Engine: llama.cpp Server mit Q4_K_M Quantisierung, 18 GB VRAM.
Context: 8.192 Tokens pro Anfrage.
Modus: /no_think für direkte Antworten ohne Thinking-Output.

Embedding-Modell

Modell: BGE-M3 von BAAI (multilingual, 1024 Dimensionen).
Hosting: Text Embeddings Inference (TEI) auf zweitem Hetzner GPU-Server.
Speicher: pgvector in der Postgres-Hauptdatenbank.
Max Tokens: 8.192 pro Embedding.

Reranking

Modell: BGE-reranker-v2-m3.
Hosting: CPU/ONNX auf dem AI-Server.
Zweck: Verbessert die Reihenfolge der RAG-Treffer vor der LLM-Abfrage.

LiteLLM Multi-Vendor-Routing

LiteLLM sitzt als Proxy vor allen LLM-Aufrufen und entscheidet pro Request, welches Modell antwortet.

Priorität 1: Qwen3-30B-A3B lokal, kostenlos, keine Datenübermittlung.
Lokaler Fallback: Qwen3-14B bei Überlast oder Ausfall des primären Modells, ebenfalls self-hosted in der EU.
Master-Key-Auth: Jeder Aufruf trägt einen Bearer-Token, der pro Workspace ausgegeben wird.
Routing-Profil: darion-default (Auto-Fallback) und direkte Profile qwen3-local, qwen3-14b-local.

Voice-Stack (opt-in, ab Oktober 2026)

Das Voice-Modul ist opt-in pro Mandant und steht ab Oktober 2026 zur Verfügung. Es ergänzt den KI-Helfer um Inbound-Telefonie und ist im Flat-Tarif enthalten.

Telefonie: easybell als EU-Voice-Carrier (SIP-Trunk), vom Kundenadmin aktivierbar.
Orchestrierung: LiveKit Agents (Apache 2.0), Self-Hosted auf K3s.
Sprache zu Text: faster-whisper Self-Hosted auf Hetzner GPU, keine Audio-Daten verlassen die Plattform.
Text zu Sprache: Chatterbox als primäre Open-Source-TTS, alternativ CosyVoice 2.
Latenz: Sub-200ms für Turn Detection.

Voice ist opt-in mit Approval-Prozess, weil Telefonie zusätzliche AVV-Klauseln und EU-AI-Act-Transparenzpflichten auslöst.

RAG-Schicht (opt-in, ab September 2026)

Die Retrieval-Augmented-Generation-Schicht koppelt deine Wissensquellen (DMS, Wiki, Tickets) mit dem KI-Helfer und ist ab September 2026 verfügbar. Sie nutzt assistant-ui als Chat-Komponente im Frontend.

Wissensindex: pgvector auf BGE-M3-Embeddings deiner eigenen Daten.
Retrieval: Dichte Suche mit BGE-reranker-v2-m3 als zweite Stufe.
Antwortgenerierung: Qwen3-30B mit Quellen-Zitaten zurück zum Originaldatensatz.
Frontend: assistant-ui (MIT-Lizenz, "shadcn/ui für AI-Chat").

Zero-Retention und Audit

Prompt-Log: 30 Tage Aufbewahrung im Audit-Trail.
Audio-Aufzeichnungen (Voice): Zero-Retention-Empfehlung, pro Mandant konfigurierbar.
Kein Training: Deine Daten werden nicht zum Training fremder Modelle verwendet.
EU-Lokation: Alle GPU-Server in Hetzner FSN1 oder NBG1.

Verwandt

Stack: Frontend und Backend.
Architektur: RLS und Modul-Toggles.
KI-Helfer: Wie die Schicht im Alltag wirkt.
DSGVO: Sub-Processoren und Auftragsverarbeitung.
Roadmap September 2026: RAG-Release (Voice folgt im Oktober).