KI-Infrastruktur
Eigenes Sprachmodell Qwen3-30B auf Hetzner-GPUs, Embeddings mit BGE-M3, LiteLLM-Routing und Voice-Stack ab September 2026.
KI-Infrastruktur
Der KI-Helfer in DARION nutzt ein eigenes Sprachmodell auf eigener GPU-Hardware. Externe Anbieter kommen nur als EU-Fallback ins Spiel. So bleiben deine Daten in der EU, der Betrieb ist DSGVO-konform und es gibt keine US-Datenübermittlung.
Eigenes Sprachmodell
- Modell: Qwen3-30B-A3B (Mixture-of-Experts, 30 Milliarden Parameter, 3 Milliarden aktiv).
- Hosting: Self-Hosted auf Hetzner GPU-Server (GEX44).
- Engine: llama.cpp Server mit Q4_K_M Quantisierung, 18 GB VRAM.
- Context: 8.192 Tokens pro Anfrage.
- Modus: /no_think für direkte Antworten ohne Thinking-Output.
Embedding-Modell
- Modell: BGE-M3 von BAAI (multilingual, 1024 Dimensionen).
- Hosting: Text Embeddings Inference (TEI) auf zweitem Hetzner GPU-Server.
- Speicher: pgvector in der Postgres-Hauptdatenbank.
- Max Tokens: 8.192 pro Embedding.
Reranking
- Modell: BGE-reranker-v2-m3.
- Hosting: CPU/ONNX auf dem AI-Server.
- Zweck: Verbessert die Reihenfolge der RAG-Treffer vor der LLM-Abfrage.
LiteLLM Multi-Vendor-Routing
LiteLLM sitzt als Proxy vor allen LLM-Aufrufen und entscheidet pro Request, welches Modell antwortet.
- Priorität 1: Qwen3-30B-A3B lokal, kostenlos, keine Datenübermittlung.
- EU-Fallback: Mistral Small (Frankreich) bei Überlast oder Ausfall des lokalen Modells.
- Master-Key-Auth: Jeder Aufruf trägt einen Bearer-Token, der pro Workspace ausgegeben wird.
- Routing-Profil:
darion-default(Auto-Fallback) und direkte Profileqwen3-local,mistral-small.
Voice-Stack (opt-in, ab September 2026)
Das Voice-Modul ist opt-in pro Mandant und steht ab September 2026 zur Verfügung. Es ergänzt den KI-Helfer um Inbound- und Outbound-Telefonie.
- Telefonie: Twilio SIP Trunk, der Mandant bringt eigenen Twilio-Account mit.
- Orchestrierung: LiveKit Agents (Apache 2.0), Self-Hosted auf K3s.
- Sprache zu Text: faster-whisper Self-Hosted auf Hetzner GPU, keine Audio-Daten verlassen die Plattform.
- Text zu Sprache: Chatterbox als primäre Open-Source-TTS, alternativ CosyVoice 2.
- Latenz: Sub-200ms für Turn Detection.
Voice ist opt-in mit Approval-Prozess, weil Telefonie zusätzliche AVV-Klauseln und EU-AI-Act-Transparenzpflichten auslöst.
RAG-Schicht (opt-in, ab September 2026)
Die Retrieval-Augmented-Generation-Schicht koppelt deine Wissensquellen (DMS, Wiki, Tickets) mit dem KI-Helfer und ist ab September 2026 verfügbar. Sie nutzt assistant-ui als Chat-Komponente im Frontend.
- Wissensindex: pgvector auf BGE-M3-Embeddings deiner eigenen Daten.
- Retrieval: Dichte Suche mit BGE-reranker-v2-m3 als zweite Stufe.
- Antwortgenerierung: Qwen3-30B mit Quellen-Zitaten zurück zum Originaldatensatz.
- Frontend: assistant-ui (MIT-Lizenz, "shadcn/ui für AI-Chat").
Zero-Retention und Audit
- Prompt-Log: 30 Tage Aufbewahrung im Audit-Trail.
- Audio-Aufzeichnungen (Voice): Zero-Retention-Empfehlung, pro Mandant konfigurierbar.
- Kein Training: Deine Daten werden nicht zum Training fremder Modelle verwendet.
- EU-Lokation: Alle GPU-Server in Hetzner FSN1 oder NBG1.
Verwandt
- Stack: Frontend und Backend.
- Architektur: RLS und Modul-Toggles.
- KI-Helfer: Wie die Schicht im Alltag wirkt.
- DSGVO: Sub-Processoren und Auftragsverarbeitung.
- Roadmap September 2026: Voice- und RAG-Release.