KI-Infrastruktur

Eigenes Sprachmodell Qwen3-30B auf Hetzner-GPUs, Embeddings mit BGE-M3, LiteLLM-Routing und Voice-Stack ab September 2026.

KI-Infrastruktur

Der KI-Helfer in DARION nutzt ein eigenes Sprachmodell auf eigener GPU-Hardware. Externe Anbieter kommen nur als EU-Fallback ins Spiel. So bleiben deine Daten in der EU, der Betrieb ist DSGVO-konform und es gibt keine US-Datenübermittlung.

Eigenes Sprachmodell

  • Modell: Qwen3-30B-A3B (Mixture-of-Experts, 30 Milliarden Parameter, 3 Milliarden aktiv).
  • Hosting: Self-Hosted auf Hetzner GPU-Server (GEX44).
  • Engine: llama.cpp Server mit Q4_K_M Quantisierung, 18 GB VRAM.
  • Context: 8.192 Tokens pro Anfrage.
  • Modus: /no_think für direkte Antworten ohne Thinking-Output.

Embedding-Modell

  • Modell: BGE-M3 von BAAI (multilingual, 1024 Dimensionen).
  • Hosting: Text Embeddings Inference (TEI) auf zweitem Hetzner GPU-Server.
  • Speicher: pgvector in der Postgres-Hauptdatenbank.
  • Max Tokens: 8.192 pro Embedding.

Reranking

  • Modell: BGE-reranker-v2-m3.
  • Hosting: CPU/ONNX auf dem AI-Server.
  • Zweck: Verbessert die Reihenfolge der RAG-Treffer vor der LLM-Abfrage.

LiteLLM Multi-Vendor-Routing

LiteLLM sitzt als Proxy vor allen LLM-Aufrufen und entscheidet pro Request, welches Modell antwortet.

  • Priorität 1: Qwen3-30B-A3B lokal, kostenlos, keine Datenübermittlung.
  • EU-Fallback: Mistral Small (Frankreich) bei Überlast oder Ausfall des lokalen Modells.
  • Master-Key-Auth: Jeder Aufruf trägt einen Bearer-Token, der pro Workspace ausgegeben wird.
  • Routing-Profil: darion-default (Auto-Fallback) und direkte Profile qwen3-local, mistral-small.

Voice-Stack (opt-in, ab September 2026)

Das Voice-Modul ist opt-in pro Mandant und steht ab September 2026 zur Verfügung. Es ergänzt den KI-Helfer um Inbound- und Outbound-Telefonie.

  • Telefonie: Twilio SIP Trunk, der Mandant bringt eigenen Twilio-Account mit.
  • Orchestrierung: LiveKit Agents (Apache 2.0), Self-Hosted auf K3s.
  • Sprache zu Text: faster-whisper Self-Hosted auf Hetzner GPU, keine Audio-Daten verlassen die Plattform.
  • Text zu Sprache: Chatterbox als primäre Open-Source-TTS, alternativ CosyVoice 2.
  • Latenz: Sub-200ms für Turn Detection.

Voice ist opt-in mit Approval-Prozess, weil Telefonie zusätzliche AVV-Klauseln und EU-AI-Act-Transparenzpflichten auslöst.

RAG-Schicht (opt-in, ab September 2026)

Die Retrieval-Augmented-Generation-Schicht koppelt deine Wissensquellen (DMS, Wiki, Tickets) mit dem KI-Helfer und ist ab September 2026 verfügbar. Sie nutzt assistant-ui als Chat-Komponente im Frontend.

  • Wissensindex: pgvector auf BGE-M3-Embeddings deiner eigenen Daten.
  • Retrieval: Dichte Suche mit BGE-reranker-v2-m3 als zweite Stufe.
  • Antwortgenerierung: Qwen3-30B mit Quellen-Zitaten zurück zum Originaldatensatz.
  • Frontend: assistant-ui (MIT-Lizenz, "shadcn/ui für AI-Chat").

Zero-Retention und Audit

  • Prompt-Log: 30 Tage Aufbewahrung im Audit-Trail.
  • Audio-Aufzeichnungen (Voice): Zero-Retention-Empfehlung, pro Mandant konfigurierbar.
  • Kein Training: Deine Daten werden nicht zum Training fremder Modelle verwendet.
  • EU-Lokation: Alle GPU-Server in Hetzner FSN1 oder NBG1.

Verwandt