Self-Hosted KI mit Ollama & Open WebUI: So nutzen Unternehmen KI ohne Cloud
Ollama und Open WebUI als DSGVO-konforme ChatGPT-Alternative: Stack-Übersicht, Modellvergleich, Hardware-Anforderungen und praktische Einrichtung.
ChatGPT, Claude und Co. liefern beeindruckende Ergebnisse — aber viele Unternehmen können oder wollen ihre Daten nicht an US-Cloud-Dienste übergeben. Die Alternative: KI-Modelle selbst betreiben, auf eigener Hardware, ohne Datenabfluss. Was vor zwei Jahren noch Expertenwissen erforderte, ist 2026 in wenigen Minuten eingerichtet.
Dieser Artikel zeigt Ihnen den kompletten Stack, vergleicht die verfügbaren Modelle und erklärt, was Sie an Hardware brauchen.
Der Stack: Drei Bausteine
Eine Self-Hosted-KI-Lösung für Unternehmen besteht aus drei Komponenten:
1. Ollama — der Inference-Server
Ollama ist ein Open-Source-Tool, das KI-Sprachmodelle auf lokaler Hardware ausführt. Es lädt Modelle herunter, verwaltet sie und stellt eine API bereit — kompatibel zum OpenAI-Format. Die Installation erfolgt über Docker oder als native Anwendung.
2. Open WebUI — die Benutzeroberfläche
Open WebUI ist eine browserbasierte Chat-Oberfläche, die sich direkt mit Ollama verbindet. Für Ihre Mitarbeiter fühlt es sich an wie ChatGPT — mit dem Unterschied, dass alles auf Ihrem eigenen Server läuft.
Wichtige Features für den Unternehmenseinsatz:
- Benutzerkonten mit Rollen (Admin, User)
- Chat-Historien pro Nutzer (privat)
- Vorlagen für häufige Aufgaben (System-Prompts)
- Eingebaute RAG-Funktion: Firmendokumente hochladen und durchsuchen
- Modellauswahl: Nutzer können zwischen verschiedenen Modellen wechseln
3. n8n — die Automation (optional)
Für automatisierte Workflows können Sie n8n einsetzen. Typische KI-Automationen:
- Eingehende E-Mails zusammenfassen und Antwortvorschläge generieren
- Angebote aus Stichpunkten erstellen
- Support-Tickets kategorisieren und priorisieren
- Dokumente automatisch zusammenfassen und verschlagworten
n8n verbindet sich über die Ollama-API mit Ihren lokalen Modellen — die Daten bleiben dabei im internen Netzwerk.
Modellvergleich: Welches Modell für welchen Zweck?
Open-Source-Modelle haben in den letzten zwei Jahren enorme Fortschritte gemacht. Hier die wichtigsten Optionen:
Kleine Modelle (7-8B Parameter)
| Modell | RAM-Bedarf | Stärke | Deutsch |
|---|---|---|---|
| Mistral 7B | ~6 GB | Schnell, effizient | Gut |
| Llama 3.1 8B | ~8 GB | Reasoning, Anweisungen | Gut |
| Gemma 2 9B | ~9 GB | Kompakt, vielseitig | Befriedigend |
Geeignet für: E-Mails beantworten, Texte zusammenfassen, Angebote formulieren, einfache Fragen beantworten. Für die meisten Büroaufgaben völlig ausreichend.
Mittlere Modelle (13-34B Parameter)
| Modell | RAM-Bedarf | Stärke | Deutsch |
|---|---|---|---|
| Llama 3.1 70B (quantisiert) | ~40 GB | Beste Open-Source-Qualität | Sehr gut |
| Mixtral 8x7B | ~26 GB | Mixture-of-Experts, vielseitig | Gut |
| Qwen 2.5 32B | ~20 GB | Code und Analyse | Gut |
Geeignet für: Komplexe Analysen, längere Dokumente, anspruchsvolle Texterstellung. Braucht deutlich mehr RAM und läuft auf kleinen Servern langsam.
Empfehlung für den Einstieg
Starten Sie mit Llama 3.1 8B oder Mistral 7B. Beide liefern für den Geschäftsalltag gute Ergebnisse und laufen auch auf bescheidener Hardware flüssig. Wenn Sie merken, dass die Qualität nicht reicht, können Sie jederzeit auf größere Modelle wechseln.
Hardware-Anforderungen
Variante 1: VPS (Virtual Private Server)
Ein gemieteter Server bei einem deutschen Anbieter (z.B. Hetzner, Netcup, Dogado):
- Minimum: 8 GB RAM, 4 vCPUs → reicht für 7B-Modelle
- Empfohlen: 16 GB RAM, 8 vCPUs → komfortabel für 7-8B-Modelle
- Kosten: ab ca. 10-20 Euro pro Monat
- Vorteil: Kein eigener Serverraum nötig, Daten bleiben in Deutschland
Variante 2: NAS oder Homeserver
Ein leistungsfähiges NAS (Synology, QNAP) oder ein Mini-PC im Büro:
- Minimum: 16 GB RAM, moderner x86-Prozessor
- Vorteil: Daten verlassen nie das Büronetzwerk, einmalige Kosten
- Nachteil: Sie sind für Wartung und Backup selbst verantwortlich
Variante 3: Dedizierter Server mit GPU
Für höchste Anforderungen (70B-Modelle, viele gleichzeitige Nutzer):
- Empfohlen: NVIDIA RTX 4090 (24 GB VRAM) oder A6000 (48 GB VRAM)
- Kosten: Hetzner GPU-Server ab ca. 150 Euro pro Monat
- Vorteil: Antwortzeiten wie bei ChatGPT, auch bei großen Modellen
CPU vs. GPU
Wichtig zu wissen: Ollama läuft auch ohne GPU — dann rechnet der Prozessor. Bei 7B-Modellen ist das akzeptabel (Antwort in 5-15 Sekunden), bei 70B-Modellen wird es langsam (30-60 Sekunden pro Antwort). Eine GPU beschleunigt die Inferenz um den Faktor 5-10.
RAG: Firmenwissen durchsuchbar machen
Die vielleicht spannendste Funktion für Unternehmen: RAG (Retrieval-Augmented Generation). Damit kann das KI-Modell auf Ihre internen Dokumente zugreifen und Fragen dazu beantworten.
So funktioniert es in Open WebUI
- Dokumente hochladen: PDF, DOCX, TXT oder Markdown in Open WebUI hochladen
- Automatische Verarbeitung: Das System zerlegt die Dokumente in Textabschnitte und erstellt einen Suchindex
- Fragen stellen: Wenn Sie eine Frage stellen, durchsucht das System zuerst Ihre Dokumente und gibt dem Modell die relevanten Stellen als Kontext mit
- Fundierte Antwort: Das Modell antwortet auf Basis Ihrer tatsächlichen Firmendaten, statt zu raten
Praxisbeispiele
- Mitarbeiterhandbuch: “Wie viele Urlaubstage habe ich nach der Probezeit?” → Antwort aus dem Handbuch
- Produktkatalog: “Welche unserer Maschinen eignet sich für Aluminium bis 5mm?” → Antwort aus dem Katalog
- Vertragstexte: “Was sind die Kündigungsfristen im Rahmenvertrag mit Lieferant X?” → Antwort aus dem Vertrag
Datenschutz bei RAG
Bei Self-Hosted RAG bleiben alle Dokumente und der Suchindex auf Ihrem Server. Es werden keine Daten an externe Dienste übermittelt. Die Dokumente werden nicht zum Training des Modells verwendet — sie dienen ausschließlich als Kontextinformation bei Anfragen.
Self-Hosted vs. ChatGPT Plus: Der Vergleich
| Kriterium | Self-Hosted (Ollama) | ChatGPT Plus/Team |
|---|---|---|
| Datenschutz | Maximal — Daten bleiben lokal | AVV nötig, Daten bei OpenAI |
| Modellqualität | Gut (7B) bis sehr gut (70B) | Beste verfügbare (GPT-4o) |
| Kosten | ab 10 Euro/Monat (VPS) | 25-30 Dollar/Nutzer/Monat |
| Skalierung | Unbegrenzte Nutzer, eine Lizenz | Pro Nutzer bezahlen |
| Firmenwissen (RAG) | Eingebaut (Open WebUI) | Nur mit Enterprise-Plan |
| Automatisierung | Volle API-Kontrolle (n8n) | Eingeschränkt (GPTs) |
| Internetanbindung | Nicht nötig (auch offline) | Zwingend erforderlich |
| Einrichtung | Technisches Know-how nötig | Sofort nutzbar |
Fazit: Für ein Team mit 5 Mitarbeitern kostet ChatGPT Team 125-150 Dollar pro Monat — ohne RAG, ohne Automatisierung, mit Datenschutz-Bedenken. Eine Self-Hosted-Lösung auf einem VPS kostet 10-20 Euro pro Monat, unabhängig von der Nutzerzahl, mit voller DSGVO-Konformität.
Häufige Fragen
Wie lange dauert die Einrichtung?
Ollama + Open WebUI über Docker: ca. 30 Minuten für einen erfahrenen IT-Dienstleister. Modelle herunterladen: je nach Modellgröße und Internetverbindung 5-30 Minuten.
Können meine Mitarbeiter das bedienen?
Ja. Open WebUI sieht aus und funktioniert wie ChatGPT. Wer ChatGPT bedienen kann, kann auch Open WebUI bedienen. Eine kurze Einführung (30-60 Minuten) reicht in der Regel aus.
Was passiert bei einem Serverausfall?
Wie bei jeder IT-Infrastruktur: Regelmäßige Backups sind Pflicht. Bei einem VPS übernimmt der Hoster die Hardware-Verfügbarkeit. Die Chat-Historien und hochgeladenen Dokumente sollten regelmäßig gesichert werden.
Kann ich später auf Cloud-KI wechseln?
Ja, problemlos. Open WebUI kann neben Ollama auch externe APIs anbinden (OpenAI, Anthropic). Sie können den Hybrid-Ansatz nutzen: Standard-Aufgaben lokal, anspruchsvolle Aufgaben über Cloud-API — alles über dieselbe Oberfläche.
Brauche ich dafür einen IT-Dienstleister?
Nicht zwingend, aber empfehlenswert. Die Ersteinrichtung ist mit Docker-Kenntnissen machbar, aber für den sicheren Betrieb (HTTPS, Backup, Monitoring, Updates) ist Fachwissen hilfreich.
Nächster Schritt
Sie möchten Self-Hosted KI in Ihrem Unternehmen einsetzen? Mit unserem KI-Kickstart richten wir Ollama und Open WebUI an einem Tag für Sie ein — inklusive DSGVO-Dokumentation, Mitarbeiterschulung und 14 Tagen Support.
Bereit für den nächsten Schritt?
Berechnen Sie jetzt das Potenzial Ihres Projekts.
Was kostet Sie eine schlechte Website?
Schlechtes Design kostet Vertrauen – und damit Umsatz. Berechnen Sie Ihr Potenzial.
Typisch sind 1% - 3%.
Ihr ungenutztes Potenzial
pro Monat durch 30% UX-Optimierung
- Mehr Anfragen durch klare Call-to-Actions
- Höhere Sichtbarkeit durch Google-Optimierung
Das könnte Sie auch interessieren
KI DSGVO-konform im Unternehmen einsetzen: Der komplette Leitfaden
KI im Unternehmen einführen und DSGVO-konform bleiben: Self-Hosted vs. EU-Cloud, rechtliche Pflichten, technische Maßnahmen und praktische Checkliste.
EU AI Act 2026: Was KMU jetzt wissen müssen
Ab 1. August 2026 tritt der EU AI Act schrittweise in Kraft. Was bedeutet das für kleine und mittlere Unternehmen? Schulungspflicht, Risikoklassen, Bußgelder — praxisnah und ohne Juristen-Deutsch erklärt.
Bewerber-Management automatisieren — von Mail-Eingang bis Erstgespräch
Wie KMU mit n8n und KI das Bewerber-Management automatisieren: PDF-Auslesen, Klassifizierung, Auto-Antwort, CRM-Sync. Konkrete Workflows für Handwerk, Gastro und Praxen.