Zum Inhalt springen
21+ Projekte erfolgreich umgesetzt 5.0★ Google Bewertung · Lauenburg & Umgebung Kostenloses 15-Min Erstgespräch — direkt mit Ronni Kostenlose Erstberatung buchen →
KI Ollama Open WebUI Self-Hosted DSGVO Open Source RAG

Self-Hosted KI mit Ollama & Open WebUI: So nutzen Unternehmen KI ohne Cloud

Ollama und Open WebUI als DSGVO-konforme ChatGPT-Alternative: Stack-Übersicht, Modellvergleich, Hardware-Anforderungen und praktische Einrichtung.

Ronni Wordel
6 Min. Lesezeit
Self-Hosted KI mit Ollama & Open WebUI: So nutzen Unternehmen KI ohne Cloud

ChatGPT, Claude und Co. liefern beeindruckende Ergebnisse — aber viele Unternehmen können oder wollen ihre Daten nicht an US-Cloud-Dienste übergeben. Die Alternative: KI-Modelle selbst betreiben, auf eigener Hardware, ohne Datenabfluss. Was vor zwei Jahren noch Expertenwissen erforderte, ist 2026 in wenigen Minuten eingerichtet.

Dieser Artikel zeigt Ihnen den kompletten Stack, vergleicht die verfügbaren Modelle und erklärt, was Sie an Hardware brauchen.

Der Stack: Drei Bausteine

Eine Self-Hosted-KI-Lösung für Unternehmen besteht aus drei Komponenten:

1. Ollama — der Inference-Server

Ollama ist ein Open-Source-Tool, das KI-Sprachmodelle auf lokaler Hardware ausführt. Es lädt Modelle herunter, verwaltet sie und stellt eine API bereit — kompatibel zum OpenAI-Format. Die Installation erfolgt über Docker oder als native Anwendung.

2. Open WebUI — die Benutzeroberfläche

Open WebUI ist eine browserbasierte Chat-Oberfläche, die sich direkt mit Ollama verbindet. Für Ihre Mitarbeiter fühlt es sich an wie ChatGPT — mit dem Unterschied, dass alles auf Ihrem eigenen Server läuft.

Wichtige Features für den Unternehmenseinsatz:

  • Benutzerkonten mit Rollen (Admin, User)
  • Chat-Historien pro Nutzer (privat)
  • Vorlagen für häufige Aufgaben (System-Prompts)
  • Eingebaute RAG-Funktion: Firmendokumente hochladen und durchsuchen
  • Modellauswahl: Nutzer können zwischen verschiedenen Modellen wechseln

3. n8n — die Automation (optional)

Für automatisierte Workflows können Sie n8n einsetzen. Typische KI-Automationen:

  • Eingehende E-Mails zusammenfassen und Antwortvorschläge generieren
  • Angebote aus Stichpunkten erstellen
  • Support-Tickets kategorisieren und priorisieren
  • Dokumente automatisch zusammenfassen und verschlagworten

n8n verbindet sich über die Ollama-API mit Ihren lokalen Modellen — die Daten bleiben dabei im internen Netzwerk.

Modellvergleich: Welches Modell für welchen Zweck?

Open-Source-Modelle haben in den letzten zwei Jahren enorme Fortschritte gemacht. Hier die wichtigsten Optionen:

Kleine Modelle (7-8B Parameter)

ModellRAM-BedarfStärkeDeutsch
Mistral 7B~6 GBSchnell, effizientGut
Llama 3.1 8B~8 GBReasoning, AnweisungenGut
Gemma 2 9B~9 GBKompakt, vielseitigBefriedigend

Geeignet für: E-Mails beantworten, Texte zusammenfassen, Angebote formulieren, einfache Fragen beantworten. Für die meisten Büroaufgaben völlig ausreichend.

Mittlere Modelle (13-34B Parameter)

ModellRAM-BedarfStärkeDeutsch
Llama 3.1 70B (quantisiert)~40 GBBeste Open-Source-QualitätSehr gut
Mixtral 8x7B~26 GBMixture-of-Experts, vielseitigGut
Qwen 2.5 32B~20 GBCode und AnalyseGut

Geeignet für: Komplexe Analysen, längere Dokumente, anspruchsvolle Texterstellung. Braucht deutlich mehr RAM und läuft auf kleinen Servern langsam.

Empfehlung für den Einstieg

Starten Sie mit Llama 3.1 8B oder Mistral 7B. Beide liefern für den Geschäftsalltag gute Ergebnisse und laufen auch auf bescheidener Hardware flüssig. Wenn Sie merken, dass die Qualität nicht reicht, können Sie jederzeit auf größere Modelle wechseln.

Hardware-Anforderungen

Variante 1: VPS (Virtual Private Server)

Ein gemieteter Server bei einem deutschen Anbieter (z.B. Hetzner, Netcup, Dogado):

  • Minimum: 8 GB RAM, 4 vCPUs → reicht für 7B-Modelle
  • Empfohlen: 16 GB RAM, 8 vCPUs → komfortabel für 7-8B-Modelle
  • Kosten: ab ca. 10-20 Euro pro Monat
  • Vorteil: Kein eigener Serverraum nötig, Daten bleiben in Deutschland

Variante 2: NAS oder Homeserver

Ein leistungsfähiges NAS (Synology, QNAP) oder ein Mini-PC im Büro:

  • Minimum: 16 GB RAM, moderner x86-Prozessor
  • Vorteil: Daten verlassen nie das Büronetzwerk, einmalige Kosten
  • Nachteil: Sie sind für Wartung und Backup selbst verantwortlich

Variante 3: Dedizierter Server mit GPU

Für höchste Anforderungen (70B-Modelle, viele gleichzeitige Nutzer):

  • Empfohlen: NVIDIA RTX 4090 (24 GB VRAM) oder A6000 (48 GB VRAM)
  • Kosten: Hetzner GPU-Server ab ca. 150 Euro pro Monat
  • Vorteil: Antwortzeiten wie bei ChatGPT, auch bei großen Modellen

CPU vs. GPU

Wichtig zu wissen: Ollama läuft auch ohne GPU — dann rechnet der Prozessor. Bei 7B-Modellen ist das akzeptabel (Antwort in 5-15 Sekunden), bei 70B-Modellen wird es langsam (30-60 Sekunden pro Antwort). Eine GPU beschleunigt die Inferenz um den Faktor 5-10.

RAG: Firmenwissen durchsuchbar machen

Die vielleicht spannendste Funktion für Unternehmen: RAG (Retrieval-Augmented Generation). Damit kann das KI-Modell auf Ihre internen Dokumente zugreifen und Fragen dazu beantworten.

So funktioniert es in Open WebUI

  1. Dokumente hochladen: PDF, DOCX, TXT oder Markdown in Open WebUI hochladen
  2. Automatische Verarbeitung: Das System zerlegt die Dokumente in Textabschnitte und erstellt einen Suchindex
  3. Fragen stellen: Wenn Sie eine Frage stellen, durchsucht das System zuerst Ihre Dokumente und gibt dem Modell die relevanten Stellen als Kontext mit
  4. Fundierte Antwort: Das Modell antwortet auf Basis Ihrer tatsächlichen Firmendaten, statt zu raten

Praxisbeispiele

  • Mitarbeiterhandbuch: “Wie viele Urlaubstage habe ich nach der Probezeit?” → Antwort aus dem Handbuch
  • Produktkatalog: “Welche unserer Maschinen eignet sich für Aluminium bis 5mm?” → Antwort aus dem Katalog
  • Vertragstexte: “Was sind die Kündigungsfristen im Rahmenvertrag mit Lieferant X?” → Antwort aus dem Vertrag

Datenschutz bei RAG

Bei Self-Hosted RAG bleiben alle Dokumente und der Suchindex auf Ihrem Server. Es werden keine Daten an externe Dienste übermittelt. Die Dokumente werden nicht zum Training des Modells verwendet — sie dienen ausschließlich als Kontextinformation bei Anfragen.

Self-Hosted vs. ChatGPT Plus: Der Vergleich

KriteriumSelf-Hosted (Ollama)ChatGPT Plus/Team
DatenschutzMaximal — Daten bleiben lokalAVV nötig, Daten bei OpenAI
ModellqualitätGut (7B) bis sehr gut (70B)Beste verfügbare (GPT-4o)
Kostenab 10 Euro/Monat (VPS)25-30 Dollar/Nutzer/Monat
SkalierungUnbegrenzte Nutzer, eine LizenzPro Nutzer bezahlen
Firmenwissen (RAG)Eingebaut (Open WebUI)Nur mit Enterprise-Plan
AutomatisierungVolle API-Kontrolle (n8n)Eingeschränkt (GPTs)
InternetanbindungNicht nötig (auch offline)Zwingend erforderlich
EinrichtungTechnisches Know-how nötigSofort nutzbar

Fazit: Für ein Team mit 5 Mitarbeitern kostet ChatGPT Team 125-150 Dollar pro Monat — ohne RAG, ohne Automatisierung, mit Datenschutz-Bedenken. Eine Self-Hosted-Lösung auf einem VPS kostet 10-20 Euro pro Monat, unabhängig von der Nutzerzahl, mit voller DSGVO-Konformität.

Häufige Fragen

Wie lange dauert die Einrichtung?

Ollama + Open WebUI über Docker: ca. 30 Minuten für einen erfahrenen IT-Dienstleister. Modelle herunterladen: je nach Modellgröße und Internetverbindung 5-30 Minuten.

Können meine Mitarbeiter das bedienen?

Ja. Open WebUI sieht aus und funktioniert wie ChatGPT. Wer ChatGPT bedienen kann, kann auch Open WebUI bedienen. Eine kurze Einführung (30-60 Minuten) reicht in der Regel aus.

Was passiert bei einem Serverausfall?

Wie bei jeder IT-Infrastruktur: Regelmäßige Backups sind Pflicht. Bei einem VPS übernimmt der Hoster die Hardware-Verfügbarkeit. Die Chat-Historien und hochgeladenen Dokumente sollten regelmäßig gesichert werden.

Kann ich später auf Cloud-KI wechseln?

Ja, problemlos. Open WebUI kann neben Ollama auch externe APIs anbinden (OpenAI, Anthropic). Sie können den Hybrid-Ansatz nutzen: Standard-Aufgaben lokal, anspruchsvolle Aufgaben über Cloud-API — alles über dieselbe Oberfläche.

Brauche ich dafür einen IT-Dienstleister?

Nicht zwingend, aber empfehlenswert. Die Ersteinrichtung ist mit Docker-Kenntnissen machbar, aber für den sicheren Betrieb (HTTPS, Backup, Monitoring, Updates) ist Fachwissen hilfreich.

Nächster Schritt

Sie möchten Self-Hosted KI in Ihrem Unternehmen einsetzen? Mit unserem KI-Kickstart richten wir Ollama und Open WebUI an einem Tag für Sie ein — inklusive DSGVO-Dokumentation, Mitarbeiterschulung und 14 Tagen Support.

Jetzt KI-Kickstart anfragen →

Bereit für den nächsten Schritt?

Berechnen Sie jetzt das Potenzial Ihres Projekts.

ROI-Check

Was kostet Sie eine schlechte Website?

Schlechtes Design kostet Vertrauen – und damit Umsatz. Berechnen Sie Ihr Potenzial.

1,000
2.0%

Typisch sind 1% - 3%.

Ihr ungenutztes Potenzial

+0 €

pro Monat durch 30% UX-Optimierung

  • Mehr Anfragen durch klare Call-to-Actions
  • Höhere Sichtbarkeit durch Google-Optimierung
Potenzial heben

Das könnte Sie auch interessieren