Ollama selbst hosten 2026: Kosten, Hardware &…

ChatGPT, Claude und Co. liefern beeindruckende Ergebnisse — aber viele Unternehmen können oder wollen ihre Daten nicht an US-Cloud-Dienste übergeben. Die Alternative: KI-Modelle selbst betreiben, auf eigener Hardware, ohne Datenabfluss. Was vor zwei Jahren noch Expertenwissen erforderte, ist 2026 in wenigen Minuten eingerichtet.

Dieser Artikel zeigt Ihnen den kompletten Stack, vergleicht die verfügbaren Modelle und erklärt, was Sie an Hardware brauchen.

Der Stack: Drei Bausteine

Eine Self-Hosted-KI-Lösung für Unternehmen besteht aus drei Komponenten:

1. Ollama — der Inference-Server

Ollama ist ein Open-Source-Tool, das KI-Sprachmodelle auf lokaler Hardware ausführt. Es lädt Modelle herunter, verwaltet sie und stellt eine API bereit — kompatibel zum OpenAI-Format. Die Installation erfolgt über Docker oder als native Anwendung.

2. Open WebUI — die Benutzeroberfläche

Open WebUI ist eine browserbasierte Chat-Oberfläche, die sich direkt mit Ollama verbindet. Für Ihre Mitarbeiter fühlt es sich an wie ChatGPT — mit dem Unterschied, dass alles auf Ihrem eigenen Server läuft.

Wichtige Features für den Unternehmenseinsatz:

Benutzerkonten mit Rollen (Admin, User)
Chat-Historien pro Nutzer (privat)
Vorlagen für häufige Aufgaben (System-Prompts)
Eingebaute RAG-Funktion: Firmendokumente hochladen und durchsuchen
Modellauswahl: Nutzer können zwischen verschiedenen Modellen wechseln

3. n8n — die Automation (optional)

Für automatisierte Workflows können Sie n8n einsetzen. Typische KI-Automationen:

Eingehende E-Mails zusammenfassen und Antwortvorschläge generieren
Angebote aus Stichpunkten erstellen
Support-Tickets kategorisieren und priorisieren
Dokumente automatisch zusammenfassen und verschlagworten

n8n verbindet sich über die Ollama-API mit Ihren lokalen Modellen — die Daten bleiben dabei im internen Netzwerk.

Modellvergleich: Welches Modell für welchen Zweck?

Open-Source-Modelle haben in den letzten zwei Jahren enorme Fortschritte gemacht. Hier die wichtigsten Optionen:

Kleine Modelle (7-8B Parameter)

Modell	RAM-Bedarf	Stärke	Deutsch
Mistral 7B	~6 GB	Schnell, effizient	Gut
Llama 3.1 8B	~8 GB	Reasoning, Anweisungen	Gut
Gemma 2 9B	~9 GB	Kompakt, vielseitig	Befriedigend

Geeignet für: E-Mails beantworten, Texte zusammenfassen, Angebote formulieren, einfache Fragen beantworten. Für die meisten Büroaufgaben völlig ausreichend.

Mittlere Modelle (13-34B Parameter)

Modell	RAM-Bedarf	Stärke	Deutsch
Llama 3.1 70B (quantisiert)	~40 GB	Beste Open-Source-Qualität	Sehr gut
Mixtral 8x7B	~26 GB	Mixture-of-Experts, vielseitig	Gut
Qwen 2.5 32B	~20 GB	Code und Analyse	Gut

Geeignet für: Komplexe Analysen, längere Dokumente, anspruchsvolle Texterstellung. Braucht deutlich mehr RAM und läuft auf kleinen Servern langsam.

Empfehlung für den Einstieg

Starten Sie mit Llama 3.1 8B oder Mistral 7B. Beide liefern für den Geschäftsalltag gute Ergebnisse und laufen auch auf bescheidener Hardware flüssig. Wenn Sie merken, dass die Qualität nicht reicht, können Sie jederzeit auf größere Modelle wechseln.

Hardware-Anforderungen

Variante 1: VPS (Virtual Private Server)

Ein gemieteter Server bei einem deutschen Anbieter (z.B. Hetzner, Netcup, Dogado):

Minimum: 8 GB RAM, 4 vCPUs → reicht für 7B-Modelle
Empfohlen: 16 GB RAM, 8 vCPUs → komfortabel für 7-8B-Modelle
Kosten: ab ca. 10-20 Euro pro Monat
Vorteil: Kein eigener Serverraum nötig, Daten bleiben in Deutschland

Variante 2: NAS oder Homeserver

Ein leistungsfähiges NAS (Synology, QNAP) oder ein Mini-PC im Büro:

Minimum: 16 GB RAM, moderner x86-Prozessor
Vorteil: Daten verlassen nie das Büronetzwerk, einmalige Kosten
Nachteil: Sie sind für Wartung und Backup selbst verantwortlich

Variante 3: Dedizierter Server mit GPU

Für höchste Anforderungen (70B-Modelle, viele gleichzeitige Nutzer):

Empfohlen: NVIDIA RTX 4090 (24 GB VRAM) oder A6000 (48 GB VRAM)
Kosten: Hetzner GPU-Server ab ca. 150 Euro pro Monat
Vorteil: Antwortzeiten wie bei ChatGPT, auch bei großen Modellen

CPU vs. GPU

Wichtig zu wissen: Ollama läuft auch ohne GPU — dann rechnet der Prozessor. Bei 7B-Modellen ist das akzeptabel (Antwort in 5-15 Sekunden), bei 70B-Modellen wird es langsam (30-60 Sekunden pro Antwort). Eine GPU beschleunigt die Inferenz um den Faktor 5-10.

RAG: Firmenwissen durchsuchbar machen

Die vielleicht spannendste Funktion für Unternehmen: RAG (Retrieval-Augmented Generation). Damit kann das KI-Modell auf Ihre internen Dokumente zugreifen und Fragen dazu beantworten.

So funktioniert es in Open WebUI

Dokumente hochladen: PDF, DOCX, TXT oder Markdown in Open WebUI hochladen
Automatische Verarbeitung: Das System zerlegt die Dokumente in Textabschnitte und erstellt einen Suchindex
Fragen stellen: Wenn Sie eine Frage stellen, durchsucht das System zuerst Ihre Dokumente und gibt dem Modell die relevanten Stellen als Kontext mit
Fundierte Antwort: Das Modell antwortet auf Basis Ihrer tatsächlichen Firmendaten, statt zu raten

Praxisbeispiele

Mitarbeiterhandbuch: “Wie viele Urlaubstage habe ich nach der Probezeit?” → Antwort aus dem Handbuch
Produktkatalog: “Welche unserer Maschinen eignet sich für Aluminium bis 5mm?” → Antwort aus dem Katalog
Vertragstexte: “Was sind die Kündigungsfristen im Rahmenvertrag mit Lieferant X?” → Antwort aus dem Vertrag

Datenschutz bei RAG

Bei Self-Hosted RAG bleiben alle Dokumente und der Suchindex auf Ihrem Server. Es werden keine Daten an externe Dienste übermittelt. Die Dokumente werden nicht zum Training des Modells verwendet — sie dienen ausschließlich als Kontextinformation bei Anfragen.

Self-Hosted vs. ChatGPT Plus: Der Vergleich

Kriterium	Self-Hosted (Ollama)	ChatGPT Plus/Team
Datenschutz	Maximal — Daten bleiben lokal	AVV nötig, Daten bei OpenAI
Modellqualität	Gut (7B) bis sehr gut (70B)	Beste verfügbare (GPT-4o)
Kosten	ab 10 Euro/Monat (VPS)	25-30 Dollar/Nutzer/Monat
Skalierung	Unbegrenzte Nutzer, eine Lizenz	Pro Nutzer bezahlen
Firmenwissen (RAG)	Eingebaut (Open WebUI)	Nur mit Enterprise-Plan
Automatisierung	Volle API-Kontrolle (n8n)	Eingeschränkt (GPTs)
Internetanbindung	Nicht nötig (auch offline)	Zwingend erforderlich
Einrichtung	Technisches Know-how nötig	Sofort nutzbar

Fazit: Für ein Team mit 5 Mitarbeitern kostet ChatGPT Team 125-150 Dollar pro Monat — ohne RAG, ohne Automatisierung, mit Datenschutz-Bedenken. Eine Self-Hosted-Lösung auf einem VPS kostet 10-20 Euro pro Monat, unabhängig von der Nutzerzahl, mit voller DSGVO-Konformität.

Häufige Fragen

Wie lange dauert die Einrichtung?

Ollama + Open WebUI über Docker: ca. 30 Minuten für einen erfahrenen IT-Dienstleister. Modelle herunterladen: je nach Modellgröße und Internetverbindung 5-30 Minuten.

Können meine Mitarbeiter das bedienen?

Ja. Open WebUI sieht aus und funktioniert wie ChatGPT. Wer ChatGPT bedienen kann, kann auch Open WebUI bedienen. Eine kurze Einführung (30-60 Minuten) reicht in der Regel aus.

Was passiert bei einem Serverausfall?

Wie bei jeder IT-Infrastruktur: Regelmäßige Backups sind Pflicht. Bei einem VPS übernimmt der Hoster die Hardware-Verfügbarkeit. Die Chat-Historien und hochgeladenen Dokumente sollten regelmäßig gesichert werden.

Kann ich später auf Cloud-KI wechseln?

Ja, problemlos. Open WebUI kann neben Ollama auch externe APIs anbinden (OpenAI, Anthropic). Sie können den Hybrid-Ansatz nutzen: Standard-Aufgaben lokal, anspruchsvolle Aufgaben über Cloud-API — alles über dieselbe Oberfläche.

Brauche ich dafür einen IT-Dienstleister?

Nicht zwingend, aber empfehlenswert. Die Ersteinrichtung ist mit Docker-Kenntnissen machbar, aber für den sicheren Betrieb (HTTPS, Backup, Monitoring, Updates) ist Fachwissen hilfreich.

Nächster Schritt

Sie möchten Self-Hosted KI in Ihrem Unternehmen einsetzen? Mit unserem KI-Kickstart richten wir Ollama und Open WebUI an einem Tag für Sie ein — inklusive DSGVO-Dokumentation, Mitarbeiterschulung und 14 Tagen Support.

Jetzt KI-Kickstart anfragen →

Ollama selbst hosten 2026: Kosten, Hardware & DSGVO