Marktübersicht · Stand April 2026
Was kostet KI wirklich?
OpenAI, Anthropic, Google, Microsoft — Preise ändern sich monatlich, Anbieter rechnen unterschiedlich, im Vertrieb hört man oft nur die kleinste Zahl. Diese Übersicht zeigt die tatsächlichen Kosten — pro Modell, pro Plan, pro Anwendungsfall. Ohne Marketing.
Auf einen Blick
Vier Zahlen, die das Bild beschreiben
Cloud-KI hat sich 2026 weiter ausdifferenziert. Zwischen dem günstigsten und dem teuersten Flaggschiff-Modell liegt aktuell der Faktor 36.
Teil 01
Cloud-KI
Was kostet KI von OpenAI, Anthropic, Google und Microsoft? Pro Token, pro Lizenz — mit allen versteckten Kosten.
Modellauswahl
Was kann ich mit welchem Modell anfangen?
Nicht jeder Anwendungsfall braucht das teuerste Modell. Diese Aufteilung hat sich in der Praxis bewährt:
Tier 1 · Hochvolumen
Klein & günstig
Haiku 4.5 · GPT-5.4 Nano · Gemini Flash-Lite
- E-Mails kategorisieren (Anfrage, Beschwerde, Spam)
- Kurze Texte zusammenfassen
- Daten aus Formularen extrahieren
- Sentiment-Analyse, Stimmungsbewertung
- Tickets ins richtige Team routen
Weniger geeignet für komplexe Analysen oder mehrstufiges Reasoning.
Tier 2 · Standard
Allrounder
Sonnet 4.6 · GPT-5.4 Mini · Gemini 3 Flash
- Kundenchatbots mit Zugriff auf Firmendaten
- Berichte und Dokumente erstellen
- Code generieren und überprüfen
- Wissensdatenbanken durchsuchbar machen (RAG)
- Meeting-Protokolle aus Transkripten erzeugen
Empfohlen als Standard für ca. 80 % aller Geschäftsanwendungen.
Tier 3 · Flaggschiff
Schwere Aufgaben
Opus 4.7 · GPT-5.5 · Gemini 3.1 Pro
- Komplexe juristische Recherche und Schriftsätze
- Mehrstufige Agenten-Workflows
- Wissenschaftliche & finanzielle Analysen
- Strategische Dokumente, M&A-Unterlagen
- Lange Dokumente (1M Tokens) durchgängig analysieren
Nur einsetzen, wo Genauigkeit entscheidend ist. 5–10× teurer als Tier 2.
01 · API-Preise
Was Anbieter pro Million Tokens berechnen
API-Preise sind die Basis jeder Eigenentwicklung — Chatbots, Agenten, Dokumentenverarbeitung. Abgerechnet wird pro Million Tokens (1 Token ≈ ¾ Wort). Output ist meist 4–6× teurer als Input.
Anthropic — Claude
Stärken: Coding, Instruktionsfolgen, lange Kontexte. Bevorzugt im B2B-Bereich.
| Modell | Einsatz | Input / 1M | Output / 1M | Kontext |
|---|---|---|---|---|
Claude Opus 4.7FlaggschiffNeu claude-opus-4-7 | Komplexes Coding, Agenten, anspruchsvolle Analyse | $5,00 | $25,00 | 1M |
Claude Sonnet 4.6Allrounder claude-sonnet-4-6 | Empfohlener Standard für Produktion | $3,00 | $15,00 | 1M |
Claude Haiku 4.5Hochvolumen claude-haiku-4-5 | Klassifizierung, einfache Extraktion, Routing | $1,00 | $5,00 | 200K |
OpenAI — GPT-Familie
Größtes Ökosystem, breitestes Tool-Angebot. Multimodal seit Tag eins.
| Modell | Einsatz | Input / 1M | Output / 1M | Kontext |
|---|---|---|---|---|
GPT-5.5FlaggschiffNeu gpt-5.5 | Aktuelles Top-Modell, doppelter Preis ggü. 5.4 | $5,00 | $30,00 | 1M+ |
GPT-5.4Allrounder gpt-5.4 | Bisheriges Standardmodell, weiterhin sehr leistungsfähig | $2,50 | $15,00 | 272K |
GPT-5.4 Mini gpt-5.4-mini | Kosteneffizientes Mid-Tier — guter Allrounder | $0,75 | $4,50 | 272K |
GPT-5.4 NanoHochvolumen gpt-5.4-nano | Klassifizierung, Routing, simple Extraktion | $0,20 | $1,25 | 272K |
GPT-5.4 Pro gpt-5.4-pro · Premium-Reasoning | Tiefes Reasoning, kritische Workflows — kostspielig | $30,00 | $180,00 | 272K |
Google — Gemini
Größter Kontext (2M Tokens), aggressive Preise im Flash-Tier, multimodal.
| Modell | Einsatz | Input / 1M | Output / 1M | Kontext |
|---|---|---|---|---|
Gemini 3.1 ProFlaggschiff gemini-3.1-pro · >200K = 2× Preis | Komplexe Analyse, sehr lange Dokumente | $2,00 | $12,00 | 2M |
Gemini 3 Pro gemini-3-pro | Stabile Pro-Variante, gleicher Preis | $2,00 | $12,00 | 2M |
Gemini 3 FlashAllrounder gemini-3-flash | Sehr gutes Preis-Leistungs-Verhältnis | $0,50 | $3,00 | 1M |
Gemini 3.1 Flash-LiteHochvolumen gemini-3.1-flash-lite | Günstigstes aktuelles Tier-1-Modell am Markt | $0,25 | $1,50 | 1M |
Gemini 2.5 Flash-Lite gemini-2.5-flash-lite · Legacy | Massendaten, einfache Klassifikation | $0,10 | $0,40 | 1M |
Wichtige Modifikatoren — die echten Kosten liegen oft niedriger
Batch-API (−50 %): Alle drei Anbieter halbieren den Preis, wenn Antworten innerhalb 24 h ausreichen. Ideal für nächtliche Berichte, Dokumentenverarbeitung, Evaluationen.
Prompt-Caching (−90 %): Wer denselben System-Prompt oder dasselbe Referenzdokument mehrfach sendet, zahlt für den gecachten Teil nur ~10 % des Listenpreises. Bei RAG-Architekturen oft der größte Hebel.
Versteckte Zusatzkosten: Web-Search via API kostet bei OpenAI/Anthropic $10 / 1.000 Suchen, Google Search-Grounding $14–35 / 1.000. EU-/US-Datenresidenz kostet bei OpenAI/Anthropic +10 % auf Token-Preise.
02 · Endnutzer- & Business-Lizenzen
Was kostet KI für Mitarbeiter — pro Person, pro Monat?
Wenn Mitarbeiter direkt mit KI arbeiten (Recherche, Texte, Excel-Auswertungen), sind nicht API-Preise relevant, sondern Lizenzgebühren. Hier die marktüblichen Tarife.
ChatGPT
- FreeMit Werbung seit Februar 2026$0limitiert
- GoMehr Volumen, weiterhin mit Werbung$8/Monat
- PlusVoller Funktionsumfang, GPT-5.5 inkl.$20/Monat
- ProHöchste Limits, Pro-Modelle$200/Monat
- BusinessPro Nutzer, ab 2 Plätzen, jährlich$20/User/Monat
- EnterpriseAuf Anfrage, mit SLA & Datenschutzindividuell
Claude
- FreeLimitierte Nutzung von Sonnet$0limitiert
- ProLängere Konversationen, Projects$20/Monat
- Max 5×5-fache Pro-Limits$100/Monat
- Max 20×Höchstes Limit, Opus-Zugang$200/Monat
- TeamPro Nutzer, ab 5 Plätzen$30/User/Monat
- EnterpriseSSO, Audit-Logs, Datenresidenzindividuell
Gemini
- FreeGemini 2.5 Flash, 100 KI-Credits/Monat$0
- Gemini ProPro-Modelle, Workspace-Integration$19,99/Monat
- Gemini UltraVeo, höchste Limits, alle Features$249,99/Monat
- Workspace mit GeminiAdd-on für Google Workspace Businessab $20/User/Monat
Microsoft 365 Copilot
- Copilot ChatMit jedem aktiven M365-Plan$0enthalten
- Copilot ProFür Einzelpersonen$20/Monat
- Copilot BusinessKMU bis 300 Plätze, Aktion bis 30.06.2026$18/User/Monat
- Copilot BusinessStandardpreis ab Juli 2026$21/User/Monat
- Copilot EnterpriseE3/E5-Voraussetzung notwendig$30/User/Monat
- M365 E7 FrontierKomplettpaket ab Mai 2026$99/User/Monat
Was bei Microsoft Copilot oft übersehen wird
Der Listenpreis von $30/User ist nur ein Aufpreis. Voraussetzung ist eine bestehende M365-Lizenz (Business Standard, E3 oder E5). Eine realistische Vollkosten-Rechnung für 25 Personen liegt bei ~$44–60 pro Nutzer und Monat — also $13.000–18.000 jährlich. Plus Beratungs- und Adoption-Kosten.
Teil 02
Lokale KI
Hardware in Ihrem Haus. Volle Datenkontrolle, kein Vendor-Lock-in, einmalige Investition statt monatlicher Cloud-Rechnung.
03 · Lokale Hardware
Drei Hardware-Pakete für lokale KI
Welches Setup passt? Größe richtet sich nach Modellanforderung, Nutzerzahl und gleichzeitiger Auslastung. Richtpreise — Stand: 27.04.2026.
Paket 01
Einstieg
~5.000 – 10.000 €
Hardware
Single GPU (RTX 4090 / 5090, 24 GB VRAM)
Unterstützte Modelle
- ▸Llama 3 8B
- ▸Mistral 7B
- ▸Qwen 7B
- ▸13B – 30B (quantisiert)
Kapazität
1 – 5 gleichzeitige Nutzer
Geeignet für
- Kleine Kanzlei oder Steuerbüro
- Mandanten- oder Patientenchat
- RAG auf eigene Wissensbasis
- Belege auslesen, Mails formulieren
Paket 02
Mittel
~15.000 – 30.000 €
Hardware
2× RTX 4090 / 5090 oder 1× H100 80 GB
Unterstützte Modelle
- ▸Llama 3 70B (quantisiert)
- ▸Mistral Large
- ▸Qwen 72B
- ▸Vision-Modelle
Kapazität
5 – 20 gleichzeitige Nutzer
Geeignet für
- Mittelständische Kanzlei oder Klinik
- Anamnese- und Befund-Workflows
- Multimodale Aufgaben (Vision + Text)
- Komplexere RAG mit größeren Wissensbasen
Paket 03
Profi
ab ~40.000 €
Hardware
2× – 4× H100 80 GB, DGX-Workstation oder größere Cluster
Unterstützte Modelle
- ▸Llama 3 405B
- ▸GPT-OSS-Klasse
- ▸Fine-Tuning eigener Modelle
Kapazität
20 – 100+ gleichzeitige Nutzer
Geeignet für
- Großkanzlei oder Klinikverbund
- Industrielle Anwendungen mit eigenem KI-Team
- Mehrere Modelle parallel im Betrieb
- Frontier-nahe Qualität ohne Cloud
Zusätzlich fallen jährlich ca. 1.000 – 3.000 € für Strom, Wartung und Updates an. Setup, Deployment und Schulung übernehmen wir auf Wunsch — als Festpreis-Paket oder Stundensatz.
04 · Workflows
Mehr als ein Chatbot — was Sie damit automatisieren
Lokale KI ist keine Spielerei. Mit Function Calling und Tool Use agiert sie wie ein Mitarbeiter — die Hardware-Investition zahlt sich nicht durch Chats aus, sondern durch Arbeitszeit, die wegfällt.
Eingangspost intelligent verarbeiten
Mails, PDFs und Faxe klassifizieren, beantworten oder weiterleiten — bevor jemand morgens in die Inbox schaut.
Belege automatisch buchen
Rechnungen und Belege auslesen, kontieren und an DATEV, lexoffice oder Ihr ERP übergeben.
Anfragen 24/7 beantworten
Standardfragen aus eigener Wissensbasis beantworten, Akten zusammenfassen — komplexe Fälle ans Team eskalieren.
Verträge & Schriftsätze entwerfen
Sachverhalt rein, Erstentwurf raus. Mustertexte und frühere Akten als Grundlage — der Anwalt finalisiert.
Anamnesen & Arztbriefe vorbereiten
Anamnese transkribieren, Befund-Entwurf erstellen, Codes vorschlagen — der Arzt prüft und gibt frei.
Reports & Auswertungen automatisch
KI zieht Daten aus ERP, Datenbank oder Excel, schreibt den Bericht und mailt das PDF — täglich, wöchentlich, monatlich.
Teil 03
Vergleich & Entscheidung
Reale Szenarien, Abrechnungsmodelle und der Entscheidungsrahmen — wann Cloud, wann lokal, wann beides.
05 · Realistische Kosten
Drei Szenarien — und was sie wirklich kosten
Listenpreise sind theoretisch. Hier sind drei konkrete Anwendungsfälle mit Volumen-Annahmen und tatsächlichen Monatskosten — inklusive Vergleich zu lokaler KI.
Szenario 01
Kunden-Chatbot für eine KMU
E-Commerce-Shop, ca. 200 Kundenanfragen pro Tag. FAQ, Bestellstatus, einfache Produktberatung.
Szenario 02
Dokumenten-Assistent in einer Kanzlei
15 Anwälte, RAG über interne Dokumente. Recherche, Schriftsatz-Entwürfe, Mandanten-Briefings.
Szenario 03
Massendaten-Verarbeitung Industrie
Klassifizierung von 1 Mio. Service-Tickets/Monat — Routing, Priorität, Sentiment-Analyse.
Wie wir die Lokal-KI-Kosten berechnen
Hardware-Investition €20.000–€60.000 (NVIDIA RTX 6000 Ada / H100, Server, Netzwerk), abgeschrieben über 36 Monate. Plus Strom, Wartung, Modell-Updates. Für ein typisches KMU-Setup mit 50–200 GB-Modellen liegen die monatlichen Vollkosten zwischen $300 und $1.200 — unabhängig vom Anfragevolumen.
Bei niedrigem Volumen ist Cloud-KI fast immer günstiger. Ab einem bestimmten Punkt — und besonders bei sensiblen Daten — kippt die Rechnung in Richtung lokal. Den genauen Break-Even rechnen wir im Erstgespräch durch.
06 · Abrechnungsmodelle
In welchen Etappen wird tatsächlich gezahlt?
Sechs grundsätzlich verschiedene Wege, wie KI-Anbieter abrechnen. Jeder hat Vor- und Nachteile — und nicht jeder passt zu jedem Unternehmen.
Modell 01
Abonnement (pro Nutzer / Monat)
Klassiker für Endnutzer-Tools. Fester Monatsbetrag pro Mitarbeiter, Volumen innerhalb der Limits frei.
- Wer
- ChatGPT Plus/Pro/Business, Claude Pro/Max/Team, Gemini Pro, M365 Copilot
- Vertrag
- Monatskündigung; bei Jahreszahlung 10–20 % Rabatt
- Vorteil
- Planbar, kein Kostenausreißer möglich
- Nachteil
- Sie zahlen auch bei Nicht-Nutzung; Limits können stören
Modell 02
Pay-as-you-go (Postpaid)
Klassische API-Abrechnung. Sie nutzen, am Monatsende kommt die Rechnung über den tatsächlichen Verbrauch.
- Wer
- OpenAI API, Anthropic API, Google AI Studio (Paid Tier)
- Limit
- Selbst gesetztes Monatslimit (Hard-Cap empfohlen)
- Vorteil
- Bei wenig Nutzung sehr günstig, keine Lizenzkosten
- Nachteil
- Bei Bug oder Schleife im Code böse Überraschung möglich
Modell 03
Prepaid-Guthaben
Sie laden Guthaben auf (z. B. $100), verbrauchen es nach Bedarf. Bei Null ist Schluss — bis zur nächsten Aufladung.
- Wer
- OpenAI & Anthropic API als Alternative zu Postpaid
- Auto-Reload
- Optional: automatisch nachladen bei Schwellenwert
- Vorteil
- Maximale Kontrolle — keine bösen Überraschungen
- Nachteil
- App stoppt, wenn Guthaben leer ist
Modell 04
Batch / Async (50 % Rabatt)
Viele Anfragen auf einmal, Ergebnisse innerhalb von 24 Stunden — dafür 50 % Rabatt auf alle Token-Preise.
- Wer
- OpenAI, Anthropic und Google bieten alle eine Batch-API
- Latenz
- Antwort meist binnen Minuten, garantiert binnen 24 h
- Geeignet
- Nächtliche Berichte, Massendaten-Analyse, Klassifizierung
- Nicht für
- Live-Chats, Echtzeit-Anwendungen
Modell 05
Enterprise-Vertrag (Committed Use)
Mindestverbrauch über 1–3 Jahre, dafür Rabatte, dedizierte Kapazität und SLAs.
- Wer
- Alle drei Hyperscaler ab ca. $1.000 / Monat Committed Spend
- Rabatt
- 10 – 40 % auf Listenpreise je nach Volumen & Laufzeit
- Inkl.
- Datenresidenz, Custom-SLA, dedizierter Account-Manager
- Nachteil
- Mindestabnahme bindet — bei Nicht-Nutzung trotzdem Zahlung
Modell 06 · Lokal
Einmalige Investition (Lokale KI)
Statt monatlicher Gebühren: einmalige Hardware-Investition, danach feste Betriebskosten. Volumen spielt keine Rolle.
- Wer
- Anbieter wie Ehrenfried Solutions — schlüsselfertig im Haus
- Investition
- € 20.000 – € 60.000 je nach Setup, abschreibbar über 36 Monate
- Vorteil
- Keine Token-Kosten, volle Datenkontrolle, DSGVO-konform
- Nachteil
- Kapital gebunden, eigene Wartung nötig (oder Service-Vertrag)
07 · Entscheidung
Wann Cloud, wann lokal — und warum die Frage selten eindeutig ist
Die meisten Unternehmen brauchen nicht entweder oder, sondern beides. Sensible Daten lokal, Standardaufgaben in der Cloud.
Cloud-KI
Schneller Start, niedrige Anfangsinvestition, immer aktuelle Modelle.
- Niedriges bis mittleres Anfragevolumen (< 50.000 Anfragen / Monat)
- Keine besonderen Datenschutz-Anforderungen über DSGVO hinaus
- Teams, die kurzfristig produktiv werden müssen
- Workloads mit stark schwankendem Volumen
- Anwendungen, die die jeweils neuesten Modelle brauchen
- Erste KI-Pilotprojekte ohne langfristige Bindung
Lokale KI
Volle Datenkontrolle, planbare Kosten, kein Vendor-Lock-in.
- Mandanten-, Patienten- oder Personaldaten (Kanzleien, Praxen, HR)
- Geistiges Eigentum & Quellcode, der das Haus nicht verlassen darf
- Hohes, konstantes Volumen — Break-Even ab ~500.000 Anfragen / Monat
- Behörden, KRITIS-Sektoren, Finanzdienstleister
- Industrie mit Konstruktions- und Produktionsdaten
- Strategische Unabhängigkeit von US-Anbietern
Welche Variante zu Ihnen passt — entscheiden wir gemeinsam.
Im kostenlosen Erstgespräch rechnen wir Ihren konkreten Anwendungsfall durch. Mit Zahlen, nicht mit Buzzwords.
Erstgespräch vereinbarenQUELLEN: ANTHROPIC.COM · OPENAI.COM · AI.GOOGLE.DEV · MICROSOFT.COM · STAND 27.04.2026