Marktübersicht · Stand Juni 2026

Was kostet KI wirklich?

OpenAI, Anthropic, Google, Microsoft: Preise ändern sich monatlich, Anbieter rechnen unterschiedlich, im Vertrieb hört man oft nur die kleinste Zahl. Diese Übersicht zeigt die tatsächlichen Kosten: pro Modell, pro Plan, pro Anwendungsfall. Ohne Marketing.

● Quellen: offizielle Preisseiten● Stand: 22.06.2026● Preise USD, netto

Auf einen Blick

Vier Zahlen, die das Bild beschreiben

Cloud-KI hat sich 2026 weiter ausdifferenziert. Zwischen dem günstigsten und dem teuersten Flaggschiff-Modell liegt aktuell der Faktor 36.

$0,10

pro Mio. Tokens, günstigster Tier-1-Anbieter (Gemini 2.5 Flash-Lite, Input)

$30

pro Mio. Output-Tokens, GPT-5.5 Standard, seit 23. April 2026

−50 %

Rabatt bei allen Anbietern für Batch-Verarbeitung (24h-Latenz)

−90 %

Ersparnis durch Prompt-Caching bei wiederkehrenden Kontexten

Teil 01

Cloud-KI

Was kostet KI von OpenAI, Anthropic, Google und Microsoft? Pro Token, pro Lizenz, mit allen versteckten Kosten.

Modellauswahl

Was kann ich mit welchem Modell anfangen?

Nicht jeder Anwendungsfall braucht das teuerste Modell. Diese Aufteilung hat sich in der Praxis bewährt:

Tier 1 · Hochvolumen

Klein & günstig

Haiku 4.5 · GPT-5.4 Nano · Gemini Flash-Lite

E-Mails kategorisieren (Anfrage, Beschwerde, Spam)
Kurze Texte zusammenfassen
Daten aus Formularen extrahieren
Sentiment-Analyse, Stimmungsbewertung
Tickets ins richtige Team routen

Weniger geeignet für komplexe Analysen oder mehrstufiges Reasoning.

Tier 2 · Standard

Allrounder

Sonnet 4.6 · GPT-5.4 Mini · Gemini 3 Flash

Kundenchatbots mit Zugriff auf Firmendaten
Berichte und Dokumente erstellen
Code generieren und überprüfen
Wissensdatenbanken durchsuchbar machen (RAG)
Meeting-Protokolle aus Transkripten erzeugen

Empfohlen als Standard für ca. 80 % aller Geschäftsanwendungen.

Tier 3 · Flaggschiff

Schwere Aufgaben

Opus 4.8 · GPT-5.5 · Gemini 3.1 Pro

Komplexe juristische Recherche und Schriftsätze
Mehrstufige Agenten-Workflows
Wissenschaftliche & finanzielle Analysen
Strategische Dokumente, M&A-Unterlagen
Lange Dokumente (1M Tokens) durchgängig analysieren

Nur einsetzen, wo Genauigkeit entscheidend ist. 5–10× teurer als Tier 2.

01 · API-Preise

Was Anbieter pro Million Tokens berechnen

API-Preise sind die Basis jeder Eigenentwicklung: Chatbots, Agenten, Dokumentenverarbeitung. Abgerechnet wird pro Million Tokens (1 Token ≈ ¾ Wort). Output ist meist 4–6× teurer als Input.

Anthropic: Claude

Stärken: Coding, Instruktionsfolgen, lange Kontexte. Bevorzugt im B2B-Bereich.

claude.com/api

Modell	Einsatz	Input / 1M	Output / 1M	Kontext
Claude Fable 5FlaggschiffNeu claude-fable-5 · neue Top-Klasse über Opus	Höchste Intelligenz für die schwierigsten Aufgaben	$10,00	$50,00	1M
Claude Opus 4.8FlaggschiffNeu claude-opus-4-8	Komplexes Coding, Agenten, anspruchsvolle Analyse	$5,00	$25,00	1M
Claude Sonnet 4.6Allrounder claude-sonnet-4-6	Empfohlener Standard für Produktion	$3,00	$15,00	1M
Claude Haiku 4.5Hochvolumen claude-haiku-4-5	Klassifizierung, einfache Extraktion, Routing	$1,00	$5,00	200K

OpenAI: GPT-Familie

Größtes Ökosystem, breitestes Tool-Angebot. Multimodal seit Tag eins.

openai.com/api/pricing

Modell	Einsatz	Input / 1M	Output / 1M	Kontext
GPT-5.5FlaggschiffNeu gpt-5.5	Aktuelles Top-Modell, doppelter Preis ggü. 5.4	$5,00	$30,00	1M+
GPT-5.4Allrounder gpt-5.4	Bisheriges Standardmodell, weiterhin sehr leistungsfähig	$2,50	$15,00	272K
GPT-5.4 Mini gpt-5.4-mini	Kosteneffizientes Mid-Tier, guter Allrounder	$0,75	$4,50	272K
GPT-5.4 NanoHochvolumen gpt-5.4-nano	Klassifizierung, Routing, simple Extraktion	$0,20	$1,25	272K
GPT-5.4 Pro gpt-5.4-pro · Premium-Reasoning	Tiefes Reasoning, kritische Workflows, aber kostspielig	$30,00	$180,00	272K

Google: Gemini

Größter Kontext (2M Tokens), aggressive Preise im Flash-Tier, multimodal.

ai.google.dev/pricing

Modell	Einsatz	Input / 1M	Output / 1M	Kontext
Gemini 3.1 ProFlaggschiff gemini-3.1-pro · >200K = 2× Preis	Komplexe Analyse, sehr lange Dokumente	$2,00	$12,00	2M
Gemini 3 Pro gemini-3-pro	Stabile Pro-Variante, gleicher Preis	$2,00	$12,00	2M
Gemini 3.5 FlashNeu gemini-3-5-flash · seit 19. Mai 2026	Unterbietet 3.1 Pro um ~25 % bei starker Qualität	$1,50	$9,00	1M
Gemini 3 FlashAllrounder gemini-3-flash	Sehr gutes Preis-Leistungs-Verhältnis	$0,50	$3,00	1M
Gemini 3.1 Flash-LiteHochvolumen gemini-3.1-flash-lite	Günstigstes aktuelles Tier-1-Modell am Markt	$0,25	$1,50	1M
Gemini 2.5 Flash-Lite gemini-2.5-flash-lite · Legacy	Massendaten, einfache Klassifikation	$0,10	$0,40	1M

Wichtige Modifikatoren: die echten Kosten liegen oft niedriger

Batch-API (−50 %): Alle drei Anbieter halbieren den Preis, wenn Antworten innerhalb 24 h ausreichen. Ideal für nächtliche Berichte, Dokumentenverarbeitung, Evaluationen.

Prompt-Caching (−90 %): Wer denselben System-Prompt oder dasselbe Referenzdokument mehrfach sendet, zahlt für den gecachten Teil nur ~10 % des Listenpreises. Bei RAG-Architekturen oft der größte Hebel.

Versteckte Zusatzkosten: Web-Search via API kostet bei OpenAI/Anthropic $10 / 1.000 Suchen, Google Search-Grounding $14–35 / 1.000. EU-/US-Datenresidenz kostet bei OpenAI/Anthropic +10 % auf Token-Preise.

02 · Endnutzer- & Business-Lizenzen

Was kostet KI für Mitarbeiter, pro Person, pro Monat?

Wenn Mitarbeiter direkt mit KI arbeiten (Recherche, Texte, Excel-Auswertungen), sind nicht API-Preise relevant, sondern Lizenzgebühren. Hier die marktüblichen Tarife.

ChatGPT

OpenAI

Free
Mit Werbung seit Februar 2026
$0limitiert
Go
Mehr Volumen, weiterhin mit Werbung
$8/Monat
Plus
Voller Funktionsumfang, GPT-5.5 inkl.
$20/Monat
Pro
Höchste Limits, Pro-Modelle
$200/Monat
Business
Pro Nutzer, ab 2 Plätzen, jährlich
$20/User/Monat
Enterprise
Auf Anfrage, mit SLA & Datenschutz
individuell

Claude

Anthropic

Free
Limitierte Nutzung von Sonnet
$0limitiert
Pro
Längere Konversationen, Projects
$20/Monat
Max 5×
5-fache Pro-Limits
$100/Monat
Max 20×
Höchstes Limit, Opus-Zugang
$200/Monat
Team
Pro Nutzer, ab 5 Plätzen
$30/User/Monat
Enterprise
SSO, Audit-Logs, Datenresidenz
individuell

Gemini

Google

Free
Gemini 2.5 Flash, 100 KI-Credits/Monat
$0
Gemini Pro
Pro-Modelle, Workspace-Integration
$19,99/Monat
Gemini Ultra
Veo, höchste Limits, alle Features
$249,99/Monat
Workspace mit Gemini
Add-on für Google Workspace Business
ab $20/User/Monat

Microsoft 365 Copilot

Microsoft

Copilot Chat
Mit jedem aktiven M365-Plan
$0enthalten
Copilot Pro
Für Einzelpersonen
$20/Monat
Copilot Business
KMU bis 300 Plätze, Aktion bis 30.06.2026
$18/User/Monat
Copilot Business
Standardpreis ab Juli 2026
$21/User/Monat
Copilot Enterprise
E3/E5-Voraussetzung notwendig
$30/User/Monat
M365 E7 Frontier
Komplettpaket ab Mai 2026
$99/User/Monat

Was bei Microsoft Copilot oft übersehen wird

Der Listenpreis von $30/User ist nur ein Aufpreis. Voraussetzung ist eine bestehende M365-Lizenz (Business Standard, E3 oder E5). Eine realistische Vollkosten-Rechnung für 25 Personen liegt bei ~$44–60 pro Nutzer und Monat, also $13.000–18.000 jährlich. Plus Beratungs- und Adoption-Kosten.

Teil 02

Lokale KI

Hardware in Ihrem Haus. Volle Datenkontrolle, kein Vendor-Lock-in, einmalige Investition statt monatlicher Cloud-Rechnung.

03 · Lokale Hardware

Drei Hardware-Pakete für lokale KI

Welches Setup passt? Größe richtet sich nach Modellanforderung, Nutzerzahl und gleichzeitiger Auslastung. Richtpreise, Stand: 22.06.2026.

Paket 01

Einstieg

~5.000 – 10.000 €

Hardware

Single GPU (RTX 4090 / 5090, 24 GB VRAM)

Unterstützte Modelle

▸Llama 3 8B
▸Mistral 7B
▸Qwen 7B
▸13B – 30B (quantisiert)

Kapazität

1 – 5 gleichzeitige Nutzer

Geeignet für

Kleine Kanzlei oder Steuerbüro
Mandanten- oder Patientenchat
RAG auf eigene Wissensbasis
Belege auslesen, Mails formulieren

Paket 02

Mittel

~15.000 – 30.000 €

Hardware

2× RTX 4090 / 5090 oder 1× H100 80 GB

Unterstützte Modelle

▸Llama 3 70B (quantisiert)
▸Mistral Large
▸Qwen 72B
▸Vision-Modelle

Kapazität

5 – 20 gleichzeitige Nutzer

Geeignet für

Mittelständische Kanzlei oder Klinik
Anamnese- und Befund-Workflows
Multimodale Aufgaben (Vision + Text)
Komplexere RAG mit größeren Wissensbasen

Paket 03

Profi

ab ~40.000 €

Hardware

2× – 4× H100 80 GB, DGX-Workstation oder größere Cluster

Unterstützte Modelle

▸Llama 3 405B
▸GPT-OSS-Klasse
▸Fine-Tuning eigener Modelle

Kapazität

20 – 100+ gleichzeitige Nutzer

Geeignet für

Großkanzlei oder Klinikverbund
Industrielle Anwendungen mit eigenem KI-Team
Mehrere Modelle parallel im Betrieb
Frontier-nahe Qualität ohne Cloud

Zusätzlich fallen jährlich ca. 1.000 – 3.000 € für Strom, Wartung und Updates an. Setup, Deployment und Schulung übernehmen wir auf Wunsch, als Festpreis-Paket oder Stundensatz.

04 · Workflows

Mehr als ein Chatbot: was Sie damit automatisieren

Lokale KI ist keine Spielerei. Mit Function Calling und Tool Use agiert sie wie ein Mitarbeiter. Die Hardware-Investition zahlt sich nicht durch Chats aus, sondern durch Arbeitszeit, die wegfällt.

Eingangspost intelligent verarbeiten

Mails, PDFs und Faxe klassifizieren, beantworten oder weiterleiten, bevor jemand morgens in die Inbox schaut.

Belege automatisch buchen

Rechnungen und Belege auslesen, kontieren und an DATEV, lexoffice oder Ihr ERP übergeben.

Anfragen 24/7 beantworten

Standardfragen aus eigener Wissensbasis beantworten, Akten zusammenfassen, komplexe Fälle ans Team eskalieren.

Verträge & Schriftsätze entwerfen

Sachverhalt rein, Erstentwurf raus. Mustertexte und frühere Akten als Grundlage, der Anwalt finalisiert.

Anamnesen & Arztbriefe vorbereiten

Anamnese transkribieren, Befund-Entwurf erstellen, Codes vorschlagen. Der Arzt prüft und gibt frei.

Reports & Auswertungen automatisch

KI zieht Daten aus ERP, Datenbank oder Excel, schreibt den Bericht und mailt das PDF, täglich, wöchentlich, monatlich.

Teil 03

Vergleich & Entscheidung

Reale Szenarien, Abrechnungsmodelle und der Entscheidungsrahmen: wann Cloud, wann lokal, wann beides.

05 · Realistische Kosten

Drei Szenarien und was sie wirklich kosten

Listenpreise sind theoretisch. Hier sind drei konkrete Anwendungsfälle mit Volumen-Annahmen und tatsächlichen Monatskosten, inklusive Vergleich zu lokaler KI.

Szenario 01

Kunden-Chatbot für eine KMU

E-Commerce-Shop, ca. 200 Kundenanfragen pro Tag. FAQ, Bestellstatus, einfache Produktberatung.

Volumen: 6.000 Anfragen / Monat

Pro Anfrage: 800 In · 300 Out

Gesamt: 4,8M In · 1,8M Out

Claude Sonnet 4.6

Anthropic

$41,40

GPT-5.4 Mini

OpenAI

$11,70

Gemini 3 Flash

Google

$7,80

Claude Haiku 4.5

Anthropic

$13,80

Lokale KI

amortisiert über 36 Monate

~$120

Szenario 02

Dokumenten-Assistent in einer Kanzlei

15 Anwälte, RAG über interne Dokumente. Recherche, Schriftsatz-Entwürfe, Mandanten-Briefings.

Volumen: 2.500 Anfragen / Monat

Pro Anfrage: 8K In · 2K Out (komplexe Aufgaben)

Gesamt: 20M In · 5M Out

Claude Opus 4.8

Anthropic

$225,00

GPT-5.5

OpenAI

$250,00

Gemini 3.1 Pro

Google

$100,00

Claude Sonnet 4.6

Anthropic

$135,00

Lokale KI

DSGVO-konform, im Haus

~$580

Szenario 03

Massendaten-Verarbeitung Industrie

Klassifizierung von 1 Mio. Service-Tickets/Monat: Routing, Priorität, Sentiment-Analyse.

Volumen: 1.000.000 Klassifizierungen

Pro Anfrage: 200 In · 50 Out

Gesamt: 200M In · 50M Out · Batch-API

Claude Haiku 4.5

Batch-Preis −50 %

$225,00

GPT-5.4 Nano

Batch-Preis

$51,25

Gemini 3.1 Flash-Lite

Batch-Preis

$62,50

Gemini 2.5 Flash-Lite

Legacy, Batch

$20,00

Lokale KI

Llama 3.3 70B auf RTX 6000

~$320

Wie wir die Lokal-KI-Kosten berechnen

Hardware-Investition €20.000–€60.000 (NVIDIA RTX 6000 Ada / H100, Server, Netzwerk), abgeschrieben über 36 Monate. Plus Strom, Wartung, Modell-Updates. Für ein typisches KMU-Setup mit 50–200 GB-Modellen liegen die monatlichen Vollkosten zwischen $300 und $1.200, unabhängig vom Anfragevolumen.

Bei niedrigem Volumen ist Cloud-KI fast immer günstiger. Ab einem bestimmten Punkt, und besonders bei sensiblen Daten, kippt die Rechnung in Richtung lokal. Den genauen Break-Even rechnen wir im Erstgespräch durch.

06 · Abrechnungsmodelle

In welchen Etappen wird tatsächlich gezahlt?

Sechs grundsätzlich verschiedene Wege, wie KI-Anbieter abrechnen. Jeder hat Vor- und Nachteile, und nicht jeder passt zu jedem Unternehmen.

Modell 01

Abonnement (pro Nutzer / Monat)

Klassiker für Endnutzer-Tools. Fester Monatsbetrag pro Mitarbeiter, Volumen innerhalb der Limits frei.

Wer: ChatGPT Plus/Pro/Business, Claude Pro/Max/Team, Gemini Pro, M365 Copilot
Vertrag: Monatskündigung; bei Jahreszahlung 10–20 % Rabatt
Vorteil: Planbar, kein Kostenausreißer möglich
Nachteil: Sie zahlen auch bei Nicht-Nutzung; Limits können stören

Beispiel: 10 × ChatGPT Business jährlich → 10 × $20 × 12 = $2.400 / Jahr

Modell 02

Pay-as-you-go (Postpaid)

Klassische API-Abrechnung. Sie nutzen, am Monatsende kommt die Rechnung über den tatsächlichen Verbrauch.

Wer: OpenAI API, Anthropic API, Google AI Studio (Paid Tier)
Limit: Selbst gesetztes Monatslimit (Hard-Cap empfohlen)
Vorteil: Bei wenig Nutzung sehr günstig, keine Lizenzkosten
Nachteil: Bei Bug oder Schleife im Code böse Überraschung möglich

Beispiel: 6.000 Chatbot-Anfragen / Monat → ~$8 / Monat

Modell 03

Prepaid-Guthaben

Sie laden Guthaben auf (z. B. $100), verbrauchen es nach Bedarf. Bei Null ist Schluss, bis zur nächsten Aufladung.

Wer: OpenAI & Anthropic API als Alternative zu Postpaid
Auto-Reload: Optional: automatisch nachladen bei Schwellenwert
Vorteil: Maximale Kontrolle, keine bösen Überraschungen
Nachteil: App stoppt, wenn Guthaben leer ist

Beispiel: Einmalig $200 + Auto-Reload bei $20 → keine Überschreitung möglich

Modell 04

Batch / Async (50 % Rabatt)

Viele Anfragen auf einmal, Ergebnisse innerhalb von 24 Stunden, dafür 50 % Rabatt auf alle Token-Preise.

Wer: OpenAI, Anthropic und Google bieten alle eine Batch-API
Latenz: Antwort meist binnen Minuten, garantiert binnen 24 h
Geeignet: Nächtliche Berichte, Massendaten-Analyse, Klassifizierung
Nicht für: Live-Chats, Echtzeit-Anwendungen

Beispiel: 1 Mio. Tickets klassifizieren: Standard $50 → Batch $25

Modell 05

Enterprise-Vertrag (Committed Use)

Mindestverbrauch über 1–3 Jahre, dafür Rabatte, dedizierte Kapazität und SLAs.

Wer: Alle drei Hyperscaler ab ca. $1.000 / Monat Committed Spend
Rabatt: 10 – 40 % auf Listenpreise je nach Volumen & Laufzeit
Inkl.: Datenresidenz, Custom-SLA, dedizierter Account-Manager
Nachteil: Mindestabnahme bindet, bei Nicht-Nutzung trotzdem Zahlung

Beispiel: $50.000 Commit → ~25 % Rabatt → $66.000 Listenwert verfügbar

Modell 06 · Lokal

Einmalige Investition (Lokale KI)

Statt monatlicher Gebühren: einmalige Hardware-Investition, danach feste Betriebskosten. Volumen spielt keine Rolle.

Wer: Anbieter wie Ehrenfried Solutions, schlüsselfertig im Haus
Investition: € 20.000 – € 60.000 je nach Setup, abschreibbar über 36 Monate
Vorteil: Keine Token-Kosten, volle Datenkontrolle, DSGVO-konform
Nachteil: Kapital gebunden, eigene Wartung nötig (oder Service-Vertrag)

Beispiel: Kanzlei mit 15 Anwälten: €25.000 + €200/Monat Betrieb = ~€890/Monat über 36 Mon.

07 · Entscheidung

Wann Cloud, wann lokal, und warum die Frage selten eindeutig ist

Die meisten Unternehmen brauchen nicht entweder oder, sondern beides. Sensible Daten lokal, Standardaufgaben in der Cloud.

Cloud-KI

Schneller Start, niedrige Anfangsinvestition, immer aktuelle Modelle.

Niedriges bis mittleres Anfragevolumen (< 50.000 Anfragen / Monat)
Keine besonderen Datenschutz-Anforderungen über DSGVO hinaus
Teams, die kurzfristig produktiv werden müssen
Workloads mit stark schwankendem Volumen
Anwendungen, die die jeweils neuesten Modelle brauchen
Erste KI-Pilotprojekte ohne langfristige Bindung

Lokale KI

Volle Datenkontrolle, planbare Kosten, kein Vendor-Lock-in.

Mandanten-, Patienten- oder Personaldaten (Kanzleien, Praxen, HR)
Geistiges Eigentum & Quellcode, der das Haus nicht verlassen darf
Hohes, konstantes Volumen, Break-Even ab ~500.000 Anfragen / Monat
Behörden, KRITIS-Sektoren, Finanzdienstleister
Industrie mit Konstruktions- und Produktionsdaten
Strategische Unabhängigkeit von US-Anbietern

Welche Variante zu Ihnen passt, entscheiden wir gemeinsam.

Im kostenlosen Erstgespräch rechnen wir Ihren konkreten Anwendungsfall durch. Mit Zahlen, nicht mit Buzzwords.

Erstgespräch vereinbaren

QUELLEN: ANTHROPIC.COM · OPENAI.COM · AI.GOOGLE.DEV · MICROSOFT.COM · STAND 22.06.2026