Marktübersicht · Stand April 2026

Was kostet KI wirklich?

OpenAI, Anthropic, Google, Microsoft — Preise ändern sich monatlich, Anbieter rechnen unterschiedlich, im Vertrieb hört man oft nur die kleinste Zahl. Diese Übersicht zeigt die tatsächlichen Kosten — pro Modell, pro Plan, pro Anwendungsfall. Ohne Marketing.

● Quellen: offizielle Preisseiten● Stand: 27.04.2026● Preise USD, netto

Auf einen Blick

Vier Zahlen, die das Bild beschreiben

Cloud-KI hat sich 2026 weiter ausdifferenziert. Zwischen dem günstigsten und dem teuersten Flaggschiff-Modell liegt aktuell der Faktor 36.

$0,10
pro Mio. Tokens — günstigster Tier-1-Anbieter (Gemini 2.5 Flash-Lite, Input)
$30
pro Mio. Output-Tokens — GPT-5.5 Standard, seit 23. April 2026
−50 %
Rabatt bei allen Anbietern für Batch-Verarbeitung (24h-Latenz)
−90 %
Ersparnis durch Prompt-Caching bei wiederkehrenden Kontexten

Teil 01

Cloud-KI

Was kostet KI von OpenAI, Anthropic, Google und Microsoft? Pro Token, pro Lizenz — mit allen versteckten Kosten.

Modellauswahl

Was kann ich mit welchem Modell anfangen?

Nicht jeder Anwendungsfall braucht das teuerste Modell. Diese Aufteilung hat sich in der Praxis bewährt:

Tier 1 · Hochvolumen

Klein & günstig

Haiku 4.5 · GPT-5.4 Nano · Gemini Flash-Lite

  • E-Mails kategorisieren (Anfrage, Beschwerde, Spam)
  • Kurze Texte zusammenfassen
  • Daten aus Formularen extrahieren
  • Sentiment-Analyse, Stimmungsbewertung
  • Tickets ins richtige Team routen

Weniger geeignet für komplexe Analysen oder mehrstufiges Reasoning.

Tier 2 · Standard

Allrounder

Sonnet 4.6 · GPT-5.4 Mini · Gemini 3 Flash

  • Kundenchatbots mit Zugriff auf Firmendaten
  • Berichte und Dokumente erstellen
  • Code generieren und überprüfen
  • Wissensdatenbanken durchsuchbar machen (RAG)
  • Meeting-Protokolle aus Transkripten erzeugen

Empfohlen als Standard für ca. 80 % aller Geschäftsanwendungen.

Tier 3 · Flaggschiff

Schwere Aufgaben

Opus 4.7 · GPT-5.5 · Gemini 3.1 Pro

  • Komplexe juristische Recherche und Schriftsätze
  • Mehrstufige Agenten-Workflows
  • Wissenschaftliche & finanzielle Analysen
  • Strategische Dokumente, M&A-Unterlagen
  • Lange Dokumente (1M Tokens) durchgängig analysieren

Nur einsetzen, wo Genauigkeit entscheidend ist. 5–10× teurer als Tier 2.

01 · API-Preise

Was Anbieter pro Million Tokens berechnen

API-Preise sind die Basis jeder Eigenentwicklung — Chatbots, Agenten, Dokumentenverarbeitung. Abgerechnet wird pro Million Tokens (1 Token ≈ ¾ Wort). Output ist meist 4–6× teurer als Input.

Anthropic — Claude

Stärken: Coding, Instruktionsfolgen, lange Kontexte. Bevorzugt im B2B-Bereich.

claude.com/api
ModellEinsatzInput / 1MOutput / 1MKontext
Claude Opus 4.7FlaggschiffNeu
claude-opus-4-7
Komplexes Coding, Agenten, anspruchsvolle Analyse$5,00$25,001M
Claude Sonnet 4.6Allrounder
claude-sonnet-4-6
Empfohlener Standard für Produktion$3,00$15,001M
Claude Haiku 4.5Hochvolumen
claude-haiku-4-5
Klassifizierung, einfache Extraktion, Routing$1,00$5,00200K

OpenAI — GPT-Familie

Größtes Ökosystem, breitestes Tool-Angebot. Multimodal seit Tag eins.

openai.com/api/pricing
ModellEinsatzInput / 1MOutput / 1MKontext
GPT-5.5FlaggschiffNeu
gpt-5.5
Aktuelles Top-Modell, doppelter Preis ggü. 5.4$5,00$30,001M+
GPT-5.4Allrounder
gpt-5.4
Bisheriges Standardmodell, weiterhin sehr leistungsfähig$2,50$15,00272K
GPT-5.4 Mini
gpt-5.4-mini
Kosteneffizientes Mid-Tier — guter Allrounder$0,75$4,50272K
GPT-5.4 NanoHochvolumen
gpt-5.4-nano
Klassifizierung, Routing, simple Extraktion$0,20$1,25272K
GPT-5.4 Pro
gpt-5.4-pro · Premium-Reasoning
Tiefes Reasoning, kritische Workflows — kostspielig$30,00$180,00272K

Google — Gemini

Größter Kontext (2M Tokens), aggressive Preise im Flash-Tier, multimodal.

ai.google.dev/pricing
ModellEinsatzInput / 1MOutput / 1MKontext
Gemini 3.1 ProFlaggschiff
gemini-3.1-pro · >200K = 2× Preis
Komplexe Analyse, sehr lange Dokumente$2,00$12,002M
Gemini 3 Pro
gemini-3-pro
Stabile Pro-Variante, gleicher Preis$2,00$12,002M
Gemini 3 FlashAllrounder
gemini-3-flash
Sehr gutes Preis-Leistungs-Verhältnis$0,50$3,001M
Gemini 3.1 Flash-LiteHochvolumen
gemini-3.1-flash-lite
Günstigstes aktuelles Tier-1-Modell am Markt$0,25$1,501M
Gemini 2.5 Flash-Lite
gemini-2.5-flash-lite · Legacy
Massendaten, einfache Klassifikation$0,10$0,401M

Wichtige Modifikatoren — die echten Kosten liegen oft niedriger

Batch-API (−50 %): Alle drei Anbieter halbieren den Preis, wenn Antworten innerhalb 24 h ausreichen. Ideal für nächtliche Berichte, Dokumentenverarbeitung, Evaluationen.

Prompt-Caching (−90 %): Wer denselben System-Prompt oder dasselbe Referenzdokument mehrfach sendet, zahlt für den gecachten Teil nur ~10 % des Listenpreises. Bei RAG-Architekturen oft der größte Hebel.

Versteckte Zusatzkosten: Web-Search via API kostet bei OpenAI/Anthropic $10 / 1.000 Suchen, Google Search-Grounding $14–35 / 1.000. EU-/US-Datenresidenz kostet bei OpenAI/Anthropic +10 % auf Token-Preise.

02 · Endnutzer- & Business-Lizenzen

Was kostet KI für Mitarbeiter — pro Person, pro Monat?

Wenn Mitarbeiter direkt mit KI arbeiten (Recherche, Texte, Excel-Auswertungen), sind nicht API-Preise relevant, sondern Lizenzgebühren. Hier die marktüblichen Tarife.

ChatGPT

OpenAI
  • Free
    Mit Werbung seit Februar 2026
    $0limitiert
  • Go
    Mehr Volumen, weiterhin mit Werbung
    $8/Monat
  • Plus
    Voller Funktionsumfang, GPT-5.5 inkl.
    $20/Monat
  • Pro
    Höchste Limits, Pro-Modelle
    $200/Monat
  • Business
    Pro Nutzer, ab 2 Plätzen, jährlich
    $20/User/Monat
  • Enterprise
    Auf Anfrage, mit SLA & Datenschutz
    individuell

Claude

Anthropic
  • Free
    Limitierte Nutzung von Sonnet
    $0limitiert
  • Pro
    Längere Konversationen, Projects
    $20/Monat
  • Max 5×
    5-fache Pro-Limits
    $100/Monat
  • Max 20×
    Höchstes Limit, Opus-Zugang
    $200/Monat
  • Team
    Pro Nutzer, ab 5 Plätzen
    $30/User/Monat
  • Enterprise
    SSO, Audit-Logs, Datenresidenz
    individuell

Gemini

Google
  • Free
    Gemini 2.5 Flash, 100 KI-Credits/Monat
    $0
  • Gemini Pro
    Pro-Modelle, Workspace-Integration
    $19,99/Monat
  • Gemini Ultra
    Veo, höchste Limits, alle Features
    $249,99/Monat
  • Workspace mit Gemini
    Add-on für Google Workspace Business
    ab $20/User/Monat

Microsoft 365 Copilot

Microsoft
  • Copilot Chat
    Mit jedem aktiven M365-Plan
    $0enthalten
  • Copilot Pro
    Für Einzelpersonen
    $20/Monat
  • Copilot Business
    KMU bis 300 Plätze, Aktion bis 30.06.2026
    $18/User/Monat
  • Copilot Business
    Standardpreis ab Juli 2026
    $21/User/Monat
  • Copilot Enterprise
    E3/E5-Voraussetzung notwendig
    $30/User/Monat
  • M365 E7 Frontier
    Komplettpaket ab Mai 2026
    $99/User/Monat

Was bei Microsoft Copilot oft übersehen wird

Der Listenpreis von $30/User ist nur ein Aufpreis. Voraussetzung ist eine bestehende M365-Lizenz (Business Standard, E3 oder E5). Eine realistische Vollkosten-Rechnung für 25 Personen liegt bei ~$44–60 pro Nutzer und Monat — also $13.000–18.000 jährlich. Plus Beratungs- und Adoption-Kosten.

Teil 02

Lokale KI

Hardware in Ihrem Haus. Volle Datenkontrolle, kein Vendor-Lock-in, einmalige Investition statt monatlicher Cloud-Rechnung.

03 · Lokale Hardware

Drei Hardware-Pakete für lokale KI

Welches Setup passt? Größe richtet sich nach Modellanforderung, Nutzerzahl und gleichzeitiger Auslastung. Richtpreise — Stand: 27.04.2026.

Paket 01

Einstieg

~5.000 – 10.000 €

Hardware

Single GPU (RTX 4090 / 5090, 24 GB VRAM)

Unterstützte Modelle

  • Llama 3 8B
  • Mistral 7B
  • Qwen 7B
  • 13B – 30B (quantisiert)

Kapazität

1 – 5 gleichzeitige Nutzer

Geeignet für

  • Kleine Kanzlei oder Steuerbüro
  • Mandanten- oder Patientenchat
  • RAG auf eigene Wissensbasis
  • Belege auslesen, Mails formulieren

Paket 02

Mittel

~15.000 – 30.000 €

Hardware

2× RTX 4090 / 5090 oder 1× H100 80 GB

Unterstützte Modelle

  • Llama 3 70B (quantisiert)
  • Mistral Large
  • Qwen 72B
  • Vision-Modelle

Kapazität

5 – 20 gleichzeitige Nutzer

Geeignet für

  • Mittelständische Kanzlei oder Klinik
  • Anamnese- und Befund-Workflows
  • Multimodale Aufgaben (Vision + Text)
  • Komplexere RAG mit größeren Wissensbasen

Paket 03

Profi

ab ~40.000 €

Hardware

2× – 4× H100 80 GB, DGX-Workstation oder größere Cluster

Unterstützte Modelle

  • Llama 3 405B
  • GPT-OSS-Klasse
  • Fine-Tuning eigener Modelle

Kapazität

20 – 100+ gleichzeitige Nutzer

Geeignet für

  • Großkanzlei oder Klinikverbund
  • Industrielle Anwendungen mit eigenem KI-Team
  • Mehrere Modelle parallel im Betrieb
  • Frontier-nahe Qualität ohne Cloud

Zusätzlich fallen jährlich ca. 1.000 – 3.000 € für Strom, Wartung und Updates an. Setup, Deployment und Schulung übernehmen wir auf Wunsch — als Festpreis-Paket oder Stundensatz.

04 · Workflows

Mehr als ein Chatbot — was Sie damit automatisieren

Lokale KI ist keine Spielerei. Mit Function Calling und Tool Use agiert sie wie ein Mitarbeiter — die Hardware-Investition zahlt sich nicht durch Chats aus, sondern durch Arbeitszeit, die wegfällt.

Eingangspost intelligent verarbeiten

Mails, PDFs und Faxe klassifizieren, beantworten oder weiterleiten — bevor jemand morgens in die Inbox schaut.

Belege automatisch buchen

Rechnungen und Belege auslesen, kontieren und an DATEV, lexoffice oder Ihr ERP übergeben.

Anfragen 24/7 beantworten

Standardfragen aus eigener Wissensbasis beantworten, Akten zusammenfassen — komplexe Fälle ans Team eskalieren.

Verträge & Schriftsätze entwerfen

Sachverhalt rein, Erstentwurf raus. Mustertexte und frühere Akten als Grundlage — der Anwalt finalisiert.

Anamnesen & Arztbriefe vorbereiten

Anamnese transkribieren, Befund-Entwurf erstellen, Codes vorschlagen — der Arzt prüft und gibt frei.

Reports & Auswertungen automatisch

KI zieht Daten aus ERP, Datenbank oder Excel, schreibt den Bericht und mailt das PDF — täglich, wöchentlich, monatlich.

Teil 03

Vergleich & Entscheidung

Reale Szenarien, Abrechnungsmodelle und der Entscheidungsrahmen — wann Cloud, wann lokal, wann beides.

05 · Realistische Kosten

Drei Szenarien — und was sie wirklich kosten

Listenpreise sind theoretisch. Hier sind drei konkrete Anwendungsfälle mit Volumen-Annahmen und tatsächlichen Monatskosten — inklusive Vergleich zu lokaler KI.

Szenario 01

Kunden-Chatbot für eine KMU

E-Commerce-Shop, ca. 200 Kundenanfragen pro Tag. FAQ, Bestellstatus, einfache Produktberatung.

Volumen: 6.000 Anfragen / Monat
Pro Anfrage: 800 In · 300 Out
Gesamt: 4,8M In · 1,8M Out
Claude Sonnet 4.6
Anthropic
$41,40
GPT-5.4 Mini
OpenAI
$11,70
Gemini 3 Flash
Google
$7,80
Claude Haiku 4.5
Anthropic
$13,80
Lokale KI
amortisiert über 36 Monate
~$120

Szenario 02

Dokumenten-Assistent in einer Kanzlei

15 Anwälte, RAG über interne Dokumente. Recherche, Schriftsatz-Entwürfe, Mandanten-Briefings.

Volumen: 2.500 Anfragen / Monat
Pro Anfrage: 8K In · 2K Out (komplexe Aufgaben)
Gesamt: 20M In · 5M Out
Claude Opus 4.7
Anthropic
$225,00
GPT-5.5
OpenAI
$250,00
Gemini 3.1 Pro
Google
$100,00
Claude Sonnet 4.6
Anthropic
$135,00
Lokale KI
DSGVO-konform, im Haus
~$580

Szenario 03

Massendaten-Verarbeitung Industrie

Klassifizierung von 1 Mio. Service-Tickets/Monat — Routing, Priorität, Sentiment-Analyse.

Volumen: 1.000.000 Klassifizierungen
Pro Anfrage: 200 In · 50 Out
Gesamt: 200M In · 50M Out · Batch-API
Claude Haiku 4.5
Batch-Preis −50 %
$225,00
GPT-5.4 Nano
Batch-Preis
$51,25
Gemini 3.1 Flash-Lite
Batch-Preis
$62,50
Gemini 2.5 Flash-Lite
Legacy, Batch
$20,00
Lokale KI
Llama 3.3 70B auf RTX 6000
~$320

Wie wir die Lokal-KI-Kosten berechnen

Hardware-Investition €20.000–€60.000 (NVIDIA RTX 6000 Ada / H100, Server, Netzwerk), abgeschrieben über 36 Monate. Plus Strom, Wartung, Modell-Updates. Für ein typisches KMU-Setup mit 50–200 GB-Modellen liegen die monatlichen Vollkosten zwischen $300 und $1.200 — unabhängig vom Anfragevolumen.

Bei niedrigem Volumen ist Cloud-KI fast immer günstiger. Ab einem bestimmten Punkt — und besonders bei sensiblen Daten — kippt die Rechnung in Richtung lokal. Den genauen Break-Even rechnen wir im Erstgespräch durch.

06 · Abrechnungsmodelle

In welchen Etappen wird tatsächlich gezahlt?

Sechs grundsätzlich verschiedene Wege, wie KI-Anbieter abrechnen. Jeder hat Vor- und Nachteile — und nicht jeder passt zu jedem Unternehmen.

Modell 01

Abonnement (pro Nutzer / Monat)

Klassiker für Endnutzer-Tools. Fester Monatsbetrag pro Mitarbeiter, Volumen innerhalb der Limits frei.

Wer
ChatGPT Plus/Pro/Business, Claude Pro/Max/Team, Gemini Pro, M365 Copilot
Vertrag
Monatskündigung; bei Jahreszahlung 10–20 % Rabatt
Vorteil
Planbar, kein Kostenausreißer möglich
Nachteil
Sie zahlen auch bei Nicht-Nutzung; Limits können stören
Beispiel: 10 × ChatGPT Business jährlich → 10 × $20 × 12 = $2.400 / Jahr

Modell 02

Pay-as-you-go (Postpaid)

Klassische API-Abrechnung. Sie nutzen, am Monatsende kommt die Rechnung über den tatsächlichen Verbrauch.

Wer
OpenAI API, Anthropic API, Google AI Studio (Paid Tier)
Limit
Selbst gesetztes Monatslimit (Hard-Cap empfohlen)
Vorteil
Bei wenig Nutzung sehr günstig, keine Lizenzkosten
Nachteil
Bei Bug oder Schleife im Code böse Überraschung möglich
Beispiel: 6.000 Chatbot-Anfragen / Monat → ~$8 / Monat

Modell 03

Prepaid-Guthaben

Sie laden Guthaben auf (z. B. $100), verbrauchen es nach Bedarf. Bei Null ist Schluss — bis zur nächsten Aufladung.

Wer
OpenAI & Anthropic API als Alternative zu Postpaid
Auto-Reload
Optional: automatisch nachladen bei Schwellenwert
Vorteil
Maximale Kontrolle — keine bösen Überraschungen
Nachteil
App stoppt, wenn Guthaben leer ist
Beispiel: Einmalig $200 + Auto-Reload bei $20 → keine Über­schreitung möglich

Modell 04

Batch / Async (50 % Rabatt)

Viele Anfragen auf einmal, Ergebnisse innerhalb von 24 Stunden — dafür 50 % Rabatt auf alle Token-Preise.

Wer
OpenAI, Anthropic und Google bieten alle eine Batch-API
Latenz
Antwort meist binnen Minuten, garantiert binnen 24 h
Geeignet
Nächtliche Berichte, Massendaten-Analyse, Klassifizierung
Nicht für
Live-Chats, Echtzeit-Anwendungen
Beispiel: 1 Mio. Tickets klassifizieren: Standard $50 → Batch $25

Modell 05

Enterprise-Vertrag (Committed Use)

Mindestverbrauch über 1–3 Jahre, dafür Rabatte, dedizierte Kapazität und SLAs.

Wer
Alle drei Hyperscaler ab ca. $1.000 / Monat Committed Spend
Rabatt
10 – 40 % auf Listenpreise je nach Volumen & Laufzeit
Inkl.
Datenresidenz, Custom-SLA, dedizierter Account-Manager
Nachteil
Mindestabnahme bindet — bei Nicht-Nutzung trotzdem Zahlung
Beispiel: $50.000 Commit → ~25 % Rabatt → $66.000 Listenwert verfügbar

Modell 06 · Lokal

Einmalige Investition (Lokale KI)

Statt monatlicher Gebühren: einmalige Hardware-Investition, danach feste Betriebskosten. Volumen spielt keine Rolle.

Wer
Anbieter wie Ehrenfried Solutions — schlüsselfertig im Haus
Investition
€ 20.000 – € 60.000 je nach Setup, abschreibbar über 36 Monate
Vorteil
Keine Token-Kosten, volle Datenkontrolle, DSGVO-konform
Nachteil
Kapital gebunden, eigene Wartung nötig (oder Service-Vertrag)
Beispiel: Kanzlei mit 15 Anwälten: €25.000 + €200/Monat Betrieb = ~€890/Monat über 36 Mon.

07 · Entscheidung

Wann Cloud, wann lokal — und warum die Frage selten eindeutig ist

Die meisten Unternehmen brauchen nicht entweder oder, sondern beides. Sensible Daten lokal, Standardaufgaben in der Cloud.

Cloud-KI

Schneller Start, niedrige Anfangsinvestition, immer aktuelle Modelle.

  • Niedriges bis mittleres Anfragevolumen (< 50.000 Anfragen / Monat)
  • Keine besonderen Datenschutz-Anforderungen über DSGVO hinaus
  • Teams, die kurzfristig produktiv werden müssen
  • Workloads mit stark schwankendem Volumen
  • Anwendungen, die die jeweils neuesten Modelle brauchen
  • Erste KI-Pilotprojekte ohne langfristige Bindung

Lokale KI

Volle Datenkontrolle, planbare Kosten, kein Vendor-Lock-in.

  • Mandanten-, Patienten- oder Personaldaten (Kanzleien, Praxen, HR)
  • Geistiges Eigentum & Quellcode, der das Haus nicht verlassen darf
  • Hohes, konstantes Volumen — Break-Even ab ~500.000 Anfragen / Monat
  • Behörden, KRITIS-Sektoren, Finanzdienstleister
  • Industrie mit Konstruktions- und Produktionsdaten
  • Strategische Unabhängigkeit von US-Anbietern

Welche Variante zu Ihnen passt — entscheiden wir gemeinsam.

Im kostenlosen Erstgespräch rechnen wir Ihren konkreten Anwendungsfall durch. Mit Zahlen, nicht mit Buzzwords.

Erstgespräch vereinbaren

QUELLEN: ANTHROPIC.COM · OPENAI.COM · AI.GOOGLE.DEV · MICROSOFT.COM · STAND 27.04.2026