Zurück zum Blog
general153 Aufrufe

Warum niemand ChatGPT selbst betreiben kann – und was das für Ihre Praxis bedeutet

Die versteckten Kosten hinter der KI-Revolution. In diesem Artikel erkläre ich, warum selbst große Unternehmen KI lieber mieten als kaufen – und warum Sie sich darüber keine Gedanken machen müssen.

Psynex Team

Stellen Sie sich vor, Sie möchten nicht mehr Google nutzen – stattdessen bauen Sie Ihre eigene Suchmaschine. Mit Servern, die das gesamte Internet indexieren. In Ihrem Keller.

Klingt wahnsinnig? Genau so wahnsinnig ist es, moderne KI-Modelle selbst zu betreiben.

In diesem Artikel erkläre ich, warum selbst große Unternehmen KI lieber mieten als kaufen – und warum Sie sich darüber keine Gedanken machen müssen.

Was steckt eigentlich in einer KI?

Bevor wir über Kosten sprechen, müssen wir verstehen, was eine KI wie ChatGPT eigentlich ist.

Parameter: Das Gehirn der KI

Eine KI besteht aus Milliarden von „Parametern". Stellen Sie sich diese wie Stellschrauben vor – jede einzelne beeinflusst, wie die KI auf Ihre Frage antwortet. Aktuelle Spitzenmodelle haben schätzungsweise 2–5 Billionen solcher Stellschrauben.

Zum Vergleich: Das menschliche Gehirn hat etwa 100 Billionen Synapsen. Wir nähern uns also langsam an.

Das Problem: Jede Stellschraube braucht Speicherplatz

Jeder einzelne Parameter muss im Arbeitsspeicher des Computers liegen – nicht auf der Festplatte, sondern im schnellen RAM. Und zwar nicht im normalen RAM Ihres Laptops, sondern im spezialisierten Speicher von Hochleistungs-Grafikkarten.

Die Rechnung, die niemand machen will

Machen wir es konkret. Für ein Modell mit 2 Billionen Parametern:

Nur um das Modell zu speichern:

  • Jeder Parameter braucht 2 Byte Speicher
  • 2 Billionen × 2 Byte = 4.000 GB Speicher

Die leistungsstärkste Grafikkarte auf dem Markt (NVIDIA H100) hat 80 GB Speicher. Sie bräuchten also mindestens 50 dieser Karten – nur um das Modell überhaupt zu laden. Noch bevor Sie eine einzige Frage gestellt haben.

Das schmutzige Geheimnis: 99% Leerlauf

Selbst wenn Sie sich diese 50 Grafikkarten leisten könnten – hier ist das schmutzige Geheimnis der KI-Branche: Bei der Textgenerierung laufen diese teuren Chips mit weniger als 1% Auslastung.

Warum? Eine KI generiert Text Wort für Wort. Für jedes einzelne Wort muss sie das komplette Modell aus dem Speicher laden, eine winzige Berechnung durchführen – und dann warten. Die Grafikkarte ist 99% der Zeit im Leerlauf, während sie auf Daten aus dem Speicher wartet.

Es ist, als würden Sie einen Ferrari kaufen, um im Stau zu stehen. Die PS sind da – aber Sie können sie nicht nutzen.

Was kostet das in der Cloud?

Nehmen wir an, Sie mieten diese 50 Grafikkarten bei einem großen Cloud-Anbieter:

Anbieter Preis pro H100 pro Stunde 50 GPUs für einen Monat (24/7)
Microsoft Azure ca. 7 € 252.000 €/Monat
Amazon AWS ca. 4 € 144.000 €/Monat
Google Cloud ca. 3 € 108.000 €/Monat

Und das ist nur, um das Modell laufen zu lassen. Wir haben noch nicht über den nächsten Kostenfresser gesprochen.

Der versteckte Kostenfresser: Das Kontextfenster

Jetzt wird es richtig teuer. Wenn Sie mit einer KI chatten, muss sie sich an das Gespräch erinnern. Dieses „Gedächtnis" heißt Kontextfenster – und es frisst zusätzlichen Speicher.

Was ist ein Kontextfenster?

Stellen Sie sich vor, Sie führen ein Gespräch. Die KI muss sich merken:

  • Was Sie gefragt haben
  • Was sie geantwortet hat
  • Alle vorherigen Nachrichten
  • Das Dokument, das Sie hochgeladen haben

All das muss im Speicher bleiben. Moderne KI-Modelle können sich bis zu 400.000 „Tokens" merken – das entspricht etwa 500 Seiten Text.

Der KV-Cache: Speicher pro Nutzer

Für jeden aktiven Nutzer muss das System einen sogenannten „KV-Cache" anlegen. Das ist wie ein persönlicher Notizblock für jedes Gespräch. Und dieser Notizblock ist riesig.

Ein paar konkrete Zahlen:

  • Ein 70-Milliarden-Parameter-Modell mit normalem Kontextfenster: 40 GB pro Nutzer
  • Das gleiche Modell mit 1 Million Tokens Kontext (wie bei Gemini): 312 GB pro Nutzer
  • 100 gleichzeitige Nutzer? Das sind 31.000 GB – nur für den Cache

Sie wollen 10 Mitarbeiter gleichzeitig die KI nutzen lassen? Das sind 400–3.000 GB extra, je nach Kontextlänge. Nochmal 5–40 zusätzliche Grafikkarten. Nochmal 20.000–150.000 € pro Monat.

Die Rechnung zusammengefasst

Kostenpunkt Monatliche Cloud-Kosten
Basis-Modell (50 H100s) 100.000–250.000 €
+ 10 gleichzeitige Nutzer + 150.000–250.000 €
+ Netzwerk, Speicher, Verwaltung + 20.000–50.000 €
Gesamt 270.000–550.000 €/Monat

Und dabei haben wir noch nicht über Ausfallsicherheit, Backup-Systeme oder IT-Personal gesprochen.

Aber da gibt es doch noch...

„Open-Source-Modelle sind doch kostenlos!"

Stimmt, es gibt kostenlose Modelle wie Llama. Aber:

  • Die besten Open-Source-Modelle haben „nur" 70–400 Milliarden Parameter
  • Sie sind deutlich weniger leistungsfähig als die Spitzenmodelle
  • Und selbst diese brauchen Cloud-Kosten von 5.000–20.000 € pro Monat

„Kleinere, spezialisierte Anbieter sind günstiger!"

Richtig, es gibt Anbieter wie Lambda Labs oder RunPod, die H100-GPUs für 2–3 € pro Stunde anbieten. Das reduziert die Kosten auf vielleicht 50.000–100.000 € pro Monat. Immer noch kein Schnäppchen.

„Warum nicht einfach normaler Arbeitsspeicher?"

Theoretisch könnten Sie 4.000 GB normalen Server-RAM kaufen statt teurer Grafikkarten. Das Problem: Geschwindigkeit. Normaler DDR5-RAM schafft etwa 50–100 GB pro Sekunde. Der Speicher einer H100-Grafikkarte schafft 3.000 GB pro Sekunde – also 30- bis 60-mal schneller.

In der Praxis bedeutet das: Eine Antwort, die auf Grafikkarten 2 Sekunden dauert, würde mit normalem RAM 1–2 Minuten brauchen. Für einen Chatbot oder Echtzeit-Transkription völlig unbrauchbar.

„Was ist mit Datenschutz?"

Das ist ein wichtiges Argument – besonders im Gesundheitswesen. Aber auch hier gibt es Lösungen:

  • Die großen Anbieter haben strenge Datenschutzverträge und BAA-Vereinbarungen
  • Es gibt Optionen mit Datenverarbeitung ausschließlich in der EU
  • End-to-End-Verschlüsselung schützt Ihre Daten

Die Sicherheit einer selbst betriebenen Infrastruktur zu gewährleisten, ist mindestens genauso aufwendig – und teuer.

Und es wird nicht besser – im Gegenteil

Falls Sie dachten, die Technik wird günstiger: Die Modelle wachsen schneller als die Hardware.

Die Prognosen der Branche:

  • 2025: Aktuelle Spitzenmodelle mit 2–5 Billionen Parametern
  • 2027: Modelle mit 1 TB Speicherbedarf pro GPU-Cluster
  • 2028: 10+ Billionen Parameter-Modelle, die mindestens 5 TB nur für die Gewichte brauchen

Das ist ein Wettlauf, den Sie als Einzelpraxis oder Klinik nicht gewinnen können. Selbst Tech-Giganten wie Google, Amazon und Microsoft investieren Milliarden, nur um mitzuhalten.

Fazit: Warum Self-Hosting keine Option ist

Die Mathematik ist eindeutig: Selbst wenn Sie „nur" die Cloud-Infrastruktur mieten würden, sprechen wir von sechsstelligen monatlichen Beträgen. Dazu kommen IT-Personal, Wartung, Sicherheitskonzepte und die Tatsache, dass Ihr teuer aufgesetztes System in 6–12 Monaten bereits veraltet ist.

Self-Hosting von Spitzen-KI ist schlicht unrealistisch – nicht für Einzelpraxen, nicht für Kliniken, selbst für Großkonzerne ist es fraglich.

Die gute Nachricht: Das müssen Sie auch gar nicht. Spezialisierte Anbieter haben diese Infrastruktur bereits aufgebaut und können die enormen Kosten auf viele Nutzer verteilen. So wird modernste KI-Technologie auch für kleine Praxen zugänglich.

Was bedeutet das für Sie?

Die gute Nachricht: Sie müssen sich um all das nicht kümmern.

Als Therapeut:in, Psychiater:in oder Psycholog:in haben Sie Besseres zu tun, als sich mit GPU-Preisen und Cloud-Infrastruktur zu beschäftigen. Sie haben studiert, um Menschen zu helfen – nicht um Rechenzentren zu verwalten.

Genau deshalb gibt es Lösungen wie Psynex: Wir kümmern uns um die komplexe KI-Infrastruktur im Hintergrund, damit Sie sich auf das konzentrieren können, was wirklich zählt – Ihre Patient:innen.

Sie führen Ihre Sitzungen, machen Ihre Notizen. Psynex verwandelt diese automatisch in strukturierte Verlaufsberichte, Dokumentationen und Anträge. DSGVO-konform, in der EU gehostet, mit Verschlüsselung auf höchstem Niveau.

Die KI-Revolution ist eine der wenigen technologischen Umwälzungen, bei der Sie als Einzelpraxis exakt dieselbe Technologie nutzen können wie die größten Kliniken der Welt.

Ohne IT-Abteilung. Ohne Cloud-Verträge. Ohne Kopfschmerzen.


Möchten Sie sehen, wie KI-gestützte Dokumentation Ihren Praxisalltag verändern kann? Testen Sie Psynex kostenlos.

Teilen:

Bereit, Ihre Dokumentation zu revolutionieren?

Testen Sie Psynex sieben Tage kostenlos. Erleben Sie selbst, wie KI-gestützte Analyse Ihren Praxisalltag verändert. Keine Kreditkarte nötig.

Jetzt kostenlos starten

7 Tage kostenlos • Keine Kreditkarte • DSGVO-konform