Letzte Woche wollte ich nur kurz meine KI-Kosten prüfen und habe am Ende meinen wichtigsten Agenten von GPT-5.5 auf ein Modell umgestellt, das bei mir fast 300% günstiger ist. Das Überraschende: im Alltag habe ich keinen relevanten Qualitätsunterschied gemerkt. Aus dem kurzen Blick wurde die eigentlich spannende Frage, um die es heute geht: Können wir bei unseren Agenten hier vielleicht eine Menge Geld und Nerven sparen?

GPT-5.5 ist ca. 293,5% teurer als DeepSeek v4 Pro .. braucht dein Agent das?
Kaffeeduft in der Luft, das Office noch warm vom vergangenen Sommertag, und ich sitze morgens vor meinen KI-Kosten der letzten Wochen.
Eigentlich wollte ich nur kurz prüfen, wie viel meine Agents gerade kosten. Aus diesem kurzen Blick wurde eine dieser kleinen Rabbit-hole Tage, bei denen man merkt: Die spannende Frage liegt oft woanders.
In meinem persönlichen Social Media Feed wird sich ständig darum gestritten, welches KI Modell gerade das krasseste ist. GPT, Fable, neue Benchmarks, neue Rankings, neue Screenshots.
Verstehe ich. Macht Spaß. Ich schaue mir das auch an.
Für meinen Alltag ist am Ende eine andere Frage wichtiger: Welche Aufgabe braucht wirklich welches Modell?
Der Test mit meinem wichtigsten Agenten
Also hab’ ich einfach mal drauflos getestet und habe in der letzten Woche meinen wichtigsten Hermes-Agenten von ChatGPT 5.5 auf DeepSeek 4 Pro umgestellt. In den nächsten Wochen werd’ ich sicher noch mehr experimentieren, denn das Ergebnis hat mich gehooked.
Dieser Hermes ist mein Personal Assistant. Ich arbeite täglich mit ihm, verlasse mich auf die Ergebnisse. Wenn ich dann die Kosten pro Token bei mir untersuche und feststelle, dass GPT-5.5 ca. 293,5% teurer ist als DeepSeek v4 Pro .. und GPT-5.5 sogar ca. 2.047% teurer ist als MiniMax M3 bei meiner Nutzung. Da komme ich ins Grübeln. Muss das sein? Merkt man das im Alltag?

Effektive Kosten pro 1 Mio Token im Testzeitraum bei mir (via Openrouter)
Mein Agent. Er kümmert sich um Reporting, interne Nachrichten, Fokus und Ziele, Aufgaben-Tracking, Habits, CRM-Datenpflege, Kalender, persönliche Events und ein paar Dinge, die ich meist erst bemerke, wenn sie fehlen.
Mir ist also wichtig, dass die Qualität stimmt.
Und auch deswegen ist der Test spannend. Erster Eindruck: Im Alltag ist mir kein relevanter Qualitätsunterschied aufgefallen beim Verwenden eines viel günstigeren Modells (Deepseek / Minimax vs ChatGPT 5.5). Außer beim Planen von komplizierten Skills.

Die Token Nutzung bzw. der Test ohne bzw. mit Reduktion von GPT 5.5
Ich musste ab und zu nachjustieren. Klar. Das mache ich bei den Topmodellen (Opus oder GPT5.5) aber auch. Diese Erwartung, dass ein teureres Modell plötzlich ohne Feedback perfekt läuft, ist in echten Workflows Quatsch.
Was ein Agent eigentlich macht
Viele Agenten-Aufgaben sind für moderne LLMs bodenständig. Der Agent ruft Tools auf, liest Informationen, folgt Anleitungen, recherchiert, erstellt Reports, sortiert Daten, schreibt Nachrichten oder pflegt ein CRM.
Wenn die Aufgabe klar beschrieben ist und die Tools funktionieren, braucht es bei vielen Schritten kein langes Nachdenken und probieren.
(Bei Coding sieht das anders aus. Bei komplexer Planung auch.)
Für viele Routineaufgaben zählen im Alltag drei Dinge: zuverlässig genug, günstig genug, schnell genug.
Mein aktueller Ansatz
Ich trenne die Modellwahl inzwischen stark nach Aufgabe:
DeepSeek 4 Pro für Hermes und viele Personal Assistant Aufgaben.
GPT 4o für Dokumentanalyse, digitales Archiv, OCR, Kategorien, Dateinamen und Metadaten.
Fable 5 für Coding-Planung. (Bzw. Gemma 4 für sensible Daten)
Composer 2.5 für Coding-Ausführung.
DeepSeek 4 Flash für einfache Zusammenfassungen und günstige Routinejobs.
Gemma4 für sensible Daten (auf meinem eigenen Server).
Das Schöne daran: Man kann ja flexibel bleiben. Wenn eine Session wirklich maximale Modellleistung braucht, wechselst du kurz das Modell. Danach läuft der Alltag wieder auf dem Setup, das wirtschaftlich Sinn macht.
Für die Erstellung von neuen Skills benutze ich beispielsweise die Modelle wie GPT 5.5. Aber sobald die Fähigkeiten gut genug beschrieben sind, können auch günstigere Modelle diese ausführen
Was heißt das für dich?
Beginne deine Überlegungen mit ein paar grundlegenden Fragen.
Was muss der Agent täglich tun?
Wie teuer wird das bei regelmäßiger Nutzung?
Welche Schritte sind wirklich komplex?
Wo reicht ein gutes, günstiges Modell?
Wo lohnt sich ein Topmodell bewusst?
Für mich ist dieser Test ein guter Reminder: KI bewegt viel im Alltag, aber Tokenbudgets müssen im Blick behalten werden. Als Demo beeindruckt sie schnell. Als System muss sie jeden Tag laufen, ohne dass du bei jeder Ausführung an die Rechnung denkst.
Mein Hermes Agent läuft deshalb erstmal weiter auf DeepSeek 4 Pro. Ich experimentiere weiter und möchte Mut zum Experiment aussprechen!
Was diese Woche noch los war
Hermes Agent hat ein großes Update bekommen, das Judgment Release. Hier haben sich viele Dinge verbessert. Unter anderem ist die Selbstlernfunktion, die Hermes ja schon auszeichnet, günstiger geworden. Außerdem kann man jetzt einen Experten-Mix aus verschiedenen KI-Modellen zu einem Judgement-Modell kombinieren für bessere Ergebnisse zu besseren Preisen, wie OpenRouter-Fusionsmodelle. Ich denke, dazu schreibe ich vielleicht noch.
Der Nutzer @SHL0MS hat einen Skill veröffentlicht für Hermes Agent, der deinen Agenten bei Data Brokern nach deinen persönlichen Daten suchen lässt und sich dann für dich darum kümmert, das offline zu nehmen. So was wie Dienste wie Incogni machen, nur dein Agent kümmert sich für dich. Das ist, glaub ich, für viele hier spannend. Link: https://x.com/SHL0MS/status/2073128911429668877
Der Gründer von Webflow ist zurück mit einem neuen Projekt, Ploy AI. Für alle Marketeers auf jeden Fall lohnenswert, danach mal zu suchen. Denn das wird viel verändern und sicherlich auch von vielen anderen implementiert.
Liebe Grüße
Georg
