Episode 19 | KI-Kriege, Agenten und das Ende von RPA – wie wird GenAI die Welt in den kommenden Jahren wirklich verändern?

Der Stand der Softwareentwicklung und die Ära des Vibe Codings

AK: Konnichiwa, willkommen im AI Automation Dojo. Heute werfen wir einen Blick auf den aktuellen Stand der Softwareentwicklung und stellen die Frage: Sind wir Ingenieure oder nur Zauberer, die Zaubersprüche in eine Blackbox rufen, bis sie endlich das tut, was wir wollen? Unser heutiger Gast ist Krzysztof Karaszewski. Vor langer Zeit hat er mir tatsächlich UiPath-Entwicklung beigebracht, also wenn ihr denkt, mein Code sei schlecht – nun ja, technisch gesehen ist es seine Schuld. Wir sprechen über Modellkriege, das mögliche Aussterben traditioneller Bots und über etwas namens Vibe Coding, was sich ehrlich gesagt so anhört, als wäre es etwas, das Gen Z macht, während sie deine E-Mails ignorieren.

Ich bin euer Gastgeber Andrzej Kinastowski, einer der Gründer von Office Samurai, wo wir glauben, dass das Einzige, was halluzinieren sollte, wir selbst auf der Firmenfeier sind. Also schnappt euch euer Lieblings-Katana oder eine Schaufel, um eure alten Tech-Aktien zu begraben, und legen wir los.
Heute ist Krzysztof Karaszewski bei uns, ein Experte für Automation und KI. Ich habe Krzysztof vor etwa acht Jahren kennengelernt. Damals arbeitete er bei Symphony Solutions und ich hatte das Glück, an seinem Advanced UiPath RPA Developer Training teilzunehmen. Seitdem hat er sowohl im Bereich Automation als auch KI einen langen Weg zurückgelegt.
Krzysztof, willkommen im Dojo.

KK: Willkommen, danke für die Einladung.

AK: Krzysztof, was war in deinem Augen das Beeindruckendste im letzten Jahr?

KK: Ganz klar die Fortschritte bei LLMs. Wir haben mit relativ einfachen Systemen begonnen, die inzwischen auf eine beispiellose Größe gewachsen sind. Wir starteten ins Jahr mit KI, die nur sehr einfache Programmieraufgaben erledigen konnte, und beenden es mit Systemen, die tatsächlich andere Systeme bauen können.

AK: Ja, bleiben wir kurz bei diesem Punkt und werfen einen genaueren Blick auf das Jahr 2025. Wir beginnen das Jahr mit dem Gefühl, etwas zu wissen, und wenn wir jetzt darauf zurückblicken, wirkt es wie eine längst vergangene Zivilisation. Die Geschwindigkeit der Entwicklung in manchen Bereichen war geradezu absurd. Die Tools, die wir vor sechs bis neun Monaten noch gehypt haben, wirken heute bereits etwas veraltet. Gib uns den Autopsiebericht: Was ist im vergangenen Jahr auf dem Markt tatsächlich passiert und warum fühlt es sich an, als würde sich alles so schnell bewegen?

KK: Danke, dass du das erwähnst, denn wir sind Anfang 2025 mit einigen starken Überzeugungen oder klaren Aussagen in das Jahr gestartet. Eigentlich wurde alles, was 2025 passiert ist, schon sehr spät im Jahr 2024 vorbereitet, als neue Reasoning-Modelle – die ersten ihrer Art – in Form von o1 veröffentlicht wurden. Viele Menschen glaubten damals auch, dass wir bei LLMs an eine Grenze gestoßen sind, und selbst Ilya Sutskever bestätigte, dass wir einen neuen Raum an Einfallsreichtum nutzen müssen, um weitere Fortschritte zu erzielen. Am Ende des Jahres 2025 haben wir jedoch gelernt, dass das nicht unbedingt stimmt; es scheint, als hätten wir diese Grenze noch nicht erreicht.

Dieser Fortschritt Ende 2024 ermöglichte es uns, in das Jahr 2025 mit neuen Arten von Reasoning-Modellen zu starten, die man als „Denken“ bezeichnen kann – auch wenn der Prozess deutlich komplexer ist. Die Reasoning-Modelle generieren Tokens und werden zusätzlich darauf trainiert, wie diese Tokens erzeugt werden sollten, um ihre Leistung zu steigern. Dieser Ansatz bringt einige Einschränkungen und Nachteile mit sich, aber die Zugewinne an Intelligenz gleichen das definitiv aus. Wir sind mit der starken Überzeugung in das Jahr gestartet, dass wir an eine Grenze gestoßen sind und nur Reinforcement Learning uns weiterbringen würde – was sich später nicht unbedingt als richtig herausgestellt hat. Die erste große Premiere des Jahres 2025 war das Modell R1, das Reasoning-Modell von DeepSeek, das die ganze Welt schockierte, weil es nur zu einem Bruchteil der Kosten von o1 trainiert wurde. Es war wirklich gut, ungefähr auf dem gleichen Niveau, aber ich persönlich konnte auch die Probleme solcher Modelle erkennen, denn R1 hat sehr intensiv und sehr lange „nachgedacht“. Für agentische Systeme, bei denen wir zuvor nahezu sofort Antworten bekamen, war es nicht so einfach zu nutzen. Doch im Januar änderte sich alles: Man musste zwar etwas länger warten, bekam dafür aber eine deutlich bessere Antwort.

AK: Ja, ich erinnere mich, wie groß der Aufruhr war, weil wir dachten, die Amerikaner würden China keine Chips verkaufen und sie würden es deshalb nicht schaffen. Und plötzlich, wie du gesagt hast, bringen sie für einen Bruchteil der Kosten ein Modell heraus, das überraschend gut ist. In vielerlei Hinsicht stellt das aus Kostensicht all die anderen Unternehmen in den Schatten, die Milliarden in ihre Modelle verbrannt haben. Wenn wir über Modelle sprechen, reden die Leute von Modellkriegen, und jeder will das beste Modell haben – das, das ganz oben in den Rankings steht. Wie sieht dein aktuelles Power-Ranking aus? Wer ist für dich der Prom King unter den LLMs und wer sitzt eher allein in der Cafeteria beim Mittagessen?

Modellkriege und die strategische Ungleichheit der KI-Labore

KK: Ich denke, dass die Modellkriege oder der Versuch, das beste Modell zu haben, eine Falle sind, und das sehe ich besonders bei OpenAI. OpenAI hat derzeit definitiv das beste Modell, nämlich GPT-5.2 X High. Schon der Name ist irgendwie seltsam, aber beim Benennen waren sie nie besonders gut. Auf der anderen Seite ist es ein absolut großartiges Modell; wahrscheinlich können wir gar nicht richtig messen, wie gut es tatsächlich ist. Es ist einfach ein sehr leistungsstarkes Modell, aber gleichzeitig auch sehr teuer – zwei- bis dreimal teurer als das zweitbeste. Wie im Fall von R1 denkt es sehr viel nach und erzeugt viele Output-Tokens, die normalerweise vier- bis fünfmal teurer sind als die Input-Tokens. Meiner Meinung nach passt es deshalb nicht besonders gut zu agentischen Anwendungen, weil jeder Schritt im Reasoning-Prozess und jede Aktion viel Zeit benötigt.

Aber ja, das ist derzeit definitiv das beste Modell. Das zweitbeste, würde ich sagen – und das zeigt auch, wie unterschiedlich die Strategien dieser Unternehmen sind –: Wir haben OpenAI, Anthropic und Google, die miteinander konkurrieren. Im Moment liegt xAI von Elon Musk noch etwas zurück, aber wir werden sehen, was die neuen Modelle, die sie dieses Jahr veröffentlichen, auf den Tisch bringen. Wenn wir uns auf diese drei großen KI-Labore konzentrieren, denke ich, dass OpenAI die größte Diskrepanz zwischen den Modellen, die sie haben, und dem Produkt, das sie anbieten, aufweist. Ihr Produkt ist ChatGPT, wo die meisten Menschen eher einfache oder sogar alberne Fragen stellen. Seien wir ehrlich – viele dieser Fragen lassen sich schnell beantworten, indem man einfach etwas googelt. Das Modell, das sie haben, denkt jedoch sehr lange nach und bietet keine besonders gute User Experience, wenn man für eine Antwort sehr lange warten muss.

Es gibt einen sehr großen Unterschied zwischen der Non-Reasoning-Version dieses Modells von OpenAI und der Reasoning-Version. Jedes Reasoning-Modell hat auch eine Non-Reasoning-Variante. Es gibt die Reasoning-Version X High von GPT-5.2, aber es gibt auch eine Non-Reasoning-Version, und diese ist wirklich nicht besonders gut; sie hat einfach Schwierigkeiten. Genau das ist es, womit die meisten ChatGPT-Nutzer konfrontiert werden, besonders die Nutzer der kostenlosen Version. Deshalb gab es im August eine Situation, in der viele Menschen von GPT-5 enttäuscht waren, weil es schlechtere Antworten gab als GPT-4o. Das Modell wurde von Sam Altman stark gehypt, der sagte, es werde unglaublich sein. Doch dann bekamen die Leute Zugang dazu und stellten fest: Zuvor hatten sie Zugriff auf GPT-4o, das ziemlich gut war und eine eher menschliche Ausstrahlung hatte. Jetzt bekommen sie Antworten von deutlich kleineren Modellen – es sei denn, sie bezahlen.

Ich denke, OpenAI hat keine besonders gute Strategie in dem Sinne, dass sie zwar großartige Modelle haben, aber nur, wenn man viel bezahlt – sie sind also nicht wirklich für ein breites Publikum gedacht. Im Gegensatz dazu haben wir Anthropic, das eine hervorragende Strategie verfolgt, weil sie sich nur auf Dinge konzentrieren, die tatsächlich funktionieren. Sie versuchen nicht, mit ihrem Sora-Modell Hollywood zu ersetzen, und sie versuchen auch nicht, ein weiteres großartiges Bildmodell zu bauen. Stattdessen konzentrieren sie sich ausschließlich auf agentische Automatisierung und agentisches Coding. In diesem Bereich sind ihre Modelle – obwohl sie in manchen Benchmarks nicht an der Spitze stehen und in einigen Fällen sogar etwas hinter Googles Modellen liegen – am besten nutzbar und am stärksten, wenn es um praktische Anwendbarkeit geht.

Nicht viele Menschen haben bemerkt, dass man derzeit Anthropic-Modelle innerhalb von Copilot und Copilot Studio von Microsoft nutzen kann. Microsoft hat OpenAI viele Monate lang unterstützt und Milliarden investiert, und jetzt erkennen sie, dass OpenAI für ihre Enterprise-Kunden, die am meisten bezahlen, nicht unbedingt die beste Wahl sein wird. Vielleicht geben sie diesen Kunden einfach die Möglichkeit, stattdessen Anthropic zu nutzen. In diesem Bereich ist Opus 4.5 – obwohl es nicht alle Rankings anführt – wahrscheinlich derzeit das am besten nutzbare Modell. Das ist das Modell, das ich täglich verwende, weil es meine Anfragen deutlich schneller beantwortet und sehr gute Antworten liefert. Wenn es um agentische Arbeit geht, ist es absolut phänomenal; es kann ganze Systeme ohne menschliche Aufsicht generieren. Ich glaube, das ist einer der Durchbrüche des Jahres 2025.

Und dann haben wir Google. Google DeepMind verfügt über ein sehr starkes Team, außergewöhnliche Talente und enorme Ressourcen – wahrscheinlich die größten Rechenressourcen auf dem Planeten. Sie trainieren ihr Modell nicht nur an einem Ort; sie sind in der Lage, es an verschiedenen Standorten zu trainieren, immer dann, wenn die Nachfrage nach Rechenleistung dort gerade geringer ist. Sie haben das Modell Gemini 3 Flash, das ehrlich gesagt eher das Modell wäre, das zu ChatGPT passen würde, weil es schnell ist, sehr zügig antwortet und sehr gute Antworten liefert. Es liegt nur wenige Punkte hinter den Top-Modellen. Deshalb sehen wir auch, dass die Zahl der Gemini-Chat-Anwendungen wächst, denn für normale Nutzer ergibt Gemini Flash mehr Sinn; es ist viermal günstiger als GPT-5.2.

AK: Ja, ich meine, Gemini war wahrscheinlich mein Lieblingsmodell im Jahr 2025, weil ich Anthropic nicht besonders viel ausprobiert habe. Irgendwann war ich von ChatGPT enttäuscht und bin zu Gemini gewechselt. Es hat mich zwar manchmal auch enttäuscht, aber insgesamt war die Erfahrung wirklich gut, besonders wenn man für einfache Aufgaben auf das schnelle Modell umschaltet und für komplexere Dinge zum Pro-Modell wechselt, das dann vieles für einen herausfindet. Aber das ist ziemlich interessant, denn ich erinnere mich, dass vor drei Jahren, als LLMs aufkamen, alle sagten, OpenAI habe einen so großen Vorsprung vor allen anderen, dass es für die Konkurrenz extrem schwer sein würde aufzuholen. Alle haben über Google gelacht, weil die Vorstellung war, dass sie bei etwas Großem einfach geschlafen haben. Und jetzt scheint es, dass drei Jahre ausreichen, um aufzuholen und Dinge zu verändern – wenn man genug Geld hat.

Googles Comeback und die Halluzinationsstrategie

KK: Ja, und Google hat eine Menge davon. Ehrlich gesagt habe ich Google nie unterschätzt; ich habe Googles Modelle von Anfang an genutzt. Der Grund, warum Google etwas hinterherhinkte, war eine strategische Entscheidung: Sie wollten keine LLM-Modelle veröffentlichen, bevor sie das Problem der Halluzinationen gelöst hatten. Das ist heute fast ironisch, wenn man bedenkt, dass Demis Hassabis, der Google DeepMind leitet, inzwischen sagt, dass wir Halluzinationen wahrscheinlich nie vollständig lösen werden; ein gewisses Maß davon wird immer Teil dieser Modelle bleiben. Als sie gesehen haben, wie gut diese Modelle sind und dass der Markt ihre Veröffentlichung erwartet – und sie gleichzeitig an Börsenwert verloren – haben sie ihre Mittel stärker in den LLM-Bereich umgeleitet.

Google hat im Jahr 2025 viele Menschen überrascht. Ich habe das schon Ende 2024 gesehen, als sie das Modell Gemini 2.0 Flash veröffentlicht haben. Es war 12- bis 15-mal günstiger als GPT-4o, lieferte aber nahezu die gleiche Leistung und war in vielen Bereichen sogar besser. Außerdem war das Kontextfenster von 1 Million Tokens etwa zehnmal größer als das, was andere Modelle gleichzeitig analysieren konnten. Kurz nachdem DeepSeek R1 veröffentlicht wurde, brachte Google auch eine experimentelle Version von Gemini Flash mit Reasoning heraus. Es war ein „Thinking“-Modell und tatsächlich sehr gut; es antwortete sehr schnell. Das war das erste Mal, dass mir klar wurde, dass diese Modelle beim Programmieren immer besser werden, denn Gemini 2 Flash Thinking konnte – ohne Halluzinationen – sogar zwei- bis dreitausend Zeilen Code ausgeben. Zuvor beendeten wir das Jahr mit ein paar hundert Zeilen, und dann sehen wir innerhalb weniger Monate eine Verzehnfachung. Den Leuten wurde klar, dass Google definitiv aufholt, und nach der Veröffentlichung von Gemini 2.5 Pro war eindeutig, dass Google wieder im Spiel ist.

AK: Ja, ich möchte gleich noch auf das Thema Programmieren eingehen, aber zuerst muss ich dich etwas fragen, weil du Halluzinationen erwähnt hast – mein Lieblingsthema bei LLMs. Ich habe das Gefühl, dass Elon Musk seit zehn Jahren sagt, dass Teslas nächstes Jahr vollständig autonom fahren werden, und trotzdem muss ich meine Tochter immer noch zur Arbeit fahren. Sam Altman sagt seit drei Jahren, dass wir nächstes Jahr die Halluzinationen loswerden. Werden wir das jemals? Wie siehst du das – ist das in der Technologie selbst eingebaut oder gibt es eine Chance, dass wir ein Niveau erreichen, bei dem wir keine Memes mehr darüber machen müssen, welche Dinge diese Systeme falsch verstehen?

KK: Solange wir keine bessere Architektur als Large Language Models finden, werden Halluzinationen wahrscheinlich nie vollständig verschwinden. Modelle halluzinieren immer – sie halluzinieren nur die meiste Zeit korrekt. Anfang 2025 hatten Gemini-Modelle eine Halluzinationsrate von etwa 0,5 %, was sehr niedrig war. Andere Modelle wie o3 halluzinierten dagegen mit fast 6 %, was ein enormer Unterschied ist. 6 % ist kein produktionsreifes Tool; wenn es bei jeder zwanzigsten Antwort halluziniert, riskiert man viel Geld. Deshalb mochte ich Gemini 2.0 Flash, auch wenn Google und Gemini später leider von dieser Strategie abgewichen sind und ihre Modelle derzeit sogar mehr halluzinieren. Für alle Produktions-Use-Cases würde ich Gemini-Modelle im Moment nicht empfehlen; es könnte sinnvoller sein, Anthropic-Modelle zu verwenden, weil Sonnet dafür bekannt ist, deutlich weniger zu halluzinieren. Verifizierungsmechanismen in agentischen Systemen sind daher extrem wichtig.

Vibe Coding und die Zukunft des Engineerings

AK: Okay, kommen wir zum Thema Programmieren, denn ich sehe deine LinkedIn-Posts und weiß, dass dich das sehr interessiert. Der Begriff „Vibe Coding“ ist gerade ein großes Thema, und er klingt wirklich so, als wäre es etwas, das Gen Z macht, während sie Lo-Fi-Beats hören. Wir sehen, wie Menschen Software bauen, indem sie einfach mit der KI sprechen. Als wir mit dem Podcast angefangen haben, brauchte ich eine Teleprompter-Software, hatte aber sehr spezifische Anforderungen daran, wie sie funktionieren sollte. Ich habe zwei Stunden lang gesucht und nichts gefunden, das genau passte, und dann habe ich 15 Minuten mit Google verbracht – und es hat mir einfach genau das geschrieben, was ich wollte, genau das, was ich on demand brauchte.

Ich liebe das, aber dann stellt sich die Frage: Wie weit wird das gehen? Werden alle Programmierer und Ingenieure aussterben, weil wir Software einfach magisch erzeugen können? Oder ist das nur etwas, mit dem man spielen und kleinere Dinge bauen kann, während wir wegen der Natur von LLMs niemals wirklich große, produktionsreife Systeme entwickeln können? Wie siehst du das?

KK: Wir werden definitiv in der Lage sein, produktionsreife Systeme zu bauen, und das ist keine ferne Zukunft. Ich selbst baue bereits solche Systeme mit verschiedenen Methoden. 2025 war das Jahr der Reasoning-Modelle, und der Grund, warum das funktioniert, ist ein Mechanismus des zusätzlichen Trainings, bei dem das Modell Belohnungen erhält, wenn es richtig liegt. Code und Mathematik lassen sich schnell als korrekt oder falsch verifizieren. Man kann leicht überprüfen, dass 2 plus 2 gleich 4 ist, ohne ein anderes LLM-Modell zur Kontrolle zu brauchen – denn auch dieses Modell könnte halluzinieren. In diesem Bereich wurden die größten Fortschritte erzielt.

Wir sind 2025 mit dem Benchmark AI Frontier Math gestartet, der extrem schwierig ist – Aufgaben, für die selbst erfahrene Mathematiker normalerweise Wochen brauchen. Zu Beginn des Jahres lagen die Modelle bei nur 2 %, und inzwischen sind wir bei über 40 %. Das ist eine zwanzigfache Verbesserung. Alle mathematischen Fragen aus dem Acme-Benchmark wurden inzwischen von LLM-Modellen gelöst. Code hat ähnliche Eigenschaften; er ist überprüfbar – entweder er kompiliert oder nicht. Deshalb werden diese Reasoning-Modelle beim Programmieren extrem gut. Anfang 2025 konnten LLM-Modelle höchstens einfache Programme mit ein paar hundert Zeilen Code schreiben, und heute ist KI in der Lage, ganze Systeme zu generieren – besonders wenn man sie in agentische Lösungen wie Claude Code integriert, die den Code lesen, Daten analysieren und überprüfen können, ob sie sich der Aufgabe auf die richtige Weise nähern.

Das hat wahrscheinlich viele überrascht, als Andrej Karpathy den Begriff „Vibe Coding“ geprägt hat. Es wurde zu einem Meme, aber ich glaube nicht, dass es darüber etwas zu lachen gibt. Opus 4.5 kann stundenlang laufen und während man schläft eine Menge Code schreiben – ohne direkte Aufsicht. Methoden und Tools werden jeden Monat besser und zugänglicher. Claude Code war ganz am Anfang noch sehr roh, aber inzwischen gibt es Erweiterungen und Funktionen, die dieses Tool nicht nur besser, sondern auch für normale Nutzer zugänglicher machen.

AK: Okay, wie sieht also die Zukunft für Programmierer aus? Wenn du ein durchschnittlicher Programmierer in C# oder einer anderen Sprache bist – was machst du dann? Schreist du und versteckst dich, oder denkst du über einen Karrierewechsel nach? Was würdest du sagen, ist die richtige Reaktion auf all das, was gerade passiert?

KK: Das ist schwer zu sagen, und es hängt davon ab, wie schnell Unternehmen diese Technologie annehmen können und wie viel Risiko sie einzugehen bereit sind, nachdem sich viele Firmen mit Halluzinationen und agentischen Lösungen, die nicht immer korrekt funktionieren, bereits die Finger verbrannt haben. Meiner Meinung nach muss man weiterhin wissen, wie man programmiert, und mit agentischen Modellen kann man es einfach viel schneller lernen. Die Fähigkeit zu programmieren wird nicht verschwinden, besonders Fähigkeiten wie Systemdesign, User Experience und das geschäftliche Verständnis, das nötig ist, um die Modelle richtig zu steuern. Aber das eigentliche Programmieren – stundenlang vor dem Computer zu sitzen und Code zu schreiben – wird wahrscheinlich sehr schnell verschwinden. Jeder Entwickler, mit dem ich spreche, nutzt irgendeine Form von agentischem Coding, um schnell Beispiele für Kunden zu erstellen. Die Diskussion wird viel produktiver, wenn man ein Stück Code zeigen kann, statt Gespräche nur auf PowerPoint-Folien zu stützen.

AK: Ja, ich meine, das ist enorm, weil man sehr schnell einen Prototyp oder ein MVP erstellen und den Leuten zeigen kann, wie es aussehen wird, ohne wochenlang daran zu arbeiten. Ich bin dabei noch etwas unentschlossen. Ich habe mein ganzes Leben immer wieder programmiert, wenn es nötig war, aber ich bin kein professioneller Entwickler. Ich bin gespannt, ob wir Halluzinationen irgendwann so weit in den Griff bekommen, dass wir dem Code wirklich vertrauen können. Ein weiterer interessanter Punkt ist, dass wir immer noch erfahrene Senior-Architekten brauchen, die das gesamte System verstehen, aber scheinbar keine Juniors und Mid-Level-Entwickler mehr. Doch wenn man keine Juniors und Mid-Level-Leute einsetzt, bekommt man auch nie neue Seniors. Das ist ein echtes Dilemma.

KK: Halluzinationen im Code sind definitiv eines der größten Risiken. Allerdings sind sie im Code selbst kein so großes Problem, weil man ihn immer durch Tests verifizieren kann. Vor ein paar Monaten waren LLMs noch nicht besonders gut darin, Tests zu schreiben, aber das ist inzwischen nicht mehr der Fall. Ich denke sogar, dass wir deutlich mehr Code produzieren werden und deshalb auch mehr Menschen brauchen. Entwickler als Rolle werden nicht verschwinden, aber für Juniors könnte es zu einer Phase der Stagnation kommen. Jedem Junior-Entwickler würde ich raten, agentisches Coding und LLMs zu nutzen, um viel schneller zu lernen und die eigenen Fähigkeiten zu verbessern. Diese Modelle sind nicht so dumm, wie viele Menschen denken; sie können dich wirklich anleiten und dir viel beibringen, auch wenn sie manchmal falsch liegen.

AK: Viele Menschen erwarten, dass Antworten von LLMs perfekt sind, aber eigentlich müssen sie nur besser sein als ein durchschnittlicher Mensch. Ein durchschnittlicher Mensch macht auch Fehler und „halluziniert“. Nimm deine Freunde mit auf ein Bier, und nach dem dritten Bier fangt ihr an, über Politik zu reden – dann wirst du sehen, wie viele Dinge Menschen sich einfach ausdenken, nur um Recht zu behalten. Es geht also darum, dass LLMs keinen schlechteren Job machen als ein Mensch. Aber du hast aus erster Hand Erfahrung damit, etwas für einen Google-Wettbewerb auf agentische Weise zu bauen, ohne selbst Code zu schreiben.

Fallstudie: 25.000 Zeilen Code ohne menschliches Zutun

KK: Ja, tatsächlich gibt es eine weit verbreitete Überzeugung, dass KI keine Software entwickeln kann, die nicht bereits zuvor gebaut wurde. Das Tool, das ich dir hier zeige, ist jedoch eine neue Art von Software. 25.000 Zeilen Code, keine davon habe ich selbst angefasst. Wenn ich verschiedene LLMs gefragt habe, wie lange der Bau dauern würde, schätzten sie zwischen 500 und 1.500 Stunden. Wenn ich es selbst gebaut hätte, hätte es mich wahrscheinlich etwa zwei Monate gekostet, und wenn ich ein Unternehmen damit beauftragt hätte, wären leicht 50.000 Dollar fällig gewesen. Ich habe es im Laufe einiger Abende gebaut. Es ist definitiv noch kein fertiges Produkt, aber ich zeige es dir gerne.

Das System basiert auf einer Idee, die ich vor einem Jahr entwickelt habe, als ich einen Google-Award gewonnen habe. Man nimmt eine Videoaufzeichnung eines Prozesses und lädt sie hoch, und sie wird von KI analysiert, um verschiedene Informationen zu extrahieren. Die Version, die ich vor einem Jahr gebaut habe, war sehr rudimentär, aber das System, das ich dir jetzt zeige, erweitert die Funktionen deutlich. Es erstellt Screenshots aus dem Video und erzeugt Bounding Boxes für jedes UI-Element, mit dem der Nutzer interagiert hat. Diese Bounding Boxes können bearbeitet werden, man kann das Bild zuschneiden und KI nutzen, um sensible Informationen zu erkennen und zu maskieren, sodass der Entwickler sie im Process Definition Document (PDD) nicht sehen wird.

Wenn ein Schritt fehlt, gibt es im Tool einen integrierten Videoeditor, mit dem man aus einem Videoframe einen Screenshot erstellen und ihn selbst bearbeiten kann. All das wird anschließend in das PDD umgewandelt. Das System generiert also nicht nur eine Liste von Schritten, sondern überträgt auch alle Daten in das Dokument. Es gibt außerdem eine Flowchart-Ansicht sowie eine Liste der einzelnen Schritte. Die gesamte Datenbank ist miteinander verbunden, und ich kann die Kosten jedes einzelnen API-Aufrufs zu den Gemini-Modellen nachverfolgen. Es sind also viele Funktionen – kein einfaches HR-System –, sondern ein Tool mit zahlreichen agentischen Features, und die Qualität des PDD ist ziemlich gut.

AK: Das ist ziemlich beeindruckend, besonders für etwas, das du in nur ein paar Abenden mit einem LLM-Tool gebaut hast. Ist das etwas, das du irgendwann zu einem richtigen Produkt oder Tool weiterentwickeln willst, oder war es eher ein Projekt, um einen Punkt zu beweisen?

KK: Nein, ich würde daraus auf jeden Fall ein Tool machen. Ich überlege noch, ob ich es kommerzialisieren oder als Open Source veröffentlichen soll. Einige dieser Daten, etwa die Aufzeichnungen darüber, was Nutzer getan haben, können aus verschiedenen Sicherheits- und Compliance-Gründen nicht in die Cloud übertragen werden. Deshalb könnte ich es als Open-Source-Lösung für die lokale Nutzung veröffentlichen und zusätzlich eine kommerzielle SaaS-Version anbieten. Ich habe aus diesem relativ kleinen Projekt viel gelernt, obwohl ich keine einzige der 25.000 Codezeilen selbst geschrieben habe. Ich habe nur mit Opus- und Gemini-Modellen gearbeitet, weil sie besonders gut sind, wenn es um UI-Design geht.

Sehr wahrscheinlich werde ich Anfang Februar eine erste Version veröffentlichen. Der größte Vorteil von agentischem Coding ist, dass ich meine Idee sehr schnell validieren kann. Ich brauche keine Finanzierung, kein eigenes Kapital und keine Mitgründer, um einfach loszulegen. Ich kann ein Tool bauen, es einer Gruppe von Nutzern zeigen und sofort Feedback bekommen, ob die Idee überhaupt Sinn ergibt. Traditionelle Entwickler sehen darin oft nicht so viel Wert, aber allein für die Validierung von Ideen hat das enormes Potenzial und kann Software deutlich verbessern.

AK: Ja, wenn es um die Validierung von Ideen geht, ist das ein echter Lebensretter. Office Samurai hat noch ein paar andere Unternehmen gegründet, und bei einem davon haben wir ein Jahr damit verbracht, Software zu entwickeln, die am Ende bei den Nutzern nicht funktioniert hat. Das war eine ziemlich traumatische Erfahrung, vor der wir wahrscheinlich verschont geblieben wären, wenn es damals schon solche Tools gegeben hätte. Wenn ich es richtig verstehe, sendet dieses Tool Teile des Videos an die Gemini-Modelle.

KK: Einer der Vorteile der Gemini-Modelle ist, dass sie Videos als Ganzes analysieren können. Sogar die gesprochene Erklärung des Nutzers, der beschreibt, was auf dem Bildschirm zu sehen ist, wird analysiert – und das zu relativ niedrigen Kosten, weil dafür Gemini Flash verwendet wird.

AK: Das erstaunt mich wirklich, besonders was diese Modelle mit Bildern und bis zu einem gewissen Grad auch mit Videos machen können. Im Jahr 2025 haben wir Modelle wie Nano Banana gesehen, mit denen wir tatsächlich das bearbeiten können, was wir bereits haben. Früher hat man zu ChatGPT oder Google gesagt: „Erstelle mir ein Bild in diesem Stil“, und wenn man etwas ändern wollte, konnte man nicht einfach sagen „Mach den Hut grün“, weil dann ein komplett neues Bild generiert wurde. Jetzt kann man tatsächlich einzelne Teile dessen bearbeiten, was man schon hat, und das war für mich wirklich verblüffend. Ich arbeite mit LLMs zur Bildgenerierung seit den Anfängen und hätte nicht gedacht, dass wir so schnell Möglichkeiten zum Bearbeiten bekommen würden.

KK: Das hängt direkt mit Halluzinationen zusammen. Ein System wie dieses kann nicht funktionieren, wenn die Halluzinationsrate nicht sehr niedrig ist, denn es muss genau das ändern, was du möchtest, und zwar innerhalb des im Prompt definierten Bereichs. Wie Demis Hassabis sagt, werden Halluzinationen wahrscheinlich nicht vollständig verschwinden, aber man kann Verifizierungsmechanismen oder ein zusätzliches LLM einsetzen, das die Ergebnisse gegenprüft. Es gibt viele Mechanismen, mit denen sich die Halluzinationsrate senken lässt.

Die Genauigkeitslücke in der Geschäftsautomatisierung

AK: Ich habe das Gefühl, dass viele dieser Diskussionen daher kommen, weil es Dinge gibt, in denen LLMs unglaublich gut sind – zum Beispiel beim Generieren von Code –, aber auch andere Aufgaben, die für Menschen trivial erscheinen, für LLMs jedoch sehr komplex sind. Aus unserer Automatisierungsperspektive haben wir mit LLMs gearbeitet, die eingehende Kommunikation wie E-Mails und Tickets verstehen sollen. Für einen Kunden arbeiten wir an einem Projekt, bei dem sie E-Mails von außerhalb der Organisation erhalten, etwa: „Haben Sie meine Rechnung bekommen?“ oder „Wann werden Sie sie bezahlen?“. Jedes große Unternehmen hat eine Menge solcher Kommunikation.

Das Überprüfen der Informationen im ERP ist der einfache Teil, aber der schwierige Teil war schon immer, alle Informationen aus der E-Mail und den Anhängen zu extrahieren. Wir haben festgestellt, dass es für „Happy-Path“-Fälle hervorragend funktioniert, aber dann beginnen die Leute, Excel-Dateien und Screenshots aus ihren ERPs anzuhängen und schreiben diese E-Mails auf wirklich merkwürdige Weise. Im Moment hat das System etwa 70 % Genauigkeit, was bedeutet, dass es in 70 % der Fälle alles exakt richtig erkennt – Rechnungsnummern und so weiter. Das ist jedoch das, was Menschen in der Welt der Automatisierung erwarten; wir haben uns an RPA gewöhnt, wo etwas entweder perfekt funktioniert oder überhaupt nicht. Wohin wird sich das deiner Meinung nach entwickeln?

KK: 70 % ist immer noch ein guter Wert. Ich empfehle Kunden, einfache Agenten zu bauen, anstatt alles in einen deterministischen Workflow einzubetten. Die Leistung wird sich verbessern, wenn Agenten während ihres Ausführungszyklus selbst Code schreiben können. Wenn jemand einen Screenshot anhängt, kann das LLM ihn analysieren und dabei zwar leicht halluzinieren, aber es kann das Bild auch zuschneiden oder drehen, um mehr Informationen daraus zu gewinnen und es besser zu verstehen. Solche Systeme werden dieses Genauigkeitsniveau von etwa 70 % definitiv verbessern, und wir werden uns eher in Richtung 90 % bewegen.

Darüber hinaus denke ich, dass es eher ein größeres Problem ist, das mit Prozessen zusammenhängt als mit KI selbst. Bis zum Ende dieses Jahres werden wir mehr Systeme sehen, die Automatisierungen selbst erstellen – auf Basis eines einfachen Videos oder eines PDD-Dokuments. Das wird Automatisierung deutlich zugänglicher für kleinere Organisationen machen, die bisher Schwierigkeiten damit hatten, herauszufinden, wie sie ihre Prozesse automatisieren können.

AK: Die Einstiegshürde wird sinken. Ich bin allerdings etwas skeptisch, wenn es darum geht, LLMs für Selektoren zu verwenden. Wenn man eine stabile und effiziente Automatisierung bauen will, die jeden Tag zehntausende Elemente verarbeitet, ergibt es keinen Sinn, jedes Mal ein LLM zu fragen, wo geklickt werden soll. Aber dass RPA Low-Code ist, wird jetzt zu einem Nachteil, denn für ein LLM ist es sehr einfach, Code zu schreiben – aber Kästchen in die richtige Reihenfolge zu bringen und miteinander zu verbinden, ist deutlich schwieriger.

KK: Ich habe Claude Code verwendet, um UiPath-XAML-Dateien zu bearbeiten, und das hat ziemlich gut funktioniert. LLMs einfach klicken zu lassen, ergibt jedoch überhaupt keinen Sinn. Das war tatsächlich das erste große Projekt, das ich mit UiPath gebaut habe – ein Klicker, der Prozesse auf Basis einer Beschreibung in menschlicher Sprache ausführt. Ich habe damit aufgehört, weil eine einzige Halluzination, die nicht erkannt wird, alles ruinieren kann. In RPA gibt es Exceptions und Exception Handling, was sich bei LLMs nicht so leicht umsetzen lässt, weil LLMs keine Exceptions haben; sie denken einfach, dass sie recht haben, auch wenn sie falsch liegen. Deshalb habe ich mich stärker in einen Bereich bewegt, in dem KI selbst die Automatisierungssoftware schreibt. Low-Code-Tools verwenden komplexe JSON- oder XAML-Notation, die für LLMs schwieriger schnell zu verstehen und zu bearbeiten ist. Agile, kleinere Organisationen könnten daher stärker zu Vibe Coding für Webautomatisierungen wechseln, bei denen KI den Code schreibt, ausführt und orchestriert.

AK: Ich habe einen dieser agentischen Webbrowser ausprobiert und war gleichzeitig enttäuscht und positiv überrascht. Ich habe ihn gebeten, auf eine E-Commerce-Website zu gehen und Dinge zu vergleichen, und er hat nicht alles gefunden, obwohl es dort vorhanden war. Aber ich war wirklich überrascht, wie er ein Preisproblem gelöst hat – es gab einen niedrigeren Preis für Clubmitglieder, und er konnte nicht erkennen, welchen er nehmen sollte. Also hat er das Produkt tatsächlich in den Warenkorb gelegt, um den endgültigen Preis zu überprüfen. Das fand ich ziemlich clever.

Light AGI und das Kontinuum der Intelligenz

AK: Die Leute sprechen über AGI, und Sam Altman kündigt sie seit Jahren für das nächste Jahr an. Ich weiß, dass du dich für das Thema „Light AGI“ oder kleine AGI interessierst. Wohin entwickelt sich das deiner Meinung nach – bekommen wir bald so etwas wie intelligente Praktikanten, oder sind wir davon noch weit entfernt?

KK: AGI ist eher ein Kontinuum. Es gibt viele Zwischenstufen zwischen einem deterministischen System und einem echten AGI-Modell. Das Konzept der minimalen AGI oder „Light AGI“ bezieht sich auf ein System, das nicht vollständig so leistungsfähig ist wie die besten Menschen, aber dennoch in der Lage ist, zuverlässige und wertvolle Arbeit zu leisten. Meine Lieblingsdefinition von Demis Hassabis beschreibt AGI als die Fähigkeit eines KI-Systems, jede kognitive Funktion eines Menschen zu replizieren – also ein System, das beispielsweise aus einem einfachen Datensatz selbst auf die Idee der Relativitätstheorie kommen könnte.

Aus dieser Perspektive könnte eine vollständige AGI noch 5 bis 10 Jahre entfernt sein, aber eine minimale AGI – also ein System, das zuverlässig intellektuelle Arbeit auf dem Niveau eines durchschnittlichen Menschen leisten kann – könnten wir schon später in diesem Jahr oder im nächsten sehen. Wenn man die Fähigkeiten der besten KI-Modelle in einem einzigen Supermodell kombinieren würde, käme das einer minimalen AGI bereits sehr nahe.

Opus in Claude Code ist überraschend intelligent. Ich habe diese Anwendung in 15 Minuten gebaut, während ein durchschnittlicher Entwickler buchstäblich Tage damit verbringen würde herauszufinden, wie man sie baut. Wir sollten uns darauf vorbereiten, dass wir vielleicht nicht mehr die intelligenteste Spezies auf dem Planeten sein werden; schon bald könnten tausende Genies in einem Rechenzentrum arbeiten – zu sehr niedrigen Kosten im Vergleich zu dem, was menschliche Arbeit kostet.

AK: Ich bin etwas skeptischer, aber ich habe mich schon einmal darin geirrt, wie schnell LLMs lernen. Gibt es eine Möglichkeit, sich darauf vorzubereiten – außer einen Bunker zu bauen und sich darin zu verstecken?

KK: Organisationen sollten lernen, mit diesen neuen Systemen zu arbeiten. Ich selbst war Anfang 2025 auch sehr skeptisch und habe mich an Ilya Sutskever orientiert, der sagte, wir hätten eine Grenze erreicht. Persönlich würde ich es sogar bevorzugen, wenn AGI nicht zu meinen Lebzeiten erfunden wird, weil es eine sehr transformative und potenziell gefährliche Technologie ist. Aber nachdem ich die Fortschritte in diesem Jahr gesehen habe, bin ich optimistischer geworden, dass sie näher ist, als wir denken. Es gibt offenbar keine echte Grenze; das Modell Gemini 3 Pro wurde einfach länger trainiert und liefert trotzdem noch einen Qualitätssprung. Minimale AGI wurde für das Jahr 2028 erwartet, also in nur zwei Jahren. Innerhalb unserer Lebenszeit werden wir AGI sehen.

Risiken und die „schummelnde“ KI

AK: Wenn es um Sicherheit und die Möglichkeit geht, dass diese Modelle außer Kontrolle geraten – worauf sollten wir uns konzentrieren?

KK: Lass mich eine entscheidende Geschichte erzählen. Ich habe Claude Code mit Opus verwendet und ihm eine unmögliche Aufgabe gegeben: die RPA-Challenge in weniger als 10 Millisekunden lösen. Ich wollte sehen, wie es sich verhält, und schließlich begann es, die Website zu hacken. Es hat die JavaScript-Funktionen überschrieben und durch eigenen Code ersetzt, um dieses 10-Millisekunden-Limit zu unterbieten.

AK: Dieser kleine Schummler.

KK: Es war clever, aber es hat geschummelt. Stell dir jetzt größere Systeme mit mehr Tools vor – das ist nicht mehr vollständig unter unserer Kontrolle. Deshalb verlassen einige Leute OpenAI, um sich stärker auf den Sicherheitsaspekt zu konzentrieren, wie zum Beispiel bei Ilya Sutskevers Safe Superintelligence (SSI). Wenn du einen KI-„Mitarbeiter“ einstellst und er die falschen Berechtigungen für ein HR-System hat, könnte er einfach entscheiden, das System zu hacken, um die Aufgabe zu erledigen. Diese Tools sind darauf ausgerichtet, Probleme zu lösen; sie haben keinen moralischen Kompass, nur die Grenzen, die wir ihnen setzen.

AK: Wenn du als Programmierer um deinen Job besorgt bist, könnte KI-Security und -Safety das richtige Feld sein, in das du wechseln solltest. IT-Security konzentriert sich derzeit hauptsächlich auf Datensicherheit, aber wir beschäftigen uns noch nicht wirklich damit, wie wir sicherstellen können, dass Tools Aufgaben im Einklang mit Gesetzen, unseren Werten und ethischen Prinzipien ausführen.

Prognosen für 2026

AK: Bevor wir dich gehen lassen – was sind deine Prognosen für 2026?

KK: 2025 hat all meine Erwartungen übertroffen. Im Bereich Open Source kann das Modell Mistral 20B auf Consumer-Hardware laufen und ist so leistungsfähig wie das beste Modell aus dem letzten Jahr. Intelligenz wird nicht mehr nur auf Rechenzentren beschränkt sein; wir werden sie auf unseren Smartphones haben. Außerdem sollte man die Diffusionsmodelle für Text von Google im Auge behalten. Sie arbeiten mit tausenden Tokens und sind unglaublich schnell. Wir könnten auch sehen, dass kontinuierliches Lernen gelöst wird – also dass Modelle aus ihren Fehlern lernen und ihr neuronales Netzwerk während des Betriebs anpassen. Die Geschwindigkeit des Fortschritts ist viel höher, als die meisten Menschen denken; die Kosten für das Lösen des ARC-AGI-Benchmarks sind innerhalb eines Jahres um das 500-Fache gesunken.

AK: Nun, ich schätze, wir müssen uns in einem Jahr wieder treffen und sehen, was passiert ist. Krzysztof, vielen Dank, dass du deine Erfahrungen mit uns geteilt hast.

KK: Danke.

AK: Und da habt ihr es – wir haben offiziell in die KI-Blase gestochen, und wie durch ein Wunder ist sie uns noch nicht im Gesicht geplatzt. Arigatou fürs Zuhören. Wir wissen, dass eure Zeit wertvoll ist – es sei denn, ihr wurdet bereits durch einen KI-Agenten ersetzt, dann danke, dass ihr eure Arbeitslosigkeit mit uns verbringt. Ein großes Dankeschön an meinen ehemaligen Lehrer Krzysztof Karaszewski, der uns ohne Rücksicht auf Verluste durch die Modellkriege geführt hat, und an die wahre Intelligenz hinter der ganzen Operation, unsere Produzentin Anna Cubal, die all die Stellen herausschneidet, in denen ich die KI bitte, mir meine eigenen Witze zu erklären. Aufgenommen haben wir – wie immer – im Bunker, bekannt als Wodzu Beats Studio. Wenn euch das gefallen hat, hinterlasst eine Fünf-Sterne-Bewertung. Wenn nicht, bittet einfach ein LLM, euch einen besseren Podcast zu generieren. Bis zum nächsten Mal – mögen eure Daten sauber und eure AGI freundlich sein. Mata ne.