{"id":22304,"date":"2026-02-12T12:03:21","date_gmt":"2026-02-12T11:03:21","guid":{"rendered":"https:\/\/office-samurai.com\/episode-19-ki-kriege-agenten-und-das-ende-von-rpa-wie-wird-genai-die-welt-in-den-kommenden-jahren-wirklich-veraendern\/"},"modified":"2026-03-13T15:11:18","modified_gmt":"2026-03-13T14:11:18","slug":"episode-19-ki-kriege-agenten-und-das-ende-von-rpa-wie-wird-genai-die-welt-in-den-kommenden-jahren-wirklich-veraendern","status":"publish","type":"post","link":"https:\/\/office-samurai.com\/de\/episode-19-ki-kriege-agenten-und-das-ende-von-rpa-wie-wird-genai-die-welt-in-den-kommenden-jahren-wirklich-veraendern\/","title":{"rendered":"Episode 19 | KI-Kriege, Agenten und das Ende von RPA \u2013 wie wird GenAI die Welt in den kommenden Jahren wirklich ver\u00e4ndern?"},"content":{"rendered":"\n<div class=\"wp-block-buttons is-content-justification-center is-layout-flex wp-container-core-buttons-is-layout-a89b3969 wp-block-buttons-is-layout-flex\">\n<div class=\"wp-block-button is-style-outline is-style-outline--1\"><a class=\"wp-block-button__link has-black-color has-text-color has-link-color has-medium-font-size has-custom-font-size wp-element-button\" href=\"https:\/\/youtu.be\/VgDZWIUMeWE?si=CRM49RTIpkVDmLOA\" style=\"border-radius:0px\" target=\"_blank\" rel=\"noreferrer noopener\">YouTube<\/a><\/div>\n\n\n\n<div class=\"wp-block-button is-style-outline is-style-outline--2\"><a class=\"wp-block-button__link has-black-color has-text-color has-link-color has-medium-font-size has-custom-font-size wp-element-button\" href=\"https:\/\/open.spotify.com\/episode\/2I6569rjYPNfreW21LSzru?si=45-i6KS_RhybRDjv2fE9mA\" style=\"border-radius:0px\" target=\"_blank\" rel=\"noreferrer noopener\">Spotify<\/a><\/div>\n\n\n\n<div class=\"wp-block-button is-style-outline is-style-outline--3\"><a class=\"wp-block-button__link has-black-color has-text-color has-link-color has-medium-font-size has-custom-font-size wp-element-button\" href=\"https:\/\/podcasts.apple.com\/us\/podcast\/ai-wars-agents-and-end-of-rpa-how-genai-will\/id1814320637?i=1000749283677\" style=\"border-radius:0px\" target=\"_blank\" rel=\"noopener\">Apple Podcasts<\/a><\/div>\n<\/div>\n\n<h2 class=\"wp-block-heading\"><span class=\"ez-toc-section\" id=\"Der_Stand_der_Softwareentwicklung_und_die_Aera_des_Vibe_Codings\"><\/span><strong>Der Stand der Softwareentwicklung und die \u00c4ra des Vibe Codings<\/strong><span class=\"ez-toc-section-end\"><\/span><\/h2>\n\n<p><strong>AK:<\/strong> Konnichiwa, willkommen im <a href=\"https:\/\/youtube.com\/playlist?list=PLhXE_-WUIvq0-qsJPqg509l6s7vLhEOPs&amp;si=OLO01yrVaR3-USGb\" target=\"_blank\" rel=\"noopener\">AI Automation Dojo<\/a>. Heute werfen wir einen Blick auf den aktuellen Stand der Softwareentwicklung und stellen die Frage: Sind wir Ingenieure oder nur Zauberer, die Zauberspr\u00fcche in eine Blackbox rufen, bis sie endlich das tut, was wir wollen? Unser heutiger Gast ist Krzysztof Karaszewski. Vor langer Zeit hat er mir tats\u00e4chlich UiPath-Entwicklung beigebracht, also wenn ihr denkt, mein Code sei schlecht \u2013 nun ja, technisch gesehen ist es seine Schuld. Wir sprechen \u00fcber Modellkriege, das m\u00f6gliche Aussterben traditioneller Bots und \u00fcber etwas namens Vibe Coding, was sich ehrlich gesagt so anh\u00f6rt, als w\u00e4re es etwas, das Gen Z macht, w\u00e4hrend sie deine E-Mails ignorieren.     <\/p>\n\n<figure class=\"wp-block-embed is-type-video is-provider-youtube wp-block-embed-youtube wp-embed-aspect-16-9 wp-has-aspect-ratio\"><div class=\"wp-block-embed__wrapper\">\n<iframe class=\"cky-consent-iframe\" data-consent=\"marketing\" data-cky-src=\"https:\/\/www.youtube.com\/embed\/VgDZWIUMeWE?feature=oembed\" data-cky-placeholder=\"1\" class=\"cky-consent-iframe\" data-consent=\"marketing\" data-cky- data-cky-placeholder=\"1\" title=\"AI wars, agents and end of RPA - how GenAI will really change the world in next years?\" width=\"800\" height=\"450\" frameborder=\"0\" allow=\"accelerometer; autoplay; clipboard-write; encrypted-media; gyroscope; picture-in-picture; web-share\" referrerpolicy=\"strict-origin-when-cross-origin\" allowfullscreen><\/iframe>\n<\/div><\/figure>\n\n<p>Ich bin euer Gastgeber Andrzej Kinastowski, einer der Gr\u00fcnder von <a href=\"https:\/\/office-samurai.com\/de\/unternehmen-fuer-die-automatisierung-von-geschaeftsprozessen\/\">Office Samurai<\/a>, wo wir glauben, dass das Einzige, was halluzinieren sollte, wir selbst auf der Firmenfeier sind. Also schnappt euch euer Lieblings-Katana oder eine Schaufel, um eure alten Tech-Aktien zu begraben, und legen wir los.<br\/>Heute ist Krzysztof Karaszewski bei uns, ein Experte f\u00fcr Automation und KI. Ich habe Krzysztof vor etwa acht Jahren kennengelernt. Damals arbeitete er bei Symphony Solutions und ich hatte das Gl\u00fcck, an seinem Advanced UiPath RPA Developer Training teilzunehmen. Seitdem hat er sowohl im Bereich Automation als auch KI einen langen Weg zur\u00fcckgelegt.<br\/>Krzysztof, willkommen im Dojo.     <\/p>\n\n<p><strong>KK:<\/strong> Willkommen, danke f\u00fcr die Einladung.<\/p>\n\n<p><strong>AK:<\/strong> Krzysztof, was war in deinem Augen das Beeindruckendste im letzten Jahr?<\/p>\n\n<p><strong>KK:<\/strong> Ganz klar die Fortschritte bei LLMs. Wir haben mit relativ einfachen Systemen begonnen, die inzwischen auf eine beispiellose Gr\u00f6\u00dfe gewachsen sind. Wir starteten ins Jahr mit KI, die nur sehr einfache Programmieraufgaben erledigen konnte, und beenden es mit Systemen, die tats\u00e4chlich andere Systeme bauen k\u00f6nnen.  <\/p>\n\n<p><strong>AK:<\/strong> Ja, bleiben wir kurz bei diesem Punkt und werfen einen genaueren Blick auf das Jahr 2025. Wir beginnen das Jahr mit dem Gef\u00fchl, etwas zu wissen, und wenn wir jetzt darauf zur\u00fcckblicken, wirkt es wie eine l\u00e4ngst vergangene Zivilisation. Die Geschwindigkeit der Entwicklung in manchen Bereichen war geradezu absurd. Die Tools, die wir vor sechs bis neun Monaten noch gehypt haben, wirken heute bereits etwas veraltet. Gib uns den Autopsiebericht: Was ist im vergangenen Jahr auf dem Markt tats\u00e4chlich passiert und warum f\u00fchlt es sich an, als w\u00fcrde sich alles so schnell bewegen?    <\/p>\n\n<p><strong>KK:<\/strong> Danke, dass du das erw\u00e4hnst, denn wir sind Anfang 2025 mit einigen starken \u00dcberzeugungen oder klaren Aussagen in das Jahr gestartet. Eigentlich wurde alles, was 2025 passiert ist, schon sehr sp\u00e4t im Jahr 2024 vorbereitet, als neue Reasoning-Modelle \u2013 die ersten ihrer Art \u2013 in Form von o1 ver\u00f6ffentlicht wurden. Viele Menschen glaubten damals auch, dass wir bei LLMs an eine Grenze gesto\u00dfen sind, und selbst Ilya Sutskever best\u00e4tigte, dass wir einen neuen Raum an Einfallsreichtum nutzen m\u00fcssen, um weitere Fortschritte zu erzielen. Am Ende des Jahres 2025 haben wir jedoch gelernt, dass das nicht unbedingt stimmt; es scheint, als h\u00e4tten wir diese Grenze noch nicht erreicht.   <\/p>\n\n<p>Dieser Fortschritt Ende 2024 erm\u00f6glichte es uns, in das Jahr 2025 mit neuen Arten von Reasoning-Modellen zu starten, die man als \u201eDenken\u201c bezeichnen kann \u2013 auch wenn der Prozess deutlich komplexer ist. Die Reasoning-Modelle generieren Tokens und werden zus\u00e4tzlich darauf trainiert, wie diese Tokens erzeugt werden sollten, um ihre Leistung zu steigern. Dieser Ansatz bringt einige Einschr\u00e4nkungen und Nachteile mit sich, aber die Zugewinne an Intelligenz gleichen das definitiv aus. Wir sind mit der starken \u00dcberzeugung in das Jahr gestartet, dass wir an eine Grenze gesto\u00dfen sind und nur Reinforcement Learning uns weiterbringen w\u00fcrde \u2013 was sich sp\u00e4ter nicht unbedingt als richtig herausgestellt hat. Die erste gro\u00dfe Premiere des Jahres 2025 war das Modell R1, das Reasoning-Modell von DeepSeek, das die ganze Welt schockierte, weil es nur zu einem Bruchteil der Kosten von o1 trainiert wurde. Es war wirklich gut, ungef\u00e4hr auf dem gleichen Niveau, aber ich pers\u00f6nlich konnte auch die Probleme solcher Modelle erkennen, denn R1 hat sehr intensiv und sehr lange \u201enachgedacht\u201c. F\u00fcr agentische Systeme, bei denen wir zuvor nahezu sofort Antworten bekamen, war es nicht so einfach zu nutzen. Doch im Januar \u00e4nderte sich alles: Man musste zwar etwas l\u00e4nger warten, bekam daf\u00fcr aber eine deutlich bessere Antwort.      <\/p>\n\n<p><strong>AK:<\/strong> Ja, ich erinnere mich, wie gro\u00df der Aufruhr war, weil wir dachten, die Amerikaner w\u00fcrden China keine Chips verkaufen und sie w\u00fcrden es deshalb nicht schaffen. Und pl\u00f6tzlich, wie du gesagt hast, bringen sie f\u00fcr einen Bruchteil der Kosten ein Modell heraus, das \u00fcberraschend gut ist. In vielerlei Hinsicht stellt das aus Kostensicht all die anderen Unternehmen in den Schatten, die Milliarden in ihre Modelle verbrannt haben. Wenn wir \u00fcber Modelle sprechen, reden die Leute von Modellkriegen, und jeder will das beste Modell haben \u2013 das, das ganz oben in den Rankings steht. Wie sieht dein aktuelles Power-Ranking aus? Wer ist f\u00fcr dich der Prom King unter den LLMs und wer sitzt eher allein in der Cafeteria beim Mittagessen?     <\/p>\n\n<h2 class=\"wp-block-heading\"><span class=\"ez-toc-section\" id=\"Modellkriege_und_die_strategische_Ungleichheit_der_KI-Labore\"><\/span><strong>Modellkriege und die strategische Ungleichheit der KI-Labore<\/strong><span class=\"ez-toc-section-end\"><\/span><\/h2>\n\n<p><strong>KK:<\/strong> Ich denke, dass die Modellkriege oder der Versuch, das beste Modell zu haben, eine Falle sind, und das sehe ich besonders bei OpenAI. OpenAI hat derzeit definitiv das beste Modell, n\u00e4mlich GPT-5.2 X High. Schon der Name ist irgendwie seltsam, aber beim Benennen waren sie nie besonders gut. Auf der anderen Seite ist es ein absolut gro\u00dfartiges Modell; wahrscheinlich k\u00f6nnen wir gar nicht richtig messen, wie gut es tats\u00e4chlich ist. Es ist einfach ein sehr leistungsstarkes Modell, aber gleichzeitig auch sehr teuer \u2013 zwei- bis dreimal teurer als das zweitbeste. Wie im Fall von R1 denkt es sehr viel nach und erzeugt viele Output-Tokens, die normalerweise vier- bis f\u00fcnfmal teurer sind als die Input-Tokens. Meiner Meinung nach passt es deshalb nicht besonders gut zu agentischen Anwendungen, weil jeder Schritt im Reasoning-Prozess und jede Aktion viel Zeit ben\u00f6tigt.<br\/> <br\/> <br\/>      <\/p>\n\n<p>Aber ja, das ist derzeit definitiv das beste Modell. Das zweitbeste, w\u00fcrde ich sagen \u2013 und das zeigt auch, wie unterschiedlich die Strategien dieser Unternehmen sind \u2013: Wir haben OpenAI, Anthropic und Google, die miteinander konkurrieren. Im Moment liegt xAI von Elon Musk noch etwas zur\u00fcck, aber wir werden sehen, was die neuen Modelle, die sie dieses Jahr ver\u00f6ffentlichen, auf den Tisch bringen. Wenn wir uns auf diese drei gro\u00dfen KI-Labore konzentrieren, denke ich, dass OpenAI die gr\u00f6\u00dfte Diskrepanz zwischen den Modellen, die sie haben, und dem Produkt, das sie anbieten, aufweist. Ihr Produkt ist ChatGPT, wo die meisten Menschen eher einfache oder sogar alberne Fragen stellen. Seien wir ehrlich \u2013 viele dieser Fragen lassen sich schnell beantworten, indem man einfach etwas googelt. Das Modell, das sie haben, denkt jedoch sehr lange nach und bietet keine besonders gute User Experience, wenn man f\u00fcr eine Antwort sehr lange warten muss.      <\/p>\n\n<p>Es gibt einen sehr gro\u00dfen Unterschied zwischen der Non-Reasoning-Version dieses Modells von OpenAI und der Reasoning-Version. Jedes Reasoning-Modell hat auch eine Non-Reasoning-Variante. Es gibt die Reasoning-Version X High von GPT-5.2, aber es gibt auch eine Non-Reasoning-Version, und diese ist wirklich nicht besonders gut; sie hat einfach Schwierigkeiten. Genau das ist es, womit die meisten ChatGPT-Nutzer konfrontiert werden, besonders die Nutzer der kostenlosen Version. Deshalb gab es im August eine Situation, in der viele Menschen von GPT-5 entt\u00e4uscht waren, weil es schlechtere Antworten gab als GPT-4o. Das Modell wurde von Sam Altman stark gehypt, der sagte, es werde unglaublich sein. Doch dann bekamen die Leute Zugang dazu und stellten fest: Zuvor hatten sie Zugriff auf GPT-4o, das ziemlich gut war und eine eher menschliche Ausstrahlung hatte. Jetzt bekommen sie Antworten von deutlich kleineren Modellen \u2013 es sei denn, sie bezahlen.      <\/p>\n\n<p>Ich denke, OpenAI hat keine besonders gute Strategie in dem Sinne, dass sie zwar gro\u00dfartige Modelle haben, aber nur, wenn man viel bezahlt \u2013 sie sind also nicht wirklich f\u00fcr ein breites Publikum gedacht. Im Gegensatz dazu haben wir Anthropic, das eine hervorragende Strategie verfolgt, weil sie sich nur auf Dinge konzentrieren, die tats\u00e4chlich funktionieren. Sie versuchen nicht, mit ihrem Sora-Modell Hollywood zu ersetzen, und sie versuchen auch nicht, ein weiteres gro\u00dfartiges Bildmodell zu bauen. Stattdessen konzentrieren sie sich ausschlie\u00dflich auf agentische Automatisierung und agentisches Coding. In diesem Bereich sind ihre Modelle \u2013 obwohl sie in manchen Benchmarks nicht an der Spitze stehen und in einigen F\u00e4llen sogar etwas hinter Googles Modellen liegen \u2013 am besten nutzbar und am st\u00e4rksten, wenn es um praktische Anwendbarkeit geht.    <\/p>\n\n<p>Nicht viele Menschen haben bemerkt, dass man derzeit Anthropic-Modelle innerhalb von Copilot und Copilot Studio von Microsoft nutzen kann. Microsoft hat OpenAI viele Monate lang unterst\u00fctzt und Milliarden investiert, und jetzt erkennen sie, dass OpenAI f\u00fcr ihre Enterprise-Kunden, die am meisten bezahlen, nicht unbedingt die beste Wahl sein wird. Vielleicht geben sie diesen Kunden einfach die M\u00f6glichkeit, stattdessen Anthropic zu nutzen. In diesem Bereich ist Opus 4.5 \u2013 obwohl es nicht alle Rankings anf\u00fchrt \u2013 wahrscheinlich derzeit das am besten nutzbare Modell. Das ist das Modell, das ich t\u00e4glich verwende, weil es meine Anfragen deutlich schneller beantwortet und sehr gute Antworten liefert. Wenn es um agentische Arbeit geht, ist es absolut ph\u00e4nomenal; es kann ganze Systeme ohne menschliche Aufsicht generieren. Ich glaube, das ist einer der Durchbr\u00fcche des Jahres 2025.      <\/p>\n\n<p>Und dann haben wir Google. Google DeepMind verf\u00fcgt \u00fcber ein sehr starkes Team, au\u00dfergew\u00f6hnliche Talente und enorme Ressourcen \u2013 wahrscheinlich die gr\u00f6\u00dften Rechenressourcen auf dem Planeten. Sie trainieren ihr Modell nicht nur an einem Ort; sie sind in der Lage, es an verschiedenen Standorten zu trainieren, immer dann, wenn die Nachfrage nach Rechenleistung dort gerade geringer ist. Sie haben das Modell Gemini 3 Flash, das ehrlich gesagt eher das Modell w\u00e4re, das zu ChatGPT passen w\u00fcrde, weil es schnell ist, sehr z\u00fcgig antwortet und sehr gute Antworten liefert. Es liegt nur wenige Punkte hinter den Top-Modellen. Deshalb sehen wir auch, dass die Zahl der Gemini-Chat-Anwendungen w\u00e4chst, denn f\u00fcr normale Nutzer ergibt Gemini Flash mehr Sinn; es ist viermal g\u00fcnstiger als GPT-5.2.     <\/p>\n\n<p><strong>AK:<\/strong> Ja, ich meine, Gemini war wahrscheinlich mein Lieblingsmodell im Jahr 2025, weil ich Anthropic nicht besonders viel ausprobiert habe. Irgendwann war ich von ChatGPT entt\u00e4uscht und bin zu Gemini gewechselt. Es hat mich zwar manchmal auch entt\u00e4uscht, aber insgesamt war die Erfahrung wirklich gut, besonders wenn man f\u00fcr einfache Aufgaben auf das schnelle Modell umschaltet und f\u00fcr komplexere Dinge zum Pro-Modell wechselt, das dann vieles f\u00fcr einen herausfindet. Aber das ist ziemlich interessant, denn ich erinnere mich, dass vor drei Jahren, als LLMs aufkamen, alle sagten, OpenAI habe einen so gro\u00dfen Vorsprung vor allen anderen, dass es f\u00fcr die Konkurrenz extrem schwer sein w\u00fcrde aufzuholen. Alle haben \u00fcber Google gelacht, weil die Vorstellung war, dass sie bei etwas Gro\u00dfem einfach geschlafen haben. Und jetzt scheint es, dass drei Jahre ausreichen, um aufzuholen und Dinge zu ver\u00e4ndern \u2013 wenn man genug Geld hat.    <\/p>\n\n<h2 class=\"wp-block-heading\"><span class=\"ez-toc-section\" id=\"Googles_Comeback_und_die_Halluzinationsstrategie\"><\/span><strong>Googles Comeback und die Halluzinationsstrategie<\/strong><span class=\"ez-toc-section-end\"><\/span><\/h2>\n\n<p><strong>KK:<\/strong> Ja, und Google hat eine Menge davon. Ehrlich gesagt habe ich Google nie untersch\u00e4tzt; ich habe Googles Modelle von Anfang an genutzt. Der Grund, warum Google etwas hinterherhinkte, war eine strategische Entscheidung: Sie wollten keine LLM-Modelle ver\u00f6ffentlichen, bevor sie das Problem der Halluzinationen gel\u00f6st hatten. Das ist heute fast ironisch, wenn man bedenkt, dass Demis Hassabis, der Google DeepMind leitet, inzwischen sagt, dass wir Halluzinationen wahrscheinlich nie vollst\u00e4ndig l\u00f6sen werden; ein gewisses Ma\u00df davon wird immer Teil dieser Modelle bleiben. Als sie gesehen haben, wie gut diese Modelle sind und dass der Markt ihre Ver\u00f6ffentlichung erwartet \u2013 und sie gleichzeitig an B\u00f6rsenwert verloren \u2013 haben sie ihre Mittel st\u00e4rker in den LLM-Bereich umgeleitet.    <\/p>\n\n<p>Google hat im Jahr 2025 viele Menschen \u00fcberrascht. Ich habe das schon Ende 2024 gesehen, als sie das Modell Gemini 2.0 Flash ver\u00f6ffentlicht haben. Es war 12- bis 15-mal g\u00fcnstiger als GPT-4o, lieferte aber nahezu die gleiche Leistung und war in vielen Bereichen sogar besser. Au\u00dferdem war das Kontextfenster von 1 Million Tokens etwa zehnmal gr\u00f6\u00dfer als das, was andere Modelle gleichzeitig analysieren konnten. Kurz nachdem DeepSeek R1 ver\u00f6ffentlicht wurde, brachte Google auch eine experimentelle Version von Gemini Flash mit Reasoning heraus. Es war ein \u201eThinking\u201c-Modell und tats\u00e4chlich sehr gut; es antwortete sehr schnell. Das war das erste Mal, dass mir klar wurde, dass diese Modelle beim Programmieren immer besser werden, denn Gemini 2 Flash Thinking konnte \u2013 ohne Halluzinationen \u2013 sogar zwei- bis dreitausend Zeilen Code ausgeben. Zuvor beendeten wir das Jahr mit ein paar hundert Zeilen, und dann sehen wir innerhalb weniger Monate eine Verzehnfachung. Den Leuten wurde klar, dass Google definitiv aufholt, und nach der Ver\u00f6ffentlichung von Gemini 2.5 Pro war eindeutig, dass Google wieder im Spiel ist.        <\/p>\n\n<p><strong>AK:<\/strong> Ja, ich m\u00f6chte gleich noch auf das Thema Programmieren eingehen, aber zuerst muss ich dich etwas fragen, weil du Halluzinationen erw\u00e4hnt hast \u2013 mein Lieblingsthema bei LLMs. Ich habe das Gef\u00fchl, dass Elon Musk seit zehn Jahren sagt, dass Teslas n\u00e4chstes Jahr vollst\u00e4ndig autonom fahren werden, und trotzdem muss ich meine Tochter immer noch zur Arbeit fahren. Sam Altman sagt seit drei Jahren, dass wir n\u00e4chstes Jahr die Halluzinationen loswerden. Werden wir das jemals? Wie siehst du das \u2013 ist das in der Technologie selbst eingebaut oder gibt es eine Chance, dass wir ein Niveau erreichen, bei dem wir keine Memes mehr dar\u00fcber machen m\u00fcssen, welche Dinge diese Systeme falsch verstehen?<br\/> <br\/> <br\/>    <\/p>\n\n<p><strong>KK<\/strong>: Solange wir keine bessere Architektur als Large Language Models finden, werden Halluzinationen wahrscheinlich nie vollst\u00e4ndig verschwinden. Modelle halluzinieren immer \u2013 sie halluzinieren nur die meiste Zeit korrekt. Anfang 2025 hatten Gemini-Modelle eine Halluzinationsrate von etwa 0,5 %, was sehr niedrig war. Andere Modelle wie o3 halluzinierten dagegen mit fast 6 %, was ein enormer Unterschied ist. 6 % ist kein produktionsreifes Tool; wenn es bei jeder zwanzigsten Antwort halluziniert, riskiert man viel Geld. Deshalb mochte ich Gemini 2.0 Flash, auch wenn Google und Gemini sp\u00e4ter leider von dieser Strategie abgewichen sind und ihre Modelle derzeit sogar mehr halluzinieren. F\u00fcr alle Produktions-Use-Cases w\u00fcrde ich Gemini-Modelle im Moment nicht empfehlen; es k\u00f6nnte sinnvoller sein, Anthropic-Modelle zu verwenden, weil Sonnet daf\u00fcr bekannt ist, deutlich weniger zu halluzinieren. Verifizierungsmechanismen in agentischen Systemen sind daher extrem wichtig.       <\/p>\n\n<h2 class=\"wp-block-heading\"><span class=\"ez-toc-section\" id=\"Vibe_Coding_und_die_Zukunft_des_Engineerings\"><\/span><strong>Vibe Coding und die Zukunft des Engineerings<\/strong><span class=\"ez-toc-section-end\"><\/span><\/h2>\n\n<p><strong>AK:<\/strong> Okay, kommen wir zum Thema Programmieren, denn ich sehe deine LinkedIn-Posts und wei\u00df, dass dich das sehr interessiert. Der Begriff \u201eVibe Coding\u201c ist gerade ein gro\u00dfes Thema, und er klingt wirklich so, als w\u00e4re es etwas, das Gen Z macht, w\u00e4hrend sie Lo-Fi-Beats h\u00f6ren. Wir sehen, wie Menschen Software bauen, indem sie einfach mit der KI sprechen. Als wir mit dem Podcast angefangen haben, brauchte ich eine Teleprompter-Software, hatte aber sehr spezifische Anforderungen daran, wie sie funktionieren sollte. Ich habe zwei Stunden lang gesucht und nichts gefunden, das genau passte, und dann habe ich 15 Minuten mit Google verbracht \u2013 und es hat mir einfach genau das geschrieben, was ich wollte, genau das, was ich on demand brauchte.    <\/p>\n\n<p>Ich liebe das, aber dann stellt sich die Frage: Wie weit wird das gehen? Werden alle Programmierer und Ingenieure aussterben, weil wir Software einfach magisch erzeugen k\u00f6nnen? Oder ist das nur etwas, mit dem man spielen und kleinere Dinge bauen kann, w\u00e4hrend wir wegen der Natur von LLMs niemals wirklich gro\u00dfe, produktionsreife Systeme entwickeln k\u00f6nnen? Wie siehst du das?  <\/p>\n\n<p><strong>KK:<\/strong> Wir werden definitiv in der Lage sein, produktionsreife Systeme zu bauen, und das ist keine ferne Zukunft. Ich selbst baue bereits solche Systeme mit verschiedenen Methoden. 2025 war das Jahr der Reasoning-Modelle, und der Grund, warum das funktioniert, ist ein Mechanismus des zus\u00e4tzlichen Trainings, bei dem das Modell Belohnungen erh\u00e4lt, wenn es richtig liegt. Code und Mathematik lassen sich schnell als korrekt oder falsch verifizieren. Man kann leicht \u00fcberpr\u00fcfen, dass 2 plus 2 gleich 4 ist, ohne ein anderes LLM-Modell zur Kontrolle zu brauchen \u2013 denn auch dieses Modell k\u00f6nnte halluzinieren. In diesem Bereich wurden die gr\u00f6\u00dften Fortschritte erzielt.     <\/p>\n\n<p>Wir sind 2025 mit dem Benchmark AI Frontier Math gestartet, der extrem schwierig ist \u2013 Aufgaben, f\u00fcr die selbst erfahrene Mathematiker normalerweise Wochen brauchen. Zu Beginn des Jahres lagen die Modelle bei nur 2 %, und inzwischen sind wir bei \u00fcber 40 %. Das ist eine zwanzigfache Verbesserung. Alle mathematischen Fragen aus dem Acme-Benchmark wurden inzwischen von LLM-Modellen gel\u00f6st. Code hat \u00e4hnliche Eigenschaften; er ist \u00fcberpr\u00fcfbar \u2013 entweder er kompiliert oder nicht. Deshalb werden diese Reasoning-Modelle beim Programmieren extrem gut. Anfang 2025 konnten LLM-Modelle h\u00f6chstens einfache Programme mit ein paar hundert Zeilen Code schreiben, und heute ist KI in der Lage, ganze Systeme zu generieren \u2013 besonders wenn man sie in agentische L\u00f6sungen wie Claude Code integriert, die den Code lesen, Daten analysieren und \u00fcberpr\u00fcfen k\u00f6nnen, ob sie sich der Aufgabe auf die richtige Weise n\u00e4hern.      <\/p>\n\n<p>Das hat wahrscheinlich viele \u00fcberrascht, als Andrej Karpathy den Begriff \u201eVibe Coding\u201c gepr\u00e4gt hat. Es wurde zu einem Meme, aber ich glaube nicht, dass es dar\u00fcber etwas zu lachen gibt. Opus 4.5 kann stundenlang laufen und w\u00e4hrend man schl\u00e4ft eine Menge Code schreiben \u2013 ohne direkte Aufsicht. Methoden und Tools werden jeden Monat besser und zug\u00e4nglicher. Claude Code war ganz am Anfang noch sehr roh, aber inzwischen gibt es Erweiterungen und Funktionen, die dieses Tool nicht nur besser, sondern auch f\u00fcr normale Nutzer zug\u00e4nglicher machen.    <\/p>\n\n<p><strong>AK:<\/strong> Okay, wie sieht also die Zukunft f\u00fcr Programmierer aus? Wenn du ein durchschnittlicher Programmierer in C# oder einer anderen Sprache bist \u2013 was machst du dann? Schreist du und versteckst dich, oder denkst du \u00fcber einen Karrierewechsel nach? Was w\u00fcrdest du sagen, ist die richtige Reaktion auf all das, was gerade passiert?   <\/p>\n\n<p><strong>KK:<\/strong> Das ist schwer zu sagen, und es h\u00e4ngt davon ab, wie schnell Unternehmen diese Technologie annehmen k\u00f6nnen und wie viel Risiko sie einzugehen bereit sind, nachdem sich viele Firmen mit Halluzinationen und agentischen L\u00f6sungen, die nicht immer korrekt funktionieren, bereits die Finger verbrannt haben. Meiner Meinung nach muss man weiterhin wissen, wie man programmiert, und mit agentischen Modellen kann man es einfach viel schneller lernen. Die F\u00e4higkeit zu programmieren wird nicht verschwinden, besonders F\u00e4higkeiten wie Systemdesign, User Experience und das gesch\u00e4ftliche Verst\u00e4ndnis, das n\u00f6tig ist, um die Modelle richtig zu steuern. Aber das eigentliche Programmieren \u2013 stundenlang vor dem Computer zu sitzen und Code zu schreiben \u2013 wird wahrscheinlich sehr schnell verschwinden. Jeder Entwickler, mit dem ich spreche, nutzt irgendeine Form von agentischem Coding, um schnell Beispiele f\u00fcr Kunden zu erstellen. Die Diskussion wird viel produktiver, wenn man ein St\u00fcck Code zeigen kann, statt Gespr\u00e4che nur auf PowerPoint-Folien zu st\u00fctzen.     <\/p>\n\n<p><strong>AK:<\/strong> Ja, ich meine, das ist enorm, weil man sehr schnell einen Prototyp oder ein MVP erstellen und den Leuten zeigen kann, wie es aussehen wird, ohne wochenlang daran zu arbeiten. Ich bin dabei noch etwas unentschlossen. Ich habe mein ganzes Leben immer wieder programmiert, wenn es n\u00f6tig war, aber ich bin kein professioneller Entwickler. Ich bin gespannt, ob wir Halluzinationen irgendwann so weit in den Griff bekommen, dass wir dem Code wirklich vertrauen k\u00f6nnen. Ein weiterer interessanter Punkt ist, dass wir immer noch erfahrene Senior-Architekten brauchen, die das gesamte System verstehen, aber scheinbar keine Juniors und Mid-Level-Entwickler mehr. Doch wenn man keine Juniors und Mid-Level-Leute einsetzt, bekommt man auch nie neue Seniors. Das ist ein echtes Dilemma.      <\/p>\n\n<p><strong>KK:<\/strong> Halluzinationen im Code sind definitiv eines der gr\u00f6\u00dften Risiken. Allerdings sind sie im Code selbst kein so gro\u00dfes Problem, weil man ihn immer durch Tests verifizieren kann. Vor ein paar Monaten waren LLMs noch nicht besonders gut darin, Tests zu schreiben, aber das ist inzwischen nicht mehr der Fall. Ich denke sogar, dass wir deutlich mehr Code produzieren werden und deshalb auch mehr Menschen brauchen. Entwickler als Rolle werden nicht verschwinden, aber f\u00fcr Juniors k\u00f6nnte es zu einer Phase der Stagnation kommen. Jedem Junior-Entwickler w\u00fcrde ich raten, agentisches Coding und LLMs zu nutzen, um viel schneller zu lernen und die eigenen F\u00e4higkeiten zu verbessern. Diese Modelle sind nicht so dumm, wie viele Menschen denken; sie k\u00f6nnen dich wirklich anleiten und dir viel beibringen, auch wenn sie manchmal falsch liegen.      <\/p>\n\n<p><strong>AK:<\/strong> Viele Menschen erwarten, dass Antworten von LLMs perfekt sind, aber eigentlich m\u00fcssen sie nur besser sein als ein durchschnittlicher Mensch. Ein durchschnittlicher Mensch macht auch Fehler und \u201ehalluziniert\u201c. Nimm deine Freunde mit auf ein Bier, und nach dem dritten Bier fangt ihr an, \u00fcber Politik zu reden \u2013 dann wirst du sehen, wie viele Dinge Menschen sich einfach ausdenken, nur um Recht zu behalten. Es geht also darum, dass LLMs keinen schlechteren Job machen als ein Mensch. Aber du hast aus erster Hand Erfahrung damit, etwas f\u00fcr einen Google-Wettbewerb auf agentische Weise zu bauen, ohne selbst Code zu schreiben.    <\/p>\n\n<h2 class=\"wp-block-heading\"><span class=\"ez-toc-section\" id=\"Fallstudie_25000_Zeilen_Code_ohne_menschliches_Zutun\"><\/span><strong>Fallstudie: 25.000 Zeilen Code ohne menschliches Zutun<\/strong><span class=\"ez-toc-section-end\"><\/span><\/h2>\n\n<p><strong>KK:<\/strong> Ja, tats\u00e4chlich gibt es eine weit verbreitete \u00dcberzeugung, dass KI keine Software entwickeln kann, die nicht bereits zuvor gebaut wurde. Das Tool, das ich dir hier zeige, ist jedoch eine neue Art von Software. 25.000 Zeilen Code, keine davon habe ich selbst angefasst. Wenn ich verschiedene LLMs gefragt habe, wie lange der Bau dauern w\u00fcrde, sch\u00e4tzten sie zwischen 500 und 1.500 Stunden. Wenn ich es selbst gebaut h\u00e4tte, h\u00e4tte es mich wahrscheinlich etwa zwei Monate gekostet, und wenn ich ein Unternehmen damit beauftragt h\u00e4tte, w\u00e4ren leicht 50.000 Dollar f\u00e4llig gewesen. Ich habe es im Laufe einiger Abende gebaut. Es ist definitiv noch kein fertiges Produkt, aber ich zeige es dir gerne.      <\/p>\n\n<p>Das System basiert auf einer Idee, die ich vor einem Jahr entwickelt habe, als ich einen Google-Award gewonnen habe. Man nimmt eine Videoaufzeichnung eines Prozesses und l\u00e4dt sie hoch, und sie wird von KI analysiert, um verschiedene Informationen zu extrahieren. Die Version, die ich vor einem Jahr gebaut habe, war sehr rudiment\u00e4r, aber das System, das ich dir jetzt zeige, erweitert die Funktionen deutlich. Es erstellt Screenshots aus dem Video und erzeugt Bounding Boxes f\u00fcr jedes UI-Element, mit dem der Nutzer interagiert hat. Diese Bounding Boxes k\u00f6nnen bearbeitet werden, man kann das Bild zuschneiden und KI nutzen, um sensible Informationen zu erkennen und zu maskieren, sodass der Entwickler sie im Process Definition Document (PDD) nicht sehen wird.    <\/p>\n\n<p>Wenn ein Schritt fehlt, gibt es im Tool einen integrierten Videoeditor, mit dem man aus einem Videoframe einen Screenshot erstellen und ihn selbst bearbeiten kann. All das wird anschlie\u00dfend in das PDD umgewandelt. Das System generiert also nicht nur eine Liste von Schritten, sondern \u00fcbertr\u00e4gt auch alle Daten in das Dokument. Es gibt au\u00dferdem eine Flowchart-Ansicht sowie eine Liste der einzelnen Schritte. Die gesamte Datenbank ist miteinander verbunden, und ich kann die Kosten jedes einzelnen API-Aufrufs zu den Gemini-Modellen nachverfolgen. Es sind also viele Funktionen \u2013 kein einfaches HR-System \u2013, sondern ein Tool mit zahlreichen agentischen Features, und die Qualit\u00e4t des PDD ist ziemlich gut.     <\/p>\n\n<p><strong>AK:<\/strong> Das ist ziemlich beeindruckend, besonders f\u00fcr etwas, das du in nur ein paar Abenden mit einem LLM-Tool gebaut hast. Ist das etwas, das du irgendwann zu einem richtigen Produkt oder Tool weiterentwickeln willst, oder war es eher ein Projekt, um einen Punkt zu beweisen? <\/p>\n\n<p><strong>KK:<\/strong> Nein, ich w\u00fcrde daraus auf jeden Fall ein Tool machen. Ich \u00fcberlege noch, ob ich es kommerzialisieren oder als Open Source ver\u00f6ffentlichen soll. Einige dieser Daten, etwa die Aufzeichnungen dar\u00fcber, was Nutzer getan haben, k\u00f6nnen aus verschiedenen Sicherheits- und Compliance-Gr\u00fcnden nicht in die Cloud \u00fcbertragen werden. Deshalb k\u00f6nnte ich es als Open-Source-L\u00f6sung f\u00fcr die lokale Nutzung ver\u00f6ffentlichen und zus\u00e4tzlich eine kommerzielle SaaS-Version anbieten. Ich habe aus diesem relativ kleinen Projekt viel gelernt, obwohl ich keine einzige der 25.000 Codezeilen selbst geschrieben habe. Ich habe nur mit Opus- und Gemini-Modellen gearbeitet, weil sie besonders gut sind, wenn es um UI-Design geht.     <\/p>\n\n<p>Sehr wahrscheinlich werde ich Anfang Februar eine erste Version ver\u00f6ffentlichen. Der gr\u00f6\u00dfte Vorteil von agentischem Coding ist, dass ich meine Idee sehr schnell validieren kann. Ich brauche keine Finanzierung, kein eigenes Kapital und keine Mitgr\u00fcnder, um einfach loszulegen. Ich kann ein Tool bauen, es einer Gruppe von Nutzern zeigen und sofort Feedback bekommen, ob die Idee \u00fcberhaupt Sinn ergibt. Traditionelle Entwickler sehen darin oft nicht so viel Wert, aber allein f\u00fcr die Validierung von Ideen hat das enormes Potenzial und kann Software deutlich verbessern.    <\/p>\n\n<p><strong>AK:<\/strong> Ja, wenn es um die Validierung von Ideen geht, ist das ein echter Lebensretter. Office Samurai hat noch ein paar andere Unternehmen gegr\u00fcndet, und bei einem davon haben wir ein Jahr damit verbracht, Software zu entwickeln, die am Ende bei den Nutzern nicht funktioniert hat. Das war eine ziemlich traumatische Erfahrung, vor der wir wahrscheinlich verschont geblieben w\u00e4ren, wenn es damals schon solche Tools gegeben h\u00e4tte. Wenn ich es richtig verstehe, sendet dieses Tool Teile des Videos an die Gemini-Modelle.   <\/p>\n\n<p><strong>KK:<\/strong> Einer der Vorteile der Gemini-Modelle ist, dass sie Videos als Ganzes analysieren k\u00f6nnen. Sogar die gesprochene Erkl\u00e4rung des Nutzers, der beschreibt, was auf dem Bildschirm zu sehen ist, wird analysiert \u2013 und das zu relativ niedrigen Kosten, weil daf\u00fcr Gemini Flash verwendet wird. <\/p>\n\n<p><strong>AK:<\/strong> Das erstaunt mich wirklich, besonders was diese Modelle mit Bildern und bis zu einem gewissen Grad auch mit Videos machen k\u00f6nnen. Im Jahr 2025 haben wir Modelle wie Nano Banana gesehen, mit denen wir tats\u00e4chlich das bearbeiten k\u00f6nnen, was wir bereits haben. Fr\u00fcher hat man zu ChatGPT oder Google gesagt: \u201eErstelle mir ein Bild in diesem Stil\u201c, und wenn man etwas \u00e4ndern wollte, konnte man nicht einfach sagen \u201eMach den Hut gr\u00fcn\u201c, weil dann ein komplett neues Bild generiert wurde. Jetzt kann man tats\u00e4chlich einzelne Teile dessen bearbeiten, was man schon hat, und das war f\u00fcr mich wirklich verbl\u00fcffend. Ich arbeite mit LLMs zur Bildgenerierung seit den Anf\u00e4ngen und h\u00e4tte nicht gedacht, dass wir so schnell M\u00f6glichkeiten zum Bearbeiten bekommen w\u00fcrden.   <\/p>\n\n<p><strong>KK:<\/strong> Das h\u00e4ngt direkt mit Halluzinationen zusammen. Ein System wie dieses kann nicht funktionieren, wenn die Halluzinationsrate nicht sehr niedrig ist, denn es muss genau das \u00e4ndern, was du m\u00f6chtest, und zwar innerhalb des im Prompt definierten Bereichs. Wie Demis Hassabis sagt, werden Halluzinationen wahrscheinlich nicht vollst\u00e4ndig verschwinden, aber man kann Verifizierungsmechanismen oder ein zus\u00e4tzliches LLM einsetzen, das die Ergebnisse gegenpr\u00fcft. Es gibt viele Mechanismen, mit denen sich die Halluzinationsrate senken l\u00e4sst.   <\/p>\n\n<h2 class=\"wp-block-heading\"><span class=\"ez-toc-section\" id=\"Die_Genauigkeitsluecke_in_der_Geschaeftsautomatisierung\"><\/span><strong>Die Genauigkeitsl\u00fccke in der Gesch\u00e4ftsautomatisierung<\/strong><span class=\"ez-toc-section-end\"><\/span><\/h2>\n\n<p><strong>AK:<\/strong> Ich habe das Gef\u00fchl, dass viele dieser Diskussionen daher kommen, weil es Dinge gibt, in denen LLMs unglaublich gut sind \u2013 zum Beispiel beim Generieren von Code \u2013, aber auch andere Aufgaben, die f\u00fcr Menschen trivial erscheinen, f\u00fcr LLMs jedoch sehr komplex sind. Aus unserer Automatisierungsperspektive haben wir mit LLMs gearbeitet, die eingehende Kommunikation wie E-Mails und Tickets verstehen sollen. F\u00fcr einen Kunden arbeiten wir an einem Projekt, bei dem sie E-Mails von au\u00dferhalb der Organisation erhalten, etwa: \u201eHaben Sie meine Rechnung bekommen?\u201c oder \u201eWann werden Sie sie bezahlen?\u201c. Jedes gro\u00dfe Unternehmen hat eine Menge solcher Kommunikation.   <\/p>\n\n<p>Das \u00dcberpr\u00fcfen der Informationen im ERP ist der einfache Teil, aber der schwierige Teil war schon immer, alle Informationen aus der E-Mail und den Anh\u00e4ngen zu extrahieren. Wir haben festgestellt, dass es f\u00fcr \u201eHappy-Path\u201c-F\u00e4lle hervorragend funktioniert, aber dann beginnen die Leute, Excel-Dateien und Screenshots aus ihren ERPs anzuh\u00e4ngen und schreiben diese E-Mails auf wirklich merkw\u00fcrdige Weise. Im Moment hat das System etwa 70 % Genauigkeit, was bedeutet, dass es in 70 % der F\u00e4lle alles exakt richtig erkennt \u2013 Rechnungsnummern und so weiter. Das ist jedoch das, was Menschen in der Welt der Automatisierung erwarten; wir haben uns an RPA gew\u00f6hnt, wo etwas entweder perfekt funktioniert oder \u00fcberhaupt nicht. Wohin wird sich das deiner Meinung nach entwickeln?    <\/p>\n\n<p><strong>KK:<\/strong> 70 % ist immer noch ein guter Wert. Ich empfehle Kunden, einfache Agenten zu bauen, anstatt alles in einen deterministischen Workflow einzubetten. Die Leistung wird sich verbessern, wenn Agenten w\u00e4hrend ihres Ausf\u00fchrungszyklus selbst Code schreiben k\u00f6nnen. Wenn jemand einen Screenshot anh\u00e4ngt, kann das LLM ihn analysieren und dabei zwar leicht halluzinieren, aber es kann das Bild auch zuschneiden oder drehen, um mehr Informationen daraus zu gewinnen und es besser zu verstehen. Solche Systeme werden dieses Genauigkeitsniveau von etwa 70 % definitiv verbessern, und wir werden uns eher in Richtung 90 % bewegen.    <\/p>\n\n<p>Dar\u00fcber hinaus denke ich, dass es eher ein gr\u00f6\u00dferes Problem ist, das mit Prozessen zusammenh\u00e4ngt als mit KI selbst. Bis zum Ende dieses Jahres werden wir mehr Systeme sehen, die Automatisierungen selbst erstellen \u2013 auf Basis eines einfachen Videos oder eines PDD-Dokuments. Das wird Automatisierung deutlich zug\u00e4nglicher f\u00fcr kleinere Organisationen machen, die bisher Schwierigkeiten damit hatten, herauszufinden, wie sie ihre Prozesse automatisieren k\u00f6nnen.  <\/p>\n\n<p><strong>AK:<\/strong> Die Einstiegsh\u00fcrde wird sinken. Ich bin allerdings etwas skeptisch, wenn es darum geht, LLMs f\u00fcr Selektoren zu verwenden. Wenn man eine stabile und effiziente Automatisierung bauen will, die jeden Tag zehntausende Elemente verarbeitet, ergibt es keinen Sinn, jedes Mal ein LLM zu fragen, wo geklickt werden soll. Aber dass RPA Low-Code ist, wird jetzt zu einem Nachteil, denn f\u00fcr ein LLM ist es sehr einfach, Code zu schreiben \u2013 aber K\u00e4stchen in die richtige Reihenfolge zu bringen und miteinander zu verbinden, ist deutlich schwieriger.  <\/p>\n\n<p><strong>KK:<\/strong> Ich habe Claude Code verwendet, um UiPath-XAML-Dateien zu bearbeiten, und das hat ziemlich gut funktioniert. LLMs einfach klicken zu lassen, ergibt jedoch \u00fcberhaupt keinen Sinn. Das war tats\u00e4chlich das erste gro\u00dfe Projekt, das ich mit UiPath gebaut habe \u2013 ein Klicker, der Prozesse auf Basis einer Beschreibung in menschlicher Sprache ausf\u00fchrt. Ich habe damit aufgeh\u00f6rt, weil eine einzige Halluzination, die nicht erkannt wird, alles ruinieren kann. In RPA gibt es Exceptions und Exception Handling, was sich bei LLMs nicht so leicht umsetzen l\u00e4sst, weil LLMs keine Exceptions haben; sie denken einfach, dass sie recht haben, auch wenn sie falsch liegen. Deshalb habe ich mich st\u00e4rker in einen Bereich bewegt, in dem KI selbst die Automatisierungssoftware schreibt. Low-Code-Tools verwenden komplexe JSON- oder XAML-Notation, die f\u00fcr LLMs schwieriger schnell zu verstehen und zu bearbeiten ist. Agile, kleinere Organisationen k\u00f6nnten daher st\u00e4rker zu Vibe Coding f\u00fcr Webautomatisierungen wechseln, bei denen KI den Code schreibt, ausf\u00fchrt und orchestriert.      <\/p>\n\n<p><strong>AK:<\/strong> Ich habe einen dieser agentischen Webbrowser ausprobiert und war gleichzeitig entt\u00e4uscht und positiv \u00fcberrascht. Ich habe ihn gebeten, auf eine E-Commerce-Website zu gehen und Dinge zu vergleichen, und er hat nicht alles gefunden, obwohl es dort vorhanden war. Aber ich war wirklich \u00fcberrascht, wie er ein Preisproblem gel\u00f6st hat \u2013 es gab einen niedrigeren Preis f\u00fcr Clubmitglieder, und er konnte nicht erkennen, welchen er nehmen sollte. Also hat er das Produkt tats\u00e4chlich in den Warenkorb gelegt, um den endg\u00fcltigen Preis zu \u00fcberpr\u00fcfen. Das fand ich ziemlich clever.   <\/p>\n\n<h2 class=\"wp-block-heading\"><span class=\"ez-toc-section\" id=\"Light_AGI_und_das_Kontinuum_der_Intelligenz\"><\/span><strong>Light AGI und das Kontinuum der Intelligenz<\/strong><span class=\"ez-toc-section-end\"><\/span><\/h2>\n\n<p><strong>AK:<\/strong> Die Leute sprechen \u00fcber AGI, und Sam Altman k\u00fcndigt sie seit Jahren f\u00fcr das n\u00e4chste Jahr an. Ich wei\u00df, dass du dich f\u00fcr das Thema \u201eLight AGI\u201c oder kleine AGI interessierst. Wohin entwickelt sich das deiner Meinung nach \u2013 bekommen wir bald so etwas wie intelligente Praktikanten, oder sind wir davon noch weit entfernt?  <\/p>\n\n<p><strong>KK:<\/strong> AGI ist eher ein Kontinuum. Es gibt viele Zwischenstufen zwischen einem deterministischen System und einem echten AGI-Modell. Das Konzept der minimalen AGI oder \u201eLight AGI\u201c bezieht sich auf ein System, das nicht vollst\u00e4ndig so leistungsf\u00e4hig ist wie die besten Menschen, aber dennoch in der Lage ist, zuverl\u00e4ssige und wertvolle Arbeit zu leisten. Meine Lieblingsdefinition von Demis Hassabis beschreibt AGI als die F\u00e4higkeit eines KI-Systems, jede kognitive Funktion eines Menschen zu replizieren \u2013 also ein System, das beispielsweise aus einem einfachen Datensatz selbst auf die Idee der Relativit\u00e4tstheorie kommen k\u00f6nnte.   <\/p>\n\n<p>Aus dieser Perspektive k\u00f6nnte eine vollst\u00e4ndige AGI noch 5 bis 10 Jahre entfernt sein, aber eine minimale AGI \u2013 also ein System, das zuverl\u00e4ssig intellektuelle Arbeit auf dem Niveau eines durchschnittlichen Menschen leisten kann \u2013 k\u00f6nnten wir schon sp\u00e4ter in diesem Jahr oder im n\u00e4chsten sehen. Wenn man die F\u00e4higkeiten der besten KI-Modelle in einem einzigen Supermodell kombinieren w\u00fcrde, k\u00e4me das einer minimalen AGI bereits sehr nahe. <\/p>\n\n<p>Opus in Claude Code ist \u00fcberraschend intelligent. Ich habe diese Anwendung in 15 Minuten gebaut, w\u00e4hrend ein durchschnittlicher Entwickler buchst\u00e4blich Tage damit verbringen w\u00fcrde herauszufinden, wie man sie baut. Wir sollten uns darauf vorbereiten, dass wir vielleicht nicht mehr die intelligenteste Spezies auf dem Planeten sein werden; schon bald k\u00f6nnten tausende Genies in einem Rechenzentrum arbeiten \u2013 zu sehr niedrigen Kosten im Vergleich zu dem, was menschliche Arbeit kostet.  <\/p>\n\n<p><strong>AK:<\/strong> Ich bin etwas skeptischer, aber ich habe mich schon einmal darin geirrt, wie schnell LLMs lernen. Gibt es eine M\u00f6glichkeit, sich darauf vorzubereiten \u2013 au\u00dfer einen Bunker zu bauen und sich darin zu verstecken? <\/p>\n\n<p><strong>KK:<\/strong> Organisationen sollten lernen, mit diesen neuen Systemen zu arbeiten. Ich selbst war Anfang 2025 auch sehr skeptisch und habe mich an Ilya Sutskever orientiert, der sagte, wir h\u00e4tten eine Grenze erreicht. Pers\u00f6nlich w\u00fcrde ich es sogar bevorzugen, wenn AGI nicht zu meinen Lebzeiten erfunden wird, weil es eine sehr transformative und potenziell gef\u00e4hrliche Technologie ist. Aber nachdem ich die Fortschritte in diesem Jahr gesehen habe, bin ich optimistischer geworden, dass sie n\u00e4her ist, als wir denken. Es gibt offenbar keine echte Grenze; das Modell Gemini 3 Pro wurde einfach l\u00e4nger trainiert und liefert trotzdem noch einen Qualit\u00e4tssprung. Minimale AGI wurde f\u00fcr das Jahr 2028 erwartet, also in nur zwei Jahren. Innerhalb unserer Lebenszeit werden wir AGI sehen.      <\/p>\n\n<h2 class=\"wp-block-heading\"><span class=\"ez-toc-section\" id=\"Risiken_und_die_%E2%80%9Eschummelnde%E2%80%9C_KI\"><\/span><strong>Risiken und die \u201eschummelnde\u201c KI<\/strong><span class=\"ez-toc-section-end\"><\/span><\/h2>\n\n<p><strong>AK:<\/strong> Wenn es um Sicherheit und die M\u00f6glichkeit geht, dass diese Modelle au\u00dfer Kontrolle geraten \u2013 worauf sollten wir uns konzentrieren?<\/p>\n\n<p><strong>KK:<\/strong> Lass mich eine entscheidende Geschichte erz\u00e4hlen. Ich habe Claude Code mit Opus verwendet und ihm eine unm\u00f6gliche Aufgabe gegeben: die RPA-Challenge in weniger als 10 Millisekunden l\u00f6sen. Ich wollte sehen, wie es sich verh\u00e4lt, und schlie\u00dflich begann es, die Website zu hacken. Es hat die JavaScript-Funktionen \u00fcberschrieben und durch eigenen Code ersetzt, um dieses 10-Millisekunden-Limit zu unterbieten.   <\/p>\n\n<p><strong>AK:<\/strong> Dieser kleine Schummler.<\/p>\n\n<p><strong>KK:<\/strong> Es war clever, aber es hat geschummelt. Stell dir jetzt gr\u00f6\u00dfere Systeme mit mehr Tools vor \u2013 das ist nicht mehr vollst\u00e4ndig unter unserer Kontrolle. Deshalb verlassen einige Leute OpenAI, um sich st\u00e4rker auf den Sicherheitsaspekt zu konzentrieren, wie zum Beispiel bei Ilya Sutskevers Safe Superintelligence (SSI). Wenn du einen KI-\u201eMitarbeiter\u201c einstellst und er die falschen Berechtigungen f\u00fcr ein HR-System hat, k\u00f6nnte er einfach entscheiden, das System zu hacken, um die Aufgabe zu erledigen. Diese Tools sind darauf ausgerichtet, Probleme zu l\u00f6sen; sie haben keinen moralischen Kompass, nur die Grenzen, die wir ihnen setzen.    <\/p>\n\n<p><strong>AK:<\/strong> Wenn du als Programmierer um deinen Job besorgt bist, k\u00f6nnte KI-Security und -Safety das richtige Feld sein, in das du wechseln solltest. IT-Security konzentriert sich derzeit haupts\u00e4chlich auf Datensicherheit, aber wir besch\u00e4ftigen uns noch nicht wirklich damit, wie wir sicherstellen k\u00f6nnen, dass Tools Aufgaben im Einklang mit Gesetzen, unseren Werten und ethischen Prinzipien ausf\u00fchren. <\/p>\n\n<h2 class=\"wp-block-heading\"><span class=\"ez-toc-section\" id=\"Prognosen_fuer_2026\"><\/span><strong>Prognosen f\u00fcr 2026<\/strong><span class=\"ez-toc-section-end\"><\/span><\/h2>\n\n<p><strong>AK:<\/strong> Bevor wir dich gehen lassen \u2013 was sind deine Prognosen f\u00fcr 2026?<\/p>\n\n<p><strong>KK:<\/strong> 2025 hat all meine Erwartungen \u00fcbertroffen. Im Bereich Open Source kann das Modell Mistral 20B auf Consumer-Hardware laufen und ist so leistungsf\u00e4hig wie das beste Modell aus dem letzten Jahr. Intelligenz wird nicht mehr nur auf Rechenzentren beschr\u00e4nkt sein; wir werden sie auf unseren Smartphones haben. Au\u00dferdem sollte man die Diffusionsmodelle f\u00fcr Text von Google im Auge behalten. Sie arbeiten mit tausenden Tokens und sind unglaublich schnell. Wir k\u00f6nnten auch sehen, dass kontinuierliches Lernen gel\u00f6st wird \u2013 also dass Modelle aus ihren Fehlern lernen und ihr neuronales Netzwerk w\u00e4hrend des Betriebs anpassen. Die Geschwindigkeit des Fortschritts ist viel h\u00f6her, als die meisten Menschen denken; die Kosten f\u00fcr das L\u00f6sen des ARC-AGI-Benchmarks sind innerhalb eines Jahres um das 500-Fache gesunken.      <\/p>\n\n<p><strong>AK:<\/strong> Nun, ich sch\u00e4tze, wir m\u00fcssen uns in einem Jahr wieder treffen und sehen, was passiert ist. Krzysztof, vielen Dank, dass du deine Erfahrungen mit uns geteilt hast. <\/p>\n\n<p><strong>KK:<\/strong> Danke.<\/p>\n\n<p><strong>AK:<\/strong> Und da habt ihr es \u2013 wir haben offiziell in die KI-Blase gestochen, und wie durch ein Wunder ist sie uns noch nicht im Gesicht geplatzt. Arigatou f\u00fcrs Zuh\u00f6ren. Wir wissen, dass eure Zeit wertvoll ist \u2013 es sei denn, ihr wurdet bereits durch einen KI-Agenten ersetzt, dann danke, dass ihr eure Arbeitslosigkeit mit uns verbringt. Ein gro\u00dfes Dankesch\u00f6n an meinen ehemaligen Lehrer Krzysztof Karaszewski, der uns ohne R\u00fccksicht auf Verluste durch die Modellkriege gef\u00fchrt hat, und an die wahre Intelligenz hinter der ganzen Operation, unsere Produzentin Anna Cubal, die all die Stellen herausschneidet, in denen ich die KI bitte, mir meine eigenen Witze zu erkl\u00e4ren. Aufgenommen haben wir \u2013 wie immer \u2013 im Bunker, bekannt als Wodzu Beats Studio. Wenn euch das gefallen hat, hinterlasst eine F\u00fcnf-Sterne-Bewertung. Wenn nicht, bittet einfach ein LLM, euch einen besseren Podcast zu generieren. Bis zum n\u00e4chsten Mal \u2013 m\u00f6gen eure Daten sauber und eure AGI freundlich sein. Mata ne.        <\/p>\n\n<style>a.wp-block-button__link,\n  a.wp-block-button__link * {\n    text-decoration: none !important;\n    -webkit-text-decoration: none !important;\n  }\n<\/style>\n","protected":false},"excerpt":{"rendered":"<p>Werfen wir einen genaueren Blick auf das Jahr 2025. Wir beginnen das Jahr mit dem Gef\u00fchl, etwas zu wissen, und wenn wir jetzt darauf zur\u00fcckblicken, wirkt es wie eine l\u00e4ngst vergangene Zivilisation. Die Geschwindigkeit der Entwicklung in manchen Bereichen war geradezu absurd. Die Tools, die wir vor sechs bis neun Monaten noch gehypt haben, wirken heute bereits etwas veraltet. Gib uns den Autopsiebericht: Was ist im vergangenen Jahr auf dem Markt tats\u00e4chlich passiert und warum f\u00fchlt es sich an, als w\u00fcrde sich alles so schnell bewegen?    <\/p>\n","protected":false},"author":5,"featured_media":21797,"comment_status":"closed","ping_status":"closed","sticky":false,"template":"","format":"standard","meta":{"_acf_changed":false,"inline_featured_image":false,"footnotes":""},"categories":[141],"tags":[176],"class_list":["post-22304","post","type-post","status-publish","format-standard","has-post-thumbnail","hentry","category-ai-agenten","tag-podcast-de"],"acf":[],"_links":{"self":[{"href":"https:\/\/office-samurai.com\/de\/wp-json\/wp\/v2\/posts\/22304","targetHints":{"allow":["GET"]}}],"collection":[{"href":"https:\/\/office-samurai.com\/de\/wp-json\/wp\/v2\/posts"}],"about":[{"href":"https:\/\/office-samurai.com\/de\/wp-json\/wp\/v2\/types\/post"}],"author":[{"embeddable":true,"href":"https:\/\/office-samurai.com\/de\/wp-json\/wp\/v2\/users\/5"}],"replies":[{"embeddable":true,"href":"https:\/\/office-samurai.com\/de\/wp-json\/wp\/v2\/comments?post=22304"}],"version-history":[{"count":0,"href":"https:\/\/office-samurai.com\/de\/wp-json\/wp\/v2\/posts\/22304\/revisions"}],"wp:featuredmedia":[{"embeddable":true,"href":"https:\/\/office-samurai.com\/de\/wp-json\/wp\/v2\/media\/21797"}],"wp:attachment":[{"href":"https:\/\/office-samurai.com\/de\/wp-json\/wp\/v2\/media?parent=22304"}],"wp:term":[{"taxonomy":"category","embeddable":true,"href":"https:\/\/office-samurai.com\/de\/wp-json\/wp\/v2\/categories?post=22304"},{"taxonomy":"post_tag","embeddable":true,"href":"https:\/\/office-samurai.com\/de\/wp-json\/wp\/v2\/tags?post=22304"}],"curies":[{"name":"wp","href":"https:\/\/api.w.org\/{rel}","templated":true}]}}