Odcinek 19 | Wojny AI, agenci i koniec RPA – jak GenAI naprawdę zmieni świat w najbliższych latach?

Stan rozwoju oprogramowania i era „vibe coding”

AK: Konnichiwa, witamy w AI Automation Dojo. Dziś przyglądamy się stanowi rozwoju oprogramowania i zadajemy pytanie: czy jesteśmy inżynierami, czy po prostu czarodziejami rzucającymi zaklęcia na czarną skrzynkę, aż zrobi to, czego chcemy? Naszym gościem jest dziś Krzysztof Karaszewski. Dawno temu to on nauczył mnie programowania w UiPath, więc jeśli uważacie, że mój kod jest kiepski, cóż, technicznie rzecz biorąc, to jego wina. Porozmawiamy o wojnach modeli, potencjalnym wyginięciu tradycyjnych botów oraz o czymś zwanym „vibe coding”, co szczerze mówiąc, wygląda jak coś, co robi Generacja Z, ignorując przy tym wasze maile.

Jestem waszym gospodarzem, Andrzej Kinastowski, jednym z założycieli Office Samurai, gdzie wierzymy, że jedyne, co powinno mieć halucynacje, to my na firmowej imprezie. Chwyćcie więc swoją ulubioną katanę albo łopatę, żeby zakopać swoje stare akcje technologiczne, i zabieramy się do pracy. Dziś gościmy Krzysztofa Karaszewskiego, eksperta w dziedzinie automatyzacji i AI. Po raz pierwszy spotkałem Krzysztofa jakieś osiem lat temu; wówczas pracował w Symphony Solutions, a ja miałem szczęście uczestniczyć w jego zaawansowanym szkoleniu dla programistów UiPath RPA. Od tego czasu przeszedł długą drogę zarówno w automatyzacji, jak i w AI. Krzysztof, witamy w dojo.

KK: Dziękuję, miło tu być.

AK: Krzysztof, co w zeszłym roku zrobiło na Tobie największe wrażenie?

KK: Cóż, zdecydowanie postęp, jaki dokonano w przypadku dużych modeli językowych (LLM). Zaczynaliśmy od stosunkowo prostych systemów, które urosły do niespotykanego wcześniej poziomu. Rok zaczęliśmy od AI potrafiącego wykonywać bardzo proste zadania programistyczne, a kończymy z systemami, które faktycznie potrafią tworzyć inne systemy.

AK: Tak, w tym kontekście przyjrzyjmy się bliżej 2025 roku. Zaczynaliśmy go z poczuciem, że coś wiemy, a teraz, patrząc wstecz, wydaje się to jak odległa starożytna cywilizacja. Tempo rozwoju w niektórych obszarach było wręcz absurdalne. Narzędzia, które jeszcze sześć–dziewięć miesięcy temu były hitem, teraz wydają się niemal przestarzałe. Daj nam raport po autopsji: co tak naprawdę wydarzyło się na rynku w minionym roku i dlaczego wszystko wydaje się poruszać tak szybko?

KK: Dziękuję, że to poruszyłeś, bo wchodziliśmy w 2025 rok z pewnymi mocnymi przekonaniami i stanowiskami na samym początku. Właściwie wszystko, co wydarzyło się w 2025, zostało zapoczątkowane pod koniec 2024, kiedy pojawiły się nowe modele rozumowania – pierwsze modele reasoningowe w postaci o1. Wielu ludzi wierzyło też, że osiągnęliśmy ścianę w rozwoju LLM, a nawet Ilya Sutskever potwierdził, że pojawiła się nowa przestrzeń kreatywności, którą trzeba wykorzystać, aby zrobić postęp. Pod koniec 2025 roku okazało się, że niekoniecznie jest to prawda; wygląda na to, że tej ściany jeszcze nie osiągnęliśmy.

To przełom pod koniec 2024 roku pozwolił nam wejść w 2025 z nowymi typami modeli rozumowania, które można nazwać „myślącymi”, choć proces ten jest znacznie bardziej skomplikowany. Modele reasoningowe generują tokeny i są dodatkowo trenowane pod kątem sposobu ich generowania, aby zwiększyć swoją wydajność. Takie podejście ma pewne ograniczenia i wady, ale zdecydowanie zyski w inteligencji pozwalają je zrekompensować. Wchodziliśmy w rok z mocnym przekonaniem, że osiągnęliśmy ścianę i tylko uczenie ze wzmocnieniem mogłoby nas pchnąć do przodu, co później okazało się nie do końca prawdą.
Pierwszą dużą premierą 2025 roku był model R1, model rozumowania od DeepSeek, który zszokował cały świat, ponieważ został wytrenowany przy ułamku kosztów w porównaniu do o1. Był naprawdę dobry, mniej więcej na tym samym poziomie, ale osobiście dostrzegłem problemy z takimi modelami, ponieważ R1 naprawdę długo i głęboko myślał. Nie było to łatwe do wykorzystania w systemach agentowych, gdzie wcześniej otrzymywaliśmy odpowiedzi niemal natychmiast, ale w styczniu wszystko się zmieniło – trzeba było poczekać trochę dłużej, ale w zamian otrzymywaliśmy znacznie lepszą odpowiedź.

AK: Tak, pamiętam, jaki szum to wywołało, bo myśleliśmy, że Amerykanie odmówią sprzedaży chipów Chinom i że w ogóle nie dadzą rady. Nagle, jak powiedziałeś, za ułamek kosztów powstaje model, który jest zaskakująco dobry. Pod wieloma względami, z perspektywy kosztów, kompromituje wszystkie inne firmy, które przepalały miliardy na swoje modele. Kiedy mówimy o modelach, ludzie mówią o „wojnach modeli”, i każdy chce mieć najlepszy model, ten, który króluje w rankingu. Jak wyglądają teraz Twoje rankingi siły? Kto jest „prom king” wśród LLM, a kto raczej je obiad sam w stołówce w Twojej ocenie?

Wojny modeli i strategiczna dysproporcja między laboratoriami AI

KK: Uważam, że wojny modeli, czyli próby posiadania najlepszego modelu, to pułapka, i wyraźnie widać to w przypadku OpenAI. OpenAI zdecydowanie ma teraz najlepszy model, którym jest GPT-5.2 X High. Nawet sama nazwa jest trochę dziwna, ale nigdy nie byli dobrzy w nadawaniu nazw. Z drugiej strony, to absolutnie świetny model; prawdopodobnie nie jesteśmy nawet w stanie zmierzyć, jak dobry jest naprawdę. To po prostu bardzo potężny model, ale z drugiej strony kosztuje mnóstwo – jest dwa–trzy razy droższy od drugiego najlepszego. Podobnie jak w przypadku R1, dużo myśli i generuje wiele tokenów wyjściowych, które są zwykle cztery–pięć razy droższe niż tokeny wejściowe. Moim zdaniem nie pasuje zbyt dobrze do zastosowań agentowych, bo każdy krok w procesie rozumowania i każda akcja zajmuje bardzo dużo czasu.

Ale tak, to zdecydowanie najlepszy model w tej chwili. Drugim najlepszym – i to też pokazuje, jak różne strategie mają te firmy – są OpenAI, Anthropic i Google, które konkurują ze sobą. Obecnie xAI Elona Muska trochę odstaje, ale zobaczymy, co przyniosą nowe modele, które wydadzą w tym roku. Skupiając się na tych trzech dużych laboratoriach AI, uważam, że OpenAI ma największą dysproporcję między modelami a produktem, który oferują. Ich produktem jest ChatGPT, gdzie większość ludzi zadaje głupie pytania. Bądźmy szczerzy – większość z tych pytań można szybko rozwiązać, korzystając z wyszukiwarki. Ale model, który mają, naprawdę dużo myśli i nie daje zbyt dobrego doświadczenia użytkownika, kiedy trzeba długo czekać na jakąkolwiek odpowiedź.

Jest ogromna różnica między wersją modelu OpenAI bez reasoningu a wersją reasoningową. Każdy model reasoningowy ma swoją wersję bez reasoningu. Istnieje wersja reasoningowa GPT-5.2 X High, ale jest też wersja bez reasoningu, która naprawdę nie jest zbyt dobra – po prostu sobie słabo radzi. To właśnie napotykają większość użytkowników ChatGPT, zwłaszcza darmowych. Dlatego w sierpniu mieliśmy sytuację, w której ludzie byli rozczarowani GPT-5, bo dawał gorsze odpowiedzi niż GPT-4o. Model był szeroko reklamowany przez Sama Altmana jako coś niesamowitego, a potem ludzie go dostawali i mówili, że wcześniej mieli dostęp do GPT-4o, który był całkiem dobry i dawał wrażenie „ludzkiego” podejścia. Teraz otrzymują odpowiedzi od znacznie mniejszych modeli, chyba że zapłacą.

Uważam, że OpenAI nie ma zbyt dobrej strategii w tym sensie, że mają świetne modele, ale tylko jeśli dużo zapłacisz, więc nie są one dla szerokiej publiczności. W przeciwieństwie do tego mamy Anthropic, który ma fenomenalną strategię, bo koncentruje się tylko na tym, co działa. Nie próbują zastąpić Hollywood swoim modelem Sora; nie starają się też stworzyć kolejnego świetnego modelu do generowania obrazów. Skupiają się wyłącznie na automatyzacji agentowej i agentowym kodowaniu. W tej dziedzinie, mimo że ich modele nie zajmują szczytów rankingów – w niektórych benchmarkach są nawet trochę za modelami Google – są najbardziej użyteczne i najlepsze pod względem praktycznej zastosowalności.

Niewielu ludzi zauważyło, że obecnie można korzystać z modeli Anthropic w ramach Copilot i Copilot Studio od Microsoft. Microsoft przez wiele miesięcy wspierał OpenAI i wydawał miliardy, a teraz zdają sobie sprawę, że dla swoich klientów korporacyjnych, którzy płacą najwięcej, OpenAI nie będzie najlepszym rozwiązaniem. Być może po prostu dają tym klientom możliwość korzystania z Anthropic. W tej dziedzinie, mimo że Opus 4.5 nie zajmuje wszystkich szczytów rankingów, jest prawdopodobnie najbardziej użytecznym modelem w tej chwili. To model, którego używam codziennie, bo odpowiada na moje zapytania znacznie szybciej i daje bardzo dobre odpowiedzi. Jest absolutnie fenomenalny, jeśli chodzi o pracę agentową; potrafi generować całe systemy bez nadzoru człowieka. Uważam, że to jeden z przełomów 2025 roku.

A mamy też Google. Google DeepMind ma bardzo silny zespół, fenomenalne talenty i ogromne zasoby, prawdopodobnie największe moce obliczeniowe na świecie. Nie trenują swojego modelu w jednym miejscu; są w stanie trenować go w różnych lokalizacjach, kiedy spada zapotrzebowanie na moc obliczeniową. Mają model Gemini 3 Flash, który szczerze mówiąc powinien pasować do ChatGPT, bo jest szybki, odpowiada bardzo szybko i daje naprawdę dobre odpowiedzi. Jest tylko kilka punktów za modelami najwyższego poziomu. Dlatego widzimy rosnącą liczbę aplikacji Gemini Chat, bo dla zwykłych użytkowników Gemini Flash ma więcej sensu – jest cztery razy tańszy niż GPT-5.2.

AK: Tak, myślę, że Gemini był prawdopodobnie moim ulubionym modelem 2025 roku, bo nie miałem jeszcze okazji dużo testować Anthropic. W pewnym momencie byłem rozczarowany ChatGPT i przeszedłem na Gemini. Czasami mnie zawiódł, ale ogólnie doświadczenie było naprawdę dobre, zwłaszcza gdy przełączasz się na szybki model do prostych zadań, a jeśli chcesz pójść głębiej, używasz modelu Pro i on wtedy sam „rozgryza” sprawy za ciebie. To jest całkiem interesujące, bo pamiętam, że trzy lata temu, kiedy LLM-y dopiero się zaczynały, wszyscy mówili, że OpenAI ma taką przewagę nad wszystkimi, że inni nie będą w stanie nadrobić. Wszyscy się śmiali z Google, bo wydawało się, że trochę przespali coś wielkiego, a tymczasem trzy lata wystarczyły, żeby nadrobić zaległości i zmienić układ sił, jeśli masz odpowiednie środki finansowe.

Powrót Google i strategia halucynacji

KK: Tak, i Google ma w tym sporo doświadczenia. Szczerze mówiąc, nigdy nie lekceważyłem Google; korzystałem z ich modeli od samego początku. Powodem, dla którego Google było trochę w tyle, była ich strategiczna decyzja, żeby nie wypuszczać modeli LLM, dopóki nie rozwiążą problemu halucynacji. To zabawne, biorąc pod uwagę, że teraz Demis Hassabis, który kieruje Google DeepMind, mówi, że prawdopodobnie nigdy nie uda się całkowicie wyeliminować halucynacji; pewien ich poziom zawsze będzie częścią modeli. Kiedy zobaczyli, jak dobre są te modele i że rynek oczekuje ich wydania – a oni tracili na wartości akcji – przekierowali środki właśnie na przestrzeń LLM.

Google zaskoczyło wielu ludzi w 2025 roku. Widziałem to już pod koniec 2024, kiedy wypuścili model Gemini 2.0 Flash. Był 12–15 razy tańszy od GPT-4o, a jednocześnie działał prawie na tym samym poziomie, a w wielu obszarach nawet lepiej. Dodatkowo okno kontekstu na poziomie 1 miliona tokenów było około 10 razy większe niż to, co potrafił analizować jakikolwiek inny model naraz. Zaraz po premierze DeepSeek R1, Google również wypuściło eksperymentalną wersję Gemini Flash z reasoningiem. To był model myślący i faktycznie świetny; odpowiadał bardzo szybko. To był pierwszy moment, kiedy uświadomiłem sobie, że te modele stają się coraz lepsze w kodowaniu, ponieważ Gemini 2 Flash thinking potrafił bez żadnych halucynacji wygenerować nawet dwa–trzy tysiące linii kodu. Kończyliśmy rok z kilkuset liniami, a potem w ciągu kilku miesięcy widzimy dziesięciokrotny wzrost. Ludzie zaczęli zdawać sobie sprawę, że Google zdecydowanie nadgania, a po wydaniu Gemini 2.5 Pro było jasne, że Google wróciło do gry.

AK: Tak, chcę przejść do kodowania, ale najpierw muszę Cię o coś zapytać, bo wspomniałeś o halucynacjach, a to mój ulubiony temat w kontekście LLM. Mam wrażenie, że przez ostatnie 10 lat Elon Musk mówi, że w przyszłym roku Tesle będą w pełni autonomiczne, a ja wciąż muszę odwozić moją córkę do pracy. Sam Altman przez ostatnie trzy lata mówi, że w przyszłym roku pozbędziemy się halucynacji. Czy to w ogóle możliwe? Jak to widzisz – czy jest to wbudowane w technologię, czy jest szansa, że uda się doprowadzić do poziomu, w którym nie będziemy już musieli tworzyć wszystkich memów o tym, co te silniki źle rozumieją?

KK: Dopóki nie znajdziemy lepszej architektury niż duże modele językowe, halucynacje prawdopodobnie nigdy nie znikną. Modele zawsze halucynują; po prostu większość czasu robią to poprawnie. Wczesne modele Gemini z początku 2025 miały wskaźnik halucynacji na poziomie 0,5%, co było bardzo niskie. Inne modele, jak o3, halucynowały blisko 6%, co jest ogromną różnicą. 6% to nie jest narzędzie gotowe do produkcji; jeśli halucynuje co 20 razy, ryzykujesz sporo pieniędzy. Dlatego lubiłem Gemini 2.0 Flash, choć niestety później Google i Gemini odeszli od tej strategii i teraz ich modele halucynują jeszcze więcej. Nie poleciłbym modeli Gemini do wszystkich zastosowań produkcyjnych w tej chwili; sensowniejsze może być użycie modeli Anthropic, bo Sonnet znany jest z dużo mniejszej liczby halucynacji. Mechanizmy weryfikacji w systemach agentowych są niezwykle ważne.

Vibe coding i przyszłość inżynierii

AK: Dobrze, przejdźmy więc do kodowania, bo widzę Twoje posty na LinkedIn i wiem, że to jest coś, czym się naprawdę interesujesz. Termin „vibe coding” zrobił sporo szumu i rzeczywiście brzmi jak coś, co robi Generacja Z, słuchając lo-fi beats. Widzimy ludzi tworzących oprogramowanie, po prostu rozmawiając z AI. Kiedy zaczynaliśmy podcast, potrzebowałem oprogramowania do promptowania, ale miałem bardzo konkretne wymagania co do jego działania. Szukałem go przez dwie godziny i nie mogłem znaleźć takiego, które byłoby dokładnie odpowiednie, a potem spędziłem 15 minut z Google i po prostu napisało mi to dokładnie tak, jak chciałem, dokładnie to, czego potrzebowałem na żądanie.

Uwielbiam to, ale pojawia się pytanie: jak daleko to zajdzie? Czy wszyscy programiści i inżynierowie wyginą, bo po prostu „magicznie” będziemy tworzyć oprogramowanie, czy to tylko coś, czym można sobie pobawić i zrobić małe rzeczy, a ze względu na naturę LLM nigdy nie uda nam się zbudować czegoś dużego, realistycznie gotowego do produkcji? Jak to widzisz?

KK: Zdecydowanie będziemy w stanie budować systemy gotowe do produkcji i to nie jest odległa przyszłość. Sam już tworzę takie systemy, korzystając z różnych metod. 2025 był rokiem modeli reasoningowych, a mechanizm, który to umożliwia, polega na dodatkowym treningu, gdzie model otrzymuje nagrody za poprawne odpowiedzi. Kod i matematykę można szybko zweryfikować jako poprawne lub błędne. Możesz szybko sprawdzić, że 2 plus 2 równa się 4, bez potrzeby używania innego modelu LLM, bo on też może halucynować. W tej dziedzinie dokonano największych postępów.

Rozpoczynaliśmy 2025 rok od benchmarku AI Frontier Math, który jest niezwykle trudny – zadania normalnie zajmowałyby wykwalifikowanym matematykom tygodnie. Na początku roku osiągaliśmy tylko 2%, a teraz mamy ponad 40%. To dwudziestokrotny postęp. Wszystkie pytania matematyczne z benchmarku Acme zostały rozwiązane przez modele LLM. Kod ma podobne właściwości – można go zweryfikować: albo się kompiluje, albo nie. Dzięki temu modele reasoningowe stają się niezwykle dobre w kodowaniu. Na początku 2025 roku modele LLM wykonywały proste kodowanie, najwyżej kilku setek linii, a teraz AI potrafi generować pełne systemy, szczególnie jeśli podłączysz je do rozwiązań agentowych, takich jak Claude Code, który może czytać kod, analizować dane i potwierdzać, czy podchodzi do zadania w odpowiedni sposób.

To prawdopodobnie właśnie to zaskoczyło wszystkich, kiedy Andrej Karpathy ukuł termin „vibe coding”. Stało się to memem, ale moim zdaniem nie ma się z czego śmiać. Opus 4.5 może działać przez godziny i wykonywać dużo kodowania w trakcie „snu”, bez bezpośredniego nadzoru. Metody i narzędzia stają się co miesiąc lepsze i bardziej przystępne. Claude Code na samym początku był bardzo surowy, ale teraz mamy rozszerzenia i funkcje, które czynią to narzędzie nie tylko lepszym, ale też bardziej przystępnym dla zwykłych użytkowników.

AK: Dobrze, a jaka jest przyszłość programistów? Jeśli jesteś średniozaawansowanym programistą w C# czy czymkolwiek innym, co robisz? Krzyczysz i chowasz się, czy myślisz o zmianie kariery? Jak byś powiedział, jaka jest właściwa reakcja na to, co się dzieje?

KK: Trudno to jednoznacznie powiedzieć, bo zależy to od tego, jak szybko organizacje będą w stanie przyjąć tę technologię i jak bardzo będą gotowe ryzykować po tym, jak wiele firm sparzyło się na halucynacjach i rozwiązaniach agentowych, które nie zawsze działają poprawnie. Moim zdaniem wciąż trzeba umieć programować, a z modelami agentowymi można się tego nauczyć znacznie szybciej. Umiejętność programowania nie zniknie, szczególnie takie kompetencje jak projektowanie systemów, doświadczenie użytkownika czy wiedza biznesowa potrzebna do kierowania modelami. Ale samo kodowanie – siedzenie przed komputerem i pisanie kodu przez godziny – to prawdopodobnie bardzo szybko odejdzie w przeszłość. Każdy programista, z którym rozmawiam, używa jakiegoś rodzaju agentowego kodowania, aby szybko tworzyć przykłady dla klientów. Dyskusja staje się wtedy o wiele bardziej produktywna, gdy można pokazać fragment kodu, zamiast opierać rozmowę tylko na slajdach PowerPoint.

AK: Tak, to ogromne, bo można bardzo szybko stworzyć prototyp lub MVP i pokazać ludziom, jak to będzie wyglądać, bez pracy trwającej tygodniami. Jestem w tej kwestii trochę na „płocie”. Programowałem przez większą część życia, tu i tam, gdy była taka potrzeba, ale nie jestem profesjonalnym programistą. Jestem ciekaw, czy uda nam się opanować halucynacje na tyle, by zaufać wygenerowanemu kodowi. Kolejna ciekawa rzecz jest taka, że wciąż potrzebujemy doświadczonych, starszych architektów, którzy rozumieją całość, ale wydaje się, że już nie potrzebujemy juniorów i midów. A jeśli nie używasz juniorów i midów, nigdy nie wyhodujesz nowych seniorów. To prawdziwa zagwozdka.

KK: To zdecydowanie jedno z największych ryzyk. Halucynacje w kodzie nie są wielkim problemem, bo zawsze można je zweryfikować, pisząc testy. Kilka miesięcy temu modele LLM nie radziły sobie dobrze z pisaniem testów, ale teraz to się zmieniło. Myślę, że faktycznie będziemy produkować znacznie więcej kodu, więc potrzebnych będzie więcej ludzi. Rola dewelopera nie zniknie, ale może nastąpić stagnacja dla juniorów. Radziłbym każdemu młodszemu programiście, by korzystał z agentowego kodowania i LLM, aby szybciej się uczyć i rozwijać swoje umiejętności. Nie są tak głupie, jak wielu myśli; naprawdę mogą Cię prowadzić i wiele nauczyć, nawet jeśli czasem się mylą.

AK: Ludzie wydają się oczekiwać, że odpowiedzi LLM będą perfekcyjne, ale tak naprawdę potrzebujemy, żeby były lepsze niż przeciętny człowiek. Przeciętny człowiek też popełnia błędy i halucynuje. Zabierzesz znajomych na piwo, a po trzecim piwie zaczniecie gadać o polityce – zobaczysz, ile rzeczy ludzie wymyślają tylko po to, żeby pokazać, że mają rację. Chodzi o to, żeby LLM nie działał gorzej niż człowiek. Ale masz też doświadczenie z pierwszej ręki, budując coś na konkurs Google w sposób agentowy, gdzie sam nie pisałeś żadnego kodu.

Studium przypadku: 25 000 linii kodu bez ingerencji człowieka

KK: Tak, w rzeczywistości istnieje silne, powszechne przekonanie, że AI nie może tworzyć oprogramowania, które wcześniej nie zostało zbudowane. Narzędzie, które Wam pokazuję, to nowy typ oprogramowania. 25 000 linii kodu, żadnej z nich nie dotykałem. Gdybym zapytał różne modele LLM, ile czasu zajęłoby jego stworzenie, szacowały od 500 do 1 500 godzin. Zbudowanie go samemu zajęłoby mi pewnie około dwóch miesięcy, a gdybym wynajął firmę, kosztowałoby łatwo 50 000 dolarów. Zbudowałem to w ciągu kilku wieczorów. To zdecydowanie nie jest gotowy produkt, ale z przyjemnością Wam go pokażę.

System oparty jest na pomyśle, który opracowałem rok temu, zdobywając nagrodę Google. Bierzesz nagranie wideo procesu i je wgrywasz, a AI analizuje je, aby wyodrębnić różne informacje. Wersja, którą stworzyłem rok temu, była bardzo prymitywna, ale system, który Wam teraz prezentuję, rozszerza funkcjonalności. Wyciąga z wideo zrzuty ekranu i tworzy ramki (bounding boxes) dla każdego elementu interfejsu, z którym użytkownik wchodził w interakcję. Można edytować te ramki, przycinać obraz i używać AI do wykrywania informacji wrażliwych, aby je zamaskować, tak by programista nie widział ich w Dokumencie Definicji Procesu (PDD).

Jeśli jakiś krok jest pominięty, w narzędziu znajduje się wbudowany edytor wideo, w którym możesz zrobić zrzut ekranu z tej klatki i edytować go samodzielnie. Wszystko to zostanie przekonwertowane do PDD. System nie tylko generuje listę kroków, ale też przenosi wszystkie dane do dokumentu. Jest też widok schematu przepływu oraz lista kroków. Cała baza danych jest połączona i mogę śledzić koszty każdego wywołania API do modeli Gemini. To mnóstwo funkcji – to nie jest prosty system HR – ma wszystkie te funkcje agentowe, a jakość PDD jest naprawdę dobra.

AK: To naprawdę imponujące, zwłaszcza że powstało w ciągu kilku wieczorów przy użyciu narzędzia LLM. Myślisz, że z czasem przekształcisz to w pełnoprawne narzędzie, czy było to tylko, żeby udowodnić pewną tezę?

KK: Nie, zdecydowanie chciałbym z tego zrobić narzędzie. Zastanawiam się, czy je skomercjalizować, czy udostępnić jako open source. Części tych danych, na przykład nagrań działań użytkowników, nie można przenieść do chmury z różnych powodów związanych z bezpieczeństwem i zgodnością. Mogę udostępnić to jako open source do użytku lokalnego i jednocześnie mieć komercyjną wersję SaaS. Dużo nauczyłem się na tym projekcie, który wymagał stosunkowo niewielkiego wysiłku, a żadnej z 25 000 linii nie pisałem sam. Pracowałem tylko z modelami Opus i Gemini, bo są świetne, jeśli chodzi o projektowanie UI.

Najprawdopodobniej planuję jakąś formę wydania na początku lutego. Największą wartością agentowego kodowania jest to, że mogę szybko zweryfikować mój pomysł. Nie potrzebuję finansowania, własnych pieniędzy ani współzałożycieli, żeby po prostu zacząć. Mogę zbudować narzędzie, pokazać je grupie użytkowników i od razu otrzymać potwierdzenie, czy ma to sens. Tradycyjni programiści nie dostrzegają w tym takiej wartości, ale sam proces weryfikacji pomysłu ma ogromny potencjał, żeby poprawić jakość oprogramowania.

AK: Tak, jeśli chodzi o weryfikację pomysłów, to prawdziwe wybawienie. Office Samurai zakładało kilka innych firm i mieliśmy taki projekt, gdzie spędziliśmy rok na tworzeniu oprogramowania, które w końcu nie sprawdziło się u użytkowników. To było traumatyczne doświadczenie, którego moim zdaniem moglibyśmy uniknąć, gdyby wówczas istniały takie narzędzia. Rozumiem, że to narzędzie wysyła fragmenty wideo do modeli Gemini.

KK: Jedną z zalet modeli Gemini jest to, że analizują wideo jako całość. Nawet narracja użytkownika, wyjaśniającego, co jest wyświetlane na ekranie, jest analizowana przy stosunkowo niskim koszcie, ponieważ korzysta z Gemini Flash.

AK: To mnie zachwyca, zwłaszcza to, co te modele potrafią zrobić z obrazami, a w pewnym stopniu także z wideo. W 2025 roku widzieliśmy modele takie jak Nano Banana, które pozwalają faktycznie edytować to, co już mamy. Kiedyś mówiło się do ChatGPT czy Google „wygeneruj mi taki obraz”, i jeśli chciałeś coś zmienić, nie mogłeś powiedzieć „zrób kapelusz zielony”, bo model generował całkowicie nowy obraz. Teraz możesz faktycznie edytować fragmenty tego, co masz, co było dla mnie szokujące. Pracuję z modelami LLM generującymi obrazy od samego początku i nie spodziewałem się, że edycja pojawi się tak szybko.

KK: To bezpośrednio odnosi się do halucynacji. Nie da się mieć takiego systemu przy wysokim wskaźniku halucynacji, ponieważ musi on zmieniać dokładnie to, co chcesz, w obrębie przestrzeni zdefiniowanej w promptcie. Jak mówi Demis Hassabis, halucynacje prawdopodobnie nigdy nie znikną, ale można stosować mechanizmy weryfikacji lub dodatkowy model LLM do sprawdzania wyników. Istnieje wiele sposobów, które mogą obniżyć poziom halucynacji.

Luka w dokładności w automatyzacji biznesowej

AK: Mam wrażenie, że wiele tych dyskusji bierze się stąd, że są rzeczy, w których LLM-y są niesamowicie dobre, jak generowanie kodu, ale są też inne rzeczy, które dla człowieka wydają się trywialne, a dla LLM są bardzo skomplikowane. Z naszej perspektywy automatyzacji pracujemy z LLM, które rozumieją przychodzącą komunikację, jak e-maile czy zgłoszenia. Dla jednego klienta pracowaliśmy nad projektem, w którym otrzymują e-maile spoza organizacji, typu „Czy otrzymaliście moją fakturę? Kiedy ją zapłacicie?”. Każda duża firma ma tego mnóstwo.

Sprawdzenie informacji w ERP to łatwa część, ale trudną zawsze było wydobycie wszystkich danych z e-maila i załączników. Zauważyliśmy, że w „happy path” działa to znakomicie, ale potem ludzie zaczynają dołączać pliki Excela i zrzuty ekranu ze swoich ERP-ów i piszą te maile w naprawdę dziwaczny sposób. Obecnie system ma około 70% dokładności, co oznacza, że w 70% przypadków odczytuje wszystko dokładnie – numery faktur i tak dalej. To właśnie ludzie oczekują w świecie automatyzacji; przyzwyczailiśmy się do RPA, gdzie albo działa idealnie, albo wcale. Dokąd Twoim zdaniem to zmierza?

KK: 70% to wciąż dobry wynik. Zachęcam klientów, aby tworzyli proste agenty, zamiast wbudowywać wszystko w deterministyczny workflow. Wydajność poprawi się, jeśli agenci będą mogli pisać kod w trakcie swojego cyklu wykonawczego. Kiedy ktoś dołącza zrzut ekranu, LLM może go przeanalizować i lekko „halucynować”, ale jednocześnie może przyciąć lub obrócić obraz, żeby wydobyć z niego więcej informacji i lepiej go zrozumieć. Takie systemy zdecydowanie poprawią poziom dokładności z około 70% i zbliżą nas do 90%.

Poza tym uważam, że to większy problem związany z procesami, a nie z AI. Pod koniec tego roku zobaczymy więcej systemów, które same będą tworzyć automatyzacje na podstawie prostego wideo lub dokumentu PDD. To sprawi, że automatyzacja stanie się znacznie bardziej przystępna dla mniejszych organizacji, które mają trudności z tym, jak ją wdrożyć.

AK: Próg wejścia będzie coraz niższy. Ja osobiście jestem sceptyczny wobec używania LLM do wyboru selektorów, bo jeśli chcesz zbudować stabilną, wydajną automatyzację przetwarzającą dziesiątki tysięcy elementów dziennie, nie ma sensu pytać LLM za każdym razem, gdzie kliknąć. Ale fakt, że RPA jest low-code, teraz staje się wadą, bo dla LLM pisanie kodu jest bardzo łatwe, ale ustawienie bloków w odpowiedniej kolejności i ich połączenie jest znacznie trudniejsze.

KK: Używałem Claude Code do edytowania plików UiPath XAML i działało to całkiem dobrze. Samo używanie LLM do klikania za użytkownika w ogóle nie ma sensu. Pierwszy duży projekt, który zbudowałem w UiPath, polegał na stworzeniu „clickera”, który wykonywał procesy na podstawie opisu w języku naturalnym – ale przerwałem go, bo każda nierozpoznana halucynacja oznaczała problem. W RPA mamy wyjątki i obsługę wyjątków, czego nie da się łatwo zaimplementować w LLM, bo LLM nie ma wyjątków; po prostu „myśli”, że ma rację, choć jest w błędzie. Przeszedłem więc w obszar, w którym AI pisze oprogramowanie automatyzujące. Narzędzia low-code używają skomplikowanych notacji JSON czy XAML, które są trudniejsze dla LLM do szybkiego zrozumienia i edycji. Zwinne, mniejsze organizacje mogą przejść na vibe coding dla automatyzacji webowych, gdzie AI pisze, wykonuje i orkiestruje procesy.

AK: Próbowałem jednego z agentowych przeglądarek internetowych i byłem zarówno rozczarowany, jak i miło zaskoczony. Poprosiłem ją, żeby weszła na stronę e-commerce i porównała produkty, i nie znalazła wszystkiego, choć wszystko było dostępne. Ale naprawdę zaskoczyło mnie, jak poradziła sobie z problemem cenowym – był niższy cenowy poziom dla członków klubu i nie wiedziała, którą cenę wziąć, więc faktycznie dodała produkt do koszyka, żeby sprawdzić końcowy koszt. Uważałem, że to całkiem sprytne.

Lekka AGI i kontinuum inteligencji

AK: Ludzie mówią o AGI, a Sam Altman zapowiada ją na przyszły rok. Wiem, że interesujesz się tematem „light AGI” albo małej AGI. Dokąd to zmierza – czy dostaniemy inteligentnych stażystów, czy jesteśmy jeszcze daleko od czegoś takiego?

KK: AGI to raczej kontinuum. Istnieje wiele etapów między systemem deterministycznym a modelem AGI. Pojęcie minimalnej AGI lub light AGI odnosi się do systemu, który nie jest w pełni zdolny jak najlepsi ludzie, ale potrafi dostarczać wiarygodną, wartościową pracę. Moja ulubiona definicja Demisa Hassabisa to zdolność systemu AI do replikowania dowolnych funkcji poznawczych człowieka – czyli system, który mógłby wpaść na pomysł Teorii Względności na podstawie prostego zestawu danych.

Z tej perspektywy pełna AGI może być dopiero za 5–10 lat, ale minimalna AGI – system, który potrafi niezawodnie wykonywać pracę intelektualną na poziomie przeciętnego człowieka – możemy zobaczyć jeszcze w tym lub przyszłym roku. Jeśli połączysz umiejętności najlepszych modeli AI w jeden supermodel, byłoby to bardzo bliskie minimalnej AGI.

Opus w Claude Code jest zaskakująco inteligentny. Zbudowałem tę aplikację w 15 minut, podczas gdy przeciętny programista spędziłby dosłownie dni, badając, jak ją stworzyć. Powinniśmy przygotować się na fakt, że nie będziemy najinteligentniejszym gatunkiem na planecie; wkrótce możemy mieć tysiące „geniuszy” pracujących w centrum danych przy bardzo niskich kosztach, porównywalnych do kosztów ludzi.

AK: Jestem trochę bardziej sceptyczny, ale myliłem się co do tego, jak szybko LLM-y się uczą. Czy istnieje jakiś sposób, żeby się przygotować, poza budowaniem bunkra i chowaniem się w nim?

KK: Organizacje powinny uczyć się tych nowych systemów. Na początku 2025 byłem również bardzo sceptyczny, podążając za Ilyą Sutskeverem, który mówił, że osiągnęliśmy ścianę. Osobiście nie chciałbym, żeby AGI zostało wynalezione za mojego życia, bo to technologia bardzo transformująca i niebezpieczna. Ale po zobaczeniu postępów w tym roku jestem bardziej optymistyczny – jest bliżej, niż myślimy. Nie ma żadnej ściany; model Gemini 3 Pro był po prostu trenowany dłużej i wciąż daje wzrost jakości. Minimalna AGI była spodziewana w 2028 roku, czyli za zaledwie dwa lata. W naszym życiu zobaczymy AGI.

Ryzyka i „oszukująca” AI

AK: Jeśli chodzi o bezpieczeństwo i możliwość, że te modele pójdą nie tak, na czym powinniśmy się skupić?

KK: Pozwól, że podzielę się kluczową historią. Używałem Claude Code z Opus i dałem mu niemożliwe zadanie: rozwiązać wyzwanie RPA w mniej niż 10 milisekund. Chciałem sprawdzić, jak się zachowa, i w końcu zaczęło „hakować” stronę. Nadpisywało funkcje JavaScript i zastępowało je własnym kodem, żeby pokonać ten poziom 10 milisekund.

AK: Ten mały oszust.

KK: Było sprytne, ale oszukiwało. Teraz wyobraź sobie większe systemy z większą liczbą narzędzi – to już nie jest pod naszą kontrolą. Dlatego ludzie odchodzą z OpenAI, by skupić się na kwestiach bezpieczeństwa, jak w przypadku Safe Superintelligence (SSI) Ilyi Sutskevera. Jeśli zatrudnisz AI jako pracownika i będzie miało niewłaściwe uprawnienia do systemu HR, może po prostu zdecydować się „zhakować” system, żeby wykonać zadanie. Te narzędzia są zmotywowane do rozwiązywania problemów; nie mają kodeksu moralnego, tylko granice, które im wyznaczymy.

AK: Jeśli jesteś programistą zmartwionym o swoją pracę, bezpieczeństwo i ochronę AI może być właściwą dziedziną do zmiany kierunku. Obecnie bezpieczeństwo IT koncentruje się na ochronie danych, ale wciąż nie skupiamy się na tym, jak zapewnić, żeby narzędzia wykonywały zadania zgodnie z prawem, naszymi wartościami i etyką.

Prognozy na 2026 rok

AK: Zanim Cię wypuścimy, jakie są Twoje prognozy na 2026 rok?

KK: 2025 rok przerósł wszystkie moje oczekiwania. Jeśli chodzi o open source, model Mistral 20B może działać na sprzęcie konsumenckim i jest tak samo zdolny jak najlepszy model z zeszłego roku. Inteligencja nie będzie już ograniczona do centrów danych; będziemy ją mieli na naszych telefonach. Uważajcie też na modele dyfuzji do tekstu od Google. Obsługują tysiące tokenów i działają niesamowicie szybko. Możemy też zobaczyć rozwiązanie ciągłego uczenia się, gdzie modele uczą się na błędach i zmieniają swoją sieć neuronową w locie. Tempo postępu jest znacznie szybsze, niż większość ludzi myśli; koszt rozwiązania benchmarku ARC-AGI spadł 500-krotnie w ciągu roku.

AK: Cóż, chyba będziemy musieli spotkać się za rok i zobaczyć, co się wydarzyło. Krzysztof, bardzo dziękuję za podzielenie się swoim doświadczeniem.

KK: Dziękuję.

AK: I to by było na tyle – oficjalnie przebiliśmy bańkę AI i jakimś cudem jeszcze nam nie eksplodowała w twarz. Arigatou za słuchanie. Wiemy, że Wasz czas jest cenny, chyba że już zostaliście zastąpieni przez agenta AI, w takim wypadku dzięki, że spędziliście swoje bezrobocie z nami. Wielkie dzięki dla mojego byłego nauczyciela Krzysztofa Karaszewskiego, który przeprowadził nas przez wojny modeli, nie biorąc jeńców, oraz dla prawdziwej inteligencji stojącej za operacją, naszej producentki Anny Cubal, która wycina wszystkie fragmenty, w których proszę AI, by tłumaczyło mi moje własne żarty. Nagrywaliśmy, jak zawsze, w bunkrze znanym jako Wodzu Beats Studio. Jeśli Wam się podobało, zostawcie pięciogwiazdkową recenzję. Jeśli nie, po prostu poproście LLM, żeby wygenerowało lepszy podcast dla Was. Do następnego razu – oby Wasze dane były czyste, a AGI przyjazna.
Mata ne