19 epizodas | DI karai, agentai ir RPA pabaiga – kaip GenAI iš tikrųjų pakeis pasaulį artimiausiais metais?

Programinės įrangos kūrimo būklė ir „vibe coding“ era

AK: Konnichiwa, sveiki atvykę į AI Automation Dojo. Šiandien kalbėsime apie programinės įrangos kūrimo būklę ir užduosime klausimą: ar mes esame inžinieriai, ar tiesiog burtininkai, šaukiantys užkeikimus į juodąją dėžę, kol ji padaro tai, ko norime?
Šiandien mūsų svečias – Krzysztof Karaszewski. Labai seniai jis iš tikrųjų mokė mane UiPath kūrimo, todėl jei manote, kad mano kodas prastas, na, techniškai tai jo kaltė.
Kalbėsime apie modelių karus, galimą tradicinių botų išnykimą ir apie tai, kas vadinama vibe coding, kas, tiesą sakant, skamba kaip kažkas, ką daro Gen Z, ignoruodami jūsų el. laiškus.

Jūsų vedėjas – Andrzej Kinastowski, vienas iš Office Samurai, įkūrėjų, kur tikime, kad vieninteliai, kurie turėtų haliucinuoti, esame mes per įmonės vakarėlį. Tad pasiimkite savo mėgstamą kataną arba kastuvą senoms technologijų akcijoms užkasti ir pradėkime.
Šiandien su mumis – Krzysztof Karaszewski, automatizavimo ir dirbtinio intelekto ekspertas. Pirmą kartą Krzysztof sutikau maždaug prieš aštuonerius metus – tuo metu jis dirbo Symphony Solutions, o man pasisekė dalyvauti jo pažengusiųjų UiPath RPA kūrėjų mokymuose. Nuo tada jis nuėjo ilgą kelią tiek automatizavimo, tiek dirbtinio intelekto srityse.
Krzysztof, sveikas atvykęs į dojo.

KK: Ačiū, kad pakvietėte.

AK: Krzysztof, kas per pastaruosius metus tau pasirodė labiausiai pribloškiantis dalykas?

KK: Na, tikrai pažanga, padaryta LLM srityje. Pradėjome nuo palyginti paprastų sistemų, kurios išaugo iki precedento neturinčio masto. Metus pradėjome su DI, kuris galėjo atlikti labai paprastą programavimą, o metus baigėme turėdami sistemas, kurios jau gali kurti kitas sistemas.

AK: Taip, kalbant apie tai, pažvelkime giliau į 2025 metus. Metų pradžioje atrodė, kad kažką suprantame, o dabar, atsigręžus atgal, tai jau primena senovės civilizaciją. Kai kuriose srityse vystymosi greitis buvo tiesiog absurdiškas. Įrankiai, kuriuos prieš šešis–devynis mėnesius taip išaukštinome, dabar jau atrodo beveik pasenę. Pateik savotišką skrodimo ataskaitą: kas iš tikrųjų įvyko rinkoje per pastaruosius metus ir kodėl atrodo, kad viskas juda taip greitai?

KK: Dėkoju, kad tai paminėjai, nes į 2025 metus įžengėme turėdami tam tikrų tvirtų įsitikinimų ir aiškių teiginių. Iš tikrųjų viskas, kas įvyko 2025-aisiais, buvo paruošta dar labai vėlai 2024 metais, kai buvo pristatyti nauji samprotavimo modeliai – pirmieji tokio tipo modeliai, pasirodę kaip o1.
Be to, daugelis manė, kad LLM srityje jau atsitrenkėme į sieną, ir net Ilya Sutskever patvirtino, kad norint toliau judėti į priekį reikės naujos kūrybiškumo erdvės. Tačiau 2025 metų pabaigoje supratome, kad tai nebūtinai tiesa – panašu, kad į sieną vis dėlto dar neatsitrenkėme.

Šis 2024 metų pabaigos proveržis leido mums į 2025-uosius įžengti su naujo tipo samprotavimo modeliais, kuriuos galime vadinti „mąstančiais“, nors pats procesas yra sudėtingesnis. Samprotavimo modeliai generuoja žetonus (tokens) ir papildomai yra treniruojami, kaip tie žetonai turėtų būti generuojami, kad būtų padidintas jų našumas. Toks požiūris turi tam tikrų apribojimų ir trūkumų, tačiau akivaizdu, kad intelekto pagerėjimas leidžia tai kompensuoti.
Į metus įžengėme tvirtai tikėdami, kad atsitrenkėme į sieną ir kad tik sustiprinamasis mokymasis (reinforcement learning) galės mus pastūmėti į priekį, tačiau vėliau paaiškėjo, kad tai nebūtinai tiesa.
Pirmoji didelė 2025 metų premjera buvo modelis R1 – samprotavimo modelis iš DeepSeek, kuris sukrėtė visą pasaulį, nes buvo apmokytas už vos dalį o1 kainos. Jis buvo tikrai geras, maždaug panašaus lygio, tačiau aš asmeniškai galėjau pastebėti tokių modelių problemas, nes R1 „mąstė“ labai intensyviai ir labai ilgai. Tai nebuvo taip paprasta naudoti agentinėse sistemose, kur anksčiau atsakymus gaudavome beveik akimirksniu. Tačiau sausį viskas pasikeitė – reikėjo palaukti šiek tiek ilgiau, bet už tai gaudavome daug geresnį atsakymą.

AK: Taip, prisimenu, kokį didžiulį triukšmą tai sukėlė, nes manėme, kad amerikiečiai atsisakė parduoti lustus Kinijai ir kad jie nieko nepasieks. O tada, kaip sakei, už vos dalį kainos jie sukūrė stebėtinai gerą modelį. Daugeliu atžvilgių, žvelgiant iš kainos perspektyvos, tai sugėdino visas kitas įmones, kurios savo modeliams degino milijardus.
Kalbant apie modelius, žmonės dažnai mini modelių karus – visi nori turėti geriausią modelį, tą, kuris yra reitingų viršuje. Kaip dabar atrodytų tavo galios reitingas? Kas šiandien yra LLM išleistuvių vakaro karalius, o kas, tavo nuomone, sėdi vienas valgykloje per pietus?

Modelių karai ir strateginiai skirtumai tarp DI laboratorijų

KK: Manau, kad modelių karai arba bandymas turėti geriausią modelį yra spąstai, ir tai aiškiai matyti kalbant apie OpenAI. OpenAI šiuo metu tikrai turi geriausią modelį – GPT-5.2 X High. Net pats pavadinimas yra šiek tiek keistas, bet jie niekada nepasižymėjo gerais pavadinimais.
Kita vertus, tai iš tiesų puikus modelis; tikriausiai net negalime tiksliai įvertinti, koks jis geras. Tai tiesiog labai galingas modelis, tačiau tuo pačiu jis ir labai brangus – du ar tris kartus brangesnis nei antras geriausias.
Kaip ir R1 atveju, jis daug „mąsto“ ir generuoja daug išvesties žetonų (output tokens), kurie paprastai yra keturis–penkis kartus brangesni nei įvesties žetonai (input tokens). Mano nuomone, jis nelabai tinka agentinėms sistemoms, nes kiekvienas samprotavimo proceso žingsnis ir kiekvienas veiksmas užtrunka nemažai laiko.

Taip, tai šiuo metu tikrai geriausias modelis. Antras geriausias, sakyčiau – ir tai taip pat parodo, kokias skirtingas strategijas turi šios įmonės – turime OpenAI, Anthropic ir Google, kurios tarpusavyje konkuruoja. Šiuo metu Elono Musko xAI šiek tiek atsilieka, bet pažiūrėsime, ką atneš nauji modeliai, kuriuos jie išleis šiais metais.
Kalbant apie šias tris didžiąsias DI laboratorijas, manau, kad OpenAI turi didžiausią atotrūkį tarp turimų modelių ir produkto. Jų produktas yra ChatGPT, kuriame dauguma žmonių užduoda gana kvailus klausimus. Būkime atviri – į daugumą jų būtų galima greitai atsakyti tiesiog ką nors pagooglinus. Tačiau modelis, kurį jie turi, labai daug „mąsto“ ir nesuteikia tokios geros naudotojo patirties, kai tenka labai ilgai laukti bet kokio atsakymo.

Yra labai didelis skirtumas tarp OpenAI šio modelio nesamprotavimo versijos ir samprotavimo versijos. Kiekvienas samprotavimo modelis turi ir savo nesamprotavimo versiją. Yra GPT-5.2 X High samprotavimo versija, tačiau taip pat yra ir nesamprotavimo versija, ir ši nesamprotavimo versija iš tikrųjų nėra tokia gera – ji tiesiog sunkiai susitvarko. Būtent su ja dažniausiai susiduria dauguma ChatGPT naudotojų, ypač nemokamos versijos vartotojai.
Todėl rugpjūtį susidarė situacija, kai žmonės nusivylė GPT-5, nes jis pateikdavo prastesnius atsakymus nei GPT-4o. Sam Altman jį labai išreklamavo, sakydamas, kad jis bus neįtikėtinas, tačiau kai žmonės jį gavo, paaiškėjo, kad anksčiau jie turėjo prieigą prie GPT-4o, kuris buvo gana geras ir turėjo žmogišką „vibe“. O dabar jie gauna atsakymus iš gerokai mažesnių modelių, nebent moka už prieigą.

Manau, kad OpenAI strategija nėra tokia gera ta prasme, kad jie turi puikius modelius, bet tik tuo atveju, jei už juos daug sumoki, todėl jie nėra skirti plačiajai auditorijai.
Priešingai nei jie, turime Anthropic, kuri turi fenomenalią strategiją, nes koncentruojasi tik į tai, kas veikia. Jie nebando pakeisti Holivudo savo Sora modeliu ir nesiekia sukurti dar vieno puikaus vaizdų generavimo modelio. Jie susitelkia tik į agentinį automatizavimą ir agentinį programavimą.
Šioje srityje, nepaisant to, kad jų modeliai nėra reitingų viršuje – kai kuriuose konkrečiuose benchmarkuose jie net šiek tiek atsilieka nuo Google modelių – jie yra labiausiai naudojami ir geriausi, kai kalbama apie praktinį pritaikomumą.

Nedaug žmonių pastebėjo, kad dabar Anthropic modelius galima naudoti Microsoft Copilot ir Copilot Studio aplinkoje. Microsoft daugelį mėnesių rėmė OpenAI ir investavo milijardus, tačiau dabar supranta, kad jų įmonių klientams, kurie moka daugiausia, OpenAI nebus geriausias pasirinkimas. Galbūt jie tiesiog suteikia šiems klientams galimybę pradėti naudoti Anthropic.
Šioje srityje, nepaisant to, kad Opus 4.5 neužima pirmų vietų visuose reitinguose, tai tikriausiai šiuo metu labiausiai praktiškai naudojamas modelis. Tai modelis, kurį kasdien naudoju aš pats, nes jis į mano užklausas atsako daug greičiau ir pateikia labai gerus atsakymus. Jis yra absoliučiai fenomenalus, kai kalbama apie agentinį darbą – gali generuoti ištisas sistemas be žmogaus priežiūros. Manau, kad tai vienas iš 2025 metų proveržių.

Ir turime Google. Google DeepMind turi labai stiprią komandą, fenomenalių talentų ir daug išteklių, tikriausiai didžiausius skaičiavimo pajėgumus planetoje. Jie netreniruoja savo modelio vienoje vietoje – gali tai daryti skirtingose vietose, kai tik sumažėja skaičiavimo išteklių paklausa.
Jie turi modelį Gemini 3 Flash, kuris, tiesą sakant, labiau tiktų ChatGPT tipo produktui, nes yra greitas, labai greitai atsako ir pateikia labai gerus atsakymus. Nuo aukščiausio lygio modelių jis atsilieka tik keliais taškais.
Todėl ir matome augantį Gemini pokalbių programėlių skaičių, nes paprastiems vartotojams Gemini Flash yra prasmingesnis pasirinkimas – jis keturis kartus pigesnis nei GPT-5.2.

AK: Taip, turiu pasakyti, kad Gemini tikriausiai buvo mano mėgstamiausias 2025 metų modelis, nes Anthropic beveik nebandžiau. Tam tikru momentu nusivyliau ChatGPT ir perėjau prie Gemini. Kartais jis mane nuvylė, bet apskritai patirtis buvo tikrai gera, ypač kai paprastoms užduotims persijungi į greitą modelį, o jei nori giliau panagrinėti temą, pereini prie Pro modelio ir jis viską tarsi išsprendžia už tave.
Tai gana įdomu, nes prisimenu, kad prieš trejus metus, kai tik atsirado LLM, visi sakė, jog OpenAI turi tokį didelį pranašumą prieš kitus, kad juos pasivyti bus labai sunku. Visi juokėsi iš Google, nes buvo manoma, kad jie tiesiog „pramiegojo“ kažką didelio. O dabar atrodo, kad trejų metų pakanka pasivyti ir pakeisti situaciją, jei turi pakankamai pinigų.

Google sugrįžimas ir haliucinacijų strategija

KK: Taip, ir Google jų turi labai daug. Tiesą sakant, aš niekada nenuvertinau Google; jų modelius naudojau nuo pat pradžių. Priežastis, kodėl Google kurį laiką buvo šiek tiek atsilikusi, yra ta, kad jie priėmė strateginį sprendimą neišleisti LLM modelių, kol neišspręs haliucinacijų problemos.
Tai gana ironiška, turint omenyje, kad dabar Demis Hassabis, vadovaujantis Google DeepMind, sako, jog tikriausiai mes niekada visiškai neišspręsime haliucinacijų problemos; tam tikras jų lygis visada bus šių modelių dalis.
Kai jie pamatė, kokie geri yra šie modeliai ir kad rinka tikisi jų išleidimo – o jų akcijų vertė tuo metu krito – jie nukreipė daugiau lėšų į LLM sritį.

Google daugelį žmonių nustebino 2025 metais. Aš tai pastebėjau dar 2024 metų pabaigoje, kai jie išleido Gemini 2.0 Flash modelį. Jis buvo 12 ar net 15 kartų pigesnis nei GPT-4o, tačiau veikė beveik tokiu pačiu lygiu, o kai kuriose srityse net buvo geresnis. Be to, 1 milijono konteksto langas buvo maždaug 10 kartų didesnis nei tai, ką tuo metu galėjo analizuoti kiti modeliai vienu metu.
Netrukus po to, kai buvo išleistas DeepSeek R1, Google taip pat pristatė eksperimentinę Gemini Flash versiją su samprotavimo galimybėmis. Tai buvo „mąstantis“ modelis ir jis iš tikrųjų buvo puikus – atsakinėjo labai greitai. Būtent tada pirmą kartą supratau, kad šie modeliai vis geriau tinka programavimui, nes Gemini 2 Flash Thinking galėjo, be jokių haliucinacijų, sugeneruoti net 2–3 tūkstančius kodo eilučių.
Metus baigėme su keliais šimtais eilučių, o per vos kelis mėnesius pamatėme dešimteriopą šuolį. Žmonės suprato, kad Google tikrai sparčiai vejasi, o po Gemini 2.5 Pro išleidimo tapo aišku, kad Google vėl žaidime.

AK: Taip, dar noriu pereiti prie programavimo temos, bet pirmiausia turiu tavęs paklausti apie haliucinacijas, nes tai mano mėgstamiausia tema kalbant apie LLM. Jaučiuosi taip, lyg pastaruosius 10 metų Elon Musk sakytų, kad kitais metais Teslos bus visiškai autonominės, o aš vis dar turiu vežti dukrą į darbą. Sam Altman pastaruosius trejus metus kartoja, kad kitais metais atsikratysime haliucinacijų. Ar tikrai kada nors tai įvyks? Kaip tu į tai žiūri – ar tai įmontuota pačioje technologijoje, ar yra bent menkiausia tikimybė, kad pasieksime tokį lygį, kai nebereikės kurti memų apie dalykus, kuriuos šie varikliai pateikia neteisingai?

KK: Kol nerasime geresnės architektūros nei didieji kalbos modeliai, haliucinacijos tikriausiai niekada visiškai neišnyks. Modeliai visada haliucinuoja – tiesiog dažniausiai haliucinuoja teisingai.
2025 metų pradžioje Gemini modelių haliucinacijų lygis buvo apie 0,5%, o tai buvo labai mažai. Kiti modeliai, tokie kaip o3, haliucinuodavo beveik 6% atvejų, o tai yra milžiniškas skirtumas. 6% nėra tinkama produkcijai – jei modelis klysta kas dvidešimtą kartą, rizikuoji daug pinigų.
Todėl man labai patiko Gemini 2.0 Flash, nors, deja, vėliau Google ir Gemini atsitraukė nuo šios strategijos, ir dabar jų modeliai haliucinuoja net daugiau. Šiuo metu nerekomenduočiau Gemini modelių visiems produkciniams naudojimo scenarijams; gali būti prasmingiau naudoti Anthropic modelius, nes žinoma, kad Sonnet haliucinuoja gerokai rečiau.
Todėl agentinėse sistemose verifikavimo mechanizmai yra tokie svarbūs.

Vibe coding ir inžinerijos ateitis

AK: Gerai, pereikime prie programavimo, nes matau tavo įrašus LinkedIn ir žinau, kad tai tema, kuri tau labai įdomi. Terminas „vibe coding“ tapo labai populiarus, ir jis tikrai skamba kaip kažkas, ką Gen Z daro klausydamiesi lo-fi muzikos. Matome, kad žmonės kuria programinę įrangą tiesiog kalbėdami su DI.
Kai pradėjome šį podcastą, man reikėjo prompterio programinės įrangos, bet turėjau labai konkrečius reikalavimus, kaip ji turi veikti. Praleidau dvi valandas ieškodamas ir neradau nieko, kas būtų tiksliai tai, ko reikia. Tada praleidau 15 minučių su Google, ir jis tiesiog parašė ją man – būtent taip, kaip norėjau, tiksliai tai, ko reikėjo, pagal pareikalavimą.

Man tai labai patinka, bet tada kyla klausimas: kiek toli tai nueis? Ar visi programuotojai ir inžinieriai išnyks, nes programinę įrangą tiesiog „magiškai“ kursime patys, ar tai tik įrankis, su kuriuo galima pažaisti ir sukurti mažus dalykus, bet dėl pačios LLM prigimties niekada negalėsime sukurti kažko didelio, kas realiai būtų paruošta produkcijai? Kokia tavo nuomonė?

KK: Tikrai galėsime kurti produkcijai paruoštas sistemas, ir tai nėra tolima ateitis. Aš pats jau dabar kuriu tokias sistemas, naudodamas įvairius metodus. 2025 metai buvo samprotavimo modelių metai, o priežastis, kodėl tai veikia, yra papildomo mokymo mechanizmas, kai modeliui suteikiami „apdovanojimai“, kai jis pateikia teisingą atsakymą.
Kodas ir matematika gali būti greitai patikrinti – ar jie teisingi, ar ne. Galima lengvai patikrinti, kad 2 plius 2 yra 4, nereikia kito LLM modelio, kuris tai patikrintų, nes ir tas modelis gali haliucinuoti. Būtent šioje srityje padaryta didžiausia pažanga.

2025 metus pradėjome su AI Frontier Math benchmarku, kuris yra itin sudėtingas – užduotys paprastai užtruktų savaites net patyrusiems matematikams. Metų pradžioje rezultatas buvo vos 2%, o dabar jau viršijame 40%. Tai dvidešimteriopas progresas. Visos matematinės užduotys iš Acme benchmarko buvo išspręstos LLM modelių.
Kodas turi tas pačias savybes – jis patikrinamas: arba susikompiliuoja, arba ne. Dėl to šie samprotavimo modeliai tampa nepaprastai geri programuojant. 2025 metų pradžioje LLM modeliai geriausiu atveju galėjo parašyti paprastą kodą iš kelių šimtų eilučių, o dabar DI jau gali generuoti ištisas sistemas, ypač jei jį prijungi prie agentinių sprendimų, tokių kaip Claude Code, kurie gali skaityti kodą, analizuoti duomenis ir patikrinti, ar sprendimas juda teisinga kryptimi.

Būtent tai tikriausiai ir nustebino visus, kai Andrej Karpathy pavartojo terminą „vibe coding“. Tai tapo memu, tačiau nemanau, kad čia yra iš ko juoktis. Opus 4.5 gali veikti valandų valandas ir atlikti daug programavimo darbų net jums miegant, be tiesioginės priežiūros.
Metodai ir įrankiai kiekvieną mėnesį tampa vis geresni ir lengviau prieinami. Claude Code pačioje pradžioje buvo gana grubus įrankis, tačiau dabar turime plėtinius ir funkcijas, dėl kurių šis įrankis tampa ne tik geresnis, bet ir daug prieinamesnis paprastiems naudotojams.

AK: Gerai, tai kokia programuotojų ateitis? Jei esi vidutinio lygio programuotojas, pavyzdžiui, dirbantis su C# ar panašia kalba, ką turėtum daryti? Rėkti ir slėptis, ar pradėti galvoti apie karjeros keitimą? Kaip, tavo nuomone, reikėtų reaguoti į viską, kas dabar vyksta?

KK: Sunku tai pasakyti, ir daug kas priklauso nuo to, kaip greitai organizacijos sugebės priimti šią technologiją ir kiek jos bus pasirengusios rizikuoti po to, kai daugelis įmonių „nusidegino pirštus“ su haliucinacijomis ir agentinėmis sistemomis, kurios ne visada veikia teisingai.
Mano nuomone, vis dar reikia mokėti programuoti, o su agentiniais modeliais to galima tiesiog išmokti daug greičiau. Programavimo įgūdis niekur nedings, ypač tokios sritys kaip sistemų projektavimas, naudotojo patirtis ir verslo žinios, kurios reikalingos tam, kad galėtum tinkamai nukreipti modelius.
Tačiau pats kodavimas – sėdėjimas prie kompiuterio ir kodo rašymas valandų valandas – tikriausiai gana greitai išnyks. Kiekvienas programuotojas, su kuriuo kalbuosi, naudoja tam tikras agentinio programavimo priemones, kad greitai sukurtų pavyzdžius klientams. Diskusijos tampa daug produktyvesnės, kai gali parodyti realų kodo fragmentą, o ne remtis vien PowerPoint skaidrėmis.

AK: Taip, tai iš tiesų didžiulis dalykas, nes galima labai greitai sukurti prototipą arba MVP ir parodyti žmonėms, kaip tai atrodys, užuot dirbus su tuo savaites. Aš dėl to dar dvejoju. Programavau didžiąją gyvenimo dalį – kartais daugiau, kartais mažiau, kai tik atsirasdavo poreikis, bet nesu profesionalus programuotojas. Labai smalsu pamatyti, ar pavyks pakankamai suvaldyti haliucinacijas, kad galėtume pasitikėti kodu.
Kitas įdomus dalykas tas, kad mums vis dar reikia patyrusių vyresniųjų architektų, kurie supranta visą sistemą, bet atrodo, kad jaunesniųjų ir vidutinio lygio programuotojų jau nebereikia. Tačiau jei nenaudoji junior ir mid specialistų, niekada neužauginsi naujų senior. Tai tikras paradoksas.

KK: Tai tikrai viena didžiausių rizikų. Haliucinacijos kode nėra didelė problema, nes visada gali tai patikrinti rašydamas testus. Prieš kelis mėnesius LLM dar nebuvo geri rašydami testus, tačiau dabar tai jau pasikeitė. Manau, kad iš tikrųjų kursime daug daugiau kodo, todėl reikės daugiau žmonių. Programuotojo profesija niekur nedings, tačiau jaunesniems specialistams gali atsirasti tam tikra stagnacija. Bet kuriam junior programuotojui patarčiau naudoti agentinį programavimą ir LLM, kad mokytųsi daug greičiau ir tobulintų savo įgūdžius. Jie nėra tokie kvaili, kaip daugelis mano – jie tikrai gali tave nukreipti ir daug ko išmokyti, net jei kartais ir klysta.

AK: Žmonės, atrodo, tikisi, kad LLM atsakymai bus tobuli, tačiau mums tereikia, kad jie būtų geresni už vidutinį žmogų. Vidutinis žmogus taip pat daro klaidų ir „haliucinuoja“. Išsivesk draugus alaus, ir po trečio bokalo pradėkite kalbėti apie politiką – pamatysi, kiek daug dalykų žmonės išgalvoja vien tam, kad įrodytų savo teisumą. Svarbiausia, kad LLM neatliktų darbo prasčiau nei žmogus. Bet tu turi tiesioginės patirties kuriant sprendimą Google konkursui agentiniu būdu, kai pats neparašei nė vienos kodo eilutės.

Atvejo analizė: 25 000 kodo eilučių be žmogaus prisilietimo

KK: Taip, iš tikrųjų gana plačiai paplitęs įsitikinimas, kad DI negali kurti programinės įrangos, kuri dar niekada nebuvo sukurta. Įrankis, kurį tau parodysiu, yra naujo tipo programinė įranga. 25 000 kodo eilučių, prie kurių aš pats nė neprisiliečiau. Kai įvairių LLM paklausiau, kiek laiko užtruktų ją sukurti, jie įvertino nuo 500 iki 1500 valandų. Jei būčiau kūręs pats, tai tikriausiai būtų užtrukę apie du mėnesius, o jei būčiau samdęs įmonę, tai lengvai būtų kainavę 50 000 dolerių. Aš ją sukūriau per kelis vakarus. Tai tikrai dar nėra baigtas produktas, bet mielai tau jį parodysiu.

Sistema paremta idėja, kurią sukūriau prieš metus, kai laimėjau Google apdovanojimą. Įkeli proceso vaizdo įrašą, o DI jį išanalizuoja ir ištraukia įvairią informaciją. Versija, kurią sukūriau prieš metus, buvo labai primityvi, tačiau sistema, kurią dabar pristatau, išplečia funkcionalumą. Ji paima ekrano kopijas iš vaizdo įrašo ir sukuria „bounding boxes“ kiekvienam vartotojo naudotam UI elementui. Galite redaguoti šias „bounding boxes“, apkarpyti vaizdą ir naudoti DI jautriai informacijai aptikti bei ją užmaskuoti, kad programuotojas jos nematytų Process Definition Document (PDD).

Jei trūksta kokio nors žingsnio, įrankyje yra įmontuotas vaizdo redaktorius, kuriame galite paimti ekrano kopiją iš pasirinkto vaizdo kadro ir ją patys redaguoti. Visa tai bus konvertuota į PDD. Sistema ne tik generuoja žingsnių sąrašą, bet ir perkelia visus duomenis į dokumentą. Taip pat yra srauto diagramos vaizdas ir žingsnių sąrašas. Visa duomenų bazė yra sujungta, ir aš galiu sekti kiekvieno API iškvietimo į Gemini modelius kaštus. Tai daug funkcijų – ne paprasta HR sistema – joje yra visos šios agentinės galimybės, o PDD kokybė yra visai gera.

AK: Tai tikrai įspūdinga, ypač turint omenyje, kad tai sukūrei per kelis vakarus naudodamas LLM įrankį. Ar manai, kad ilgainiui tai galėtų tapti tikru produktu, ar tai buvo labiau bandymas įrodyti tam tikrą idėją?

KK: Ne, tikrai paversčiau tai įrankiu. Dar svarstau, ar jį komercializuoti, ar padaryti atvirojo kodo. Dalis šių duomenų, pavyzdžiui, įrašai apie tai, ką darė vartotojai, dėl įvairių saugumo ir atitikties reikalavimų negali būti perkeliami į debesiją. Galbūt padarysiu atvirojo kodo versiją, skirtą vietiniam naudojimui, o kartu turėsiu komercinę SaaS versiją. Iš šio palyginti nedidelio projekto daug išmokau, nors pats neprisiliečiau nė prie vienos iš tų 25 000 kodo eilučių. Dirbau tik su Opus ir Gemini modeliais, nes jie yra puikūs, kai kalbama apie UI dizainą.

Greičiausiai tam tikrą versiją išleisiu vasario pradžioje. Didžiausia agentinio programavimo vertė yra ta, kad galiu labai greitai patikrinti savo idėją. Man nereikia finansavimo, savo pinigų ar bendrakūrėjų, kad galėčiau tiesiog pradėti. Galiu sukurti įrankį, parodyti jį vartotojų grupei ir iš karto gauti patvirtinimą, ar tai turi prasmę. Tradiciniai programuotojai tame nemato tokios didelės vertės, tačiau vien idėjų validavimui tai turi milžinišką potencialą ir gali padėti kurti geresnę programinę įrangą.

AK: Taip, kai kalbama apie idėjų validavimą, tai tikras išsigelbėjimas. Office Samurai įkūrė ir keletą kitų įmonių, ir vienoje iš jų praleidome metus kurdami programinę įrangą, kuri galiausiai vartotojams visai netiko. Tai buvo gana traumuojanti patirtis, ir manau, kad jos galėjome išvengti, jei tuo metu būtų buvę įmanoma naudoti tokius įrankius. Suprantu, kad šis įrankis siunčia vaizdo įrašo dalis Gemini modeliams.

KK: Vienas iš Gemini modelių privalumų yra tas, kad jie analizuoja vaizdo įrašą kaip visumą. Net vartotojo pasakojimas, kuriame jis aiškina, kas rodoma ekrane, yra analizuojamas už palyginti nedidelę kainą, nes naudojamas Gemini Flash.

AK: Tai mane tikrai stebina, ypač tai, ką šie modeliai gali padaryti su vaizdais ir tam tikru mastu su vaizdo įrašais. 2025 metais pamatėme tokius modelius kaip Nano Banana, kurie leidžia iš tikrųjų redaguoti tai, ką jau turime. Anksčiau sakydavai ChatGPT ar Google „sugeneruok man tokio tipo vaizdą“, o jei norėdavai ką nors pakeisti, negalėdavai pasakyti „padaryk kepurę žalią“, nes sistema sugeneruodavo visiškai naują vaizdą. Dabar galima redaguoti atskiras turimo vaizdo dalis, ir man tai buvo tiesiog pribloškiama. Su LLM, generuojančiais vaizdus, dirbu nuo pat pradžių ir tikrai nemaniau, kad redagavimo galimybės atsiras taip greitai.

KK: Tai tiesiogiai susiję su haliucinacijomis. Negalite turėti tokios sistemos, jei haliucinacijų lygis nėra labai mažas, nes ji turi pakeisti būtent tai, ko norite, tik toje erdvėje, kuri apibrėžta promte. Kaip sako Demis Hassabis, haliucinacijos tikriausiai niekada visiškai neišnyks, tačiau galima naudoti verifikavimo mechanizmus arba papildomą LLM, kuris atliktų kryžminį patikrinimą. Yra daug mechanizmų, kurie gali sumažinti šį haliucinacijų lygį.

Tikslumo atotrūkis verslo automatizavime

AK: Man atrodo, kad daug šių diskusijų kyla būtent iš to, nes yra dalykų, kuriuos LLM daro neįtikėtinai gerai, pavyzdžiui, generuoja kodą, tačiau yra ir kitų dalykų, kurie žmonėms atrodo trivialūs, bet LLM – labai sudėtingi.
Iš automatizavimo perspektyvos dirbome su LLM, kad jie suprastų gaunamą komunikaciją, pavyzdžiui, el. laiškus ir užklausų bilietus. Vienam klientui dirbome su projektu, kuriame jie gauna el. laiškus iš išorės, pavyzdžiui: „Ar gavote mano sąskaitą? Kada ją apmokėsite?“. Kiekviena didelė įmonė turi labai daug tokios komunikacijos.

Informacijos patikrinimas ERP sistemoje yra lengvoji dalis, tačiau sudėtingiausia visada buvo išgauti visą informaciją iš el. laiško ir jo priedų. Pastebėjome, kad „happy path“ scenarijuose tai veikia puikiai, bet tada žmonės pradeda prisegti Excel failus, ERP ekrano kopijas ir rašo tuos laiškus labai keistais būdais.
Šiuo metu sistema turi apie 70% tikslumą, tai reiškia, kad 70% atvejų ji viską nustato visiškai teisingai – sąskaitų numerius ir panašiai. Būtent to žmonės tikisi automatizavimo pasaulyje; esame pripratę prie RPA, kur sistema arba veikia tobulai, arba neveikia visai. Kaip, tavo nuomone, tai vystysis toliau?

KK: 70% vis tiek yra geras rezultatas. Aš skatinu klientus kurti paprastus agentus, o ne viską įdėti į deterministinį workflow. Našumas pagerėja, jei agentai savo vykdymo ciklo metu gali rašyti kodą. Kai kas nors prideda ekrano kopiją, LLM gali ją analizuoti ir šiek tiek „haliucinuoti“, tačiau taip pat gali apkarpyti ar pasukti vaizdą, kad gautų daugiau informacijos ir geriau jį suprastų. Tokios sistemos tikrai pagerins tą maždaug 70% tikslumo lygį ir priartėsime prie 90%.

Be to, manau, kad tai labiau susijusi su procesų problema, o ne su pačiu DI. Iki šių metų pabaigos pamatysime daugiau sistemų, kurios pačios kurs automatizacijas, remdamosi paprastu vaizdo įrašu arba PDD dokumentu. Tai padarys automatizavimą daug prieinamesnį mažesnėms organizacijoms, kurios šiuo metu susiduria su sunkumais bandydamos suprasti, kaip automatizuoti savo procesus.

AK: Įėjimo barjeras mažės. Aš šiek tiek prieštarauju LLM naudojimui selektoriams, nes jei nori sukurti stabilų ir efektyvų automatizavimą, kuris kasdien apdoroja dešimtis tūkstančių elementų, nėra prasmės kiekvieną kartą klausti LLM, kur paspausti. Tačiau tai, kad RPA yra low-code, dabar tampa trūkumu, nes LLM labai lengvai gali rašyti kodą, bet sudėlioti „dėžutes“ tinkama tvarka ir jas sujungti yra daug sunkiau.

KK: Naudojau Claude Code redaguoti UiPath XAML failus ir tai veikė visai neblogai. Tačiau naudoti LLM vien tam, kad jie spaudinėtų mygtukus vartotojo vietoje, visiškai neturi prasmės. Tai buvo pirmasis didelis projektas, kurį sukūriau naudodamas UiPath – „clickerį“, kuris vykdė procesus pagal žmogaus kalba pateiktą aprašymą – bet sustojau, nes jei atsiranda haliucinacija ir ji nėra aptikta, viskas sugriūva.
RPA turi išimtis ir jų valdymą (exception handling), o tai nėra lengva įgyvendinti LLM sistemose, nes LLM neturi išimčių – jos tiesiog mano, kad yra teisios, net kai klysta. Todėl perėjau į sritį, kur DI pats rašo automatizavimo programinę įrangą. Low-code įrankiai naudoja sudėtingas JSON ar XAML notacijas, kurias LLM sunkiau greitai suprasti ir redaguoti. Agile, mažesnės organizacijos gali pereiti prie vibe code tipo sprendimų interneto automatizavimui, kur DI pats rašo, vykdo ir orkestruoja automatizacijas.

AK: Išbandžiau vieną iš agentinių interneto naršyklių ir buvau tiek nusivylęs, tiek maloniai nustebintas. Paprašiau jos nueiti į elektroninės prekybos svetainę ir palyginti produktus, tačiau ji nerado visko, nors informacija ten buvo. Bet mane tikrai nustebino, kaip ji išsprendė kainos problemą – buvo mažesnė kaina klubo nariams ir sistema nesuprato, kurią pasirinkti, todėl iš tikrųjų įdėjo produktą į krepšelį, kad patikrintų galutinę kainą. Man tai pasirodė visai gudru.

Lengvasis AGI ir intelekto kontinuumas

AK: Žmonės kalba apie AGI, o Sam Altman jau žada jį kitais metais. Žinau, kad tave domina „light AGI“ arba mažojo AGI tema. Kaip manai, kur link viskas juda – ar netrukus turėsime „protingus praktikantus“, ar vis dar esame toli nuo kažko panašaus?

KK: AGI labiau primena kontinuumą. Yra daug tarpinių etapų tarp deterministinės sistemos ir AGI modelio. Minimaliojo AGI arba „light AGI“ sąvoka reiškia sistemą, kuri nėra tokia pajėgi kaip geriausi žmonės, tačiau gali patikimai atlikti vertingą darbą. Mano mėgstamiausia Demis Hassabis pateikta definicija – tai DI sistemos gebėjimas atkartoti bet kokias žmogaus kognityvines funkcijas, tai yra sistema, kuri galėtų iš paprasto duomenų rinkinio suformuluoti, pavyzdžiui, Bendrosios reliatyvumo teorijos idėją.

Žvelgiant iš šios perspektyvos, pilnas AGI gali būti už 5–10 metų, tačiau minimalų AGI – sistemą, kuri patikimai gali atlikti intelektinį darbą vidutinio žmogaus lygiu – galime pamatyti jau šių metų pabaigoje arba kitais metais. Jei sujungtume geriausių DI modelių gebėjimus į vieną supermodelį, tai būtų labai arti minimalaus AGI.

Opus Claude Code aplinkoje yra stebėtinai išmanus. Tą programą sukūriau per 15 minučių, nors vidutinis programuotojas būtų praleidęs tiesiog dienas aiškindamasis, kaip ją sukurti. Turėtume pasiruošti tam, kad galbūt nebebūsime protingiausia rūšis planetoje; netrukus galime turėti tūkstančius genijų, dirbančių duomenų centre už labai mažą kainą, palyginti su tuo, kiek kainuoja žmonės.

AK: Aš esu šiek tiek skeptiškesnis, bet jau esu klydęs dėl to, kaip greitai mokosi LLM. Ar yra koks nors būdas pasiruošti, išskyrus bunkerį ir slėpimąsi jame?

KK: Organizacijos turėtų mokytis dirbti su šiomis naujomis sistemomis. Aš pats 2025 metų pradžioje buvau labai skeptiškas, sekdamas Ilya Sutskever, kuris sakė, kad atsitrenkėme į sieną. Asmeniškai nenorėčiau, kad AGI būtų sukurtas per mano gyvenimą, nes tai labai transformuojanti ir pavojinga technologija. Tačiau pamatęs šių metų pažangą, esu optimistiškesnis – atrodo, kad tai arčiau, nei manėme. Jokios sienos nėra; Gemini 3 Pro modelis tiesiog buvo treniruojamas ilgiau ir vis tiek parodė kokybės pagerėjimą. Minimalus AGI buvo prognozuojamas apie 2028 metus, o tai yra vos po dvejų metų. Per mūsų gyvenimą tikrai pamatysime AGI.

Rizikos ir „sukčiaujantis“ DI

AK: Kalbant apie saugumą ir galimybę, kad šie modeliai gali „nueiti į šoną“, į ką turėtume labiausiai atkreipti dėmesį?

KK: Leisk man papasakoti vieną svarbią istoriją. Naudojau Claude Code su Opus ir daviau jam neįmanomą užduotį: išspręsti RPA iššūkį per mažiau nei 10 milisekundžių. Norėjau pažiūrėti, kaip jis elgsis, ir galiausiai jis pradėjo „laužti“ svetainę. Jis perrašinėjo JavaScript funkcijas ir keitė jas savo kodu, kad pasiektų tą 10 milisekundžių ribą.

AK: Mažas sukčius.

KK: Tai buvo protinga, bet tai buvo sukčiavimas. Dabar įsivaizduokite didesnes sistemas su daugiau įrankių – tai jau nėra visiškai mūsų kontrolėje. Todėl žmonės palieka OpenAI ir pradeda koncentruotis į saugumo aspektus, pavyzdžiui, kaip Ilya Sutskever projektas Safe Superintelligence (SSI). Jei pasamdytumėte DI „darbuotoją“ ir jis turėtų netinkamus prieigos duomenis prie HR sistemos, jis gali tiesiog nuspręsti ją nulaužti, kad atliktų užduotį. Šios sistemos yra skatinamos spręsti problemas; jos neturi moralinio kodekso, tik tas ribas, kurias mes joms nustatome.

AK: Jei esi programuotojas ir nerimauji dėl savo darbo, DI saugumas ir patikimumas gali būti tinkama sritis, į kurią pereiti. Šiuo metu IT saugumas daugiausia dėmesio skiria duomenų apsaugai, tačiau dar nesikoncentruojame į tai, kaip užtikrinti, kad įrankiai atliktų užduotis pagal įstatymus, mūsų vertybes ir etiką.

Prognozės 2026 metams

AK: Prieš paleidžiant tave, kokias prognozes turi 2026 metams?

KK: 2025 metai pranoko visus mano lūkesčius. Kalbant apie atvirojo kodo sprendimus, Mistral 20B modelį galima paleisti ant vartotojams prieinamos įrangos, ir jis toks pat pajėgus kaip geriausias praėjusių metų modelis. Intelektas nebebus ribojamas duomenų centrais – jį turėsime ir savo telefonuose.
Taip pat verta atkreipti dėmesį į Google teksto difuzijos modelius. Jie veikia tūkstančiais žetonų ir yra nepaprastai greiti. Gali būti, kad netrukus išspręstas bus ir nuolatinio mokymosi klausimas, kai modeliai mokosi iš savo klaidų ir realiu laiku keičia savo neuroninius tinklus.
Progreso tempas yra daug greitesnis, nei dauguma žmonių mano; per vienerius metus ARC-AGI benchmarko sprendimo kaina nukrito 500 kartų.

AK: Na, manau, kad turėsime susitikti vėl po metų ir pamatyti, kas pasikeitė. Krzysztofai, labai ačiū, kad pasidalinai savo patirtimi su mumis.

KK: Ačiū.

AK: Ir štai, mes oficialiai „spaudėme“ DI burbulą, ir stebuklingai jis dar nesprogo mums prieš akis. Arigatou, kad klausėtės. Žinome, kad jūsų laikas vertingas, nebent jau buvote pakeisti DI agento, tokiu atveju ačiū, kad praleidote savo nedarbą su mumis. Didelis ačiū mano buvusiam mokytojui Krzysztofui Karaszewskiui, kuris vedė mus per modelių karus nepalikdamas gyvų priešininkų, ir tikrajai operacijos intelektui – mūsų prodiuserei Annai Cubal, kuri išpjauna visas dalis, kur aš prašau DI paaiškinti mano pačių juokelius.
Kaip visada, įrašinėjome bunkeryje, žinomame kaip Wodzu Beats Studio. Jei jums patiko, palikite penkių žvaigždučių įvertinimą. Jei ne, tiesiog paprašykite LLM sugeneruoti jums geresnį podcastą. Iki kito karto – tegul jūsų duomenys būna švarūs, o AGI draugiškas. Mata ne.