Umělá inteligence v lavici: Víme, jak ji odhalit i proč může zahubit bakalářky

Matěj Skalický mluví s Janem Cibulkou, redaktorem Českého rozhlasu

Přehrát

00:00 / 00:00

PŘEPIS ROZHOVORU

29. 11. 2023 | Praha

Konec bakalářek. Jedna z fakult Vysoké školy ekonomické už je nebude požadovat. Mimo jiné kvůli umělé inteligenci. Umí jazykové modely už napsat vážně cokoli? A dá se to nějak odhalit? Na to odpovídá Honza Cibulka, redaktor webu iROZHLAS.cz.

Kredity:
Editace: Kristýna Vašíčková
Sound design: Zuzana Marková
Rešerše: Miroslav Tomek
Podcast v textu: Tea Veseláková
Hudba: Martin Hůla, Jaroslav Pokorný

Zpravodajský podcast Vinohradská 12 poslouchejte každý všední den od 6.00 na adrese irozhlas.cz/vinohradska12.

Máte nějaký tip? Psát nám můžete na adresu vinohradska12@rozhlas.cz.

Použité fotky:

Jan Cibulka, redaktor Českého rozhlasu | Zdroj: Český rozhlas (5000442)

Kvůli vývoji umělé inteligence prý klasické bakalářky postrádají smysl. Podnikohospodářská fakulta VŠE v Praze je tak od příštího roku zruší | Foto: Alexander Limbach | Zdroj: Shotshop GmbH / Profimedia

Praha Sdílet na Facebooku Sdílet na Twitteru Sdílet na LinkedIn Tisknout Kopírovat url adresu Zkrácená adresa Zavřít

Na jedné z fakult Vysoké školy ekonomické v Praze končí s bakalářskými pracemi, na vině je mimo jiné umělá inteligence. Je to krok správným směrem? 
Pokud jde o vyjádření pana profesora Hnilici, který je tam děkanem, tak on mluví o tom, že chtějí bakalářské práce přestavět a dělat je jinak než doteď. Mimo jiné hraje roli i to, že mají pocit, že jazykový model umělé inteligence by byl schopný vytvořit text, který bude vypadat dostatečně dobře na to, aby se mohl maskovat jako bakalářská práce. Nicméně je důležité říct, že pan děkan Hnilica rovněž zmiňoval, že pravděpodobnějším problémem je, že si student práci nechá napsat na zakázku od nějakého paper millu, tedy od nějaké firmy, která píše studentům diplomky za peníze, ač by neměla. 

Děkan Fakulty podnikohospodářské Jiří Hnilica také říkal, že je nereálné odhalit, jestli danou práci dal dohromady někdo jiný anebo umělá inteligence, že neexistuje žádný způsob, jak to odhalit. Skutečně neexistují žádné programy, které by vysledovaly, že daný text nepsal člověk? 
Je trochu problém, že texty, ze kterých se umělá inteligence učí, psali lidé a jazykový model tu strukturu napodobuje velmi dobře. Byly nějaké experimenty a byznys odhalování plagiátů v akademickém světě je poměrně značný. Různé společnosti, které se na to zaměřují, začaly nabízet produkty, které tvrdí, že to umí odhalit, nicméně chybovost je velmi vysoká. Navíc se ukazuje, že v anglofonním prostředí nástroje na údajné odhalování AI poškozují zejména lidi, kteří nejsou rodilými mluvčími v angličtině, protože u nich častěji nesprávně určí, že se na jejich práci měla podílet umělá inteligence, ač to psal opravdu člověk. Jedna věc je získat nějakou pravděpodobnost, že daný text napsal jazykový model, a druhá věc je to spolehlivě dokázat.

Kvůli vývoji umělé inteligence prý klasické bakalářky postrádají smysl. Podnikohospodářská fakulta VŠE v Praze je tak od příštího roku zruší | Foto: Alexander Limbach | Zdroj: Shotshop GmbH / Profimedia

Rozumím, ale jaká jsou vodítka, která by měla upozornit na to, že text není psaný fyzickou osobou? 
Pokud se podíváme na to, jakým způsobem jazykové modely píšou, tak v anglofonním prostředí se už i mezi studenty objevuje řečení, že něco zní jako umělá inteligence. Řekli bychom, že to jsou texty vyplněné vatou, psané velmi volně, málo fakticky. Pokud bychom se dívali na akademický text, tak nějaké zdůvodňování za tím není úplně logické. V některých případech jsou tam uvedené citace, které neexistují, existují částečně nebo s danou věcí nesouvisí. Jsou to náznaky, ale není to stoprocentní důkaz hlavně proto, že spousta akademických textů je takto napsaná. Jsou uměle nafukované na délku, nejsou dobře odcitované, argumentace není úplně dobrá, zejména pokud se bavíme o bakalářských pracích.

Vysoká škola ekonomická prý zvažovala použití jakési aplikace, která by kontrolovala, zda nejde o plagiát nebo zda text nepsal robot, když to velmi zjednoduším. Vím, že na Univerzitě Karlově se používá Turnitin jakožto program, který má odhalovat plagiáty tím, že monitoruje všechny už vydané texty a porovnává je s předloženou prací. Myslíš si, že při nějaké kontrole si můžeš být stoprocentně jistý, že daný text nepsal člověk? 
V případě Turnitinu, který porovnává práci s existujícími texty, je poměrně snadné dokázat, že něco je plagiát. Ve chvíli, kdy se někde objeví například stránka vytržená z učebnice, která není odcitovaná, nebo je to jenom prostý překlad zahraniční publikace, tak tam je situace poměrně jasná. Ale nástroje, které se tváří, že umí odhalovat robotem generovaný text, mají vysokou chybovost. Konec konců i OpenAI, jedna ze společností, které jazykové modely vyvíjejí, nejdřív zveřejnila údajný detektor, ale po čase ho zase stáhla, protože se ukázalo, že jeho chybovost je tak vysoká, že není schopen odhalit ani produkci jejich vlastních jazykových modelů a že nemá smysl ho používat. 

Pan děkan Hnilica má tedy pravdu. 
Rozhodně se to nedá stoprocentně dokázat, i když můžeme při čtení daného textu mít podezření. 

Takže rozhodnutí Fakulty podnikohospodářské skončit se současnou podobou bakalářských prací nepovažuješ za předčasné? 
Ne, tou cestou se některé školy vydaly ještě před modely umělé inteligence tak, že bakalářské práce jsou praktičtější, teoretická část je stručnější a student opravdu musí něco vytvořit. Nějakou zkušenost mám, protože učím na Fakultě sociálních věd Univerzity Karlovy budoucí novináře. Na studijním oboru Žurnalistika se touto metodou postupuje a stejně to dělají i v Brně. Student nebo studentka natočí reportáže, následně tomu v zestručněné části dá i teoretický kontext, ale je jisté, že dotyční museli tu práci odvést. Ve chvíli, kdy by si při psaní teoretické části vypomohli nějakým jazykovým modelem, tak to není zásadní problém, protože stejně museli odvést hlavní část práce, ve které prokázali, že jsou schopni se v oboru uplatnit a udělat zadaný žánr.

Omezená, ale užitečná pomoc

Výpomoc od umělé inteligence nebo jazykových modelů je tedy v rovině toho, že jim poradí, jak něco psát, nebo za ně může část textu napsat? A týká se to nejen bakalářských, diplomových prací a tak dále, ale třeba i úkolů do školy? 
Ten nástroj se dá použít tak, aby generoval text podle nějakého zadání. Konec konců to nás na tom fascinuje nejvíce, když si všichni hrajeme s chatovacími roboty. Dáme jim zadání, aby napsali text, který se dotýká něčeho nebo něco vysvětluje, a robot vytvoří text, který velmi věrně vypadá, minimálně nese formální znaky takového textu. S faktičností nebo korektním citováním to bývá už trochu problematičtější. Otázka je, jestli je to vůbec problém, když srovnáme, jak tyto práce psali naši rodiče, jak seděli někde v knihovně, dělali si výpisky na papír, pak to šli domů napsat na stroji a nic jim nezkontrolovalo gramatiku, nic jim nepomohlo se samotným psaním. Jejich předchůdci psali všechno v ruce. A když se podíváme na nás, tak my si můžeme sednout k počítači a udělat si za odpoledne rešerši veškeré relevantní literatury, kterou si můžeme stáhnout přes nějaké školní portály nebo široce rozšířené pirátské weby... 

Knihy jsou dnes už digitalizované.
Na jedno kliknutí mohu ve všech těch dokumentech vyhledávat. Zmáčknu Ctrl+F, napíšu slovo, které mě zajímá, a najdu ho. Dnes už existují rešeršní nástroje, které akademici běžně používají při psaní článků, které třeba ukážou všechny texty, co s ním souvisí. Dokážou vzít nějaký článek, ukázat, které související texty byly napsané před ním a po něm a kterými autory. Následně, když začnu formulovat vlastní práci, tak už mám nějaký autocorrect, který mě upozorňuje, kde mám překlepy. Objevují se i nástroje, které mě upozorňují, že používám nevhodnou terminologii a měl bych ji změnit. Ve chvíli, kdy mám odevzdat abstrakt nebo celý článek v angličtině, tak ho pomocí nějakého jiného nástroje velmi snadno přeložím. Všechny tyto nástroje poměrně výrazně změnily to, jak se práce psaly v minulosti, a velmi nám ulehčují. Teď tu máme další krok, kdy můžu počítači zadat, aby z nějakých informací a dat napsal čtyři odstavce, ty můžu následně zkontrolovat nebo použít, ale není to žádný dramatický posun. Pořád to nefunguje tak, že si sednu k počítači, zadám mu, aby mi napsal bakalářskou práci na toto zadání, a z druhé strany vypadne dokument, který odevzdám a obhájím. Tak to rozhodně nefunguje. 

Pořád ta data musíš sesbírat sám. 
Přesně tak. Vřele doporučuju posluchačům a posluchačkám, ať si to vyzkouší, ať si k tomu sednou a zkusí, jestli se dá napsat bakalářská práce dejme tomu za dvě hodiny. Velmi rychle narazí na to, že text není v dostatečné kvalitě, model neudrží kontext, jsou tam neexistující, částečně smyšlené nebo nesouvisející citace a podobně. Ve chvíli, kdyby si student řekl, že to udělá tímto způsobem, a následně udělá aspoň tu práci, kterou dělá oponent, to znamená, že ji v nějakých základních parametrech zkontroluje, tak s tím možná bude mít víc práce, než kdyby sedl a napsal to. 

Takže nakrmit model daty je samo o sobě dovednost?
Ano, ale především je nutné podrobit výsledek velmi důkladné kontrole. Člověk se skoro může dostat na hranu toho, jestli to ještě dává smysl. Na druhou stranu jazykové modely dovedou práci zjednodušit ve chvíli, kdy například mám načíst velké množství literatury. Můžu model nechat, aby ji předzpracoval, díky tomu se můžu v té literatuře lépe zorientovat, načerpám terminologii, znalost nějakých základních poznatků, a to je rozhodně méně práce, než kdybych si měl sednout a dělat si rešerši ručně v knihovně. Rozhodně nepovažujeme za plagiát, když člověk tyto nástroje používá tímto způsobem.

Umělá inteligence v praxi

Je to eticky správné? 
Myslím, že ano, protože výzkumníci sami takto pracují. Ve chvíli, kdy se potřebují zorientovat v nějakém oboru nebo tématu, na kterém pracují, tak samozřejmě využijí veškeré dostupné nástroje, aby se zorientovali co nejlépe, co nejrychleji, aby šetřili svůj čas a byli efektivnější. Akademičtí pracovníci si takovými nástroji vypomáhají, navíc část modelů generativní umělé inteligence je zčásti zaměřená jako regulérní nástroj pro akademické pracovníky. Ve chvíli, kdy se to už v akademické sféře používá, tak nevidím důvod, proč říkat studentům, že to nesmějí použít při psaní bakalářky, když to jejich starší kolegyně a kolegové používají při psaní paperů

„Chatovací robot dokázal úspěšně složit zkoušky na právnické fakultě univerzity v americké Minnesotě. Systém dosáhl v hodnocení pedagogů na lepší trojku, problémy měl hlavně s výběrem odpovědí z matematiky.“

(ČRo Plus, 26. 1. 2023)

Vím, že na Fakultě sociálních věd se spolupracuje s umělou inteligencí i tak, že pedagogové nechají studenty napsat půlku práce jazykovým modelem, a pak půlku samotnými studenty, kteří reflektují to, co dovedl jazykový model. 
Já to studentům nezakazuju a ve svých předmětech říkám, že to mohou použít a že budu rád, když to studenti transparentně deklarují. Mám pocit, že to je něco, na čem se zatím akademický svět ustaluje, tedy že nebrání používání těchto nástrojů, ale říká: deklarujte, že jste je použili, ideálně deklarujte, co za nástroj to bylo. S tím, že zároveň studentkám a studentům říkám, že za výsledek odpovídají oni. Tím, že jsme škola novinářská, tak kromě toho, že od nich chci nějaké znalosti, které se týkají mého předmětu, zároveň chci, aby to bylo napsané určitým stylem. Striktně vyžaduju stručný, zpravodajský styl, velmi ostře k věci, a to je zrovna věc, se kterou jazykové modely mají docela problém. Pak je na autorech, zdali je použijí, ale za výsledek odpovídají oni. Takže ano, setkal jsem se s tím, že mi někdo i nepřiznaně odevzdal na poslední chvíli práci, bylo vidět, že si k tomu sedl na poslední chvíli, něco tam zadal, rychle to vzal a odevzdal, aby to stihl. Ale tato práce neprošla. Ne nezbytně proto, že byla s největší pravděpodobností napsaná jazykovým modelem, nikdy to nemůžu říct na sto procent, ale protože nesplňovala ostatní parametry na formu a obsah. 

Jak má vypadat ta deklarace? Vím, že už existuje i citační norma, která počítá s tím, že něco bylo napsané jazykovým modelem. Jak se to přiznává přímo v textech?
Není na to stoprocentní nástroj. Umíme odcitovat to, jaký model to byl, v jaké verzi, protože modely se v čase mění. Když použijeme řekněme ChatGPT a uživatel k němu přistupuje přes webové rozhraní, tak je nejlepší citovat datem, protože nevíme, kde se ten model mění, kde se společnost, která ho vyvíjí, na něm rozhodla udělat nějakou optimalizaci nebo změnu na infrastruktuře, která se nějakým způsobem projevila v jeho chování. Tím, že je to nejisté, je to obchodní společnost, která nám neříká o každém kroku, který udělala, tak nevíme, jestli model, co byl včera, je stejný jako dnes. Proto je vhodné uvádět, co to bylo za nástroj, kdy jsme ho využili a ideálně vymezit, ve kterých částech textu byl nasazen a co tam dělal za práci - jestli pomáhal vyhodnocovat data nebo jenom pomáhal vytvořit kód v nějakém programovacím jazyce, který nám potom nakreslil grafy z dat, která jsme sami sesbírali. 

Proměna školství, jak ho známe?

 

Na Vysoké škole ekonomické nejsou jediní lidé, které napadlo, že by závěrečné práce mohly uzpůsobit nástupu umělé inteligence. Texty plánují nahradit třeba různými projekty nebo stážemi pro studenty. Je to právě umělá inteligence, která může nakonec proměnit školství, jak ho známe teď? 
Říkal to pan profesor Hnilica v rozhovoru pro Forbes, že oni už nějakou dobu diskutovali, že by měli změnit formu závěrečných prací. Už jsme to zmiňovali: technologie a doba se vyvíjejí a studenti dnes píšou práce úplně jinak, než tomu bylo před dvaceti lety, ale samotné práce často zůstávají formou stejné. Možná je tedy vhodné se vyvíjet a nějakým způsobem posouvat zakončení studia tak, aby víc odpovídalo moderním požadavkům. Nemyslím, že to je nezbytně špatně. 

Pan děkan Hnilica v rozhovoru pro Forbes přímo zmiňoval bakalářské projekty: Studenti, kteří půjdou cestou stáže, si budou muset stáž splnit na konkrétním projektu některé z našich partnerských firem. U podnikatelského projektu budeme vyžadovat, aby student založil a rozjel v nějaké podobě vlastní podnikání. Výzkumně zaměření studenti budou mít možnost bakalářský projekt splnit účastí na výzkumném projektu, které na fakultě realizujeme.“ To znamená, že se mění i názvosloví toho, jak by studium mělo být ukončováno?
Školský zákon říká, že bakalářský studijní program se obvykle končí obhajobu bakalářské práce. Zákon tedy neříká natvrdo, že forma může být jenom v podobě písemné práce. Samozřejmě si nemůžeme představovat, že tam najednou žádný text nebude, že se to nějak magicky stane. Student bude muset zachytit svoji práci, uvést ji do nějakého teoretického rámce, což se stane formou textu, ale bude to například projekt doprovozený zkrácenou teoretickou verzí. 

Ostatně na Fakultě sociálních věd se to už praktikuje. 
Ano, stejně tak to dělá žurnalistika v Brně, kde na obou tamních školách existují praktické bakalářské práce, kdy součástí je tvorba nějakého novinářského žánru a stručné zapojení do kontextu. 

Naposledy jsme se bavili o jazykových modelech letos na jaře. Ušly od té doby nějaký kus cesty? Zkvalitnily se i v české jazykové mutaci? 
Je vidět, že ty modely jsou schopné pracovat s větším množstvím kontextu, s delším zadáním, zjednodušeně řečeno, a výstupy mohou být také delší. Je tam spousta změn, co se týká generování nebo i popisování obrázků, model je dnes už schopný nějak pracovat s obrazovou informací na vstupu. Nejenom že umí přepisovat mluvené slovo do textu, ale řada modelů už má velmi kvalitní text to speech, který tam také v minulosti nebyl. Společnosti, které tyto modely vyvíjejí a nabízejí, chtějí co nejširší programátorskou komunitu, takže jdou hodně naproti tomu, jakým způsobem programátorům a dalším profesionálním uživatelům usnadnit práci s modely tak, aby je mohli integrovat do svých produktů. 

Je to už využitelné i pro jiné obory, než ty, které se týkají školství, studentů a podobně? Kdybych byl například spisovatel, můžu využívat umělou inteligenci k tomu, aby mi pomohla psát knížky?
V Českém rozhlase máme i takový projekt, jmenuje se Digitální spisovatel a autoři spolupracují s nějakým modelem umělé inteligence například při tvorbě povídek. Ale tyto nástroje se uplatní také v marketingu, uplatňují se čím dál víc v testování programového kódu. My s nimi teď hodně experimentujeme ve chvíli, kdy potřebujeme dostat strukturovanou informaci z velkého množství nestrukturovaných textů, například z rozsudků. Myslím si, že je velmi široká oblast, ve které tyto nástroje najdou uplatnění. 

Kdybych to měl celé vrátit k debatě o VŠE a Fakultě podnikohospodářské, tak jaké další fakulty a univerzity podle tebe budou následovat tento poměrně odvážný krok? 
Čekal bych, že právě novinářské školy se s těmito technologiemi budou daleko víc sžívat a budou se dívat na způsoby, jak se tyto nástroje používají v praxi, nějakým způsobem je začlení i do vzdělávání studentů a na závěr se to možná nějak promítne do podoby zakončení studijních programů. 

Takže umělecké a tvůrčí obory, například filmaři, hudební školy, konzervatoře...
Jako u každého jiného nástroje ve chvíli, kdy se začne objevovat v praxi, je na školách, aby to minimálně nějak reflektovaly. Byli bychom nejraději, kdyby školy jakožto výzkumné instituce byly ty, které tlačí hranici poznání a od nich se poznatky dostávají do praxe. Touto cestou se to potom dostane i do závěrečných prací.

V podcastu byly kromě Českého rozhlasu využity zvuky z České televize a youtubového kanálu CNN.



Matěj Skalický

Související témata: Vinohradská 12, podcast, Jan Cibulka, bakalářská práce, Vysoká škola ekonomická, umělá inteligence, AI