PoVeJMo

V ponedeljek, 16. 9. 2024, se je na Fakulteti za računalništvo in informatiko Univerze v Ljubljani odvila javna razprava o pravnih, etičnih in tehničnih vprašanjih glede velikega jezikovnega modela za slovenščino v okviru projekta PoVeJMo.

Cilj raziskovalnega projekta Prilagodljiva obdelava naravnega jezika s pomočjo velikih jezikovnih modelov (PoVeJMo) je razvoj odprtega velikega jezikovnega modela za slovenščino, ki bo kasneje podlaga za napredne aplikacije v medicini, humanistiki, industrijskem okolju in pri razvoju programske opreme. Od uspeha tega projekta je odvisno, kako dobro bodo “mašine” govorile slovensko.

Udeleženci so razpravljali o količini in kvaliteti besedil, ki sta potrebni za izgradnjo takšnega modela, ter o družbenem pogledu in odgovornosti na delovanje algoritmov. Dr. Maja Bogataj Jančič je izpostavila, da je takšen javni projekt izrednega pomena in lahko predstavlja vzorčen primer, kako se lahko zbira in upravlja s “podatki” (med njimi tudi avtorskimi besedili), ki so potrebni za tvorjenje umetne inteligence, ki lahko deluje v javno dobro. V tem primeru družba kot celota odloča in ne korporacije, kakšen jezikovni model se bo zgradil. Na poti uspeha stoji več ovir, kot na primer malo število govorcev slovenskega jezika ali številna nedigitalizirana besedila. Maja je poudarila, da so lahko velika ovira tudi avtorske pravice (več o tem: Can copyright bring AI to its knees?). Nacionalno pravno okolje (predvsem izjeme za besedilno in podatkovno rudarjenje) je po njenem mnenju na splošno naklonjeno generiranju velikih jezikovnih modelov, pri čemer je velik problem, da slovenski zakonodajalec ni definiral zakonitega dostopa v skladu z Direktivo o avtorski in sorodnih pravicah na enotnem digitalnem trgu (DSM direktiva), saj je namenoma izpustil, da zakonit dostop zajema tudi dostop do vsebin, ki so prosto dostopne na spletu. To napako bi bilo smiselno čimprej popraviti.

Vabljeni k branju Delovega članka.