Со првите несовршени јазични модели постоеше страв за невидливост на македонскиот јазик и помалку застапените јазици во дигиталниот простор, но како што технологијата напредува нов предизвик е засенување на автентичноста.
Додека институциите работат на проекти за сочувување на македонскиот јазик преку посебни модели и стратегија за дигиталниот простор, човечкиот фактор и натаму мора биде чувар на посебноста на мајчиниот јазик.
Јас сум Христијан Станоевиќ, а вие ја слушате новата епизода на БалканКаст, поткастот на ТРТ Балкан.
Наша гостинка е Андријана Павлова помлад истражувач при Институтот за македонски јазик „Крсте Мисирков“ од Скопје.
Ќе разговараме како вештачката интелигенција влијае врз јазикот, особено во јавниот простор, но и како го менува или можеби и загрозува во секојдневната употреба преку слепите точките, грешките и пристраностите кои се вградени во самите јазични модели на вештачката интелигенција.
Христијан Станоевиќ: Нешто што имам забележано со употребата на алатките за вештачка интелигенција и четботовите на многу портали, како на оние помалку професионалните, така и кај дел од професионалните, се цели текстови ископирани од ChatGPT или од други апликации. Долу често стојат заклучоците или предлозите на ChatGPT, од типот: „дали сакаш текстот да го направиме малку подраматичен или посензационален?“.
Друга работа што ја забележав е дека има некоја дуалност во предлозите на вештачката интелигенција. Формите се или премногу спектакуларни, или од друга страна, оддаваат некоја неутралност. Исто така, има многу пасивни форми во македонскиот јазик кои не се природни за македонската синтакса.
Вие како научен институт, дали ги гледате овие промени и како тие влијаат врз македонскиот јазик, особено во употребата на македонскиот јазик во јавниот говор?
Андријана Павлова: Вештачката интелигенција веќе станува дел од нашето секојдневие и тоа е алатка што сите ја користиме. Генерално, самиот поим е многу поширок, но во случајов мислиме конкретно на јазичните модели, коишто навистина покажуваат импресивни резултати во поглед на генерирањето содржини и во поглед на преведувањето.
Тие можат да најдат корисна примена за развојот и за зачувувањето на јазикот. Меѓутоа, сепак човечкиот фактор не треба да се изостави.
Медиумите не треба да дозволат само објавување содржини кои ќе бидат директно генерирани од чет-ботови, односно од модели на вештачка интелигенција, од причина што тие текстови мора првично да бидат проверени поради фактите, затоа што тие модели се склони кон халуцинации — знаат да испуштат одредени информации или можат да додадат невистинити информации.
Од друга страна е јазичниот аспект. Во македонскиот јазик честопати се случуваат грешки. Иако поновите и пософистицирани модели го надминуваат тој проблем, сепак се забележуваат грешки на секое рамниште. На лексичко рамниште се употребуваат зборови коишто не се соодветни за контекстот или се употребуваат туѓи зборови од англискиот, српскиот, бугарскиот или рускиот јазик. Тоа беше особено забележливо кај почетните модели.
Покрај зборовите кои се целосен производ на халуцинација, имаме промени и на ниво на синтакса. Англискиот јазик генерално може да се смета како прв јазик на овие јазични модели, со оглед на тоа што најголемиот дел од податоците на кои се обучувани се на англиски. Со помош на механизмите за пренос на учење, се усовршуваат и други јазици кои се со ограничени ресурси, како што е македонскиот.
Она што е важно за медиумите е дека мора да имаат стручни новинари кои размислуваат критички и кои ќе го проверуваат текстот, а не само да бидат насочени кон поголема продуктивност и објавување секаков вид содржини кои ниту се проверени, ниту се соодветни во поглед на јазикот и информациите што ги пренесуваат.
Христијан Станоевиќ: Така се случува кога еден производ ќе биде објавен со грешка, моделот потоа истата грешка ја повторува бидејќи ја гледа како веќе прифатена и точна. Така се создава еден „луп“ (круг) на повторување каде што моделот се учи самиот себеси врз база на грешки. Како да се надмине тоа?
Андријана Павлова: Постојат разни техники за надминување на ова, како што се техниките за засилено учење со пребарување врз основа на точни бази на податоци, конкретно бази од интернет. Може да се проверат податоците, но прашањето е колку ние можеме да им обезбедиме на моделите точни бази, затоа што на интернет можат да се најдат најразлични содржини и автоматски преводи кои и самите содржат грешки.
Идеално решение би било создавање специјализирани модели насочени кон одредени области и намени. Овие големи јазични модели можат да бидат употребени во секоја област, но тоа носи и предизвици како халуцинации и пристрасност во податоците. Кај нас во Македонија веќе се работи на создавање македонски модели. До неодамна бевме со ограничени дигитални содржини, па тие се обучуваа преку автоматски генерирани преводи каде што има грешки.
Сепак има надеж, имајќи предвид колку брзо напредуваат автоматските преведувачи. Овие модели можат да ги доловат културолошките специфики, да го разберат врз основа на сите податоци и да го доловат локалниот контекст, па дури и фразеолошките изрази, говорните чинови и прагматичкиот аспект на јазикот - како на пример изразуваме негодување или како сакаме да постигнеме одредена комуникациска намера.
Овие јазични модели на еден начин се како „црна кутија“. Не можеме точно да предвидиме каков одговор ќе добиеме, но можеме да го дотеруваме резултатот со потпрашања, насочување и примери, зависно од потребите како би се употребувале тие системи.
Христијан Станоевиќ: Од една страна кога се појави ChatGPT, имаше загриженост дека македонскиот јазик дигитално ќе биде засенет и дека нема да биде доволно застапен во дигиталниот простор, каде што нормално имаат влијание и соседите и големите политики. Но, гледаме дека моделите достигнаа ниво на познавање на македонскиот јазик каде што продуцираат соодветна содржина.
Од друга страна, културолошкиот аспект и особеностите на македонскиот јазик се во еден вид на опасност од исчезнување. Можеби формата на јазикот ќе остане присутна, но неговите специфики може да бидат доведени во ризик. Сепак, јазикот постојано се менува и еволуира. Затоа можеби и тоа е некој одговор кон тие конзервативни ставови дека јазикот мора да задржан во некоја „оригинална“ форма.
Андријана Павлова: Во принцип јазикот секогаш треба да имаме тенденција да го зачуваме колку што може повеќе, но неизбежен е контактот со други јазици, и отсекогаш се рефлектирал на нашиот јазик. Како што во минатото сме ги прифатиле турцизмите, професорот Виктор Фридман вели дека англизмите што навлегуваат во ерата на интернетот стануваат еден вид „турцизми“ на денешното време.
Проблемот е кога промената оди на друго ниво. Брзината на времето налага нови изуми и поими да се преземаат директно или да се калкираат, наместо да се најдат соодветни македонски решенија. На некој начин сме изгубени во тој процес.
Англискиот јазик конкретно влијае и на самата синтакса - се менува збороредот и влегуваат нови фразеолошки изрази. Прашањето е до кој степен треба да се дозволи тоа.
Многу поголем проблем беше почетокот на добата на интернетот, кога младите беа изложени на англиски содржини без преводи. Тоа влијание веќе се чувствува во начинот на кој младите размислуваат и зборуваат, доминантно беше тоа. Но, со помош на овие модели може да се надмине таа состојба, бидејќи тие овозможуваат брз превод. Она што на преведувач би му требало цел ден, моделот или машинскиот преведувач го прави за 2-3 секунди. Преводот не е совршен, но и преводите направени од луѓе понекогаш не се квалитетни. Ретки се навистина добрите преведувачи кои ги познаваат сите нијанси на јазикот, можат да најдат соодветни изразни средства и можат да ја пренесат вистинската намера на текстот.
Христијан Станоевиќ: Како гледате на заложбите на институциите, вклучително на вашиот Институт, ФИНКИ и МАНУ, па и Владата имаме и Министерство за дигитална трансформација. Веќе се работи на модели на македонски јазик кои ќе бидат попрецизни и се наменети за административна или службена употреба која бара поголема точност.
Дали овој институционален напор е доволен или треба стратегија за обединување на сите напори за македонскиот јазик во дигиталниот простор?
Андријана Павлова: Верувам дека и понатаму ќе се работи на ова. Потребно е обединување на институционално ниво за да се искористат сите ресурси што ги имаме во Институтот за македонски јазик, Институтот за литература, МАНУ и факултетите. Кога сме обединети, резултатите се многу подобри.
Овие алатки колку што имаат предност, имаат и негативни страни, како што се прашањата за авторството и приватноста. Има многу етички предизвици на кои треба да внимаваме. Генерално од факултетите како ФЕИТ и ФИНКИ има интерес за соработка. Со проектот „Везилка“ веќе има напредок и добиен е грант и можна е соработка.
Технологијата е многу брза. Можеби во минатото не се внимавало доволно како глобализацијата ќе се одрази врз јазикот и културата, но од друга страна, отвореноста кон светот носи и придобивки. Тоа не е проблем само на нашата држава, туку на целиот свет. Сега имаме алатки кои можат да ни помогнат во зачувувањето. Интересите на младите се менуваат секојдневно и не можеме самостојно да го следиме тој тек без технологија. Со овие алатки може да се креираат видеоигри, образовни содржини и литература на македонски јазик, што е многу подобро отколку младите постојано да читаат само на англиски.
Христијан Станоевиќ: Ви благодарам за разговорот.
Тоа беше се за оваа епизода на БалканКаст, до следното слушање останете информирани.
