Učitelj računalnika za prepoznavanje laži

Kako deluje poslovni model lažnih novic in kako tisti, ki jih skuša razkrinkati.
Fotografija: V primeru »shallow fakes« vzamete obstoječo, resnično sliko in preprosto spremenite naracijo, ponaredite opis slike. FOTO: REUTERS
Odpri galerijo
V primeru »shallow fakes« vzamete obstoječo, resnično sliko in preprosto spremenite naracijo, ponaredite opis slike. FOTO: REUTERS

V zadnjih treh desetletjih in pol, od »orwellowskega« leta 1984, se je svet zelo spremenil. Ronald Reagan je v letu 1984 končal svoj prvi štiriletni mandat predsed­nika ZDA in se pripravljal na drugega, v Sovjetski zvezi sta vladala neozdravljivo bolna stara aparatčika Jurij Andropov (umrl februarja 1984) in Konstantin Černenko (umrl marca 1985; nato je Komunistično partijo ZSSR prevzel Mihail Gorbačov).

V tehnologiji smo si to leto zapomnili po uvedbi macintosha, revolucionarnega izdelka korporacije Apple, osebnega računalnika, ki je postal privlačen mnogim, za katere so bili prej računalniki preveč zapleteni in zato odbijajoči. Leto 1984 je bilo tudi prvo, v katerem se je po svetovnem digitalnem omrežju razširila lažna novica.

Njenemu avtorju, nizozemskemu internetnemu pionirju Pietu Beertemi, se tedaj ni niti sanjalo, da bodo lažne novice na začetku 21. stoletja postale svetovni problem, z velikimi finančnimi, političnimi in splošnimi družbenimi posledicami. Prvega aprila 1984 je Beertema v takratnem računalniškem komunikacijskem omrežju Usenet objavil (lažno novico), da ZSSR od tega dne pristopa k Usenetu, da bi prepričala zahodni svet »o miroljubnih namenih Sovjetske zveze« in da bi razkrili »enostransko propagando ameriške administracije, ki si prizadeva za vojno in svetovno prevlado«.

Čeprav je Beertema spretno napisal sporočilo, z izmišljenim naslovom pošiljatelja iz moskovskega Kremlja vred, njegova prvoaprilska šala danes najverjetneje ne bi uspešno prestala preizkusa detektorjev lažnih novic.

Ločevanje informacij od dezinformacij je poslanstvo podjetja AdVerif.ai s sedežem na Nizozemskem. Njegov ustanovitelj je Or Levi, po rodu Izraelec, strokovnjak za obdelavo naravnega jezika, vodja ekipe za podatkovno znanost pri družbi eBay. Levi je tudi strasten zagovornik uporabe umetne inteligence za družbeno koristne namene.

Tehnološki napredek je umetno inteligenco spremenil v močno sredstvo za manipuliranje z vsebino, namenjeno širši javnosti, od tako imenovanih botov, ki samodejno izdelujejo naslove in celotne zgodbe, prek programske opreme za sintetiziranje glasu do novih funkcij za brezhibno montažo videoposnetkov. »Ročni« nadzor ni več mogoč, z ljudmi kot kontrolorji, ker je vsebine preveč. »Ob napovedih, da bodo ljudje v gospodarsko razvitih državah v treh do štirih letih konzumirali več lažnih kot resničnih vsebin, bi nas moralo resno zaskrbeti,« je Levi leta 2018 dejal za NBC.

V istem letu, na Svetovnem gospodarskem forumu 2018 v švicarskem Davosu, sta digitalna velikana Google in Facebook napovedala, da bosta razvila sisteme umetne inteligence, ki bodo uporabnike znali opozoriti na sumljive vsebine. Levi v svojem podjetju AdVerif.ai že ponuja takšne storitve. Pogovarjala sva se pred kratkim na Dunaju, kjer je bil eden glavnih govornikov na velikem, globalnem kongresu We Are Developers.


S kakšnim predznanjem in željami ste se lotili odkrivanja lažnih vsebin?


Jaz sem podatkovni znanstvenik. Moja strast je področje, ki se imenuje »natural language processing«, obdelava naravnih jezikov. Gre za strojno analizo besedil, ugotavljanje, kaj je tema besedila, kaj je njegov povzetek in podobno. Stroj, kot je računalnik, sam po sebi ne ve, kaj je besedilo. Računalnik le obdeluje številke. S strojno analizo besedila ga poskušamo naučiti, da razume pomen. V AdVerif.ai poskušamo naučiti stroje, da bi odkrili, kaj so informacije in kaj dezinformacije.

Osredotočeni smo na iskanje lažnih novic, usmerjenih na oglaševanje. Številne lažne novice so politične, prihajajo iz drugih držav, obveščevalnih in drugih virov. Hkrati pa obstajajo fantje, ki želijo le denar in zato lansirajo veliko lažnih novic. Oni zgradijo spletno stran – to danes nič ne stane – in začnejo objavljati senzacionalne novice. V družbenih medijih se te novice širijo viralno. Potem jih je mogoče monetizirati, pretvoriti v denar, glede na število obiskovalcev na spletu. Tako lahko založniki lažnih novic veliko zaslužijo. Mi smo na nasprotni strani. Skrbimo, da naši naročniki, oglaševalci, ne vstopajo na takšna spletna mesta.


V preteklosti so oglaševalci natančno določali, kje bodo oglaševali.

Oglaševanje je zdaj zasnovano na avtomatičnem programiranju. Res je, da ni pregledno, videti je kot črna škatla. Oglaševalci imajo na voljo neki proračun in naredijo temeljno konfiguracijo glede usmerjanja tega denarja, ne vedo pa točno, kje bodo oglaševali. Na koncu gre del tega denarja na spletne strani z lažnimi novicami. Trudimo se prekiniti povezave med oglaševanjem in lažnimi novicami.


Kakšen odziv je na trgu?

Oglaševalci so zelo občutljivi na problem lažnih novic, saj želijo obvarovati svoje blagovne znamke. Oglaševanje na spletnih mestih z lažnimi novicami je veliko tveganje za ugled znamke in nasploh proizvajalca. Naš poslovni model je preprečevanje oglaševanja na takšnih straneh. Drugi segment našega poslovanja je sodelovanje z organizacijami za preverjanje dejstev, podjetji za »fact checking«.


Lani sem se pogovarjal z nekaterimi strokovnjaki za preverjanje dejstev na konferenci v evropskem parlamentu v Bruslju. Njihovo delo je podobno delu policijskih detektivov. Preverjevalci dejstev imajo zelo sofisticirane metode za odkrivanje lažnih novic, vendar so lažnivci nenehno korak pred njimi.

Da, tudi o tem sem danes govoril na Dunaju. To je kot oboroževalna tekma: vsakič, ko imate nov način odkrivanja lažnih novic in to objavite, pošiljatelji najdejo nov način.


Kdo so vaše stranke?

To so veliki oglaševalci in tudi oglaševalske agencije, ki zastopajo različne oglaševalce. Med strankami imamo tudi založnike. Za založnike pogosto analiziramo kontekst določene zgodbe. Na primer, sodelujemo z nekaterimi indijskimi medijskimi podjetji. Lažne novice o nasilju, različnih protestih in podobno so v Indiji izredno velik problem. Med našimi strankami je večji indijski televizijski kanal, ki ima po svetu okoli 300 milijonov gledalcev. Oglašuje ne le v Indiji, ampak tudi v ZDA in Veliki Britaniji, mi pa mu pomagamo pri zagotavljanju varnosti blagovne znamke, »brand safety«. Sodelovati smo začeli tudi z eno največjih francoskih oglaševalskih agencij, ki ima številne stranke v bančništvu, telekomunikacijah in drugih panogah.

Oglaševalci pogosto pripravijo črni seznam nezaželenih izrazov. Če je na primer v vsebini »Donald Trump« ali beseda »dead« (mrtev, mrtvec), ne želijo, da se njihov oglas pojavlja v tem kontekstu. Konkretno, nekatera podjetja ne želijo biti povezana z aktualnim ameriškim predsednikom oziroma, v drugem primeru, z umorom. Vendar v drugem primeru to pomeni, da se njihov oglas ne bo pojavil na nekaterih mestih, kjer bi morda radi oglaševali, recimo v kontekstu znane televizijske serije Živi mrtveci (Walking Dead), ker je v njenem naslovu mrtvec, dead. Zato preproste metode preprečevanja oglaševanja, kot je seznam prepovedanih izrazov, še zdaleč niso optimalne.


Verjetno je vse veliko lažje za oglaševalce, ki se sami odločajo, v katerih medijih bodo oglaševali, namesto da povsod vlagajo denar in potem ugotovijo, da je bil določen delež njihovega oglaševanja kontraproduktiven.

Obstaja več ravni, na katerih lahko delujete. Najvišja je, da sami določite, kje boste oglaševali. Lahko definirate, da bodo vaši oglasi le na straneh določenih, zaupanja vrednih založnikov. Nekateri se še zmeraj držijo te strategije. Vendar je veliko podjetij, ki nagovarjajo potrošnike v zelo različnih skupinah prebivalstva. Nekatera mlada podjetja pravzaprav sploh ne vedo, kje je njihov potencialni trg, in se želijo s tehnologijo približati potencialnim potrošnikom. Pri tem seveda poskušajo ohraniti varnost svoje blagovne znamke. Njim lahko pomagamo. Tu je mogočih več stopenj delovanja: lahko se blokirajo celotne spletne strani, lahko le določene besede – o tem sem že govoril –, medtem ko se pri tretjem načinu analizira celotna zgodba, preuči vsebina. Takšna, najbolj natančna rešitev je naša usmeritev. Tako poskusimo ohraniti varnost blagovne znamke stranke in se hkrati čim bolj približati najširšemu potencialnemu trgu.


Kako to storite? Kaj počnete sami in kaj s pomočjo drugih, kot so preverjevalci dejstev?

Če ste oglaševalec, so za vašo blagovno znamko tvegana različna okolja, na primer pornografske, nasilne in nekatere druge vsebine. Prepoznavanje takšnih okolij je delo, ki ga opravljajo druga podjetja. Mi sodelujemo z njimi. Naša posebnost je prepoznavanje dezinformacij. Ta grožnja se je v zadnjih letih močno povečala.


Kako kategorizirate dezinformacije?

Nekatere med njimi so plitve lažne novice, »shallow fakes«. Pri njih vzamete obstoječo, resnično sliko in preprosto spremenite naracijo, ponaredite opis slike. Na primer, za fotografijo demonstracij v Hongkongu napišete, da gre za proteste pred parlamentom v Sloveniji. To je zelo preprost način objavljanja ponarejenih novic. Za plitve lažne novice vam ni treba imeti nobene posebne tehnologije. Vendar zdaj obstajajo načini za ustvarjanje slike iz ničesar oziroma iz podrobnosti, ki jih imate v podatkovni bazi. Lahko naredite »fotografijo« želene osebe, obraz, ki sploh ne obstaja. Rezultat je popolnoma rea­lističen. Tako lahko naredite tudi avdioposnetek. Slišali ste danes, ko sem občinstvu predvajal tri »posnetke« izjav Billa Gatesa. Niti na enem ni bil govor Billa Gatesa. Stroj se je naučil posnemati njegov glas.


Torej ne gre za montažo besed, ki jih je Gates res izgovoril?

Ne, ne, to bi bila plitva lažna novica. Seveda je tudi to mogoče narediti, vendar potrebujete veliko več časa, za vsako posamezno lažno novico. Višja stopnja ponarejanja je, če vzamete predavanja Billa Gatesa v TED Talks – videoseriji, v kateri slavni ljudje govorijo o različnih temah – in na podlagi teh govorov naučite stroj, da posnema Gatesa. Nato lahko napišete poljubno besedilo in stroj ga bo izgovarjal natanko tako kot Bill Gates. To lahko storite tudi s pisanjem besedila. Na primer, dajte izurjenemu stroju samo naslov, kot je »Povezava med cepljenjem in avtizmom«, in vam bo napisal celotno besedilo. Potrebuje le naslov, da napiše tekst. Kot podlago uporablja številne vire: Wikipedio, različne bloge, razprave in tako naprej. Stroj bo naročeno besedilo naredil na podlagi »language modela«, jezikovnega modela. Na primer, če izgovorite besedno zvezo »Donald Trump je ...«, vam bo usposobljen računalnik dokončal stavek. Poskusil bo povedati, kaj ste vi hoteli povedati, na podlagi številnih informacijskih virov. Računalnik se v language modelu nauči izdelave koherentnega besedila.


Ali lahko računalnik naučite pisati v slogu določenega avtorja?

Da, če so na voljo vaša prejšnja besedila. Danes sem občinstvu pokazal, kako lahko stroj piše novice v slogu časopisa New York Timesa ali hiše CNN, tudi v slogu nekaterih novinarjev teh medijskih družb. V prihodnosti vam morda ne bo treba lastnoročno pisati besedil. To nikakor ni oddaljena prihodnost. Za besedila, ki sem jih prikazal danes, napisana v slogu New York Timesa, boste težko presodili, ali jih je napisal človek ali stroj.


Bomo potrebovali nov Turingov test za ugotavljanje, ali je kakšna medijska vsebina delo človeka ali stroja?

Natanko tako, ampak tak razvoj dogodkov ni le v korist goljufov, ki želijo obogateti z lažnimi novicami. Ljudje bodo lažje pisali besedila in artikulirali misli. Morda bomo tako ustvarjali celo umetnine.


Dobra umetnost je običajno odpiranje novih oken, v doslej neznano.

Tudi strojno ustvarjena umetnost bo nekaj popolnoma novega. Ne bo le kopija ali kombinacija tistega, kar je že znano. Stroj se bo učil vzorcev in na podlagi njih ustvaril nova dela. Takšen razvoj lahko omogoči tako želeno personalizacijo izdelkov, tudi umetniških. Na primer, v najnovejšem filmu serije Terminator vam ni všeč Arnold Schwarzenegger v glavni vlogi. Raje bi gledali Sylvestra Stallona – ali pa vam bo računalnik spremenil scenarij filma, po vaših željah.


Vrnimo se k AdVerif.ai. Niste veliko podjetje in verjetno nimate možno­sti, da bi obiskali vsako potencialno stranko. Kako jih pridobivate?

Smo razmeroma majhna ekipa. Trenutno nas je pet. Doslej smo imeli odlično reklamo od ust do ust. Za nas je pozitivno, da so lažne novice razmeroma nov fenomen in da imamo zanje revolucionarne rešitve. CB Insights, znano podjetje za analizo novih tehnoloških podjetij, nas je pred kratkim uvrstilo na seznam Global Game Changing Startups 2019.


Če ni skrivnost – kaj je revolucionarno v vaših rešitvah?

Govoril sem o podjetjih za preverjanje dejstev. Fact checkers ugotovijo, ali je nekaj resnično ali neresnično. To delajo »ročno«, to počnejo njihovi strokovnjaki. Na podlagi teh podatkov in obdelave naravnega jezika, natural language processinga, usposabljamo računalnik za posploševanje teh spoznanj. Seveda Facebook in podobna podjetja sodelujejo s podjetji za preverjanje dejstev. Facebook noče biti policija in zato sodeluje s temi podjetji, ki pa preprosto nimajo dovolj zmogljivosti za preverjanje vsake vsebine. Zato je nujno posploševanje. Nekaj ​​takega že imate v segmentu e-pošte, ki mu pravimo spam, neželena pošta. Ni človeškega cenzorja, ki bi prebral vsa e-poštna sporočila in se odločil, kaj je v resnici vaša pošta in kaj neželena pošta. Ljudje so zato naučili stroje za ločevanje takšne pošte.

Mi lahko prepoznamo lažne novice, podobno kot na primer antivirusni program prepozna viruse, ki morda napadajo vaš računalnik. Decembra smo na prestižni konferenci EMNLP – Empirical Methods in Natural Language Processing – predstavili izsledke svoje raziskave o razlikovanju satire od lažnih novic: Identification Nuances in Fake News vs. Satire: Using Semantic and Linguistic Cue (»Prepoznavanje značilnih odtenkov za razlikovanje med lažnimi novicami in satiro z uporabo semantičnih in jezikovnih indicev«). Ljudje običajno ugotavljamo, ali je nekaj satirično ali namerna dezinformacija, torej lažna novica, na podlagi tega, na kateri spletni strani je objavljena vsebina. Mi smo na podlagi vzorcev (patterns) v besedilu naučili stroj, da zna analizirati vsebino ne glede na vir.


Če ste uspešni, potem je to že višja stopnja sposobnosti umetne inteligence.

Očitna težava na platformah družbenih medijev je zabrisana meja med zlonamernimi lažnimi novicami in satiro, zaščiteno s svobodo tiska. Avtorji lažnih novic vedno bolj maskirajo svoja sporočila v ogrinjalo satire, da jih ne prepoznamo kot prevarante. Z našo metodo razlikovanja satire od lažnih novic smo dosegli bist­veno boljše rezultate kot s prejšnjo: naš kazalnik F1 je 0,78, pri prejšnji metodi je 0,67 (indikator F1 meri natančnost modela s posebno formulo; če je 1,0, potem je brez napak; če je 0,0, potem je povsem nenatančen, op. M. I.).


To velja samo za besedila v angleščini?

Da, samo za angleščino. Veste, nekje morate začeti.


Lahko opišete, kaj je glavna razlika med satiro in lažnimi novicami?

Ena glavnih značilnosti satirične vsebine je, da jo je težje brati. Satira je bolj prefin­jeno branje.

Več iz rubrike