Jezikovna forenzika
Šest analitikov išče avtorja
Vabilo na predavanje dr. Ane Zwitter Vitez, zaposlene na ljubljanski Filozofski fakulteti in koprski FHŠ, je obetalo obravnavo »družbenih posledic ugotavljanja avtorstva besedil«. Na dan, ko je ravnokar ustoličena ministrica za šolstvo odstopila zaradi plagiatorstva v svoji magistrski nalogi, si pravzaprav ne bi mogli zamisliti govoriti o čem bolj aktualnem. Seveda je šlo zgolj za neverjetno naključje – ali pa mogoče niti ne. Primer nesrečne ministrice še zdaleč ni edini, anonimni besedili, ki sta raziskovalki rabili, da je radovednim poslušalcem razložila, katere so metode jezikovne forenzike, pa prav tako zgovorno pričata o ravni politične kulture v Sloveniji.
Toda najprej je treba razčistiti, kaj jezikovna forenzika sploh je. V času velikanske priljubljenosti kriminalnih nadaljevank, v katerih so prav forenziki, ne sicer jezikovni, temveč po slovensko izvedenci sodne medicine, tisti, ki z znanstvenimi analizami nalahno (in precizno) ovijejo in zategnejo vrv okrog zločinčevega vratu, utegne poimenovanje zavesti in speljati v senzacionalistične vode. Zgodbe, v katerih odkrijejo morilca, ker je z mobitela umorjene po njenem izginotju pošiljal kratka sporočila s čisto drugačnim besediščem kot njegova lastnica za življenja, so samo ena veja te vede. Jezikovna forenzika se, kot je razložila Ana Zwitter Vitez, ki se je v doktoratu posvečala komunikacijskim strategijam v spontanem govoru, potem pa delala predvsem z jezikovnimi korpusi, uporablja na vsaj treh področjih. Prvo je razumevanje besedil – kako je posameznik razumel neko razsodbo, oporoko, pravno odločbo. Drugo je jezikovna raba pri sodnih procesih, zaslišanjih ali policijskih zapisnikih – kjer se ukvarja s tem, kaj je razvidno med vrsticami tega, kar je zapisano (pa mogoče ne bi smelo biti). Tretja pa je iskanje jezikovnih dokazov v forenzičnem kontekstu, kjer se ugotavlja avtorstvo poslovilnih pisem, anonimnih groženj ipd.
Prvine, ki jih avtor ne more nadzorovati
Anonimno sporočilo, v katerem avtor obklada naslovnika, poslanca Magajno in Batellija, z žaljivkami in jima nato grozi, da bo z njima obračunal, »tako kot so to delali 45 na Pohorju«, kar da mu je zaupal očim, na prvi pogled pove veliko o tistem, ki ga je sestavil. Kdaj približno je rojen, kje približno živi (ali vsaj, kje je odraščal), da je moškega spola in ne prav izobražen (poslancu narodnosti pritakne oznako Lah, vendar pisano z malo) in podobno. Toda pozor, svari predavateljica, ki se je z raziskovanjem anonimnih besedil ukvarjala v okviru podoktorskega projekta pod okriljem zavoda za uporabno slovenistiko Trojina (sredstva zanj pa je namenila Javna agencija za raziskovalno dejavnost – ARRS), za avtorje anonimnih pisem je menda jasno, da hočejo svojo identiteto prikriti. Ali z vnašanjem napačnih sledi otežiti preiskavo. Zato naj se jezikovni forenzik, ki tak dopis jemlje pod drobnogled, ne zatakne za najočitnejša znamenja, kot so pravopisne in druge napake. Anonimnega avtorja se da ujeti kvečjemu tam, kjer značilnosti svojega pisanja ne more zavestno nadzorovati: pri dolžini besed ali stavkov in podobnih posebnostih, ki jih more odkriti samo računalniški program s prečesavanjem velikanskih baz podatkov. Ključnega pomena pri jezikovni forenziki je namreč primerjanje z besedilnimi bazami, koder je mogoče najti primerke podobno napisanih tekstov.
Zagonetka Shakespeare
Pred iznajdbo zmogljivih računalnikov je šlo seveda mnogo teže. Pa vendar predavateljica malo za šalo, malo zares kot prvi primerek jezikovnoforenzične raziskave predstavi študijo Thomasa Corwina Mendenhalla iz leta 1887. Ameriški fizik in meteorolog (obojega se je po Wikipediji priučil sam) je sklenil priti do dna zagonetki, kdo je bil v resnici Shakespeare. V ta namen je štel dolžino besed, ki se pojavljajo v delih Williama Shakespeara, Christopherja Marlowa in Francisa Bacona. Dognal je – najbrž po mukotrpnem preštevanju – da sta Marlowe in Shakespeare uporabljala sumljivo enako število besed z enakim številom črk. V luči podatka, da je Marlowe umrl le kratek čas pred objavo prve Shakespearove drame, njegovo odkritje postane še bolj zanimivo.
Odkrivanje avtorstva literarnih del, ki so bila izdana pod psevdonimom, je sicer ena od bolj razburljivih možnosti uporabe jezikovne forenzike. Večino tistih, ki so v zadnjem času nekoliko podrobneje spremljali slovensko knjižno produkcijo, še zdaj bega, kdo sta v resnici Eva Pacher in David Benjamin, ki sta se podpisala pod Čudoviti klon in Sedem. Najbolj donosna – pa tudi najbolj skrbno prikrivana, dodaja predavateljica – je raba jezikovne forenzike v gospodarstvu, kjer marsikje že na podlagi prošenj za zaposlitev poskušajo razvrstiti kandidate po primernosti ali pa podrobno analizirajo odzive na spletnih forumih in dopise strank, da bi ugotovili, kako jih lahko prepričajo v še kakšen dodaten nakup. Da bi kaj takega počeli tudi v slovenskih podjetjih, Ana Zwitter nima oprijemljivih podatkov – a domnev tudi ovreči ne more, vsekakor pa se menda to počne na jezikovno obširnejših tržiščih. Še ena možnost uporabe jezikovne forenzike je ugotavljanje resničnega avtorstva plagiiranih akademskih del. Pri tem so jim v pomoč metode t. i. rudarjenja po besedilih (text-mining), najbolj osnovni princip pri odkrivanju plagiatorstva pa je odkrivanje identičnih nizov besedil (kar pride v poštev, če plagiator resnično samo kopira in lepi). Lahko pa se osredotočijo tudi na delež zelo podobnih leksemov v besedilih, s čimer pridejo na sled plagiatorju tudi, če si ta da delo s premetavanjem besed v stavkih.
Zanesljivost in etične dileme
Predavateljica je prisotnim prikazala, kako se je v okviru podoktorskega projekta podala na sled zloglasnemu Tomažu Majerju. Gre seveda za neobstoječega človeka, ki je svoje modrovanje o volivcih ljubljanskega župana Zorana Jankovića, ki da se jih prepozna, ker so »oblečeni v trenirke« in »imajo na rokah s kemičnim svinčnikom na roko zapisano zaporedno številko, ki jo morajo obkrožiti«, priobčil na spletni strani ene od parlamentarnih strank.
Gospod Majer si je zato prislužil ovadbo zaradi razširjanja sovražnega govora, stranka pa ni hotela razkriti identitete pisca. V Trojini so oblikovali hipotezo, po kateri je omenjeni skrivnostni avtor zagotovo že kdaj v preteklosti prispeval kakšno svoje besedilo na taisti spletni strani. Zajeli so torej besedila, objavljena tri mesece pred incidentom in tri mesece po njem; korpus je štel 75 besedil 21 različnih avtorjev. V raziskavi so besedila najprej anonimizirali in avtorje poimenovali s črkami abecede (saj jim je šlo zgolj za eksperiment, ne pa, da bi ime avtorja zares obelodanili), potem pa jih prepustili enemu od računalniških programov, v rabi tudi pri strojnem prevajanju in gradnji jezikovnih korpusov, ki besedila najprej oblikoslovno označi in vsaki besedi pripiše ključne lastnosti (recimo: samostalnik, moškega spola, ednina ipd.). Tako so že bili bliže cilju: število samostalnikov, ki jih pri oblikovanju povedi uporablja posameznik, kompleksnost povedi, vse to so stvari, ki jih avtor ne more nadzorovati. »In prav to je tisto, kar analitik išče,« pravi Ana Zwitter Vitez.
Tedaj so prišle na vrsto t. i. značilke, ki so lahko leksikalne ali berljivostne. Povedano bolj preprosto: gre za to, da so besedila računalniško prečesali s programi, ki so izračunavali raznolikost besedišča pri posameznem avtorju (kjer število različnih izrazov deliš s številom vseh izrazov v tekstu) ali iskali prisotnost hapaksov (iz stare grščine: hapax legomenon) ali besed, ki se pojavljajo samo enkrat. Primerjava torej ni slonela na podobnostih, temveč na razlikah glede na Majerjevo besedilo. Avtorja z najmanjšo povprečno absolutno razliko glede na anonimno besedilo sta bila avtorja, označena z G in A. Več pa raziskovalci niso hoteli razkriti. Rezultati takšnih analiz utegnejo imeti daljnosežne posledice, opozarja Ana Zwitter, tudi če je zanesljivost raziskav 99-odstotna, to še ni dovolj, da bi si upali povedati, kaj so dognali. Kajti obstaja dvom: je bilo med analiziranimi besedili sploh kakšno, ki ga je spisal fantomski Tomaž Majer? Če je bila njihova hipoteza napačna, je bila raziskava ničvredna, pojasnjuje predavateljica, ki priznava, da se večkrat ukvarja s podobnimi pomisleki, kakšne so dolžnosti raziskovalca: kaj razkriti in kaj zamolčati.
Najboljši so Nemci
V slovenski policiji se s forenzičnim jezikoslovjem (forenzično stilistiko) ukvarja dr. Dorijan Keržan, pomočnik direktorja Nacionalnega forenzičnega laboratorija (NFL). »Takšne analize opravljam dokaj redko,« pravi dr. Keržan, »morda enkrat ali dvakrat na leto.« Običajno gre za anonimna pisanja, poslana bodisi po elektronski pošti ali napisana na računalnik, v presojo pa je dobil tudi potrdilo o predaji denarja, za katerega se je izkazalo, da ga ni napisala oseba, ki naj bi ga sestavila, kar so pozneje podprli tudi drugi forenzični dokazi. Težava je v tem, da tovrstne analize (še) niso dovolj zanesljive, da bi lahko z visoko stopnjo verjetnosti podali mnenje o avtorstvu. Računalniški programi, ki jih je mogoče uporabiti za pomoč pri analizi, so resda natančni, a končno besedo ima seveda človek, jezikoslovec, pravi Keržan. O čem oprijemljivejšem, denimo kakšno težo imajo izsledki jezikovnoforenzičnih analiz na sodišču, ne more govoriti, lahko pa pove, da so dobrodošle kot orodje, ki usmerja policijske preiskave. Vsekakor so dobre kot metoda, ki določenega človeka izloči kot potencialnega pisca – ne gre pa se nanjo zanašati pri iskanju avtorja kot igle v kopici sena.
Tudi v tujini jezikovna forenzika ni bistveno naprednejša kot v slovenščini (in ne drži predpostavka, da bi bila slovenščina zaradi manjšega števila govorcev in posledično manjše razvitosti jezikovnih orodij manj primerna za takšne preiskave), razlaga sogovornik. Vidnejša centra jezikovne forenzike sta v angleškem Birminghamu, kjer se raziskav lotevajo bolj na teoretski ravni (a prav tam so razrešili primer s sms-ji, poslanimi s pokojničinega mobitela z začetka tega zapisa), in v Wiesbadnu, kjer v okviru nemškega zveznega urada za kriminal (BKA) deluje oddelek za ugotavljanje avtorstva zapisa na podlagi jezikovnih značilnosti. Tam v analizo največkrat dobijo pisma izsiljevalcev ali pa sporočila političnih skrajnežev z obeh polov – levega ali desnega, piše na njihovi spletni strani.
Pogledi, let. 6, št. 7, 8. april 2015