LEKSIKALNA BAZA ZA JEZIKOVNOTEHNOLOŠKE NAMENE

Leksikalna baza za slovenščino, ki je na voljo v xml formatu, je tudi bogat vir podatkov, ki so namenjeni avtomatskemu procesiranju jezika. Čeprav jezikovnotehnološka skupnost pri pridobivanju in obdelavi leksikalnih podatkov še vedno rada posega po surovih korpusnih podatkih, se vse bolj uveljavljajo tudi lingvistični gramatični in semantični argumenti, ki pri procesiranju jezikovnih podatkov poudarjajo upoštevanje jezikovnih dejstev in lingvistične teorije.

Leksikalna baza predstavlja računalniško berljiv jezikovni vir, v katerem je vsak besedni pomen identifikacijsko povezan z vrsto specifičnih leksikalnih in skladenjskih podatkov v svoji besedilni okolici. Tako je mogoče naprimer avtomatično povezati posamezni pomen glagola z njegovim prototipičnim stavčnim vzorcem in različnimi pogostimi, npr. predložnimi realizacijami tega vzorca. Hkrati je mogoče povezati za konkretni pomen glagola predvidljiva vezljivostna mesta, identificirana s semantičnimi tipi, s konkretnimi tipičnimi leksikalnimi zapolnitvami na teh mestih, ki so registrirane v obliki kolokacij in skladenjskih zvez. Podatki, kot so slovnične, področne, stilne, konotacijske, registrske oznake in slovnične restrikcije omogočajo pomensko razdvoumljanje pri razumevanju besedila in ustrezno izbiro jezikovnih sredstev pri njegovem tvorjenju.

Skladenjske strukture, ki so formalizirane dvo- ali trobesedne (zlasti predložne) besedne zveze, predstavljajo ključno informacijo za avtomatično pridobivanje kolokacijskih podatkov in z njimi povezanih korpusnih zgledov, kar je bilo pri izdelavi leksikalne baze že preizkušeno, rezultate in opis postopkov pa si je mogoče prebrati v članku Kosem et al. v zborniku JT 2012.

Podatke v leksikalni bazi je mogoče povezati s podatki v slovenskem Wordnetu, FrameNetu in drugih leksikalnih virih ter jih uporabiti pri pomenskem razdvoumljanju, avtomatičnem luščenju informacij iz besedil, oblikovanju sistemov odgovorov na vprašanja, v avtomatskih prevajalnih sistemih in aplikacijah, ki temeljijo na bazah jezikovnih podatkov. Nenazadnje je leksikalno bazo mogoče uporabiti za avtomatsko označevanje slovenskih besedil na oblikoskladenjski, skladenjski in pomenski ravni ter za izboljšanje orodij, kot je npr. skladenjski razčlenjevalnik in označevalnik za slovenščino.

STRUKTURA GESLA V LBS IN PRIPADAJOČI ELEMENTI V FORMATU XML

Za potrebe leksikalne baze je bila izdelana DTD shema, ki je prilagojena delu v slovarskih urejevalnikih, kot so naprimer DPS Dictionary Writing System francoskega podjetja IDM, iLex danskega podjetja EMP, TLex podjetja TshwaneDJe iz Južne Afrike, Lingvo.Pro ruskega podjetja ABBYY in podobnih. Shema omogoča prilagoditev informacij v smislu dodajanja in spreminjanja kategorij podatkov in hierarhičnih odnosov za različne tipe slovarskih priročnikov.
[important]

S klikom na povezavo lahko na računalnik prenesete stisnjeno datoteko z Document Type Definition (DTD) in W3C schema (XSD), ki definirata formalno strukturo leksikalne baze v formatu XML.

[/important]

Spodnja preglednica opisuje vsebino posameznih elementov XML sheme in zapis elementa. V vsebinskem delu je na kratko opisan tip leksikalnega, leksikalno-gramatičnega, stilnega, slovničnega in drugih podatkov, namen opisa in razmerje glede na druge podrejene ali nadrejene podatke v shemi. Siva polja označujejo hierarhično višje elemente, ki vsebujejo različne podelemente in/ali atribute.

Vsebina LBS

DTD element

Vsebuje celotni geselski članek z elementoma glava in geslo.

<clanek></clanek>

Vsebuje elemente oblika in zaglavje.

<glava></glava>

Vsebuje elemente zapis, korpus ter iztočnica.

<oblika></oblika>

Znotraj elementa oblika: vsebuje zapis iztočnice za namene iskanja po bazi in nekatere druge (interne) podatke.

<zapis></zapis>

Znotraj elementa oblika: vsebuje podatke o frekvenci v korpusu Gigafida, ki se navezujejo na iztočnico v osnovni obliki.

<korpus></korpus>

Znotraj elementa oblika: vsebuje zapis izočnice obliki leme.

<iztocnica></iztocnica>

Vsebuje elemente: besedna vrsta in oznaka.

<zaglavje></zaglavje>

Znotraj elementa zaglavje: vsebuje zapis besedne vrste, ki ustreza besednovrstni oznaki leme v korpusu Gigafida

<besvrs></besvrs>

Znotraj elementa zaglavje: vsebuje opredelitev leme glede na področje rabe, konotacijskih, registrskih in slovničnih posebnosti.

<oznaka tip=”attribute”></oznaka>

Vsebuje elemente, ki so določeni kot leksikalne enote. Sem sodijo: pomeni s podpomeni, stalne zveze in frazeološke enote.

<geslo>

Vsebuje elemente, ki opredeljujejo posamezno leksikalno enoto. Obvezno vsebuje elementa indikator in pomenska shema.

<pomen></pomen>

Znotraj elementov pomen, podpomen, stalne zveze in frazeološke enote: vsebuje kratek pomenski indikator, katerega namen je ustvariti asociacijo o pomenskem dosegu pomena in oblikovati pomenski meni.

<indikator></indikator>

Znotraj elementa indikator: vsebuje pragmatično pojasnilo v zvezi s pomenom besede, stalne zveze ali frazeološke enote.

<pr></pr>

Znotraj elementov pomen ali podpomen: vsebuje ustaljeno obliko besede, značilno za konkretni pomen.

<ustaljena_oblika></ustaljena_oblika>

Znotraj elementov pomen ali podpomen: vsebuje opredelitev pomena glede na področje rabe, konotacijskih, registrskih in slovničnih posebnosti.

<oznaka tip=”attribute”></oznaka>

Znotraj elementov pomen ali podpomen: vsebuje argumentno zgradbo konkretnega pomena, zapisano v obliki stavčne definicije s SEMANTIČNIMI TIPI kot abstraktnimi zastopniki tipičnih zapolnitev na posameznem vezljivostnem mestu.

<pomenska_shema></pomenska_shema>

Znotraj elementov pomen ali podpomen, stalne zveze in frazeološke enote: vsebuje definicijo, ki na uporabniku prijazen način ubesedi osnovne – na podlagi korpusnih rab – ugotovljene pomenske tendence konkretnega pomena.

<definicija1></definicija1>

<definicija2></definicija2>

Vsebuje element skladenjske strukture s pripadajočimi kolokacijami, vzorci in korpusnimi zgledi.

<skladenjske_skupine></skladenjske_skupine>

Vsebuje obvezno vsaj eno skladenjsko strukturo in korpusne zglede. V večini primerov tudi kolokacije in vzorce.

<skladenjska_struktura></skladenjska_struktura>

Znotraj elementa skladenjska struktura: vsebuje zapis besedne zveze v obliki besedne vrste strukturnega elementa in podatka o ustreznem sklonu. Besedna vrsta, ki zastopa iztočnico v strukturi, je zapisana z velikimi črkami.

<struktura></struktura>

Znotraj elementa struktura: vsebuje opozorilo o slovnični omejitvi elementa v strukturi, npr. na določeno število, glagolsko obliko ipd.

<r></r>

Znotraj elementa skladenjska struktura: pri glagolskih iztočnicah vsebuje lahko več zaporednih realizacij prototipičnega vezljivostnega vzorca, izraženega v pomenski shemi.

<vzorec></vzorec>

Vsebuje vsaj eno kolokacijo in pripadajoče zglede. V večini primerov tudi razširjene kolokacije.

<kolokacije></kolokacije>

Znotraj elementa kolokacije: vsebuje zapis iztočnice in niza pomensko ali oblikovno sorodnih kolokatorjev v elementu <k></k>.

<kolokacija><k></k></kolokacija>

Znotraj elementa kolokacije: vsebuje zapis iztočnice in niza kolokatorjev, ki je lahko razširjen z nizom lastnih kolokatorjev v elementu <k></k>.

<r_kolokacija></r_kolokacija>

Znotraj elementov skladenjske skupine, skladenjske zveze, stalne zveze in frazeološke enote. Vsebuje vsaj en obvezen zgled.

<zgledi></zgledi>

Znotraj elementa zgledi: lahko vsebuje več zaporednih korpusnih zgledov, ki potrjujejo predhodne kolokacije, razširjene kolokacije in vzorce. Znotraj zgleda je v elementu <i></i> v krepkem tisku izpisana iztočnica.

<zgled><i></i></zgled>

Vsebuje vsaj en element skladenjska zveza s pripadajočimi zvezami, kolokacijami, vzorci in korpusnimi zgledi.

<skladenjske_zveze></skladenjske_zveze>

Vsebuje obvezno vsaj eno zvezo in pripadajoče zglede. Redkeje tudi kolokacije, in vzorce.

<skladenjska_zveza></skladenjska_zveza>

Znotraj elementa skladenjska zveza: vsebuje zapis pomensko prozornih, strukturno ustaljenih delčkov jezika, pogosto s semantično ali/in oblikovno predvidljivim prostim mestom v elementu <k></k>.

<zveza><k></k></zveza>

Znotraj elementa pomen: vsebuje elemente, ki opredeljujejo posamezno leksikalno enoto (razen pomena). Obvezno vsebuje elementa indikator in pomenska shema.

<podpomen></podpomen>

Vsebuje vsaj en element stalna zveza.

<stalne_zveze></stalne_zveze>

Vsebuje obvezno element zveza, indikator, struktura in zgledi. V nekaterih primerih tudi kolokacije in razširjene kolokacije.

<stalna_zveza></stalna_zveza>

Znotraj elementa stalna zveza: vsebuje zapis stalne zveze, vključno z variantami posameznih elementov, ločenih s poševnico. Različne sklonske oblike stalne zveze kot celote ali različne oblike njene rabe so navedene v zaporednih elementih <zveza></zveza>.

<zveza></zveza>

Vsebuje vsaj en element frazeološka enota.

<frazeoloske_zveze></frazeoloske_zveze>

Vsebuje obvezno element enotain indikator. Pogosto tudi kolokacije, zglede in oznake.

<frazeoloska_enota></frazeoloska_enota>

Znotraj elementa frazeološka enota: vsebuje zapis frazeološke enote, vključno z variantami posameznih elementov, ločenih s poševnico. Različne sklonske oblike frazeološke enote kot celote ali različne oblike njene rabe so navedene v zaporednih elementih <enota></enota>.

<enota></enota>

LASTNIŠTVO IN LICENCA

Lastnik leksikalne baze za slovenščino je Ministrstvo za izobraževanje, znanost in šport Republike Slovenije. Pogodba med Ministrstvom in izvajalci projekta določa, da se za prenos baz podatkov na tretje osebe in označevanje avtorskih del uporabi licenca »priznanje avtorstva« + »nekomercialno« + »deljenje pod istimi pogoji«, ki dovoli uporabnikom avtorsko delo in njegove predelave reproducirati, distribuirati, dajati v najem, priobčiti javnosti in predelovati samo pod pogojem, da navedejo avtorja, da ne gre za komercialno uporabo in da tudi oni naprej širijo izvirna dela ali predelave pod istimi pogoji.

Creative Commons licenca
To delo je ponujeno pod licenco Creative Commons Priznanje avtorstva-Nekomercialno-Deljenje pod enakimi pogoji 2.5 Slovenija

[important]

Leksikalna baza je dostopna v repozitoriju CLARIN.SI: http://hdl.handle.net/11356/1030.

[/important]

AVTORJI

Leksikalna baza kot podatkovna zbirka: Polona Gantar, Simon Krek, Iztok Kosem, Mojca Šorli, Polonca Kocjančič, Katja Grabnar, Olga Yerošina, Petra Zaranšek, Nina Drstvenšek
Datoteke DTD, W3C schema: Simon Krek, Iztok Kosem, Polona Gantar