Povzemanje
Cilj naloge povzemanja besedil je pretvoriti daljše besedilo v krajše besedilo, pri čemer ohranimo bistvene informacije izvornega besedila. Na splošno obstajata dva pristopa k povzemanju besedil. Ekstraktivni pristop zgolj prepiše najpomembnejše stavke oz. dele besedila ter s tem ne doprinese nič novega k samemu besedilu. Abstraktivni pristop je bolj podoben človeško narejenim povzetkom, saj lahko dele besedila med seboj poveže, daljše stavke okrajša, zamenja nekatere besedne zveze s krajšimi ipd. Abstraktivni avtomatski povzemalniki besedil morajo pokazati dobro razumevanje besedil kot tudi sposobnost ubeseditve ključne vsebine, kar pomeni, da so lahko bolj zavajajoči v primerjavi z ekstraktivnimi. Spodaj predstavljamo naslednje modele:
- Metamodel - nevronski model, ki temelji na dokumentni predstavitvi Doc2Vec in na podlagi tega predlaga najboljši povzemalnik.
- Graph-based model - nenadzorovan ekstraktivni pristop na osnovi grafov, ki vrne N najbolj pomembnih povedi.
- Headline model - nadzorovan abstraktivni pristop (arhitektura T5), ki vrača povzetke v obliki krajših naslovov.
- Article model - nadzorovan abstraktivni pristop (arhitektura T5), ki vrača kratke povzetke.
- Basic model - nenadzorovan enostaven povzemalnik, ki uporablja frekvence besed in vrača N najbolj pomembnih povedi.
- Hybrid-long model - nenadzorovan hibridni (na osnovi grafov in modelov transformer) pristop, ki vrača kratke povzetke dolgih besedil.
Spletna storitev je namenjena izključno demonstracijskim namenom in je omejena s številom zahtevkov na časovno enoto ter vnosom dolžine besedila. Za uporabo storitve v okviru vaših aplikacij, si prenesite rezultate projekta, ki so objavljeni v repozitoriju Clarin.si.
Orodje dostopno na: https://github.com/RSDO-DS3/SloSummarizer