Abstract
V prispevku predstavljamo drevesnico SST (angl. Spoken Slovenian Treebank), prvi skladenjsko razčlenjeni korpus govorjene slovenščine, ki vsebuje uravnotežen in reprezentativni nabor besedil referenčnega korpusa govorjene slovenščine Gos z ročno pripisanimi podatki o lemah, besednih vrstah in oblikoslovnih lastnostih besed ter njihovimi odvisnostnimi skladenjskimi razmerji. Konkretno drevesnica temelji na označevalni shemi Universal Dependencies (UD), ki si prizadeva za mednarodno poenoteno oblikoskladenjsko označevanje besedil in se zaradi svoje interoperabilnosti, fleksibilnosti in naslavljanja širokega nabora slovničnih pojavov – tudi tipično govorjenih – vse pogosteje uporablja tudi za razčlenjevanje govorjenih besedil. Po predstavitvi zasnove, vsebine in dostopnosti obstoječe različice drevesnice SST v drugem delu prispevka predstavimo prve rezultate in načrte v povezavi z njenim nadaljnjim razvojem, kot sta razširitev z novimi besedili in nadgradnja smernic za označevanje tipično govorjenih pojavov.
Publisher
Univerza v Mariboru, Univerzitetna založba
Reference40 articles.
1. Špela ANTLOGA, 2022: Identifikacija metafore in metonimije v jezikovnih korpusih: Poskus kategorizacije označenih metonimičnih prenosov v korpusu g-KOMET. Slovenščina 2.0: empirične, aplikativne in interdisciplinarne raziskave, 11/1, 91-117. https://doi.org/10.4312/slo2.0.2023.1.91-117.
2. Špela ARHAR HOLDT et al., 2022: Training corpus SUK 1.0, Slovenian language resource repository CLARIN.SI, http://hdl.handle.net/11356/1747.
3. Janez BRANK, 2023: Q-CAT Corpus Annotation Tool 1.5, Slovenian language resource repository CLARIN.SI, http://hdl.handle.net/11356/1844.
4. Brian MacWHINNEY, 2000: The CHILDES Project: Tools for Analyzing Talk, 3. izdaja. Psychology Press.
5. Marie-Catherine de MARNEFFE, Christopher D. MANNING, Joakim NIVRE, Daniel ZEMAN, 2021: Universal Dependencies. Computational Linguistics, 47/2, 255-308.