Affiliation:
1. Национальный исследовательский университет "Высшая школа экономики"
2. Департамент прикладной лингвистики и иностранных языков
3. University Higher School of Economics
4. Department of Applied Linguistics and Foreign Languages
Abstract
Рассматриваются алгоритмы, выполняющие автоматический морфемный анализ слов, и методы распределённых представлений слов, которые используют информацию о морфемном составе, но не напрямую, а через усреднение векторов однокоренных слов. Оценивается качество моделей морфемного анализа для русского языка, в том числе и на выборке из редких слов. Предлагается несколько способов получения распределённых представлений редких слов на основе word2vec-представлений однокоренных слов. Проведённые эксперименты показали, что на задаче определения семантической близости пары слов предлагаемые методики дают результаты, сопоставимые с результатами модели fastText или превосходят их.
Publisher
Russian Institute for Scientific and Technical Information - VINITI RAS
Reference22 articles.
1. Mikolov T., Chen K., Corrado G., Dean J. Efficient estimation of word representations in vector space // ICLR: Proceedings of the International Conference on Learning Representations Workshop Track, Arizona. - 2013. - URL: arXiv:1301.3781 [cs.CL] (дата обращения: 20.06.2020).
2. Bojanowski P., Grave E., Joulin A., Mikolov T. Enriching word vectors with subword information // Transactions of the Association of Computational Linguistics. - 2017. - Vol. 5. - P. 135-146.
3. Kutuzov A., Kuzmenko E. WebVectors: A toolkit for building web interfaces for vector semantic models // Ignatov D. et al. (eds) Analysis of Images, Social Networks and Texts. AIST 2016. Communications in Computer and Information Science. Vol. 661. - Cham, Switzerland: Springer, 2017. - P. 155-161.
4. Тихонов А. Н. Морфемно-орфографический словарь русского языка. - M.: ACT, 2002. - 704 c.
5. Smit P., Virpioja S., Grönroos S.A., Kur imo M. Morfessor 2.0: Toolkit for statistical morphological segmentation // The 14th Conference of the European Chapter of the Association for Computational Linguistics (EACL). - Gothenburg: Aalto University, 2014. - P. 21-24. image