Affiliation:
1. ГПНТБ СО РАН, г. Новосибирск
2. SPSTL SB RAS
Abstract
Исследуется возможность установления смысловой близости научных текстов методом их автоматической классификации, основанным на сжатии аннотаций. Идея метода состоит в том, что алгоритмы компрессии типа PPM (prediction by partial matching) сжимают терминологически близкие тексты существенно лучше, чем далекие. Если для каждой классифицируемой тематики будет сформировано ядро публикаций (аналог обучающей выборки), то наилучшая доля сжатия будет указывать на принадлежность классифицируемого текста к соответствующей тематике. Было определено 30 тематических категорий, каждой из них в базе данных Scopus получены аннотации около 500 публикаций, из которых разными способами выбирались 100 аннотаций для ядра и 20 аннотаций для тестирования. Установлено, что построение ядра на основе высокоцитируемых публикаций выявляет до 12% ошибок против 32% при случайной выборке. На качество классификации влияет и изначальное количество категорий: чем меньше категорий участвует в классификации и чем больше терминологические различия между ними, тем выше её качество.
Publisher
Russian Institute for Scientific and Technical Information - VINITI RAS
Reference42 articles.
1. Барахнин В. Б., Кожемякина О. Ю., Пастушков И. С., Рычкова Е. В. Автоматизированная классификация русских поэтических текстов по жанрам и стилям // Вестник НГУ. Серия: Лингвистика и межкультурная коммуникация. - 2017. - Т.15, №3. - С. 13-23.
2. Батура Т. В. Формальные методы определения авторства текстов // Вестник НГУ. Серия: Информационные технологии. - 2012. - Т.10, №4. - С. 81-94.
3. Dos Santos C. N., Gatti M. Deep convolutional neural networks for sentiment analysis of short texts // COLING 2014 - 25th International Conference on Computational Linguistics, Proceedings of COLING 2014: Technical Papers. - 2014. - P. 69-78.
4. Sriram B., Fuhry D., Demir E., Ferhatosmanoglu H., Demirbas M. Short text classification in twitter to improve information filtering // SIGIR 2010 Proceedings - 33rd Annual International ACM SIGIR Conference on Research and Development in Information Retrieval. - 2010. - P. 841-842.
5. Kiritchenko S., Zhu X., Mohammad S.M. Sentiment analysis of short informal texts // Journal of Artificial Intelligence Research. - 2014. - Vol.50. - P. 723-762.
Cited by
1 articles.
订阅此论文施引文献
订阅此论文施引文献,注册后可以免费订阅5篇论文的施引文献,订阅后可以查看论文全部施引文献