Thematic Analysis of Text Information Based on Frequency Characteristics

Author:

Меняйлов Д.В.,Преображенский А.П.,Чопорова Е.И.

Abstract

В настоящее время происходит активное развитие методов, связанных с исследованием текстовых массивов. При этом подобные подходы нацелены либо на то, чтобы измерять пространственные характеристики в текстовых массивах, таких как длины строк, размеры шрифтов и т. п., либо на рассмотрение общелингвистических задач, в которых изучаются смыслонесущие единицы, такие как предложения, фразы и др. Во втором классе задач перспективным можно считать использование частотного анализа. В работе дан анализ подходов, которые могут при этом использоваться. Авторами составлен алгоритм обработки текста на естественном языке. Созданный в работе программным образом алгоритм реализуется с помощью Python, Jupyter Notebook, WordCloud, NLTK. При обработке текстовый массив разбивается на слова, после чего происходит формирование списка токенов. Даны рекомендации по удалению союзов, предлогов и других частей речи, чтобы осуществлять полноценный анализ тематики. Показаны основные этапы алгоритма частотного анализа текста, которые заключаются в том, что выгружаются данные, производится первичная обработка текстовых массивов, осуществляется процесс замены слов, проводится оценка статистических данных, убираются лишние слова, осуществляется визуальное представление. В статье продемонстрирован пример фрагментов программного кода, описывающих работу ключевых этапов алгоритма. Currently, there is a development of methods related to the study of text arrays. In doing so, they aim to either measure their spatial characteristics, such as line lengths, font sizes, and more, or for consideration of general linguistic problems, in which the study of meaning-bearing units, such as sentences, phrases, and others, is carried out. In the second class of tasks, the use of frequency analysis can be considered promising. The paper analyzes the approaches that can be used in this case. The authors in the article developed an algorithm for processing text in a natural language. The algorithm created in the work is programmatically implemented using Python, Jupyter Notebook, WordCloud, NLTK. During processing, the text array is split into words, after which a list of tokens is formed. Recommendations are given for removing conjunctions, prepositions, and other parts of speech to carry out a comprehensive analysis of the topic. The main stages of the text frequency analysis algorithm are demonstrated. The data are unloaded, the primary processing of text arrays is carried out, after which the process of replacing words is carried out, the statistical data is evaluated, unnecessary words are removed, and a visual presentation is carried out. The main stages of the algorithm have also been demonstrated based on fragments of the program code.

Publisher

Voronezh Institute of High Technologies

Reference9 articles.

1. Свиридов В.И., Чопорова Е.И., Свиридова Е.В. Лингвистическое обеспечение автоматизированных систем управления и взаимодействие пользователя с компьютером Моделирование, оптимизация и информационные технологии. 2019;1(24):430-438.

2. Цепковская Т.А., Чопорова Е.И. Проблемы построения автоматизированных обучающих систем Моделирование, оптимизация и информационные технологии. 2017;1(16):20.

3. Осочкин А.А., Фомин В.В., Флегонтов А.В. Метод частотно-морфологической классификации текстов. Программные продукты и системы. 2017;3(30):478–486.

4. Смирнова И.Г., Чопорова Е.И., Серостанова Н.Н. Особенности разработки профильных учебных пособий по иностранному языку с учетом формирования информационно-коммуникативной компетенции обучающихся. Вестник Воронежского института высоких технологий. 2017;3(22):64-68.

5. Шеменков П.С. Нейросетевой метод извлечения знаний на основе совместной встречаемости ключевых термов. Сборник материалов 61 научно-технической конференции профессорско-преподавательского состава, СПб ГУТ.2009:42–43.

同舟云学术

1.学者识别学者识别

2.学术分析学术分析

3.人才评估人才评估

"同舟云学术"是以全球学者为主线,采集、加工和组织学术论文而形成的新型学术文献查询和分析系统,可以对全球学者进行文献检索和人才价值评估。用户可以通过关注某些学科领域的顶尖人物而持续追踪该领域的学科进展和研究前沿。经过近期的数据扩容,当前同舟云学术共收录了国内外主流学术期刊6万余种,收集的期刊论文及会议论文总量共计约1.5亿篇,并以每天添加12000余篇中外论文的速度递增。我们也可以为用户提供个性化、定制化的学者数据。欢迎来电咨询!咨询电话:010-8811{复制后删除}0370

www.globalauthorid.com

TOP

Copyright © 2019-2024 北京同舟云网络信息技术有限公司
京公网安备11010802033243号  京ICP备18003416号-3