Количество терминов из разных областей знания, которое школьник должен усвоить за время обучения в средней школе, никогда не подвергалось оценке
№19-29-14032

Изучение терминологических подсистем современных школьных учебников на русском языке с помощью моделей анализа семантики естественных языков Word2Vec и нейронных сетей

руководитель проекта Сергей Игоревич Монахов

Цель проекта – анализ состава и особенностей функционирования терминологической лексики в учебниках для средней школы Российской Федерации с помощью методов и средств компьютерной лингвистики. 

Количество терминов из разных областей знания, которое школьник должен усвоить за время обучения в средней школе, никогда не подвергалось оценке. По предварительным подсчетам, произведенным на материале Примерной основной образовательной программы общего и среднего образования 2015 года, только в части предмета «русский язык», ученик в 5–11 классах средней школы должен уяснить содержание, распознавать и уметь употреблять около 1000 терминов и терминологических сочетаний из этой сферы знания. Таким образом, учитывая количество школьных дисциплин, общее число единиц специальной лексики, изучаемых в общеобразовательной школе, измеряется тысячами. В то же время сопоставительные характеристики состава и функционирования терминов в учебниках для разных школьных предметов не изучены и остаются неизвестными. Не ясна корреляция между терминологической плотностью учебного текста в школьных учебниках по разным предметам и местом, занимаемым этими предметами в учебных планах. 

Традиционным способом вычленения терминов из специальных текстов является их просмотр и «ручное» формирование соответствующих перечней. При надежности такого способа в отношении интеллектуализации принципов отбора он плохо приложим к большим массивам данных и не отражает ни частотность употребления терминов, ни специфику их синтагматических связей, ни системные отношения между терминами, формируемые их сочетаемостным поведением. 

Реализация проекта предусматривает создание полнотекстового корпуса на материале текстов школьных учебников 5–11 классов, включенных в Федеральный перечень Министерства просвещения, автоматическое вычленение и стратификацию терминов при помощи методов дистрибутивной семантики, создание и обучение глубокой нейросети, способной по поданной на вход группе векторных представлений терминов определить учебную дисциплину, уровень обучения и учебную тему. 

Результаты исследования могут представлять теоретический интерес в перспективе развития терминоведения и иметь практическое применение при создании школьной учебной литературы разных типов.


  • Филологи и лингвисты
  • Русский язык и литература в контексте цифровой трансформации образования. Цифровые инструменты измерения и диагностики, инструменты оценивания (с замахом на использование больших данных, машинного обучения, нейросетей и т.п.)

Команда проекта
Сергей
Сергей Игоревич МОНАХОВ
кандидат филологических наук
Екатерина
Екатерина Юрьевна ВАУЛИНА
кандидат филологических наук, ведущий научный сотрудник Лаборатории компьютерной лексикографии Института прикладной русистики РГПУ им. А. И. Герцена
Ольга
Ольга Владимировна МИТРЕНИНА
кандидат филологических наук, доцент кафедры математической лингвистики СПбГУ
Галина
Галина Николаевна СКЛЯРЕВСКАЯ
доктор филологических наук,   главный научный сотрудник Лаборатории компьютерной лексикографии Института прикладной русистики РГПУ им. А. И. Герцена
Владимир
Владимир Владимирович ТУРЧАНЕНКО
ведущий специалист управления научных исследований РГПУ им. А. И. Герцена; аспирант ИРЛИ РАН
Екатерина
Екатерина Алексеевна ФЕДЮКОВА
инженер по тестированию ООО "ЦРТ"
Дмитрий
Дмитрий Наилевич ЧЕРДАКОВ
старший научный сотрудник Института прикладной русистики РГПУ им. А. И. Герцена; старший преподаватель кафедры русского языка СПбГУ
Валентина
Валентина Данииловна ЧЕРНЯК
доктор филологических наук, профессор кафедры русского языка филологического факультета РГПУ им. А. И. Герцена

Организация
Поделиться:

Комментарии

Войдите, чтобы оставить комментарий.
Icon