Отчет по проекту №19-29-14100 :: Олег Юрьевич Бахтеев

15 июня 2023 // Олег Бахтеев

Методы и технологии анализа текстовых штампов и именованных сущностей на основе массивов выпускных сочинений

Проект посвящен анализу школьных сочинений и выявлению различных штампов внутри них.

Одной из особенностей школьных сочинений является наличие строгих критериев их оценки. Наличие этих критериев позволяет учащимся упростить задачу написания сочинений, используя различные штампов в сочинениях. Примерами таких штампов могут являться отсылки к известным литературным произведениям, известные цитаты и пр.

Предполагается проанализировать большую коллекцию школьных сочинений для поиска и выявления подобных штампов, а также анализа распределения этих штампов по различным образовательным учреждениям.

Целью проекта является разработка инструментов для выявления штампов в текстах школьных сочинений, а также их применение на больших коллекциях текстов.

В основе предлагаемых методов лежат алгоритмы машинного обучения, учитывающие контекст фраз и предложений, базирующиеся на дистрибутивной гипотезе и вероятностных моделях порождения текста.

Ожидаемыми результатами проекта является получение набора штампов, используемых в школьных сочинений и подробный анализ их распределения в различных учебных заведениях. Эти результаты помогут улучшению процедуры проведения письменных работ в школах, а также позволят выявить возможные недостатки критериев оценки работ.

Коллектив проекта состоит из выпускников МГУ, МФТИ, НИУ ВШЭ и имеет значительный задел по заявляемой теме проекта. Ранее коллектив принимал участие в разработке методов обнаружения текстовых заимствований, обнаружения автоматически сгенерированных текстов в больших коллекциях документов, а также определении жанровых характеристик текстов и многих других.

Файлы
  1. Бахтеев текст.docx
  2. Бахтеев изображения.zip
  3. Бахтеев слайды.pptx

Проект

Поделиться:
Icon