Методы и технологии анализа текстовых штампов и именованных сущностей на основе массивов выпускных сочинений
Проект посвящен анализу школьных сочинений и выявлению различных штампов внутри них.
Одной из особенностей школьных сочинений является наличие строгих критериев их оценки. Наличие этих критериев позволяет учащимся упростить задачу написания сочинений, используя различные штампов в сочинениях. Примерами таких штампов могут являться отсылки к известным литературным произведениям, известные цитаты и пр.
Предполагается проанализировать большую коллекцию школьных сочинений для поиска и выявления подобных штампов, а также анализа распределения этих штампов по различным образовательным учреждениям.
Целью проекта является разработка инструментов для выявления штампов в текстах школьных сочинений, а также их применение на больших коллекциях текстов.
В основе предлагаемых методов лежат алгоритмы машинного обучения, учитывающие контекст фраз и предложений, базирующиеся на дистрибутивной гипотезе и вероятностных моделях порождения текста.
Ожидаемыми результатами проекта является получение набора штампов, используемых в школьных сочинений и подробный анализ их распределения в различных учебных заведениях. Эти результаты помогут улучшению процедуры проведения письменных работ в школах, а также позволят выявить возможные недостатки критериев оценки работ.
Коллектив проекта состоит из выпускников МГУ, МФТИ, НИУ ВШЭ и имеет значительный задел по заявляемой теме проекта. Ранее коллектив принимал участие в разработке методов обнаружения текстовых заимствований, обнаружения автоматически сгенерированных текстов в больших коллекциях документов, а также определении жанровых характеристик текстов и многих других.