Участники «Больших вызовов» создали программное обеспечение для анализа русскоязычных текстов XVIII века

В ходе научно-технологической программы «Большие вызовы» в Образовательном центре «Сириус» школьники разработали семантико-синтаксический парсер для текстов XVIII века на русском языке. Эта система обеспечивает автоматическое понимание предложений, а также может выстраивать зависимости между словами в предложении, основываясь на синтаксисе и семантике. Созданное учащимися «Сириуса» программное обеспечение будет применяться для лингвистических исследований, составления словарей и поиска ошибок в текстах. Работа над решением велась по направлению «Большие данные, искусственный интеллект, финансовые технологии и машинное обучение». Руководителем проекта выступил эксперт компании «Яндекс» Евгений Соколов.

Есть большое количество слов и выражений, которые со временем изменили свое значение. Современный человек, когда сталкивается с такими словами в устаревших текстах, часто не замечает изменения их значения или неправильно толкует предложения. Это приводит к ошибкам при ручном распознавании семантики и синтаксической структуры текстов прошлого. Но это не будет проблемой для верно настроенного программного обеспечения.

Команда проекта «Семантико-синтаксический парсер паттернов в текстах XVIII века» создала приложение для автоматизированного анализа текстов и выявления семантики и синтаксиса слов. Сервис может быть использован в области лексикографии: благодаря определению значения слова можно найти максимально близкие к нему слова этого же языка, определить синонимы, антонимы и паронимы и таким образом понять, в какие связи оно вступает. Это ускоряет написание словарей и помогает составлять их более корректно, с учетом всех семантических и синтаксических особенностей отдельных словарных вхождений. К тому же сервис может быть использован лексикографами при исследовании не только русского, но и других языков, для которых необходимы новые словари и учебные пособия.

«Парсер, который мы создали, необходим, чтобы понимать, как устроены тексты предшествующей эпохи. Он позволяет извлечь из текста смысл и обеспечить понимание устаревших форм и архаической семантики языка. При этом мы избегаем ошибок, связанных с представлением о языке и языковым опытом конкретного человека, – объяснил руководитель проекта, консультант «Яндекса», младший научный сотрудник Института лингвистических исследований РАН Евгений Соколов. – Сервисов, аналогичных нашему, сейчас нет. Есть программы, решающие отдельные задачи: позволяют составлять списки высказываний с определенным словом, вычленять векторное представление семантики слов, производить различные операции с семантикой. Объединить все это до нас не пытались – это первый масштабный проект такого рода на русскоязычном материале».

Анализ производится в том числе средствами дистрибутивной (векторной) семантики, что позволяет оценивать близость слова к другим словам и группам лексики и, в свою очередь, важно при построении лексического компонента генеративных моделей. Модуль дистрибутивной семантики, используемый в парсере, позволяет создать языковую модель, способную генерировать тексты в стилистике, характерной для языка в определенную эпоху, с учетом всех особенностей построения текстов.

«С помощью нашего продукта мы можем анализировать устаревшие тексты, разбирать их и находить зависимости между словами. У нас есть общая, можно сказать, мечта – чтобы наша работа посодействовала синтезу речи и построению грамотных предложений генеративными моделями. Сейчас существуют универсальные зависимости, которые пытаются применять к разным языкам, но они не всегда корректны. Мы же создаем приложение, специализирующееся на русскоязычной речи. И наше программное обеспечение будет возможно использовать для генерации текстов в определенном стиле», – поделился участник проекта из Москвы Андрей Кругликов.

Руководитель проекта Евгений Соколов поделился впечатлениями о работе со школьниками.

«Ребята обладают всеми необходимыми навыками и знаниями. Они активно коммуницируют в случае сложных вопросов. Безусловно, мы столкнулись с большим количеством сложностей, потому что русский язык – язык с богатой морфологией, в нем много форм одного слова, формы разных слов могут совпадать, в некоторых случаях эти совпадения критичны. Но несмотря на наличие этих проблем и обилие материала, мы с ребятами быстро и эффективно справлялись со своими задачами», – отметил Евгений Соколов.

На финальной защите команда проекта представила веб-приложение, в котором реализована возможность поиска по нескольким параметрам: синтаксический, семантический, поиск различных значений слова, его синонимов и ближайших к слову по семантическому представлению единиц, а также возможность комбинировать эти параметры.

В июле 2023 года направление «Большие данные, искусственный интеллект, финансовые технологии и машинное обучение» включает в себя одиннадцать проектов. Школьники также разрабатывали сервис для моделирования и управления сетями розничных продаж, создали ИИ-платформу генерации образовательного контента в сфере финансовых технологий, усовершенствовали модель транспортной сети и написали бота, который подстраивается под особенности речи собеседника и выбирает оптимальную стратегию общения с ним.