Проекты

Статус: победитель конкурса

Разработка специализированных нейросетевых методов оценки лингвистической приемлемости текстов на башкирском языке

Конкурс Конкурс на предоставление некоммерческим неправительственным организациям грантов Главы Республики Башкортостан на сохранение и развитие государственных языков Республики Башкортостан и языков народов Республики Башкортостан в 2026 году
Грантовое направление Сохранение и развитие государственных языков Республики Башкортостан и языков народов Республики Башкортостан в сферах культуры, образования, науки, а также башкирского языка в сферах культуры, образования, науки за пределами Республики Башкортостан
Рейтинг заявки 72,50
Номер заявки 2026-2-000183
Дата подачи 02.04.2026

Размер гранта 2 500 000,00 ₽
Cофинансирование 841 200,00 ₽
Общая сумма расходов на реализацию проекта 3 341 200,00 ₽

Сроки реализации 01.07.2026 - 30.06.2027
Организация АВТОНОМНАЯ НЕКОММЕРЧЕСКАЯ ОРГАНИЗАЦИЯ "ЦЕНТР ИНФОРМАЦИОННЫХ ТЕХНОЛОГИЙ И ЛИНГВИСТИКИ"
ИНН 0276160139
ОГРН 1140280055794

Краткое описание
Цель
Задачи
Обоснование социальной значимости
География проекта
Целевые группы

Краткое описание

Идея проекта заключается в адаптации современных нейросетей к грамотному башкирскому языку. Сегодня доступные глобальные ИИ-модели генерируют региональный контент с грубыми лексическими и грамматическими ошибками, искажая нормы литературного языка. Из-за этого внедрение передовых технологий в образовательную и культурную среду республики тормозится. Проект направлен на реализацию поручения Президента Российской Федерации об эффективном внедрении технологий генеративного искусственного интеллекта (ИИ) в регионах.
Проект создается для профессионального сообщества Республики Башкортостан, активно применяющего язык в рабочей деятельности: учителей башкирского языка, студентов-филологов, редакторов издательств, журналистов и создателей культурного контента.
В результате реализации проекта целевая аудитория получит надежный цифровой инструмент для работы с башкирскими текстами. Учителя смогут применять его для повышения языковой компетенции учащихся, редакторы — для автоматизации вычитки текстов, а создатели контента — для высокоскоростной генерации качественных материалов. Главным итогом станет снижение цифрового неравенства и создание технологического фундамента для того, чтобы глобальные нейросети начали распознавать и генерировать грамотный литературный башкирский язык, выполняя поручение по эффективному внедрению ИИ в регионе.

Цель

Разработка нейросетевых методов оценки и коррекции лингвистической приемлемости башкирских текстов с целью создания общедоступного ИИ-инструмента, предназначенного для повышения качества генерации текстов в цифровой среде и оснащения профильных специалистов современными средствами автоматизированной обработки языка.

Задачи

Задача 1. Формирование фундаментальной лингвистической и нейросетевой базы для глубокого анализа текстов на башкирском языке.
Задача 2. Разработка программных алгоритмов автоматизированной коррекции башкирских текстов с интеграцией академической базы знаний.
Задача 3. Создание и запуск общедоступного кроссплатформенного ИИ-интерфейса для взаимодействия с целевыми группами.
Задача 4. Внедрение разработанного инструмента в практическую деятельность профильных специалистов и формирование базы верифицированных данных.

Обоснование социальной значимости

На сегодняшний день процесс цифровизации в Республике Башкортостан сталкивается с серьезной проблемой: глобальные нейросети (как зарубежные, так и отечественные) недостаточно обучены морфологии и синтаксису башкирского языка. В результате ИИ генерирует тексты с большим количеством не только грубых грамматических и стилистических, но даже лексических и орфографических ошибок.
Эта технологическая проблема напрямую порождает острую социальную проблему для ключевой целевой аудитории проекта, которую можно разделить на две связанные группы:
1. Проблема первой целевой группы (Специалисты образовательной сферы: учителя башкирского языка и литературы, филологи).
В условиях доступности мировых больших языковых моделей школьники и студенты Республики Башкортостан (а это более 400 тысяч обучающихся) начинают активно использовать ИИ для генерации башкирских текстов, переводов и домашних заданий. Из-за некорректной работы моделей в образовательную среду массово проникает «машинный», искаженный башкирский язык. Это ведет к падению общего уровня владения нормами литературного языка среди молодежи.
При этом сами учителя лишены современного цифрового инструмента, который позволил бы им быстро проверять такие тексты, наглядно демонстрировать учащимся языковые нормы на базе нейросетей и автоматизировать проверку работ. Педагоги вынуждены тратить часы на ручную вычитку текстов и борьбу с последствиями использования некачественного ИИ.
2. Проблема второй целевой группы (Специалисты сферы культуры и медиа: редакторы издательств, журналисты, создатели национального контента).
В Республике Башкортостан работают десятки национальных СМИ, издательств и учреждений культуры (в которых трудится более 500 профильных специалистов). Чтобы оставаться конкурентоспособными, они испытывают острую потребность во внедрении ИИ для автоматизации рутинных задач (написание заметок, корректура, редактура переводных материалов). Однако использовать генеративный ИИ в профессиональной деятельности сейчас невозможно: из-за низкого качества генерации редакторам приходится переписывать сгенерированные тексты заново. В результате профессиональное сообщество Башкортостана оказывается в ситуации «цифрового неравенства», отставая от коллег, работающих с русским или английским языком.
Причины существования проблем заключается в том, что глобальные IT-корпорации обучают свои модели на огромных массивах неструктурированных данных из интернета, где башкирский язык представлен слабо и часто с ошибками. В архитектуре больших языковых моделей отсутствуют специализированные лингвистические инструменты именно для башкирского языка.
В настоящее время глобальные IT-гиганты не фокусируются на глубокой проработке грамматики региональных языков из-за коммерческой нецелесообразности, ограничиваясь лишь базовым машинным переводом. Научные институты республики ведут фундаментальные лингвистические базы, однако редко трансформируют их в удобные, массовые IT-решения (пользовательские чат-боты). Наш проект заполняет эту лакуну, создавая прикладной инструмент на стыке высокой науки и открытых технологий.
Если не создать механизмы коррекции и дообучения ИИ прямо сейчас, в интернет-пространстве продолжит бесконтрольно множиться безграмотный контент на башкирском языке (эффект «отравления данных» для ИИ). Это приведет к маргинализации башкирского языка в цифровой среде, невозможности исполнения государственных поручений по внедрению ИИ в регионе и снижению качества образования.
Проект предлагает прямую помощь целевым группам. Разработка бесплатного сервис на основе чат-бота для коррекции ИИ-текстов и последующее обучение целевых групп работе с ним даст педагогам и редакторам готовый инструмент автоматизации их труда. А возвращение проверенных текстов в базы данных заложит основу для системного решения проблемы: языковые модели начнут «самообучаться» грамотному башкирскому языку на базе очищенных данных.

География проекта

Целевые группы

Специалисты образовательной сферы: учителя башкирского языка и литературы, филологи, учащиеся школ и университетов
Специалисты сферы культуры и медиа: редакторы издательств, журналисты, создатели национального контента

Контактная информация

Респ Башкортостан, г Уфа, Октябрьский р-н, пр-кт Октября, д 126/5, кв 8

Вернуться к проектам