Статус проекта: победитель конкурса
Веб-сайт "Bashkortsoft" башкирско-русского и русско-башкирского переводчика с функционалом распознавания башкирской речи.
- Конкурс Конкурс на предоставление некоммерческим неправительственным организациям грантов Главы Республики Башкортостан в форме субсидий на сохранение и развитие государственных языков Республики Башкортостан и языков народов Республики Башкортостан в 2022 году
- Грантовое направление Сохранение и развитие государственных языков Республики Башкортостан и языков народов Республики Башкортостан в сферах культуры, образования, науки, средств массовой информации, молодежной политики и спорта, а также башкирского языка за пределами Республики Башкортостан
-
Рейтинг заявки
- Номер заявки 22-2-000057
- Дата подачи 30.05.2022
- Сроки реализации 01.09.2022 - 31.08.2023
- Организация ФОНД ПОДДЕРЖКИ МОЛОДЕЖНЫХ ИНИЦИАТИВ "НАСЛЕДИЕ"
- ИНН 0274992269
- ОГРН 1130200002833
Краткое описание
Веб-сайт "Bashkortsoft" является первым в своем роде, переводящий цельные предложения с башкирского языка на русский, с русского на башкирский язык. На данный момент проект осуществляет следующие задачи: накопление параллельных обучающих корпусов данных, разработка методов искусственного расширения обучающих данных, внедрение структурно-функциональной модели морфем, а также создание программных средств обучения машинного переводчика на основе современных нейросетевых подходов — сайт способствует решению актуальных и значимых задач по сохранению, развитию и популяризации башкирского языка в Республике Башкортостан, а также расширению присутствия башкирского языка в интернет-пространстве в целом.Проект Веб-сайт "Bashkortsoft" направлен на дальнейшее развитие сайта башкирско-русского и русско-башкирского переводчика и создание на его основе уникального сервиса для речевого перевода. Будет решена задача по созданию системы искусственного интеллекта для высококачественного распознавания башкирской речи. Это позволит пользователям сайта bashkortsoft.ru использовать его в качестве речевого переводчика с возможностью как диктовать фразы для перевода голосом, так и прослушивать результат перевода на башкирском языке.
Таким образом, реализация данного проекта сделает башкирский язык вторым тюркским языком в мире, после турецкого, для которого станет доступен подобный функционал речевого перевода! Кроме того, впервые для башкирского языка будут созданы наиболее современные нейросетевые алгоритмы, способные восстанавливать пропущенные знаки препинания и автоматически определять необходимость использования заглавных букв в предложении. Данные алгоритмы будут использованы для обработки результатов распознавания речи, которые изначально не содержат знаков препинания. Обработанные таким образом предложения позволят получать более качественный перевод.
Заключительным этапом проекта станет доработка программной части веб-сайта переводчика bashkortsoft.ru с целью включения возможности диктовки с микрофона для различных устройств, как стационарных, так и мобильных.
Башкирский язык станет одним из первых языков в Российской Федерации, для которого станет доступным качественный машинный перевод с поддержкой речевого интерфейса, что безусловно повысит статус башкирского языка в Интернет-пространстве и послужит паритетному функционированию государственных языков Республики Башкортостан.
Цель
- Создать уникальную систему русско-башкирского машинного перевода с поддержкой речевого интерфейса на башкирском языке за счет разработки системы автоматического распознавания слитной башкирской речи.
Задачи
- Формирование аннотированной речевой базы данных для башкирского языка.
- Разработка программных средств обучения нейросетевых моделей распознавания башкирской речи.
- Разработка программных средств восстановления пунктуации и заглавных букв в текстах на башкирском языке.
- Проведение экспериментов по построению моделей распознавания башкирской речи и восстановления пунктуации и заглавных букв в текстах на башкирском языке.
- Разработка обновленного веб-сервиса русско-башкирского и башкирско-русского переводчика с поддержкой речевого интерфейса взаимодействия.
Обоснование социальной значимости
Поставленная в рамках проекта задача построения высококачественного речевого машинного переводчика между русским и башкирским языками представляет большую научно-прикладную разработку, направленную на самые широкие слои населения. Итоговый веб-сайт будет безусловно полезен школьникам и студентам, изучающим башкирский язык, журналистам и государственным чиновникам, которые могут использовать этот инструмент для ускорения подготовки переводов документов и текстов выступлений. В результатах проекта в виде собранных лингвистических ресурсов и технологий машинного обучения заинтересованы преподаватели башкирского языка, лингвисты, а также эксперты в областях компьютерной лингвистики и искусственного интеллекта. Кроме того, итоговые системы автоматического и синтеза речи на башкирском языке могут заинтересовать сторонних разработчиков программного обеспечения, например, для включения в работу систем документооборота, умного дома, обучающих систем и т.д. Таким образом, можно говорить, что реализация предложенного Проекта способна оказать значительное влияние на ключевые сферы жизни: образование, науку, развитие области ИТ для башкирского языка.Благодаря грантовой поддержке, в 2020 и 2021 годах удалось совершить качественный скачок в вопросе создания систем искусственного интеллекта для башкирского языка: в короткий срок были выполнены работы по сбору необходимых данных (как переводов текстов, так и записей речевых фрагментов), по разработке алгоритмов машинного обучения и по расчетам нейросетевых моделей на серверах. Благодаря применению современных программных средств были обработаны текстовые архивы общим объемом более 2 миллионов пар русско-башкирских предложений, а также создана первая для башкирского языка профессиональная аннотированная речевая база мужского голоса. В результате работ любому пользователю сети Интернет стали доступны системы машинного перевода и синтеза башкирской речи, технологически соответствующие уровню аналогов для крупнейших мировых языков. Подтверждением актуальности данных разработок служит стремительный рост количества запросов к созданному переводчику и количества уникальных пользователей сайта. По итогам 2021 года сайтом bashkortsoft.ru воспользовалось почти 70 тысяч человек.
Разработка предложенной в Проекте системы распознавания башкирской речи, обеспечивающей возможность диктовать текст для перевода, не только сделает сайт переводчика более технологичным и комфортным для использования, но также будет способствовать дальнейшему росту количества пользователей. Так, возможности переводчика станут доступны для людей с ограничениями по зрению, а также людям, которые по тем или иным причинам не имеют возможности набирать текст на башкирском языке (с неустановленной башкирской локализацией на компьютере или специализированной клавиатурой на мобильном устройстве).
География проекта
Республика БашкортостанЦелевые группы
- Дети и подростки
- Женщины
- Мужчины
- Пенсионеры
- Молодежь и студенты
Контактная информация
{"address":"Респ Башкортостан, г Уфа, Кировский р-н, ул Габдуллы Амантая, д 10 к 1, кв 11","yandexApiKey":"e5e6c343-cc1c-412c-a4b3-c9a674a73851"}
Респ Башкортостан, г Уфа, Кировский р-н, ул Габдуллы Амантая, д 10 к 1, кв 11