Как помочь языкам коренных народов освоить мир ИИ

Как помочь языкам коренных народов освоить мир ИИ

19 июня 2026
Как помочь языкам коренных народов освоить мир ИИ
Вопросы внедрения и сохранения языков коренных народов в цифровом пространстве, методиках составления национальных корпусов текстов, эффективности применения ИИ-инструментов в процессе интеграции языкового массива в диджитал-пространство и многое другое обсудили эксперты на площадке Международного IT-Форума.

Успешным опытом создания цифрового корпуса поделился директор «Югорского научно-исследовательского института информационных технологий» Андрей Мельников. Он отметил, что несмотря на различные сложности в итоге был создан национальный корпус мансийского языка, который активно используется и стал основой для вхождения этого языка в Яндекс.Переводчик

«В течение 3 лет была проделана уникальная работа по созданию корпуса. На сегодняшний день это 310 тыс. языковых пар, на основе которых можно обучать модели, которые решают самые разные задачи. <…> Чтобы увеличить количество письменных источников, пришлось сделать дополнительную работу – обучить модель работать с книгами. Это уникально – мы получили 400 книг, это практически все письменные источники, которые есть в окружной библиотеке, и превратили их в единую базу», - поделился Мельников.

О методиках сохранения многоязычия в Пакистане рассказал Муаззам Али Хан Хаттак, председатель Комитета Программы ЮНЕСКО «Информация для всех», профессор Университета Каид-и-Азама. Он отметил, что в стране присутствует этнокультурное разнообразие и представительство ЮНЕСКО в Пакистане прилагает все усилия для его сохранения.

«Мы разрабатываем меры поддержки языков: выпускаем словари, поощряем публикации литературы и поэзии на коренных языках. У нас есть платформы, на которых студенты могут регистрироваться и коммуницировать. <…> Каждый студент в Пакистане изучает местные языки. Это помогает не только владеть самим языком, но также знать культурные традиции того региона, где он обучается. Это обеспечивает культуру многоязычия», - сказал Хаттак.

Внимание ЮНЕСКО к проблеме влияния цифровой среды и, в частности, искусственного интеллекта на культурно-языковую идентичность народов мира отметила председатель Российского комитета Программы ЮНЕСКО «Информация для всех», генеральный директор Межрегионального центра библиотечного сотрудничества Анастасия Паршакова. Она обратила внимание на то, что искусственный интеллект не должен мешать развитию языков малых народов в цифровом пространстве. Контроль за этим – одно из направлений работы ЮНЕСКО.

«Безотлагательного решения требует сразу несколько направлений регулирования. <…> Это, в том числе, культурно языковая инклюзивность, о которой я сегодня уже упоминала, то есть продвижение безопасных систем искусственного интеллекта, которые защищают культурное, языковое разнообразие. Искусственный интеллект не должен уничтожать языки малых народов, он должен помогать их сохранять. И у него есть большие возможности в этой сфере. <…> И наша главная задача обеспечить условия, при которых технология будет служить человеку, а не наоборот», - сказала Паршакова.

Значимость проблематики дискуссии на международном уровне отметил верховный комиссар и заместитель генерального секретаря Евразийской организации экономического сотрудничества по международному сотрудничеству (ЕЕОС), экс-посол Республики Бенин в Российской Федерации Анисет Габриэль Кочофа. Он поделился аналитикой ситуации с сохранением коренных языков в цифровой среде африканских стран:

«Цифровая эпоха ставит перед нами серьезный вызов. Большинство африканских языков недостаточно представлены в цифровом пространстве. Многие их них практически полностью отсутствуют в образовательных платформах систем искусственного интеллекта, поисковых сервисах и цифровых архивах. Если язык не представлен в цифровой среде, он теряет возможность для развития и передачи в следующих поколениях, постепенно умирает», - поделился Кочофа.

Заместитель руководителя проекта «Языки народов России» «Яндекс» Андрей Михеев поделился с участниками дискуссии дорожной картой того, как добавить определенный язык в перечень доступных для использования языков Яндекса. Он отметил, что наиболее важным аспектом цифровизации языкового массива является накопление обширной текстовой базы на конкретном языке.

«Важно, чтобы у людей или организаций, которые заинтересованы сохранением языка, была фактура, был материал, с которым нужно работать. <…> Помимо параллельных текстов на языке, это могут быть аудиокорпусы, датасеты изображений и т.н. бенчмарки – контрольный набор вопросов для больших языковых моделей», - рассказал Михеев.

Возврат к списку