В НИУ ВШЭ создали инструмент для оценки сложности текстов на малоресурсных языках
,_interior_77.jpg)
Исследователи Центра языка и мозга НИУ ВШЭ разработали инструмент, позволяющий определить сложность текстов на малоресурсных языках. В первой версии поддерживаются несколько малых языков России: адыгейский, башкирский, бурятский, татарский, осетинский и удмуртский. Это первая подобная разработка, адаптированная специально для этих языков и учитывающая их морфологические и лексические особенности.
По данным Института языкознания РАН, в России насчитывается 155 языков. Среди них есть малочисленные: например, на адыгейском говорят около 80 тысяч человек, на бурятском, осетинском и удмуртском — от 250 до 350 тысяч человек. Есть и языки с более чем миллионом носителей, например башкирский и татарский. Все эти языки имеют статус государственных в республиках России, поэтому важно не только сохранить их, но и создавать условия для их развития, а также возможности для обучения и реального использования, в том числе в образовании и науке.
В 2025 году был принят Указ Президента РФ «Об утверждении Основ государственной языковой политики Российской Федерации». Он поддерживает языковое многообразие и задает курс на развитие и практическое использование языков народов России. Один из способов достичь этих целей — создать цифровые инструменты, которые сделают работу с малоресурсными языками проще и доступнее.
Команда ученых из Центра языка и мозга НИУ ВШЭ разработала онлайн-инструмент — калькулятор сложности текстов, который помогает быстро и легко оценить сложность текста на нескольких малых языках с учетом их лингвистических особенностей. Калькулятор создавался с опорой на опыт Антонины Лапошиной и Марии Лебедевой, разработавших инструмент для оценки сложности русскоязычных текстов («Текстометр»).
Калькулятор, созданный психолингвистами НИУ ВШЭ, оценивает тексты по нескольким параметрам: во-первых, длина и частотность слов — они анализируются на основе данных из больших языковых корпусов, во-вторых, процент лексики из частотного списка, то есть учитывается доля слов, входящих в список 5000 наиболее употребляемых слов каждого языка, и, в-третьих, соотношение частей речи — анализируется распределение различных частей речи в тексте. Кроме того, калькулятор учитывает такие характеристики, как лексическая плотность, лексическое разнообразие, динамичность и описательность текста.
Ключевая инновация — использование формулы удобочитаемости Флеша, адаптированной для каждого языка отдельно. Это позволяет точнее оценивать сложность и удобство восприятия текста.
Индекс Флеша основан на количестве слов, предложений и слогов, но исходные коэффициенты были подобраны для английского языка и плохо работают для языков с иной структурой — например, для полисинтетического адыгейского, где средняя длина слова значительно больше. В исследовании 2025 года Ульяны Петруниной и Нины Здоровой коэффициенты в формуле были пересчитаны для адыгейского языка отдельно, что значительно повысило точность оценки.
Ульяна Петрунина
«Параметры нашего калькулятора адаптированы под структурные особенности каждого из шести малоресурсных языков России — на основе корпусов текстов, частотного и морфологического анализа. Аналогичным образом мы скорректировали и классический индекс удобочитаемости Флеша. Благодаря этому алгоритм можно легко перенастраивать на другие малоресурсные языки, независимо от их типологических характеристик», — поясняет один из разработчиков инструмента, научный сотрудник Центра языка и мозга НИУ ВШЭ Ульяна Петрунина.
Инструмент поможет создавать сопоставимые стимульные материалы в научных экспериментах и обеспечит преподавателей ресурсом для подбора качественного учебного материала по уровням сложности. Такая разработка — важный вклад в сохранение и развитие малых языков России, поддержку языкового многообразия страны.
Нина Здорова
«Наш инструмент позволяет исследователям и педагогам подбирать материалы с учетом их лингвистической сложности, что особенно важно для исследований и преподавания с ограниченным количеством ресурсов на данных языках», — отмечает Нина Здорова, один из авторов инструмента.
В следующих версиях планируется добавление других малоресурсных и мало представленных в лингвистике языков — не только на территории России.
Здорова Нина Станиславовна
Вам также может быть интересно:
В НИУ ВШЭ показали антропоморфного робота-курьера
С 1 по 3 апреля прошел IV Фестиваль робототехники, главным организатором которого стал факультет компьютерных наук НИУ ВШЭ. Одним из ключевых событий фестиваля стала презентация антропоморфного робота-курьера Аркуса. Разработку представил Институт робототехнических систем, созданный НИУ ВШЭ совместно с Группой компаний «ЭФКО».
Как формируется новая профессия специалиста по безопасности систем машинного обучения
Онлайн-кампус НИУ ВШЭ запускает новую онлайн-магистратуру «Информационная безопасность систем искусственного интеллекта», посвященную подготовке специалистов по защите систем машинного обучения. Программа ориентирована на одну из самых быстро формирующихся профессиональных ниш — безопасность моделей ИИ и инфраструктуры их эксплуатации.
«Для нас большая честь быть партнерами»
В конце марта состоялась официальная встреча делегации Высшей школы экономики НИУ ВШЭ с делегацией Ханойского государственного университета (ХГУ), Правительства Социалистической Республики Вьетнам и Посольства Вьетнама в РФ. Участники обсудили ключевые точки взаимодействия, которые послужат укреплению связей не только между университетами, но и между странами.
От робототехники до разработки игр: в Вышке проходят Дни компьютерных наук
В апреле 2026 года факультет компьютерных наук НИУ ВШЭ приглашает всех увлеченных компьютерными науками на ежегодный фестиваль Дни компьютерных наук. Многочисленные мероприятия объединят студентов, преподавателей, профессионалов из ИТ-индустрии и всех желающих, чтобы поделиться опытом, идеями и вдохновением.
ВШЭ и БГУ запускают совместную ИТ-программу при поддержке Правительства Бурятии
Высшая школа экономики подписала соглашения о сотрудничестве в сфере подготовки кадров в области искусственного интеллекта и информационных технологий с Правительством республики Бурятия и Бурятским государственным университетом имени Доржи Банзарова. Оба документа закладывают основу для реализации совместной образовательной программы по направлению «Прикладная математика и информатика», а также для системного развития сквозных цифровых компетенций студентов и преподавателей вузов республики (программирование, анализ данных, методы искусственного интеллекта).
Вышка провела экзамены, квизы и отборы для школьников в Ташкенте и Бишкеке
Более 3 тысяч иностранных школьников приняли участие в Международной олимпиаде молодежи НИУ ВШЭ, церемонии награждения которой прошли в Ташкенте и Бишкеке в марте. Выездные мероприятия университета также включали выпускные экзамены, презентации образовательных программ и очные отборочные испытания для поступающих. В Узбекистане и Кыргызстане дипломы победителей и призеров получили почти 200 участников. Лучшие из них смогут претендовать на обучение в НИУ ВШЭ на бюджетной основе.
«Планируем работать в русле Программы развития университета»
25 марта на заседании Ученого совета НИУ ВШЭ был рассмотрен отчет о реализации программы развития университета в 2025 году, представлена стратегия Высшей школы бизнеса НИУ ВШЭ на 2026-2030 годы, обсуждены возможности участия пермского кампуса в создании регионального кластера креативных индустрий.
Как исследовать ландшафты в эпоху больших данных
Международная лаборатория ландшафтной экологии НИУ ВШЭ изучает явления, определяющие функционирование окружающей среды. Эти исследования важны для прогнозирования динамики окружающей среды в разных регионах России, реализации природно-климатических проектов, охраны редких видов животных и растений, развития лесного и сельского хозяйства. О работе лаборатории «Вышке.Главное» рассказали ее руководитель Роберт Сандлерский и декан факультета географии и геоинформационных технологий НИУ ВШЭ Николай Куричев.
От спинов и двумерных материалов до цунами и торнадо: что изучают физики Вышки
Международная лаборатория физики конденсированного состояния изучает сложнейшие процессы взаимодействия молекул и атомов твердых и жидких веществ, квантовую механику этих процессов и тончайшие двумерные материалы. Физики Вышки совместно с коллегами из ведущих академических институтов исследуют свойства сверхпроводников и топологических материалов, явления при сверхнизких температурах, проблемы турбулентности и гидродинамики.
Как правильно монетизировать научные разработки
Грамотная коммерциализация научных исследований, предполагающая их трансформацию в реальные разработки и новые продукты и получение дохода от интеллектуальной собственности, способствует трансферу передовых технологий в экономику и государственное управление, стимулирует творческую энергию ученых и укрепляет материальную базу научных лабораторий и университетов. Коммерциализация не ограничивается инженерными и ИТ-направлениями, она может быть результативной для исследований в разных науках, в том числе социальных и гуманитарных. Важно, чтобы университет сохранил роль одного из лидеров в коммерческом использовании научных результатов.


