
Компания Microsoft представила в Париже две крупные инициативы, направленные на сохранение языкового и культурного наследия Европы и укрепление позиций континента в эпоху искусственного интеллекта. Развивая ранее принятые ею Европейские цифровые обязательства, направленные на расширение инфраструктуры искусственного интеллекта и облачных технологий, укрепление конфиденциальности данных, повышение киберустойчивости и поддержку более широкой цифровой конкурентоспособности Европы, эти новые шаги сделают европейские языки и культурные ценности более доступными в интернете и более полно представлены в крупных языковых моделях (LLM).
В Европе насчитывается более 200 языков и тысячелетнее культурное наследие, которое лежит в основе как творческого самовыражения, так и экономической деятельности, способствуя коммуникации, инновациям и торговле. Однако, поскольку в онлайн-контенте всё больше доминирует английский язык, во многом отражающий американскую точку зрения, европейская торговля и культура рискуют остаться без должного внимания в данных, используемых для обучения современных крупных языковых моделей. Вице-председатель и президент Microsoft Брэд Смит утверждает: «ИИ, не понимающий языки, историю и ценности Европы, не может в полной мере служить её жителям, бизнесу и будущему».
В качестве иллюстрации этого дисбаланса, модель с открытым исходным кодом Llama3.1 набирает на 15 баллов меньше баллов по греческому языку и более чем на 25 баллов меньше баллов по латышскому, чем по английскому. Таким образом, она занимает первое место по английскому языку, среднее место по греческому и почти последнее место по латышскому, что характерно для основных бенчмарков LLM.
Для решения этой проблемы Microsoft разместит экспертов в своих инновационных центрах в Страсбурге (Франция) для разработки и курирования многоязычных наборов данных на платформе Microsoft Azure. Команды из Центра открытых инноваций (MOIC) и проекта AI for Good Lab будут сотрудничать с культурными учреждениями, академическими партнёрами и технологическими компаниями по всей Европе, чтобы расширить доступность обучающих данных на десяти недостаточно представленных европейских языках, среди которых эстонский, эльзасский, словацкий, греческий и мальтийский.
Microsoft также объявила о приёме заявок на поиск цифровых текстов, стенограмм и других материалов, подходящих для разработки ИИ. Заявки на гранты, которые предоставят получателям кредиты Azure и инженерно-техническую поддержку, будут доступны на сайте проекта AI for Good Lab с 1 сентября 2025 года.
Кроме того, этой осенью Microsoft расширяет свою программу CultureAI, чтобы создать высокоточную цифровую копию собора Парижской Богоматери. В партнёрстве с Министерством культуры Франции и компанией Iconem, специализирующейся на оцифровке культурного наследия, проект позволит воссоздать 862-летний готический памятник в мельчайших деталях. Предыдущие проекты CultureAI позволили сохранить в цифровом виде такие объекты, как Древняя Олимпия в Греции, гора Сен-Мишель во Франции, собор Святого Петра в Риме и места высадки союзников в Нормандии.
Технологический гигант заявляет, что эти инициативы основаны на более чем 40-летнем опыте Microsoft в области локализации. Сегодня Windows поддерживает более 90 языков, включая все официальные языки Европейского Союза, а также региональные языки, такие как баскский, каталанский, галисийский, люксембургский и валенсийский. Microsoft также предоставляет интерфейсы Office на более чем 30 европейских языках. Интегрируя европейские языки и культурные ценности в свои платформы искусственного интеллекта и облачные платформы, Microsoft стремится как сохранить наследие континента, так и расширить возможности своих компаний и граждан в цифровую эпоху.
Компания подчёркивает, что эти шаги носят исключительно вспомогательный характер и представляют собой предоставление открытых данных, инструментов и опыта, а не проприетарных активов.
Иван Ковалев
VIA
Существуют домены, регистрацию которых может позволить себе не каждый желающий. В hoster.by рассказали, что это за