Siri может давать более быстрые и естественные ответы благодаря исследователям Apple

от: 03-02-2026 15:55 | раздел: Новости

Исследователи Apple Intelligence предлагают новый подход к преобразованию текста в речь, который позволит Siri быстрее отвечать. Это также может сделать общение более естественным.

Возможно, Apple потеряла некоторых исследователей в области ИИ, но продолжает публиковать важные работы по этой теме. Ранее компания публиковала работы об ограничении действий ИИ, которые пользователь не одобрял, и о том, как предотвратить галлюцинации.

Теперь в исследовании под названием «Principled Coarse-Grained Acceptance for Speculative Decoding in Speech» исследователи из Apple и Тель-Авивского университета сосредоточились на приложениях преобразования текста в речь.

В искусственном интеллекте речь иногда генерируется на основе токенов, или очень коротких звуковых фрагментов. Это фонетические звуки, измеряемые в миллисекундах, которые затем объединяются в предложения.

Все мы слышали, как Siri в Apple Maps произносит названия мест или улиц с необычным произношением, и это связано с выбором фонетических звуков для использования. Маршруты на картах должны предоставляться вовремя, чтобы быть полезными, поэтому скорость генерации речи имеет решающее значение.

Это также важно в других ситуациях, когда быстрый ответ помогает в общении.

В своей новой статье исследователи Apple утверждают, что процесс обработки текста и поиска наилучшего речевого токена может быть выполнен быстрее, чем сейчас. Они утверждают, что предыдущие методы, которые обрабатывают каждый токен с помощью авторегрессии — сужая результаты по мере продолжения поиска — не являются оптимальными.

Apple заявляет, что такая обработка каждого токена приводит к тому, что процессы игнорируют «акустическое сходство», а также существует риск «ошибочных решений».

В этом предложении Apple предлагает заменить эту систему точного сопоставления токенов и вместо этого сначала искать так называемые группы акустического сходства (ASG). Заявляя о «двух ключевых нововведениях», Apple утверждает, что ASG содержат «воспринимаемые звуки, похожие на слух», но также и то, что эти звуки могут принадлежать к нескольким перекрывающимся группам.

Используя вероятности, такая система преобразования текста в речь может сузить область поиска до меньшего набора токенов. В рамках нескольких ASG процесс может использовать авторегрессию для дальнейшего исключения неправильных звуков в каждой группе.

Затем система может использовать вероятности для выбора из групп наиболее точного речевого токена для использования в своем голосовом ответе. Apple утверждает, что ее полный процесс быстрее, «при этом лучше сохраняя качество генерации», чем предыдущие модели.

Это должно означать, что общение с такими системами, как Siri, будет происходить быстрее. Разница в скорости вряд ли будет огромной, но люди привыкли к человеческой речи, и задержки заметны.

В работе не уделяется внимания улучшению естественности системы преобразования текста в речь, но скорость была бы полезна. Отдельно следует отметить, что исследователи Apple давно изучают способы улучшения того, как голосовые ответы Siri могут быть адаптированы к предпочтениям пользователя или окружающей среде.

Иван Ковалев

VIA

Подписывайтесь и читайте новости от ITквариат раньше остальных в нашем Telegram-канале !

Заметили ошибку? Выделите ее мышкой и нажмите Ctrl+Enter!

И еще на эту тему...

Хакеры используют известный сайт Hugging Face для кражи ваших данных

16 лет спустя iOS 26 наконец-то догоняет Android по количеству пользовательских рингтонов

С выходом watchOS 12 Apple Watch получат сразу три больших новых функции

Google хочет добавить Gemini AI в Apple Intelligence уже к середине 2025 года

Meta блокирует Apple Intelligence во всех своих приложениях для iOS

Ваш Samsung Galaxy S25 теперь может стать вашими вторыми глазами с ИИ

Google Maps переименует Мексиканский залив в Залив Америки, но только для пользователей из США

Apple Intelligence приближается к бета-тестированию

Apple планирует добавить Meta AI в iOS 18 для улучшения функций Apple Intelligence

Apple сообщила регуляторам ЕС, что у нее есть сразу три браузера с названием Safari

Новости соцсетей: Mastodon, Цукербер и Twitter

Создатель литий-ионных аккумуляторов Джон Гуденаф скончался в возрасте 100 лет

AirPods Adaptive Audio может стать лучшим инструментом для защиты слуха на концертах

Большинство американцев слышали о ChatGPT, но использовали его лишь немногие

Чип MetaVRain для 3D-рендеринга на основе искусственного интеллекта в 1000 раз мощнее, чем современные графические процессоры Nvidia

Карты Google теперь работают на LTE-версиях Galaxy Watch даже без телефона

Apple планирует получить от Watch Ultra на 10 миллиардов долларов больше дохода

Сотрудница Apple была уволена из-за видео в TikTok

Карты Google получат новый иммерсивный вид к концу этого года

"Белый квадрат" объявил программу фестиваля 2021 года

Самое популярное

МТС дополнит безлимитный тариф МТС RED 5G-смартфоном

Новый стандарт путешествий! МТС переосмысляет понятие роуминга и запускает комфортные тарифы в 200+ направлениях

МТС подарил iPhone 17 за помощь в сохранении природы — розыгрыш продолжается

МТС запускает 5G-роуминг

Футбольный праздник под открытым небом: МТС и Okko бесплатно покажут финал Лиги чемпионов в центре Минска

Недавно...

Статьи / Железки

02 август 2023
Обзор Galaxy Z Flip 5: почти идеальное "железо" с очень "сырым" ПО

Складные телефоны-раскладушки — это форм-фактор, который, кажется, завоевывает все большую популярность, и новый Galaxy