itkvariat

Siri может давать более быстрые и естественные ответы благодаря исследователям Apple



Исследователи Apple Intelligence предлагают новый подход к преобразованию текста в речь, который позволит Siri быстрее отвечать. Это также может сделать общение более естественным.


Возможно, Apple потеряла некоторых исследователей в области ИИ, но продолжает публиковать важные работы по этой теме. Ранее компания публиковала работы об ограничении действий ИИ, которые пользователь не одобрял, и о том, как предотвратить галлюцинации.

Теперь в исследовании под названием «Principled Coarse-Grained Acceptance for Speculative Decoding in Speech» исследователи из Apple и Тель-Авивского университета сосредоточились на приложениях преобразования текста в речь.

В искусственном интеллекте речь иногда генерируется на основе токенов, или очень коротких звуковых фрагментов. Это фонетические звуки, измеряемые в миллисекундах, которые затем объединяются в предложения.

Все мы слышали, как Siri в Apple Maps произносит названия мест или улиц с необычным произношением, и это связано с выбором фонетических звуков для использования. Маршруты на картах должны предоставляться вовремя, чтобы быть полезными, поэтому скорость генерации речи имеет решающее значение.

Это также важно в других ситуациях, когда быстрый ответ помогает в общении.

В своей новой статье исследователи Apple утверждают, что процесс обработки текста и поиска наилучшего речевого токена может быть выполнен быстрее, чем сейчас. Они утверждают, что предыдущие методы, которые обрабатывают каждый токен с помощью авторегрессии — сужая результаты по мере продолжения поиска — не являются оптимальными.

Apple заявляет, что такая обработка каждого токена приводит к тому, что процессы игнорируют «акустическое сходство», а также существует риск «ошибочных решений».

В этом предложении Apple предлагает заменить эту систему точного сопоставления токенов и вместо этого сначала искать так называемые группы акустического сходства (ASG). Заявляя о «двух ключевых нововведениях», Apple утверждает, что ASG содержат «воспринимаемые звуки, похожие на слух», но также и то, что эти звуки могут принадлежать к нескольким перекрывающимся группам.

Используя вероятности, такая система преобразования текста в речь может сузить область поиска до меньшего набора токенов. В рамках нескольких ASG процесс может использовать авторегрессию для дальнейшего исключения неправильных звуков в каждой группе.


Затем система может использовать вероятности для выбора из групп наиболее точного речевого токена для использования в своем голосовом ответе. Apple утверждает, что ее полный процесс быстрее, «при этом лучше сохраняя качество генерации», чем предыдущие модели.

Это должно означать, что общение с такими системами, как Siri, будет происходить быстрее. Разница в скорости вряд ли будет огромной, но люди привыкли к человеческой речи, и задержки заметны.

В работе не уделяется внимания улучшению естественности системы преобразования текста в речь, но скорость была бы полезна. Отдельно следует отметить, что исследователи Apple давно изучают способы улучшения того, как голосовые ответы Siri могут быть адаптированы к предпочтениям пользователя или окружающей среде.


Иван Ковалев

VIA



Подписывайтесь и читайте новости от ITквариат раньше остальных в нашем Telegram-канале !





Заметили ошибку? Выделите ее мышкой и нажмите Ctrl+Enter!  




И еще на эту тему...
  • Хакеры используют известный сайт Hugging Face для кражи ваших данных
  • 16 лет спустя iOS 26 наконец-то догоняет Android по количеству пользовательских рингтонов
  • С выходом watchOS 12 Apple Watch получат сразу три больших новых функции
  • Google хочет добавить Gemini AI в Apple Intelligence уже к середине 2025 года
  • Meta блокирует Apple Intelligence во всех своих приложениях для iOS
  • Ваш Samsung Galaxy S25 теперь может стать вашими вторыми глазами с ИИ
  • Google Maps переименует Мексиканский залив в Залив Америки, но только для пользователей из США
  • Apple Intelligence приближается к бета-тестированию
  • Apple планирует добавить Meta AI в iOS 18 для улучшения функций Apple Intelligence
  • Apple сообщила регуляторам ЕС, что у нее есть сразу три браузера с названием Safari
  • Новости соцсетей: Mastodon, Цукербер и Twitter
  • Создатель литий-ионных аккумуляторов Джон Гуденаф скончался в возрасте 100 лет
  • AirPods Adaptive Audio может стать лучшим инструментом для защиты слуха на концертах
  • Большинство американцев слышали о ChatGPT, но использовали его лишь немногие
  • Чип MetaVRain для 3D-рендеринга на основе искусственного интеллекта в 1000 раз мощнее, чем современные графические процессоры Nvidia
  • Карты Google теперь работают на LTE-версиях Galaxy Watch даже без телефона
  • Apple планирует получить от Watch Ultra на 10 миллиардов долларов больше дохода
  • Сотрудница Apple была уволена из-за видео в TikTok
  • Карты Google получат новый иммерсивный вид к концу этого года
  • "Белый квадрат" объявил программу фестиваля 2021 года



  • ITквариат Powered by © 1996-2025 16+