
Исследователи Apple Intelligence предлагают новый подход к преобразованию текста в речь, который позволит Siri быстрее отвечать. Это также может сделать общение более естественным.
Возможно, Apple потеряла некоторых исследователей в области ИИ, но продолжает публиковать важные работы по этой теме. Ранее компания публиковала работы об ограничении действий ИИ, которые пользователь не одобрял, и о том, как предотвратить галлюцинации.
Теперь в исследовании под названием «Principled Coarse-Grained Acceptance for Speculative Decoding in Speech» исследователи из Apple и Тель-Авивского университета сосредоточились на приложениях преобразования текста в речь.
В искусственном интеллекте речь иногда генерируется на основе токенов, или очень коротких звуковых фрагментов. Это фонетические звуки, измеряемые в миллисекундах, которые затем объединяются в предложения.
Все мы слышали, как Siri в Apple Maps произносит названия мест или улиц с необычным произношением, и это связано с выбором фонетических звуков для использования. Маршруты на картах должны предоставляться вовремя, чтобы быть полезными, поэтому скорость генерации речи имеет решающее значение.
Это также важно в других ситуациях, когда быстрый ответ помогает в общении.
В своей новой статье исследователи Apple утверждают, что процесс обработки текста и поиска наилучшего речевого токена может быть выполнен быстрее, чем сейчас. Они утверждают, что предыдущие методы, которые обрабатывают каждый токен с помощью авторегрессии — сужая результаты по мере продолжения поиска — не являются оптимальными.
Apple заявляет, что такая обработка каждого токена приводит к тому, что процессы игнорируют «акустическое сходство», а также существует риск «ошибочных решений».
В этом предложении Apple предлагает заменить эту систему точного сопоставления токенов и вместо этого сначала искать так называемые группы акустического сходства (ASG). Заявляя о «двух ключевых нововведениях», Apple утверждает, что ASG содержат «воспринимаемые звуки, похожие на слух», но также и то, что эти звуки могут принадлежать к нескольким перекрывающимся группам.
Используя вероятности, такая система преобразования текста в речь может сузить область поиска до меньшего набора токенов. В рамках нескольких ASG процесс может использовать авторегрессию для дальнейшего исключения неправильных звуков в каждой группе.
Затем система может использовать вероятности для выбора из групп наиболее точного речевого токена для использования в своем голосовом ответе. Apple утверждает, что ее полный процесс быстрее, «при этом лучше сохраняя качество генерации», чем предыдущие модели.
Это должно означать, что общение с такими системами, как Siri, будет происходить быстрее. Разница в скорости вряд ли будет огромной, но люди привыкли к человеческой речи, и задержки заметны.
В работе не уделяется внимания улучшению естественности системы преобразования текста в речь, но скорость была бы полезна. Отдельно следует отметить, что исследователи Apple давно изучают способы улучшения того, как голосовые ответы Siri могут быть адаптированы к предпочтениям пользователя или окружающей среде.
Иван Ковалев
VIA
В вашем iPhone традиционно используется литий-ионный аккумулятор, который со временем изнашивается, но нет причин