В настоящее время система работает только с разговорной речью, а не со специализированным языком, таким как технический жаргон.

Система функционировала при тестировании в 10 помещениях и на открытом воздухе. (Изображение для примера)
Андерсон Пиза
Исследователи из США разработали усовершенствованную систему наушников, которая переводит речь нескольких говорящих одновременно, сохраняя при этом направление и качество голосов людей.
Разработанная исследователями из Вашингтонского университета система называется «Пространственный перевод речи» и построена на основе стандартных шумоподавляющих наушников, оснащенных микрофонами.
Алгоритмы исследовательской группы разделяют говорящих в пространстве и следят за их перемещениями, переводят их речь и воспроизводят ее с задержкой в 2–4 секунды.
Система вносит три новшества
«Другие технологии перевода основаны на предположении, что говорит только один человек», — сказал старший автор Шьям Голлакота, профессор Школы компьютерных наук и инженерии имени Пола Г. Аллена в Вашингтонском университете.
«Но в реальном мире невозможно, чтобы один роботизированный голос говорил за нескольких человек в комнате. Впервые мы сохранили звук голоса каждого человека и направление, откуда он исходит».
Исследователи выявили, что система делает три инновации. Во-первых, при включении она немедленно определяет, сколько ораторов находится в помещении или на открытом воздухе.
Туочао Чен, ведущий автор и аспирант Вашингтонского университета в Школе Аллена, заявил, что их алгоритмы работают немного как радар. «Так что он сканирует пространство на 360 градусов и постоянно определяет и обновляет, находится ли один человек или шесть или семь».
Система переводит речь, сохраняя выразительные качества
Исследовательская группа подчеркнула, что система затем переводит речь и сохраняет выразительные качества и громкость голоса каждого говорящего, работая на устройстве, например, на мобильных устройствах с чипом Apple M2, таких как ноутбуки и Apple Vision Pro. Хотя команда избегала использования облачных вычислений из-за проблем с конфиденциальностью при голосовом клонировании.
Наконец, когда говорящие двигают головой, система продолжает отслеживать направление и качество их голосов по мере их изменения.
Исследователи заявили, что система функционировала при тестировании в 10 помещениях и на открытом воздухе. В тесте с 29 участниками пользователи предпочли систему моделям, которые не отслеживали говорящих в пространстве.
Пространственный перевод речи — это новая концепция
Пространственный перевод речи, разработанный исследователями, представляет собой новую концепцию для слуховых устройств, которые транслируют речь говорящих в среде, окружающей пользователя, сохраняя при этом направление и уникальные характеристики голоса каждого говорящего в бинауральном выходе.
«Наша проверка концепции с использованием прототипа бинауральной гарнитуры показывает, что, в отличие от существующих моделей, которые не справляются с задачей при наличии помех, мы достигаем показателя BLEU до 22,01 при переводе с одного языка на другой, несмотря на сильные помехи со стороны других носителей языка в окружающей среде», — говорится в статье исследователей.
Пользовательские исследования еще раз подтверждают эффективность системы в пространственном рендеринге переведенной речи в ранее невиданных реальных реверберирующих средах. Возвращаясь назад, эта работа знаменует собой первый шаг к интеграции пространственного восприятия в речевой перевод.
Исследователи выявили, что в отдельном пользовательском тесте большинство участников предпочли задержку в 3-4 секунды, поскольку система делала больше ошибок при переводе с задержкой в 1-2 секунды. Команда работает над снижением скорости перевода в будущих итерациях.
В настоящее время система работает только с обычной речью, а не со специализированным языком, таким как технический жаргон. Для этой статьи команда работала с испанским, немецким и французским языками, но предыдущая работа над моделями перевода показала, что их можно обучить переводить около 100 языков.
Sourse: interestingengineering.com




