
Для глухих и слабослышащих людей технологии распознавания голоса, такие как Alexa и Siri, могут стать препятствием для эффективного общения. Исследователи использовали ИИ для разработки инструмента, который преобразует язык жестов в текст, что потенциально повышает инклюзивность и доступность для сообщества глухих.
Перевод языка жестов требует точного понимания позы подписывающего лица для создания точной текстовой транскрипции. Исследователи из Барселонского суперкомпьютерного центра (BSC) и Политехнического университета Каталонии (UPC) использовали ИИ для разработки инструмента для улучшения сурдоперевода, что является важным шагом на пути к тому, чтобы глухие и слабослышащие люди могли взаимодействовать с технологиями и доступом к ним. цифровые услуги, предназначенные для использования с разговорными языками.
Исследователи использовали модель машинного обучения в стиле трансформера, аналогичную той, что стоит за другими инструментами искусственного интеллекта, такими как ChatGPT. Трансформаторы полезны по двум основным причинам. Во-первых, эти модели особенно хороши для изучения того, как применять контекст, благодаря механизму самоконтроля, присутствующему в архитектуре — самоконцентрация — это то, как нейронная сеть контекстуализирует слова, просматривая другие слова в теле текста. Во-вторых, они обеспечивают гораздо более высокую пропускную способность при обучении на обучающих примерах, позволяя использовать больше обучающих данных в определенный момент времени.
Здесь набор обучающих данных был получен из How2Sign, общедоступного крупномасштабного мультимодального набора данных с несколькими представлениями, включающего 80 часов обучающих видео на американском языке жестов с соответствующими расшифровками на английском языке.
«Разработан новый инструмент. расширение предыдущей публикации также BSC и UPC под названием How2Sign, где были опубликованы данные, необходимые для обучения моделей (более 80 часов видео, в которых переводчики американского языка жестов переводят видеоуроки, такие как кулинарные рецепты или трюки DIY) », сказала Лайя Таррес, ведущий автор исследования. «Уже имея эти данные, команда разработала новое программное обеспечение с открытым исходным кодом, способное изучать сопоставление между видео и текстом».

Пример набора видеоданных от How2Sign, использованного для обучения ИИ, и прогнозов, сделанных инструментом How2Sign/Barcelona Supercomputing Center
Исследователям было важно использовать видео непрерывного жеста, а не изолированного жеста, так как это более реалистично отражает то, как говорящие естественным образом используют цепочку слов (конкатенацию) для построения предложений, которые могут иметь решающее значение для определения смысла предложения.
Проблема, с которой столкнулись исследователи, заключалась в изменчивости и сложности языков жестов, на которые могут влиять такие вещи, как происхождение, контекст и внешний вид говорящего. Чтобы помочь в этом отношении, они предварительно обработали данные с помощью Inflated 3D Networks (I3D), метода извлечения видео, который применяет к видео 3D-фильтр, позволяя получать пространственно-временную информацию непосредственно из них.
Исследователи обнаружили, что предварительная обработка текста также значительно улучшила перевод знаков в текст. Чтобы предварительно обработать необработанный текст, они преобразовали его в нижний регистр, что уменьшило сложность словарного запаса.
В целом они обнаружили, что их модель способна производить осмысленные переводы, но не идеальна. «Несмотря на то, что наша работа показала многообещающие результаты, еще есть возможности для улучшения», — сказали исследователи.
Поскольку модель все еще находится в экспериментальной фазе, исследователи продолжат работу над созданием инструмента, позволяющего глухим и слабослышащие люди получают доступ к тем же технологиям, что и люди без потери слуха.
«Этот открытый инструмент для автоматического сурдоперевода является ценным вкладом в научное сообщество, занимающееся вопросами доступности, и его публикация представляет значительный шаг на пути к созданию более инклюзивных и доступных технологий для всех», — сказал Таррес.
Исследование было опубликовано на сайте arXiv.




