Первый этап реализации проекта
Функции «СУРДО-ПОМОЩИ»: осуществление перевода (речь, текст, русский жестовый язык (РЖЯ) для коммуникации глухих и слабослышащих пользователей с людьми без нарушений слуха.
Результаты:
1. Разработка макета ПО
Был разработан макет ПО, содержащий в себе основные функции на базе веб-приложения.Были реализованы следующие функции:
С 28 ноября 2022 года по 30 июня 2023 года
Проект «Разработка программного обеспечения: «СУРДО-ПОМОЩЬ»: СИСТЕМА ОБЩЕНИЯ ДЛЯ ЛЮДЕЙ С НАРУШЕННЫМ СЛУХОМ»
Рисунок 1. Авторизация клиента
Рисунок 2. Перевод речи в текст
Рисунок 3. Видеозвонок сурдопереводчику
Рисунок 4. Перевод РЖЯ в текст
2. Разработка станции для сбора датасета (прикладные и пользовательские приложения)
Был разработан четкий алгоритм по сбору жестов, так называемая станция для сбора датасета. Мы используем две технологии сбора жестов.
2.1. Запись жестов в mocap технологии
Для создания базы данных с жестами необходимо записать жесты реального сурдопереводчика в формате motion capture.
Производим запись жестов в mocap студии АО "Киностудия "Союзмультфильм"
Рисунки 5,6. Работа сурдопереводчика в студии АО "Киностудия "Союзмультфильм"
2.2. Запись жестов в реальных условиях для обучения ИИ
Для записи жестов, которые будут использованы при обучении ИИ, мы прибегаем к съемкам реальных сурдопереводчиков и глухих в условиях, приближенных к тем, которые будут соответствовать поведенческой модели пользователя при демонстрации жестов. Участникам по сбору датасета предоставляются списки со словами, которые необходимо записать на видео. Далее видео загружаются в облачное хранилище для дальнейшей обработки специалистами.
Рисунки 7, 8. Участница по сбору датасета в реальных условиях.
3. Разработка отдельной части системы (станция для сбора датасета жестового языка) для реализации обработки данных на серверном кластере
На этапе создания макета, станция для сбора датасета жестового языка может быть доступна для управления администратором, редактирование осуществляется с помощью инструментов, размещенных на ресурсах Яндекс диск.
Наполнение кешем лицевых анимаций производится автоматически по команде от администратора.
4. Сбор датасета жестового языка
Был собран датасет жестового языка, который удовлетворяет текущим требованиям:
1. Количество жестов не менее 150 000 ед.
2. Возможные способы захвата жестов: видео, траектории системы захвата движений (тела, пальцев рук)
3. Виды информации: видео туловища и рук сурдопереводчика, видео артикуляции сурдопереводчика, мета-данные
4. Требования к разметке данных: предразметка данных с указанием ключевых слов
5. Типы файлов: MP4, JSON, FBX и др.
Рисунок 9. Видео глухих и слабослышащих участников по сбору датасета