О чём конференция?
На митапе мы расскажем, как в GigaChat и SaluteSpeech развиваем современные речевые технологии: от распознавания речи на ограниченных данных и работы с длинными аудио до оптимизации энкодеров и запуска моделей прямо на устройствах (on-device). Участники узнают, какие инженерные практики помогают переводить исследовательские прототипы в продакшн и как мы решаем реальные технические вызовы.
После докладов — время для нетворкинга: возможность обсудить идеи и обменяться опытом с экспертами и коллегами из индустрии
Кому будет интересно?
Для специалистов уровня middle+ / senior в области ML, NLP и SpeechTech, а также для data-аналитиков, которые работают с большими массивами данных, качеством разметки и метриками моделей. Будет интересно всем, кому близки задачи распознавания речи и эмоций, оптимизация ML-моделей под умные устройства и построение мультимодальных диалоговых систем.
Программа мероприятия
18:00
Сбор гостей
18:30
Открытие
Павел Богомолов, Head of GigaChat Audio
18:40
Как мы сделали production ASR для новых языков на 10 часах данных
Андрей Кузьменко, Senior ML Engineer
19:05
Распознавание речи по спикерам в SaluteSpeech: от моделей и алгоритмов до production-оптимизаций
Никита Ноев, ML Engineer и Михаил Кузьмин, Senior ML Engineer
19:30
Быстрые команды
Юлия Кокорина, Senior ML Engineer и Максим Сурков, Senior ML Engineer
19:55
GigaChat Audio: как мы добавили поддержку суммаризации видео длительностью 3 часа в мультимодальной LLM
Григорий Фёдоров, Senior ML Engineer
20:20
Общение
Спикеры
Открытие
Расскажу про нашу команду, чем мы занимаемся в GigaChat и SaluteSpeech и к чему стремимся
Павел Богомолов
Выпускник ПМИ ФКН ВШЭ. Опыт — Яндекс (Поиск, Алиса), Samsung AI Center. Более 6 лет в речевых технологиях
Head of GigaChat Audio, Sber
Модератор
Артём Соколов
Выпускник магистратуры ВШЭ (анализ данных) и НГТУ (информационные системы). Опыт работы в Intel, Huawei. Специализация — speech enhancement и аудиообработка с применением глубокого машинного обучения
Head of Speech Enhancement, Sber
Доклад
Как мы сделали production ASR для новых языков на 10 часах данных
Расскажу, как нам удалось сделать систему распознавания речи на десятках часов размеченных данных. Какие вызовы нас ждали, и как мы смогли их решить. Поделюсь нашими экспериментами, как удачным, так и неудачными. И главное, расскажу рецепт, к которому мы пришли. Рассмотрим:
- где можно взять данные под свой язык;
- классическое решение двухэтапного обучения;
- перенос знаний с моделей родственных языков;
- обогащение данных за счёт синтетики и псевдосинтетики;
- как подготовить эффективную модель, которая держит сотни соединений на одном cpu сервере
Андрей Кузьменко
Выпускник МГТУ им. Н. Э. Баумана, аспирант МИФИ. Преподаватель машинного обучения в МИФИ. Ex-ML инженер VK
Senior ML Engineer, Sber
Доклад
Распознавание речи по спикерам в SaluteSpeech: от моделей и алгоритмов до production-оптимизаций
В докладе подробно рассмотрим процесс разработки и интеграции пайплайна Speaker Diarization в систему распознавания речи: от постановки задачи до внедрения решения в промышленную эксплуатацию. Будут представлены применяемые модели и алгоритмы, а также опыт оптимизации пайплайна. Мы покажем, как сочетание алгоритмических эвристик и низкоуровневой инженерной оптимизации позволило существенно снизить латенси и обеспечить стабильную работу системы в production среде
Никита Ноев
Выпускник ФКН ВШЭ. Более 5 лет в речевых технологиях
ML Engineer, Sber
Михаил Кузьмин
Выпускник магистратуры НГТУ и НГУ. В Sber — разработка высокопроизводительной runtimе инфраструктуры для ASR-платформы GigaPlatform
Senior ML Engineer, Sber
Доклад
Быстрые команды
Расскажем о том, как мы сделали быстрые команды: как выбирали архитектуру, как собирали домен-специфичные данные, какие метрики использовали для оценки качества. Также коснёмся подходов, которые позволили нам использовать модель на колонке, не занимая все вычислительные ресурсы и память
Юлия Кокорина
Выпускница ПМИ ФКН ВШЭ и ШАД. Опыт — Яндекс (Поиск). В Sber — повышение качества проектов EmbeddedML
Senior ML Engineer, Sber
Максим Сурков
Выпускник СПб ВШЭ (бакалавриат, магистратура), аспирант ИТМО. Чемпион ICPC NERC. Более 2,5 лет в embedded речевых технологиях
Senior ML Engineer, Sber
Доклад
GigaChat Audio: как мы добавили поддержку суммаризации видео длительностью 3 часа в мультимодальной LLM
Покажу и расскажу:
- зачем нужна нативная поддержка аудио в GigaChat, сценарии использования;
- как мы учим GigaChat понимать аудио;
- проблемы с обработкой длинных аудиозаписей и наш опыт их решения;
- про поиск узких мест;
- изменение архитектуры энкодера для обобщения на длинные аудиозаписи;
- про параллелизм модели на этапе Audio SFT;
- о влиянии предобучения;
- про оптимизацию энкодера для снижения вычислительных затрат
Григорий Фёдоров
Выпускник ФКН ВШЭ, студент ШАД. Лектор курса Deep Learning in Audio
Senior ML Engineer, Sber
Участвовать
Количество мест ограничено. Обязательно дождитесь приглашения от организатора или письма о статусе участия в мероприятии