RnD CV Team
2.99K subscribers
184 photos
5 videos
2 files
127 links
RnD CV @ Sber-AI
https://github.com/ai-forever/

Результаты, факапы, идеи и мысли в Computer Vision и не только. По вопросам: @hukenovs
Download Telegram
🎉 Нашу статью приняли на EMNLP 2025 в Main Track.

💪 Выводим распознавание жестовых языков на новый качественный уровень. В статье достигаем state-of-the-art 🌿 на жестовых языках разных стран, включая в первую очередь русский жестовый язык (РЖЯ). Показываем, что качественный претрейн и предобработка — залог успеха.

Спасибо авторам: @your_petros @ilyaovodov @nagadit @hukenovs @karinakvanchiani

📝 Жестовый язык: похожее в непохожем и наоборот
📖 Logos as a Well-Tempered Pre-train for Sign Language Recognition

До встречи на конференции!
#research #rsl #emnlp
Please open Telegram to view this post
VIEW IN TELEGRAM
2🔥44👍18👏114🎉3
🌃 «Ночь музеев» в IT

Приходите в офисы российских бигтехов 12 сентября.

Яндекс, Сбер, X5, Т-Банк и Lamoda организуют big tech night для всех любителей технологий. Это первая «Ночь музеев» от крупных IT-компаний, где спикеры поделятся своей технической экспертизой 💪

Александр Капитанов — Head of R&D GigaChat Multimodal @rndcv_team
🖼 MALVINA: редактирование изображений от research к production

Андрей Кузнецов — директор лаборатории FusionBrain, AIRI @complete_ai
🏗Генеративные агенты в действии: автоматизация процессов через LLM и мультиагентные сценарии

Константин Крестников управляющий директор, техлид проекта GigaChain, @robofuture
🤵‍♂️Универсальный агент = REPL + ReAct

Регистрация по ссылке.

#conference
12🔥116
🤔 Знаете ли вы, что под названием «русский жестовый язык» на самом деле скрываются два разных языка?

В современной практике в России используются две жестовые системы:

✔️ Русский жестовый язык (РЖЯ) — это естественный и самостоятельный язык, сегодняшний вид которого начал зарождаться в начале в XIX века с появлением школ для глухих (1806г). Язык непрерывно развивался в глухом сообществе России и стран бывшего СССР. У РЖЯ — свои грамматика и лексика, отличные от русского языка, используются четыре мануальных компонента, а также мимика и артикуляция. Это родной язык глухих и слабослышащих людей.

✔️ Калькирующая жестовая речь (КЖР) — это искусственный язык, разработанный слышащими людьми для применения в образовательной и переводческой практике. КЖР использует жесты из РЖЯ, но сохраняет лексику и грамматику русского языка. Чаще всего используется для переводов на жесты с устного языка (новостных, официальных, религиозных).

👉 Например, одна и та же фраза на КЖР будет показана жестами как «ВАСЯ БУДЕТ УЖИНАТЬ В ГОСТИНАЯ» (как в устной речи), а на РЖЯ — как «ВАСЯ МЕСТО ГОСТИНАЯ УЖИНАТЬ БУДЕТ». Из-за этого глухие носители РЖЯ порой с трудом понимают КЖР. Это примерно как попытаться говорить по-китайски, заменив все слова на русские, но сохранив китайский порядок слов и грамматику.

📚 Это создаёт определённые трудности при разработке системы распознавания жестового языка, над которой мы работаем, — ведь она должна уметь распознавать и РЖЯ, и КЖР, а иногда и их смесь. Но, как известно, "тот, кто нам мешает — тот нам поможет!"

📅 Как и почему существование в России двух вариантов жестового языка помогает их распознаванию, а также о других идеях, которые мы применяем, и о достигнутых результатах мы расскажем в докладе «Что мы поняли без слов. Распознавание непрерывного жестового языка» на конференции AI R&D Day, 24 сентября.

Регистрируйтесь по ссылке. Участие возможно оффлайн или онлайн.

До встречи! 👋
Please open Telegram to view this post
VIEW IN TELEGRAM
12👍11🎉9
Всем привет, на связи Паша Коротаев! ✌️

Занимаюсь исследованиями мультимодальности в гигачате, в основном видео в команде RnD CV.

👁 Я тут задумался: мы ведь воспринимаем мир глазами. Замечаем эмоции, движения, детали — и из этого складывается картинка происходящего. Сегодня основной поток такого визуала идёт через видео: рилсы, курсы, прямые эфиры.

🎬 Но для LLM «понимать» видео — это реальный челлендж. Просто «посмотреть» кадры подряд недостаточно. Нужно уловить сюжет и почувствовать динамику времени.

🧨 А даже «просто просмотреть» — это непростая задача. В минуте видео до 1800 кадров! Такой поток данных тяжело не только обработать, но и превратить в цельное понимание.

🔎 Сегодня исследователи, я в том числе, ищут способы научить модели смотреть видео осмысленно: выделять главное, учитывать звук, субтитры, контекст. Уже есть хорошие шаги вперёд, но вопросов пока больше, чем ответов 🗿

👋 Если интересно, смогут ли машины когда-нибудь по-настоящему «видеть» видео, то приходите на мой доклад «Мечтают ли LLM о понимании видео?» на AI R&D Day 24 сентября.

Не забудьте зарегистрироваться 👈

#conference
🔥2111👍6👎1
Forwarded from Sber AI
This media is not supported in your browser
VIEW IN TELEGRAM
А вы знали, что сегодня Международный день жестовых языков?

Мы в Сбере помним об этом круглый год! Например, обучаем нейросети понимать язык жестов, чтобы общаться с ними можно было не только с помощью текста и речи.

Заслуга учёных Сбера — один из самых больших в мире датасетов изолированного русского жестового языка Logos, содержащий более 200 тысяч видеофрагментов.


Уже в ноябре команда исследователей поделится опытом с мировым сообществом на международной конференции EMNLP 2025 в Китае.

🤩 — поздравляем с праздником!
Please open Telegram to view this post
VIEW IN TELEGRAM
👍12🔥75
Всем привет!

Напоминаем, завтра состоится одно из главных мероприятий нашей команды — AI R&D Day
Зарегистрироваться можно по ссылке.

В программе будет два больших трека: 🤖 CoreAI — сосредоточен на исследованиях вокруг LLM и 🖼 GenAI — с докладами про разные модальности: изображения, видео, звук, музыка, генеративное проектирование и 3D. С подробной программой можно ознакомиться на сайте.

Приходите, будет интересно! 💥

#conference
👍15🎉11🔥91👎1🥱1
Всем привет!

Горячий сезон конференций продолжается, а это всегда отличная возможность «на людей посмотреть и себя показать» 🗣️

Из ближайших событий — GigaChat Audio Day 🔊. Митап про будущее речевых технологий, который пройдет 3 октября в Нижнем Новгороде.

👉🏻 Что в программе?
Живые истории о том, как исследования становятся работающими сервисами:
— production ASR на минимальных данных
— Speaker Diarization: распознавание голосов в реальном времени
— быстрые команды для колонок без перегрузки ресурсов
— суммаризация трёхчасовых видео в GigaChat

После докладов — время для нетворкинга: возможность обсудить идеи и обменяться опытом с экспертами и коллегами из индустрии.

👉🏻 Кому будет интересно?
Специалистам уровня middle+ / senior в области ML, NLP и Speech, а также для data-аналитикам, которые работают с большими массивами данных, качеством разметки и метриками моделей.

📍Онлайн и офлайн
Полная программа и регистрация на событие на сайте конференции.

#conference
1🔥9👍53
От жестов к фразам! 🎉 На нашем сайте — новый раздел!

Всем привет! Наша команда не стоит на месте, мы запустили то, о чем многие нас спрашивали — раздел с готовыми фразами и предложениями на РЖЯ! 🚀

Раньше наш словарь помогал учить отдельные жесты-слова. В новом разделе вы найдёте, как слова складываются в живые фразы и предложения.

Почему это круто?

1️⃣ Становится понятна настоящая грамматика и лексика РЖЯ.
2️⃣ Можно увидеть, как работает немануальный компонент (мимика и движения губ).
3️⃣ Учиться говорить целыми фразами стало гораздо проще!

Заглядывайте, изучайте и делитесь с друзьями, кто интересуется РЖЯ 👇
➡️ [https://signflow.ru/phrases]

Благодарим АНО ДПО «Центр образования и исследования жестового языка», а также команду Спецпроектов RnD за вклад в развитие сайта.
Ждём ваши отзывы! Пишите в комментариях названия тем, которые вы хотели бы изучить! ❤️

#РЖЯ #release
🔥2313👍5🐳1