RnD CV Team
2.99K subscribers
184 photos
5 videos
2 files
127 links
RnD CV @ Sber-AI
https://github.com/ai-forever/

Результаты, факапы, идеи и мысли в Computer Vision и не только. По вопросам: @hukenovs
Download Telegram
🎨Qwen-Image-Edit

Вероятно, вы видели в ML-каналах анонс нового сервиса редактирования изображений от авторов Qwen.

Авторы заявляют возможности добавления и удаления объектов и фонов, можно менять стили, добавлять или редактировать различные надписи на китайском и английском (русский не поддерживается!), причем консистентно с исходными надписями.

Что под капотом?
Размер модели 20B, бейзлайн на VLM Qwen2.5-VL.

Мы потестировали модель на разных сценариях. Основные выводы (см. примеры):
— Подмешивание синтетических данных от генераций GPT4o, что сильно портит генерации и теряется pixel-perfect editing.
— Русский текст не добавляет (и не был заявлен, да-да), с английским добавление/редактирование зачастую "синтетическое", то есть не в требуемом стиле.
— Колоризация ч/б фото добавляет лишние розовые оттенки.
— Иногда добавляет черные рамки, при этом сам эдитинг качественный.

🔗 https://chat.qwen.ai/
🔗 https://huggingface.co/Qwen/Qwen-Image-Edit
👍169🔥7
🎉 Нашу статью приняли на EMNLP 2025 в Main Track.

💪 Выводим распознавание жестовых языков на новый качественный уровень. В статье достигаем state-of-the-art 🌿 на жестовых языках разных стран, включая в первую очередь русский жестовый язык (РЖЯ). Показываем, что качественный претрейн и предобработка — залог успеха.

Спасибо авторам: @your_petros @ilyaovodov @nagadit @hukenovs @karinakvanchiani

📝 Жестовый язык: похожее в непохожем и наоборот
📖 Logos as a Well-Tempered Pre-train for Sign Language Recognition

До встречи на конференции!
#research #rsl #emnlp
Please open Telegram to view this post
VIEW IN TELEGRAM
2🔥44👍18👏114🎉3
🌃 «Ночь музеев» в IT

Приходите в офисы российских бигтехов 12 сентября.

Яндекс, Сбер, X5, Т-Банк и Lamoda организуют big tech night для всех любителей технологий. Это первая «Ночь музеев» от крупных IT-компаний, где спикеры поделятся своей технической экспертизой 💪

Александр Капитанов — Head of R&D GigaChat Multimodal @rndcv_team
🖼 MALVINA: редактирование изображений от research к production

Андрей Кузнецов — директор лаборатории FusionBrain, AIRI @complete_ai
🏗Генеративные агенты в действии: автоматизация процессов через LLM и мультиагентные сценарии

Константин Крестников управляющий директор, техлид проекта GigaChain, @robofuture
🤵‍♂️Универсальный агент = REPL + ReAct

Регистрация по ссылке.

#conference
12🔥116
🤔 Знаете ли вы, что под названием «русский жестовый язык» на самом деле скрываются два разных языка?

В современной практике в России используются две жестовые системы:

✔️ Русский жестовый язык (РЖЯ) — это естественный и самостоятельный язык, сегодняшний вид которого начал зарождаться в начале в XIX века с появлением школ для глухих (1806г). Язык непрерывно развивался в глухом сообществе России и стран бывшего СССР. У РЖЯ — свои грамматика и лексика, отличные от русского языка, используются четыре мануальных компонента, а также мимика и артикуляция. Это родной язык глухих и слабослышащих людей.

✔️ Калькирующая жестовая речь (КЖР) — это искусственный язык, разработанный слышащими людьми для применения в образовательной и переводческой практике. КЖР использует жесты из РЖЯ, но сохраняет лексику и грамматику русского языка. Чаще всего используется для переводов на жесты с устного языка (новостных, официальных, религиозных).

👉 Например, одна и та же фраза на КЖР будет показана жестами как «ВАСЯ БУДЕТ УЖИНАТЬ В ГОСТИНАЯ» (как в устной речи), а на РЖЯ — как «ВАСЯ МЕСТО ГОСТИНАЯ УЖИНАТЬ БУДЕТ». Из-за этого глухие носители РЖЯ порой с трудом понимают КЖР. Это примерно как попытаться говорить по-китайски, заменив все слова на русские, но сохранив китайский порядок слов и грамматику.

📚 Это создаёт определённые трудности при разработке системы распознавания жестового языка, над которой мы работаем, — ведь она должна уметь распознавать и РЖЯ, и КЖР, а иногда и их смесь. Но, как известно, "тот, кто нам мешает — тот нам поможет!"

📅 Как и почему существование в России двух вариантов жестового языка помогает их распознаванию, а также о других идеях, которые мы применяем, и о достигнутых результатах мы расскажем в докладе «Что мы поняли без слов. Распознавание непрерывного жестового языка» на конференции AI R&D Day, 24 сентября.

Регистрируйтесь по ссылке. Участие возможно оффлайн или онлайн.

До встречи! 👋
Please open Telegram to view this post
VIEW IN TELEGRAM
12👍11🎉9
Всем привет, на связи Паша Коротаев! ✌️

Занимаюсь исследованиями мультимодальности в гигачате, в основном видео в команде RnD CV.

👁 Я тут задумался: мы ведь воспринимаем мир глазами. Замечаем эмоции, движения, детали — и из этого складывается картинка происходящего. Сегодня основной поток такого визуала идёт через видео: рилсы, курсы, прямые эфиры.

🎬 Но для LLM «понимать» видео — это реальный челлендж. Просто «посмотреть» кадры подряд недостаточно. Нужно уловить сюжет и почувствовать динамику времени.

🧨 А даже «просто просмотреть» — это непростая задача. В минуте видео до 1800 кадров! Такой поток данных тяжело не только обработать, но и превратить в цельное понимание.

🔎 Сегодня исследователи, я в том числе, ищут способы научить модели смотреть видео осмысленно: выделять главное, учитывать звук, субтитры, контекст. Уже есть хорошие шаги вперёд, но вопросов пока больше, чем ответов 🗿

👋 Если интересно, смогут ли машины когда-нибудь по-настоящему «видеть» видео, то приходите на мой доклад «Мечтают ли LLM о понимании видео?» на AI R&D Day 24 сентября.

Не забудьте зарегистрироваться 👈

#conference
🔥2111👍6👎1
Forwarded from Sber AI
This media is not supported in your browser
VIEW IN TELEGRAM
А вы знали, что сегодня Международный день жестовых языков?

Мы в Сбере помним об этом круглый год! Например, обучаем нейросети понимать язык жестов, чтобы общаться с ними можно было не только с помощью текста и речи.

Заслуга учёных Сбера — один из самых больших в мире датасетов изолированного русского жестового языка Logos, содержащий более 200 тысяч видеофрагментов.


Уже в ноябре команда исследователей поделится опытом с мировым сообществом на международной конференции EMNLP 2025 в Китае.

🤩 — поздравляем с праздником!
Please open Telegram to view this post
VIEW IN TELEGRAM
👍12🔥75
Всем привет!

Напоминаем, завтра состоится одно из главных мероприятий нашей команды — AI R&D Day
Зарегистрироваться можно по ссылке.

В программе будет два больших трека: 🤖 CoreAI — сосредоточен на исследованиях вокруг LLM и 🖼 GenAI — с докладами про разные модальности: изображения, видео, звук, музыка, генеративное проектирование и 3D. С подробной программой можно ознакомиться на сайте.

Приходите, будет интересно! 💥

#conference
👍15🎉11🔥91👎1🥱1