Forwarded from Spark in me
Время silero-tts v5 пришло!
🆕 Что добавилось / поменялось:
1️⃣ Модели в 3-4 раза быстрее
2️⃣ Добавилась автоматическая расстановка ударений в омографах;
3️⃣ Значительно повысилось качество звучания и стабильность генерации;
4️⃣ В моделях всё так же поддерживается SSML;
5️⃣ Список голосов:
6️⃣ Ставить модель можно через
7️⃣ Скрутили дебафф из
Список новых флагов:
Минимальный пример буквально:
Попробовать можно тут:
⭐️ Репозиторий
📔 Ноутбучек с примерами
⬆️ Статья на Хабре
🆕 Что добавилось / поменялось:
1️⃣ Модели в 3-4 раза быстрее
v3 и в 1.5 - 2 раза быстрее v4;2️⃣ Добавилась автоматическая расстановка ударений в омографах;
3️⃣ Значительно повысилось качество звучания и стабильность генерации;
4️⃣ В моделях всё так же поддерживается SSML;
5️⃣ Список голосов:
aidar, baya, kseniya, xenia, eugene;6️⃣ Ставить модель можно через
torch.hub, тупо выкачав локально, через pip;7️⃣ Скрутили дебафф из
v4;Список новых флагов:
put_accent=True,
put_yo=True,
put_stress_homo=True,
put_yo_homo=True
Минимальный пример буквально:
!pip install silero
from silero import silero_tts
model, example_text = silero_tts(language='ru',
speaker='v5_ru')
audio = model.apply_tts(text=example_text)
Попробовать можно тут:
⭐️ Репозиторий
📔 Ноутбучек с примерами
Please open Telegram to view this post
VIEW IN TELEGRAM
👍7❤5😢1
Forwarded from Библиотека баз данных
Media is too big
VIEW IN TELEGRAM
🔥 Hugging Face снова выкатили полезные материалы.
Вышел бесплатный плейбук о том, как изнутри строят SOTA-модели.
Без общих слов - только реальные решения и нюансы, которые обычно скрыты внутри исследовательских команд.
Это полноценный мастеркласс на 214 страниц для тех, кто хочет понимать, как устроены современные LLM.
Что внутри:
• Логика построения модели: зачем → что → как
• Как разработчики берут модель и по частям включают/выключают компоненты (или меняют их)
• Архитектура: ключевые выборы и trade-offs
• Искусство подбора и очистки данных
• Как проходит обучение моделей
• Пост-тренинг и RLHF в 2025
• Инфраструктура больших моделей
По первым страницам - уровень деталей как в Ultra-scale playbook.
Ссылка: https://huggingface.co/spaces/HuggingFaceTB/smol-training-playbook#designing-the-model-architecture
Видео: https://www.youtube.com/watch?v=LGzO-Mn0DJQ
#AI #LLM #MachineLearning #HuggingFace
@sql_lib - библиотека МЛ и ИИ книг
Вышел бесплатный плейбук о том, как изнутри строят SOTA-модели.
Без общих слов - только реальные решения и нюансы, которые обычно скрыты внутри исследовательских команд.
Это полноценный мастеркласс на 214 страниц для тех, кто хочет понимать, как устроены современные LLM.
Что внутри:
• Логика построения модели: зачем → что → как
• Как разработчики берут модель и по частям включают/выключают компоненты (или меняют их)
• Архитектура: ключевые выборы и trade-offs
• Искусство подбора и очистки данных
• Как проходит обучение моделей
• Пост-тренинг и RLHF в 2025
• Инфраструктура больших моделей
По первым страницам - уровень деталей как в Ultra-scale playbook.
Ссылка: https://huggingface.co/spaces/HuggingFaceTB/smol-training-playbook#designing-the-model-architecture
Видео: https://www.youtube.com/watch?v=LGzO-Mn0DJQ
#AI #LLM #MachineLearning #HuggingFace
@sql_lib - библиотека МЛ и ИИ книг
🔥9👍5❤2🙏2🥰1😢1
Forwarded from Мой Компьютер
Первое в мире iVedro
По словам автора, он хотел сделать незаметное мусорное ведро для офиса и, похоже, у него это получилось.
Мой Компьютер
По словам автора, он хотел сделать незаметное мусорное ведро для офиса и, похоже, у него это получилось.
Мой Компьютер
🤣13🤡4❤3👍2🤯1🌚1
Forwarded from ODS Events
Всем привет!
Встречайте восемнадцатый выпуск подкаста "Капитанский мостик", в котором обсуждаем новости из мира ИИ за прошедшую неделю и не только. Ведущий подкаста - Дмитрий Колодезев. Приглашенный участник сегодняшнего выпуска - Пётр Ермаков.
Смотрите видео на каналах ⤵️
ODS VK Video
ODS YouTube
📩 Присылайте новости для обсуждения в канал "Дата-капитаны" в mattermost (авторизуйтесь через ODS.ai).
Встречайте восемнадцатый выпуск подкаста "Капитанский мостик", в котором обсуждаем новости из мира ИИ за прошедшую неделю и не только. Ведущий подкаста - Дмитрий Колодезев. Приглашенный участник сегодняшнего выпуска - Пётр Ермаков.
Смотрите видео на каналах ⤵️
ODS VK Video
ODS YouTube
📩 Присылайте новости для обсуждения в канал "Дата-капитаны" в mattermost (авторизуйтесь через ODS.ai).
❤3🎉2🙏2
Forwarded from Китай.AI
ИИ против крипторынка: Китайские модели одержали сокрушительную победу
Опубликованы результаты первого в мире конкурса AI-трейдеров, где шесть ведущих языковых моделей соревновались в торговле криптовалютой.
Суть события: Шесть ведущих AI-моделей получили по $10,000 для торговли на реальном рынке без вмешательства человека. Победителем стал тот, кто показал максимальную доходность при контролируемом риске.
«Это своего рода тест Тьюринга для криптотрейдинга» — так организаторы из Nof1.ai охарактеризовали свое мероприятие, проходившее с 17 октября по 3 ноября 2025 года.
📊 Ключевые результаты:
• 1 место: Alibaba Qwen — доходность свыше 20% 🥇
• 2 место: DeepSeek — стабильная прибыль 🥈
• Остальные модели: ушли в минус, особенно GPT-5 (потерял более 60%)
🔍 Как проходил конкурс?
• Каждая модель самостоятельно анализировала рынок
• Использовались идентичные исходные данные и условия
• Торговля велась на платформе Hyperliquid
• Запрещена любая внешняя помощь или коррекция стратегии
• Полная автономность — без человеческого вмешательства
• Все транзакции и решения публиковались в реальном времени
🧠 Технические детали:
🤖 Характеристики моделей:
• Qwen3 Max — агрессивный стиль, высокая доходность при умеренной частоте сделок
• DeepSeek — консервативный подход, лучший показатель Шарпа (0.359)
• GPT-5 — наименьшая эффективность (-62.66%) при высокой активности
💡 Что это значит для индустрии?
Победа Qwen демонстрирует не просто "знание", а способность применять сложные навыки в условиях реального финансового рынка — анализировать, принимать решения и управлять рисками автономно.
Подробнее о методике и результатах
#КитайскийИИ #КитайAI #Трейдинг #Alibaba #GPT5 #DeepSeek
Опубликованы результаты первого в мире конкурса AI-трейдеров, где шесть ведущих языковых моделей соревновались в торговле криптовалютой.
Суть события: Шесть ведущих AI-моделей получили по $10,000 для торговли на реальном рынке без вмешательства человека. Победителем стал тот, кто показал максимальную доходность при контролируемом риске.
«Это своего рода тест Тьюринга для криптотрейдинга» — так организаторы из Nof1.ai охарактеризовали свое мероприятие, проходившее с 17 октября по 3 ноября 2025 года.
📊 Ключевые результаты:
• 1 место: Alibaba Qwen — доходность свыше 20% 🥇
• 2 место: DeepSeek — стабильная прибыль 🥈
• Остальные модели: ушли в минус, особенно GPT-5 (
🔍 Как проходил конкурс?
• Каждая модель самостоятельно анализировала рынок
• Использовались идентичные исходные данные и условия
• Торговля велась на платформе Hyperliquid
• Запрещена любая внешняя помощь или коррекция стратегии
• Полная автономность — без человеческого вмешательства
• Все транзакции и решения публиковались в реальном времени
🧠 Технические детали:
Модели должны были:
- Выявлять альфа-возможности (шансы на сверхдоходность)
- Определять размер позиции
- Выбирать точки входа и выхода
- Управлять риском в реальном времени
🤖 Характеристики моделей:
• Qwen3 Max — агрессивный стиль, высокая доходность при умеренной частоте сделок
• DeepSeek — консервативный подход, лучший показатель Шарпа (0.359)
• GPT-5 — наименьшая эффективность (-62.66%) при высокой активности
💡 Что это значит для индустрии?
Победа Qwen демонстрирует не просто "знание", а способность применять сложные навыки в условиях реального финансового рынка — анализировать, принимать решения и управлять рисками автономно.
Подробнее о методике и результатах
#КитайскийИИ #КитайAI #Трейдинг #Alibaba #GPT5 #DeepSeek
❤10😢2🎉2👍1🥰1😁1
Forwarded from Китай.AI
Kimi K2 Thinking: Китайский ИИ-гигант с открытым исходным кодом
Китайская компания MoonShot AI выпустила новую модель — Kimi K2 Thinking. Это не просто открытая языковая модель, а полноценная «модель-как-агент», способная самостоятельно мыслить и использовать инструменты без вмешательства человека.
Основные возможности:
• Многошаговое мышление: Может выполнять до 200-300 последовательных действий (поиск, программирование) без вмешательства человека
• Супер-поиск: Лучшая в своем классе по автономному веб-браузингу и сложному поиску
• Длинный контекст: 256K токенов для работы с объемными документами
🎯 Ключевые преимущества
В benchmark "Последний экзамен человечества" (HLE) с доступом к поиску, Python и браузеру модель показала результат 44.9%, обойдя GPT-5 и Claude Sonnet 4.5.
💻 Технические детали
INT4 квантование обеспечивает:
• 2x ускорение генерации
• Поддержку китайских AI-чипов
HuggingFace | Технический блог
#КитайскийИИ #КитайAI #KimiK2
Китайская компания MoonShot AI выпустила новую модель — Kimi K2 Thinking. Это не просто открытая языковая модель, а полноценная «модель-как-агент», способная самостоятельно мыслить и использовать инструменты без вмешательства человека.
Основные возможности:
• Многошаговое мышление: Может выполнять до 200-300 последовательных действий (поиск, программирование) без вмешательства человека
• Супер-поиск: Лучшая в своем классе по автономному веб-браузингу и сложному поиску
• Длинный контекст: 256K токенов для работы с объемными документами
🎯 Ключевые преимущества
В benchmark "Последний экзамен человечества" (HLE) с доступом к поиску, Python и браузеру модель показала результат 44.9%, обойдя GPT-5 и Claude Sonnet 4.5.
💻 Технические детали
Архитектура: Mixture-of-Experts (MoE)Параметры: 1 трлн общих, 32 млрд активныхКвантование: INT4 с Quantization-Aware TrainingКонтекст: 256K токеновINT4 квантование обеспечивает:
• 2x ускорение генерации
• Поддержку китайских AI-чипов
HuggingFace | Технический блог
#КитайскийИИ #КитайAI #KimiK2
huggingface.co
moonshotai/Kimi-K2-Thinking · Hugging Face
We’re on a journey to advance and democratize artificial intelligence through open source and open science.
❤4🔥2🤯2🙏1
Forwarded from Machinelearning
GPT-5-Codex-Mini - более доступная версия флагманского Codex, она в 4 раза эффективней по затратам по сравнению с полной версией GPT-5-Codex при небольшом компромиссе в производительности.
Разница в возможностях минимальна: на SWE-bench Verified версия Mini набрала 71.3%, в то время как старшая GPT-5-Codex - 74.5%. OpenAI рекомендует переключаться на Mini для решения более простых задач или для экономии ресурсов при приближении к лимитам. Старший Codex будет автоматически предлагать переход на Mini, когда пользователь достигнет 90% своего лимита.
Модель уже доступна в CLI и расширении для IDE, а в скором времени появится и поддержка через API.
@ai_machinelearning_big_data
#news #ai #ml
Please open Telegram to view this post
VIEW IN TELEGRAM
❤6🔥1🥰1🤡1
Forwarded from ODS Events
Всем привет!
Представляем вашему вниманию девятнадцатый выпуск подкаста "Капитанский мостик". Ведущие выпуска Валентин Малых и Дмитрий Колодезев обсуждают новости из мира технологий, в частности, события на конференции EMNLP в Китае.
Смотрите видео на каналах ⤵️
ODS VK Video
ODS YouTube
📩 Присылайте новости для обсуждения в канал "Дата-капитаны" в mattermost (авторизуйтесь через ODS.ai).
Представляем вашему вниманию девятнадцатый выпуск подкаста "Капитанский мостик". Ведущие выпуска Валентин Малых и Дмитрий Колодезев обсуждают новости из мира технологий, в частности, события на конференции EMNLP в Китае.
Смотрите видео на каналах ⤵️
ODS VK Video
ODS YouTube
📩 Присылайте новости для обсуждения в канал "Дата-капитаны" в mattermost (авторизуйтесь через ODS.ai).
👍2🥰1
Forwarded from Valuable AI / Валентин Малых
всем привет, мы открыли подачу заявок на Премию имени Владимира Иосифовича Левенштейна за 2026 год; премия вручается за вклад в развитие русскоязычного NLP-сообщества, как научный, так и в виде open source; если знаете, кому это релевантно, - перешлите или заполните форму за него
ссылка на подачу заявок, заявки принимаются до 31 декабря
на фотографии - Наталья Валентиновна Лукашевич, первый лауреат премии,и я
@valuableai
ссылка на подачу заявок, заявки принимаются до 31 декабря
на фотографии - Наталья Валентиновна Лукашевич, первый лауреат премии,
@valuableai
👍3
Forwarded from SecurityLab.ru
Злоумышленники начали встраивать модели искусственного интеллекта прямо в вредоносное ПО. Об этом сообщает команда Google Threat Intelligence Group — GTIG. По их данным, малварь нового поколения не просто ускоряет работу через нейросети, а использует их «на лету» — для генерации кода, обфускации и обхода антивирусов.
GTIG зафиксировала два ключевых образца: PROMPTFLUX — дроппер, обращающийся к Gemini за новыми приёмами обхода защит, и PROMPTSTEAL — инструмент на Python, использующий модель Qwen2.5 для кражи данных. Второй уже применялся в атаках APT28 (FROZENLAKE) и расследуется CERT-UA.
Google предупреждает: ИИ делает малварь адаптивной, а рынок — массовым. GTIG усилила фильтры, блокирует инфраструктуру злоумышленников и публикует рекомендации: мониторить обращения к LLM-API, проверять целостность исполняемых файлов и не доверять автоматически сгенерированным командам.
#ИИ #киберугрозы #GTIG
@SecLabNews
Please open Telegram to view this post
VIEW IN TELEGRAM
SecurityLab.ru
IncusOS — это ОС, которая всегда работает? Новая система обещает атомарные откаты и еженедельные патчи. Верим?
IncusOS получила поддержку Linstor, Netbird и веб-управления.
❤5🌚5👍1🔥1🎉1
Forwarded from Valuable AI / Валентин Малых
я летом то ли пропустил, то ли не придал значения новости про инноваторов из Builder.ai; они сделали стартап по автоматическому написанию кода, но за ИИ код писали 700 инженеров из Индии; кстати, эти люди шли проторенной самим Amazon дорогой, там 1000 асессоров из Индии распознавали продукты в супермаркете
кстати, после случая с Amazon появился неполиткорректный мем "AI = Artificial Indian" (осуждаем, конечно)
@valuableai
@valuableai
😁5🙏2
Forwarded from Анализ данных (Data analysis)
This media is not supported in your browser
VIEW IN TELEGRAM
⚡️ GPT-5 на Sudoku-Bench
Команда Sudoku-Bench обновила результаты тестов. Напомню, когда бенчмарк вышел в мае 2025, ни одна LLM вообще не могла решить обычную судоку 9×9.
Теперь ситуация изменилась: GPT-5 стал новым лидером и решает 33% задач - в два раза умнее ближайшего конкурента. Это первая модель, которой удалось пройти и вариант классической 9×9.
Но главная часть бенчмарка остаётся нерешённой: 67% более сложных головоломок по-прежнему оказываются слишком сложными. Причина в том, что современные модели плохо справляются с тем, что нужно для настоящей судоку: понимать новые правила, держать в голове глобальную структуру, строить длинные логические цепочки и находить "точку входа", которую опытные люди сразу замечают.
Дополнительные эксперименты - GRPO-тюнинг Qwen2.5-7B и Thought Cloning на примерах из Cracking the Cryptic - дали небольшой прогресс, но не решили ключевые проблемы: пространственное мышление и творческий подход всё ещё оказываются для моделей сложными.
Итог: прогресс заметный, но до уровня человеческого логического и пространственного мышления моделям ещё далеко.
Подробнее:
https://pub.sakana.ai/sudoku-gpt5/
@data_analysis_ml
Команда Sudoku-Bench обновила результаты тестов. Напомню, когда бенчмарк вышел в мае 2025, ни одна LLM вообще не могла решить обычную судоку 9×9.
Теперь ситуация изменилась: GPT-5 стал новым лидером и решает 33% задач - в два раза умнее ближайшего конкурента. Это первая модель, которой удалось пройти и вариант классической 9×9.
Но главная часть бенчмарка остаётся нерешённой: 67% более сложных головоломок по-прежнему оказываются слишком сложными. Причина в том, что современные модели плохо справляются с тем, что нужно для настоящей судоку: понимать новые правила, держать в голове глобальную структуру, строить длинные логические цепочки и находить "точку входа", которую опытные люди сразу замечают.
Дополнительные эксперименты - GRPO-тюнинг Qwen2.5-7B и Thought Cloning на примерах из Cracking the Cryptic - дали небольшой прогресс, но не решили ключевые проблемы: пространственное мышление и творческий подход всё ещё оказываются для моделей сложными.
Итог: прогресс заметный, но до уровня человеческого логического и пространственного мышления моделям ещё далеко.
Подробнее:
https://pub.sakana.ai/sudoku-gpt5/
@data_analysis_ml
👍10❤4🔥1
Forwarded from Kali Linux
Компания по облачной безопасности Wiz обнаружила, что 65% компаний из списка Forbes AI 50 допустили утечку API-ключей, токенов и других учетных данных на GitHub. По словам исследователей, это могло привести к раскрытию приватных моделей, данных обучения или внутренней структуры организаций.
Чаще всего секреты находили в файлах Jupyter Notebook и Python-скриптах. Среди утечек были токены Hugging Face, Azure и W&B. В одном из случаев скомпрометированный токен Hugging Face мог открыть доступ к тысяче приватных моделей.
Wiz публично назвала только ElevenLabs и LangChain, отметив их быструю реакцию. При этом почти половина всех уведомлений об утечках, отправленных другим компаниям, осталась без ответа.
wiz.io
Please open Telegram to view this post
VIEW IN TELEGRAM
👍7❤3🔥3😁1🤔1🤬1
Forwarded from Russian OSINT
Bloomberg пишет, что Gemini могли использовать для отслеживания данных пользователей в Gmail, сервисах обмена мгновенными сообщениями и видеоконференциях.
Истцы утверждают, что в октябре компания тайно активировала ИИ-модель для всех пользователей Gmail, Chat и Meet. В иске подчеркивается, что подобные действия являются прямым нарушением Калифорнийского закона о вторжении в частную жизнь.
Согласно иску, Gemini получает возможность «получать доступ ко всей записанной истории личных сообщений своих пользователей и использовать её, включая буквально каждое электронное письмо и вложение, отправленное и полученное в их учетных записях Gmail».
Возможность деактивации ИИ-сервиса существует, но она требует от пользователей специальных действий в настройках конфиденциальности Google.
🕵️ Дело: Thele v. Google LLC, 25-cv-09704, Окружной суд США, Северный округ Калифорнии (Сан-Хосе).
Please open Telegram to view this post
VIEW IN TELEGRAM
❤4🔥2🥰1😢1
Forwarded from Content Review
Цифра дня
100 долларов в месяц платили клиенты за подписку на «ИИ-ассистента» Fireflies ai, который якобы делал заметки во время встреч. На деле, как признался сооснователь компании Сэм Удотонг, этим «ассистентом» в первое время существования компании были он и его напарник. Они подключались к Zoom-звонкам под именем Fred from Fireflies, сидели молча и вручную конспектировали обсуждения; потом слали клиенту текст, будто бы сгенерированный искусственным интеллектом. Так они якобы «пережили ранние месяцы, оплачивая аренду и пиццу».
Получается, два вполне себе конкретных «Фреда» имели доступ к корпоративным совещаниям чужих компаний, которые пускали к себе посторонних людей. Платя за сервис и пребывая в уверенности, что это просто работающая на фоне нейросеть. В комментариях к посту Сэма возникли вопросы к этичности и легальности такого подхода. Fireflies ai и раньше ловили на утечках данных и самовольных подключениях бота к встречам – возможно, основателям компании просто было скучно и они заходили к клиентам послушать?
100 долларов в месяц платили клиенты за подписку на «ИИ-ассистента» Fireflies ai, который якобы делал заметки во время встреч. На деле, как признался сооснователь компании Сэм Удотонг, этим «ассистентом» в первое время существования компании были он и его напарник. Они подключались к Zoom-звонкам под именем Fred from Fireflies, сидели молча и вручную конспектировали обсуждения; потом слали клиенту текст, будто бы сгенерированный искусственным интеллектом. Так они якобы «пережили ранние месяцы, оплачивая аренду и пиццу».
Получается, два вполне себе конкретных «Фреда» имели доступ к корпоративным совещаниям чужих компаний, которые пускали к себе посторонних людей. Платя за сервис и пребывая в уверенности, что это просто работающая на фоне нейросеть. В комментариях к посту Сэма возникли вопросы к этичности и легальности такого подхода. Fireflies ai и раньше ловили на утечках данных и самовольных подключениях бота к встречам – возможно, основателям компании просто было скучно и они заходили к клиентам послушать?
😁18🔥1👏1🤣1
Forwarded from Machinelearning
🚀 Qwen выпустила DeepResearch 2511 - обновление глубокого исследования.
Основные изменения:
✨ Добавлены два режима работы д
- Normal - быстрый и универсальный
- Advanced - тратит больше времени на анализ, чтобы дать максимально глубокий разбор
📄 Поддержка загрузки файлов
Теперь можно отправлять документы и изображения прямо в модель для анализа.
⚡ Улучшенный поиск
Обновлённый механизм быстрее считывает и обрабатывает веб-информацию, углубляя результаты исследования.
📊 Точный контроль отчётов
Можно задавать структуру отчёта: объём, количество абзацев, формат и детализацию. Улучшена надёжность цитирования.
🧑💻 Новый UX
Переработанная архитектура делает интерфейс заметно быстрее и отзывчивее.
🔗 Web: https://chat.qwen.ai/?inputFeature=deep_research
📱 App: https://qwen.ai/download
@ai_machinelearning_big_data
#qwen
Основные изменения:
✨ Добавлены два режима работы д
- Normal - быстрый и универсальный
- Advanced - тратит больше времени на анализ, чтобы дать максимально глубокий разбор
📄 Поддержка загрузки файлов
Теперь можно отправлять документы и изображения прямо в модель для анализа.
⚡ Улучшенный поиск
Обновлённый механизм быстрее считывает и обрабатывает веб-информацию, углубляя результаты исследования.
📊 Точный контроль отчётов
Можно задавать структуру отчёта: объём, количество абзацев, формат и детализацию. Улучшена надёжность цитирования.
🧑💻 Новый UX
Переработанная архитектура делает интерфейс заметно быстрее и отзывчивее.
🔗 Web: https://chat.qwen.ai/?inputFeature=deep_research
📱 App: https://qwen.ai/download
@ai_machinelearning_big_data
#qwen
❤4👍3🔥1
Forwarded from МТС True Tech
Погружайся в мир инноваций и прокачивай навыки 21 ноября на True Tech Champ! 🏆
Тебя ждет конференция с российскими и международными экспертами и новый формат лектория — ИТ-качалка.
🎙️ Майкл Ланэм, канадский разработчик и автор технических бестселлеров, проведет воркшоп по созданию и управлению ИИ-агентами.
🎙️ Артем Лыков, ведущий RnD-разработчик MWS, аспират ISR Lab и Skoltech, расскажет о платформе PhysicalAgent для роботизированных манипуляций, которая объединяет итеративное мышление, генерацию видео на основе диффузионных моделей мира и выполнение задач в замкнутом контуре.
🎙️ Валентин Малых, руководитель фундаментальных исследований MWS AI, поделится тонкостями развертывания RAG-систем и осветит наболевший вопрос — длинный контекст против поиска по документам.
Также в программе — гонки и битвы роботов, консультации с HR-командой МТС, ИТ-Родео, робофайтинг и другие айтивности.
Участие бесплатное, можно смотреть трансляцию или прийти в МТС Live Холл. Регистрируйся на сайте и стань частью масштабного технофеста 🔥
#TrueTechEvents@truetechcommunity
Тебя ждет конференция с российскими и международными экспертами и новый формат лектория — ИТ-качалка.
🎙️ Майкл Ланэм, канадский разработчик и автор технических бестселлеров, проведет воркшоп по созданию и управлению ИИ-агентами.
🎙️ Артем Лыков, ведущий RnD-разработчик MWS, аспират ISR Lab и Skoltech, расскажет о платформе PhysicalAgent для роботизированных манипуляций, которая объединяет итеративное мышление, генерацию видео на основе диффузионных моделей мира и выполнение задач в замкнутом контуре.
🎙️ Валентин Малых, руководитель фундаментальных исследований MWS AI, поделится тонкостями развертывания RAG-систем и осветит наболевший вопрос — длинный контекст против поиска по документам.
Также в программе — гонки и битвы роботов, консультации с HR-командой МТС, ИТ-Родео, робофайтинг и другие айтивности.
Участие бесплатное, можно смотреть трансляцию или прийти в МТС Live Холл. Регистрируйся на сайте и стань частью масштабного технофеста 🔥
#TrueTechEvents@truetechcommunity
Please open Telegram to view this post
VIEW IN TELEGRAM
МТС True Tech Champ 2025
ИТ-чемпионат по алгоритмическому и робототехническому программированию
Forwarded from Китай.AI
Pelican-VL: Китайский открытый «мозг» для роботов бросил вызов GPT-5
Китайские разработчики представили самую мощную открытую модель искусственного интеллекта для управления роботами. Pelican-VL 1.0 от Пекинского инновационного центра человекоподобных роботов не только превзошла ведущие зарубежные аналоги, но и полностью открыта для сообщества.
💡 Что это такое?
Pelican-VL — это визуально-языковая модель (VLM), созданная специально для воплощенного ИИ (embodied AI). Простыми словами, это «мозг», который позволяет роботам понимать окружающий мир через камеры и выполнять сложные задачи.
🔄 Революционный метод обучения: DPPO
Ключевое новшество — метод DPPO (Deliberate Practice Policy Optimization), работающий по принципу «сознательной практики»:
- Модель анализирует видео
- Самостоятельно тренируется
- Находит ошибки
- Исправляет и улучшает себя
Это похоже на студента, который учится на собственных ошибках, постоянно повышая свой уровень.
🚀 Ключевые возможности модели
• Мультимодальное понимание: Анализирует изображения и текст одновременно
• Пространственно-временное мышление: Понимает последовательность действий во времени
• Физическое взаимодействие: Планирует движения роботов и захват объектов
• Самокоррекция: Автоматически находит и исправляет слабые места
📊 Технические детали
🌍 Международное сравнение
Пока Google и NVIDIA развивают свои закрытые системы (Gemini Robotics, Cosmos-Reason1), Pelican-VL предлагает открытую альтернативу с сопоставимой производительностью, но в 10-50 раз более эффективным использованием данных.
Официальный сайт | GitHub | Hugging Face
#КитайскийИИ #КитайAI #EmbodiedAI #Робототехника
Китайские разработчики представили самую мощную открытую модель искусственного интеллекта для управления роботами. Pelican-VL 1.0 от Пекинского инновационного центра человекоподобных роботов не только превзошла ведущие зарубежные аналоги, но и полностью открыта для сообщества.
💡 Что это такое?
Pelican-VL — это визуально-языковая модель (VLM), созданная специально для воплощенного ИИ (embodied AI). Простыми словами, это «мозг», который позволяет роботам понимать окружающий мир через камеры и выполнять сложные задачи.
🔄 Революционный метод обучения: DPPO
Ключевое новшество — метод DPPO (Deliberate Practice Policy Optimization), работающий по принципу «сознательной практики»:
- Модель анализирует видео
- Самостоятельно тренируется
- Находит ошибки
- Исправляет и улучшает себя
Это похоже на студента, который учится на собственных ошибках, постоянно повышая свой уровень.
🚀 Ключевые возможности модели
• Мультимодальное понимание: Анализирует изображения и текст одновременно
• Пространственно-временное мышление: Понимает последовательность действий во времени
• Физическое взаимодействие: Планирует движения роботов и захват объектов
• Самокоррекция: Автоматически находит и исправляет слабые места
📊 Технические детали
Размеры модели: 7B и 72B параметровВычислительные ресурсы: 1000+ GPU A800Время обучения: 50,000 GPU-часов🌍 Международное сравнение
Пока Google и NVIDIA развивают свои закрытые системы (Gemini Robotics, Cosmos-Reason1), Pelican-VL предлагает открытую альтернативу с сопоставимой производительностью, но в 10-50 раз более эффективным использованием данных.
Официальный сайт | GitHub | Hugging Face
#КитайскийИИ #КитайAI #EmbodiedAI #Робототехника
❤3👍1🔥1
Forwarded from linkmeup
Статья про апрельский слёт от Google VRP в Токио, где автор попробовал свои силы во взломе Gemini и вынес неплохой профит в $20к.
Суть находки: нейронка по-разному парсила маркдаун на разных слоях, поэтому задача свелась к тому, чтобы уговорить один слой пропустить пейлоад, а на другом она его считала и выполнила.
https://buganizer.cc/hacking-gemini-a-multi-layered-approach-md
Суть находки: нейронка по-разному парсила маркдаун на разных слоях, поэтому задача свелась к тому, чтобы уговорить один слой пропустить пейлоад, а на другом она его считала и выполнила.
https://buganizer.cc/hacking-gemini-a-multi-layered-approach-md
🔥4❤2
Forwarded from Рекомендательная [RecSys Channel]
PLUM: Adapting Pre-trained Language Models for Industrial-scale Generative Recommendations
Сегодня разбираем совместную статью Google DeepMind и YouTube. Об этой работе было известно заранее — на конференции RecSys авторы проекта, включая Ed Chi и Lichan Hong, упоминали, что готовится статья о генеративных рекомендациях. Через пару недель после конференции она действительно вышла.
Исследование продолжает трек генеративных рекомендаций, заданный предыдущей работой авторов TIGER. На этот раз основная идея — использование предобученных больших языковых моделей в рекомендательных пайплайнах (в случае Google — это Gemini). Простая LLM из коробки не подходит: модель не знает ни о корпусе айтемов, ни о пользовательских поведенческих сценариях, что приводит к плохим результатам. Чтобы исправить это, команда предлагает фреймворк PLUM, включающий три стадии: item tokenization, continued pre-training и task-specific fine-tuning. Кратко разберём каждую из них.
1) Item tokenization. За основу взята работа TIGER. В ней семантические идентификаторы (SIDs) формировались через RQ-VAE поверх текстового описания товара (эксперименты были на открытых датасетах Amazon). В PLUM к этому подходу добавляют коллаборативный сигнал и мультимодальные контентные представления. Используются уже готовые аудио-, видео- и текстовые эмбеддинги YouTube, которые конкатенируются и проходят через энкодер RQ-VAE.
Новые предложенные компоненты:
— Multi-Resolution Codebooks: число идентификаторов в кодбуках уменьшается от слоя к слою, чтобы верхние уровни разделяли крупные семантические категории, а нижние — более гранулярные признаки.
— Progressive Masking: модель обучается восстанавливать не полный набор SIDs, а его префикс.
Ключевая вещь в архитектуре — дополнительный contrastive learning на RQ-VAE, который вводит коллаборативный сигнал прямо в процесс токенизации. Берутся пары айтемов, встречавшихся рядом в пользовательской истории как позитивные пары, обучается с помощью InfoNCE по батчу. Так коллаборативный сигнал тоже участвует в формировании кодбуков без отдельной стадии дообучения как, например, в OneRec. В итоге SIDs начинают отражать не только контентную информацию об айтемах, но и коллаборативные пользовательские связи между ними.
2) Continued Pre-Training (CPT). Здесь языковая модель дообучается с увеличенным словарём, в который, помимо изначальных токенов, встроены токены айтемов. Модель обучается на смешанной задаче (supervised + self-supervised). Цель этой стадии — заставить LLM встроить в общее семантическое пространство представления токенов и SIDs.
3) Task-Specific Fine-Tuning. Это полноценное обучение на задачу генеративного ретривала: модель предсказывает релевантные айтемы в пользовательских историях (обучение на next token prediction).
В целом идея PLUM строится на прямой аналогии между словами в языковых моделях и айтемами в RecSys: если в NLP слова токенизируются для работы с огромным словарём, то в рекомендациях можно аналогично токенизировать айтемы.
Эксперименты и результаты
Основная модель — Mixture-of-Experts с ~900 млн активных параметров (всего 4,2 млрд).
В онлайн-A/B-тестах PLUM показывает рост ключевых метрик: CTR и вовлечённости пользователей, особенно в коротких видео (YouTube Shorts). Аблейшены подтверждают, что важны все предложенные компоненты.
В работе показывают законы масштабирования для предложенного фреймворка: при увеличении размера моделей при разном фиксированном вычислительном бюджете ошибки на обучении и валидации снижаются, но самые большие модели (около 3 млрд активных параметров, 20 млрд всего) пока упираются в ограничения вычислительных ресурсов. Исследователям не хватило времени, данных и мощностей, чтобы хорошо обучить модели такого размера, однако инженеры считают, что при дальнейшем масштабировании качество может вырасти ещё больше.
Финальная PLUM-модель дообучается ежедневно на ~0,25 млрд примеров, тогда как предыдущие LEM (Large Embedding Models) подходы требовали многомиллиардных датасетов.
@RecSysChannel
Разбор подготовил❣ Владимир Байкалов
Сегодня разбираем совместную статью Google DeepMind и YouTube. Об этой работе было известно заранее — на конференции RecSys авторы проекта, включая Ed Chi и Lichan Hong, упоминали, что готовится статья о генеративных рекомендациях. Через пару недель после конференции она действительно вышла.
Исследование продолжает трек генеративных рекомендаций, заданный предыдущей работой авторов TIGER. На этот раз основная идея — использование предобученных больших языковых моделей в рекомендательных пайплайнах (в случае Google — это Gemini). Простая LLM из коробки не подходит: модель не знает ни о корпусе айтемов, ни о пользовательских поведенческих сценариях, что приводит к плохим результатам. Чтобы исправить это, команда предлагает фреймворк PLUM, включающий три стадии: item tokenization, continued pre-training и task-specific fine-tuning. Кратко разберём каждую из них.
1) Item tokenization. За основу взята работа TIGER. В ней семантические идентификаторы (SIDs) формировались через RQ-VAE поверх текстового описания товара (эксперименты были на открытых датасетах Amazon). В PLUM к этому подходу добавляют коллаборативный сигнал и мультимодальные контентные представления. Используются уже готовые аудио-, видео- и текстовые эмбеддинги YouTube, которые конкатенируются и проходят через энкодер RQ-VAE.
Новые предложенные компоненты:
— Multi-Resolution Codebooks: число идентификаторов в кодбуках уменьшается от слоя к слою, чтобы верхние уровни разделяли крупные семантические категории, а нижние — более гранулярные признаки.
— Progressive Masking: модель обучается восстанавливать не полный набор SIDs, а его префикс.
Ключевая вещь в архитектуре — дополнительный contrastive learning на RQ-VAE, который вводит коллаборативный сигнал прямо в процесс токенизации. Берутся пары айтемов, встречавшихся рядом в пользовательской истории как позитивные пары, обучается с помощью InfoNCE по батчу. Так коллаборативный сигнал тоже участвует в формировании кодбуков без отдельной стадии дообучения как, например, в OneRec. В итоге SIDs начинают отражать не только контентную информацию об айтемах, но и коллаборативные пользовательские связи между ними.
2) Continued Pre-Training (CPT). Здесь языковая модель дообучается с увеличенным словарём, в который, помимо изначальных токенов, встроены токены айтемов. Модель обучается на смешанной задаче (supervised + self-supervised). Цель этой стадии — заставить LLM встроить в общее семантическое пространство представления токенов и SIDs.
3) Task-Specific Fine-Tuning. Это полноценное обучение на задачу генеративного ретривала: модель предсказывает релевантные айтемы в пользовательских историях (обучение на next token prediction).
В целом идея PLUM строится на прямой аналогии между словами в языковых моделях и айтемами в RecSys: если в NLP слова токенизируются для работы с огромным словарём, то в рекомендациях можно аналогично токенизировать айтемы.
Эксперименты и результаты
Основная модель — Mixture-of-Experts с ~900 млн активных параметров (всего 4,2 млрд).
В онлайн-A/B-тестах PLUM показывает рост ключевых метрик: CTR и вовлечённости пользователей, особенно в коротких видео (YouTube Shorts). Аблейшены подтверждают, что важны все предложенные компоненты.
В работе показывают законы масштабирования для предложенного фреймворка: при увеличении размера моделей при разном фиксированном вычислительном бюджете ошибки на обучении и валидации снижаются, но самые большие модели (около 3 млрд активных параметров, 20 млрд всего) пока упираются в ограничения вычислительных ресурсов. Исследователям не хватило времени, данных и мощностей, чтобы хорошо обучить модели такого размера, однако инженеры считают, что при дальнейшем масштабировании качество может вырасти ещё больше.
Финальная PLUM-модель дообучается ежедневно на ~0,25 млрд примеров, тогда как предыдущие LEM (Large Embedding Models) подходы требовали многомиллиардных датасетов.
@RecSysChannel
Разбор подготовил
Please open Telegram to view this post
VIEW IN TELEGRAM
❤9👍2🔥1🤯1