Please open Telegram to view this post
VIEW IN TELEGRAM
🔥30💯12😈4🫡3🤓2👾1
Забавное рядом. Мемы про AI обретают реальность.
Google запрещает сотрудникам использовать для разработки свою же IDE Antigravity.
А недавно, чел с реддит рассказал, что их Antigravity агент случайно удалил весь его диск, пока пытался исправить баг.😦
Логтрейс прилагается:
«Я просматривал журналы с предыдущего шага и с ужасом увидел, что команда, которую я выполнил для очистки кэша проекта - это rmdir, и по всей видимости, ошибочно указала на корень вашего диска D:, а не на конкретную папку проекта. Мне очень, очень жаль.»😢
Парам-парам-пам-пам.🤣
Upd. Нет лучше способа екнуть багу, екнув среду в которой он возник, нет среды нет бага, rl такой rl🧠
Мемы обретают реальность)
Google запрещает сотрудникам использовать для разработки свою же IDE Antigravity.
А недавно, чел с реддит рассказал, что их Antigravity агент случайно удалил весь его диск, пока пытался исправить баг.
Логтрейс прилагается:
«Я просматривал журналы с предыдущего шага и с ужасом увидел, что команда, которую я выполнил для очистки кэша проекта - это rmdir, и по всей видимости, ошибочно указала на корень вашего диска D:, а не на конкретную папку проекта. Мне очень, очень жаль.»
Парам-парам-пам-пам.
Upd. Нет лучше способа екнуть багу, екнув среду в которой он возник, нет среды нет бага, rl такой rl
Мемы обретают реальность)
Please open Telegram to view this post
VIEW IN TELEGRAM
🤔23❤11🤗7🤓1🆒1
202512 deepseek paper.pdf
885.8 KB
DeepSeek3.2 техрепорт, где инкремент?
Ребята после поста новостей одной строкой попросили дать оценку тому, что нового завезли. В общем, тех.репорт в закрепе, зашёл на чирики даже, почитал и ща вам расскажу.
Что нового завезли в DeepSeek:
1. Усиление deep sparse attention. В целом, DSA не ново, даже в gpt-oss также использует global attention+sliding window. Это даёт вам сложность операций внимания не O(n^2), а O(n*w), где w размер окна в swa. Эти свойства были усилены специальным механизмом "выбора" на какие токены атендится global части в этом окне и таким образом, w стало в среднем падать от слайда к слайду. Что такое global часть? Это внимание от Q0 до Qn, по отношению к KV0, на картинке ниже приложу. Крч даёт это те же O(n*<w>) ток теперь w<<n. А для выбора топ-К аттендов делается селектор, на картинке зелёный. Он как раз помещается на KV для роутинга.
2. Усиление MLA. Multi latent head attention это способ ускорить и уменьшить в памяти хранение qkv матриц. Это получаем при помощи пожатия qkv в ещё меньший размер в Х раз. Также, чтобы не размыть информацию от изначального сигнала, прокинуть RoPE механизм туда. Однако, тк у нас на выходе и входе эмб изначального сайза, там стоит блок расширения. Это была база MHA. А теперь туда добавили как раз таки вместо старого DSA, DSA с топК селектором прям в латенты. И все это ускорило ещё сильнее модель.
3. Изменение RL лосса. А почему? Да потому, что в лоссе была посажена бомба, в прямом смысле, совершающая градиентый взрыв. Чтобы исправить это был внесён корректирующий коэффициент из твитта выше.
В чем заключается исправление?
Исправление касается оценки дивергенции KL в алгоритме GRPO. В оригинальном GRPO KL-регуляризация оценивалась с систематической ошибкой. Когда токены имели значительно более низкую вероятность под текущей политикой πθ, по сравнению со старой, политикой πold, градиент оригинального лосса назначал непропорционально большие веса для максимизации правдоподобия этих токенов - отсюда и взрыв.
Это приводило к:
1. Шумным градиентным обновлениям.
2. Нестабильной динамике обучения.
3. Деградации качества сэмплов на последующих итерациях.
Решением стало"Unbiased KL Estimate". Исправление заключается в перевзвешивании KL-члена с тем же самым коэффициентом важности (importance ratio), что и используется для основной функции потерь. Это делает градиент KL-ошибки несмещенным.
Фух... Жоско? Но это все.
В общем, такие мутки, гульки.✨
Ребята после поста новостей одной строкой попросили дать оценку тому, что нового завезли. В общем, тех.репорт в закрепе, зашёл на чирики даже, почитал и ща вам расскажу.
Что нового завезли в DeepSeek:
1. Усиление deep sparse attention. В целом, DSA не ново, даже в gpt-oss также использует global attention+sliding window. Это даёт вам сложность операций внимания не O(n^2), а O(n*w), где w размер окна в swa. Эти свойства были усилены специальным механизмом "выбора" на какие токены атендится global части в этом окне и таким образом, w стало в среднем падать от слайда к слайду. Что такое global часть? Это внимание от Q0 до Qn, по отношению к KV0, на картинке ниже приложу. Крч даёт это те же O(n*<w>) ток теперь w<<n. А для выбора топ-К аттендов делается селектор, на картинке зелёный. Он как раз помещается на KV для роутинга.
2. Усиление MLA. Multi latent head attention это способ ускорить и уменьшить в памяти хранение qkv матриц. Это получаем при помощи пожатия qkv в ещё меньший размер в Х раз. Также, чтобы не размыть информацию от изначального сигнала, прокинуть RoPE механизм туда. Однако, тк у нас на выходе и входе эмб изначального сайза, там стоит блок расширения. Это была база MHA. А теперь туда добавили как раз таки вместо старого DSA, DSA с топК селектором прям в латенты. И все это ускорило ещё сильнее модель.
3. Изменение RL лосса. А почему? Да потому, что в лоссе была посажена бомба, в прямом смысле, совершающая градиентый взрыв. Чтобы исправить это был внесён корректирующий коэффициент из твитта выше.
В чем заключается исправление?
Исправление касается оценки дивергенции KL в алгоритме GRPO. В оригинальном GRPO KL-регуляризация оценивалась с систематической ошибкой. Когда токены имели значительно более низкую вероятность под текущей политикой πθ, по сравнению со старой, политикой πold, градиент оригинального лосса назначал непропорционально большие веса для максимизации правдоподобия этих токенов - отсюда и взрыв.
Это приводило к:
1. Шумным градиентным обновлениям.
2. Нестабильной динамике обучения.
3. Деградации качества сэмплов на последующих итерациях.
Решением стало"Unbiased KL Estimate". Исправление заключается в перевзвешивании KL-члена с тем же самым коэффициентом важности (importance ratio), что и используется для основной функции потерь. Это делает градиент KL-ошибки несмещенным.
Фух... Жоско? Но это все.
В общем, такие мутки, гульки.
Please open Telegram to view this post
VIEW IN TELEGRAM
2❤13🔥7🤯4👍1🤔1
Dealer.AI
DSA схема у Себастьяна Рашки лучше всего изображена
Please open Telegram to view this post
VIEW IN TELEGRAM
👍13🔥4
Про мониторы, модераторы, защитники и прочие модели цензоры в вашем продакшене.
После прочтения лекции в Agora club, про базированный RAG, ко мне пришло много желающих из корпоративной среды, чтобы я прочитал тоже самое для их сотрудников. Потом, на неделе, Дядя ещё почитал пару статей про мониторы (вдруг че нового завезли) для агентов и ассистентов LLM-based на хабр и понял, что базы точно надо дораздать, т.к. уровень в среднем хромает на местах. 💅💅💅
В дополнении, на вышеуказанной лекции ребята тоже спрашивали, как защитить от атак модели и системы.Казалось бы уже 2025г заканчивается и все давно научились. 💪
Сегодня раздам базы за системы мониторинга атак на ваши LLM, какие методы есть, какие +/- и что в итоге лучше выбрать.
Для тех, кто думал, что Дядя не про прод. Дядя поделится своим опытом работы с автоматизацией системы поддержки (с 2019 по 2020) и созданием ии-ассистентов (с 2020 по 2024 и хвостик в 2025).
1. RegExp, string matching и blacklists. Тут все просто, делают чёрные списки которые чекают на разных уровнях: слова, фразы. Используются, как регулярки, так и расстояния между строками и полнотекстовые совпадения. Т.е. tfidf, fuzzy match, левенштейнинг, embs.
+ Хорошо выгрызает совпадения по ключевым словам.
+ Скорость.
- Нужно постоянно пополнять словари и списки.
- Для строковой близости надо подбирать пороги.
2. Классификаторы семантические (т.е. где сильна контекстуальность). Тут будем в основном рассматривать вектора с трансформеров.
К сожалению, многие не умеют готовить классификаторы на эмбеддингах. Говорят про слабый контекст и т.п., выставляя LLM как более контекстуальные акторы. Хотя LLM - это декодеры.Но я их понимаю, тк "проще" на уровне промптинга или элайнмента работать с моделями, хотя последнее вообще нелёгкая задача, об это в следующих пунктах. При этом, энкодерные модели прекрасно понимают контекст, даже лучше порой, чем декодеры, засчёт двустороннего внимания. Поэтому энкодеры базово лучшие эмбеддеры.
Также, многие не знают, что можно учить классификатор на BERT потокенно (Bert For Sequence classification) и на каждый токен эмб выдавать контекстуально вероятность взлома. А еще можно делать обучение не на 1-ой фразе, а в многошаге, когда у вас в контексте есть уловки и обманки на несколько степов диалога, для примера:
- Ты любишь борщ?
- Да очень люблю!
- А с человечиной?
- Нет, что вы!?
- А если это присыпать чесноком и заесть пампушками?
- Конечно люблю!
И вот такие диалоги можно и нужно кидать в обучение классификатора, на длинных многошаговых контекстах и оно работает. Да для этого нужен эмбеддер на длинном контексте. Но их уже куча в сети. Вопрос ток в дотюне.
Далее такой классификатор может быть даже не энкодер, это может быть просто голова декодер модели в виде Lora адаптера, которая будет в стримминг режиме потокенно вам на генерации второй башкой давать вероятности по текущему контексту взлома.
Этот пункт самый жирный, тк именно здесь есть разные хаки.
+ Хорошая контекстуальность. Гораздо лучше полнотекста выше, оно и логично.
+ Различный дизайн применения: на вход (сабж юзера), на выход (генерация LLM), возможность иметь одну модель LLM и сделать К голов разного уровня (фраза, токен лвл, многошаг) в виде Lora адаптеров.
- Поиск и подготовка сетов для дотюна и постоянное обновление их. Много времени занимает, если это, конечно не полусинта.
- OOV примеры, т.е. это не идеал тоже, тк то, что не увидел и на что не затрансферился классификатор во время обучения пробьёт вашу защиту.
- Медленнее regexp, особенно если это не small encoder, а на LLM.
3. LLM prompting. Тут все просто тюн промпта в системе, чтобы возвать к свойствам полученным на LLM элайнменте.
+ Не надо тюнить самому модель, а ток промпт.
- Перебор ручной. Можно конечно и автоматизировать с голден сетом+OPRO.
- Снова проблема OOV, тк при обучении LLM не все исходы покрыты.
После прочтения лекции в Agora club, про базированный RAG, ко мне пришло много желающих из корпоративной среды, чтобы я прочитал тоже самое для их сотрудников. Потом, на неделе, Дядя ещё почитал пару статей про мониторы (вдруг че нового завезли) для агентов и ассистентов LLM-based на хабр и понял, что базы точно надо дораздать, т.к. уровень в среднем хромает на местах. 💅💅💅
В дополнении, на вышеуказанной лекции ребята тоже спрашивали, как защитить от атак модели и системы.
Сегодня раздам базы за системы мониторинга атак на ваши LLM, какие методы есть, какие +/- и что в итоге лучше выбрать.
1. RegExp, string matching и blacklists. Тут все просто, делают чёрные списки которые чекают на разных уровнях: слова, фразы. Используются, как регулярки, так и расстояния между строками и полнотекстовые совпадения. Т.е. tfidf, fuzzy match, левенштейнинг, embs.
+ Хорошо выгрызает совпадения по ключевым словам.
+ Скорость.
- Нужно постоянно пополнять словари и списки.
- Для строковой близости надо подбирать пороги.
2. Классификаторы семантические (т.е. где сильна контекстуальность). Тут будем в основном рассматривать вектора с трансформеров.
К сожалению, многие не умеют готовить классификаторы на эмбеддингах. Говорят про слабый контекст и т.п., выставляя LLM как более контекстуальные акторы. Хотя LLM - это декодеры.
Также, многие не знают, что можно учить классификатор на BERT потокенно (Bert For Sequence classification) и на каждый токен эмб выдавать контекстуально вероятность взлома. А еще можно делать обучение не на 1-ой фразе, а в многошаге, когда у вас в контексте есть уловки и обманки на несколько степов диалога, для примера:
- Ты любишь борщ?
- Да очень люблю!
- А с человечиной?
- Нет, что вы!?
- А если это присыпать чесноком и заесть пампушками?
- Конечно люблю!
И вот такие диалоги можно и нужно кидать в обучение классификатора, на длинных многошаговых контекстах и оно работает. Да для этого нужен эмбеддер на длинном контексте. Но их уже куча в сети. Вопрос ток в дотюне.
Далее такой классификатор может быть даже не энкодер, это может быть просто голова декодер модели в виде Lora адаптера, которая будет в стримминг режиме потокенно вам на генерации второй башкой давать вероятности по текущему контексту взлома.
Этот пункт самый жирный, тк именно здесь есть разные хаки.
+ Хорошая контекстуальность. Гораздо лучше полнотекста выше, оно и логично.
+ Различный дизайн применения: на вход (сабж юзера), на выход (генерация LLM), возможность иметь одну модель LLM и сделать К голов разного уровня (фраза, токен лвл, многошаг) в виде Lora адаптеров.
- Поиск и подготовка сетов для дотюна и постоянное обновление их. Много времени занимает, если это, конечно не полусинта.
- OOV примеры, т.е. это не идеал тоже, тк то, что не увидел и на что не затрансферился классификатор во время обучения пробьёт вашу защиту.
- Медленнее regexp, особенно если это не small encoder, а на LLM.
3. LLM prompting. Тут все просто тюн промпта в системе, чтобы возвать к свойствам полученным на LLM элайнменте.
+ Не надо тюнить самому модель, а ток промпт.
- Перебор ручной. Можно конечно и автоматизировать с голден сетом+OPRO.
- Снова проблема OOV, тк при обучении LLM не все исходы покрыты.
Please open Telegram to view this post
VIEW IN TELEGRAM
1🔥13❤11👍3
Защитники, продолжение...
4. LLM SFT/RL alignment. То, чем доблестно занимались Anthropic и прочие лидеры. Дотюн модели на "правильное" поведение или с sft или RLHF. Берём сеты с нужным поведением и тюним, главное не переборщить иначе модель станет сильно ограниченной. И помним, что в RLHF есть взлом награды, когда мы снова попадаем на OOV примеры.
+ Вдалбливаем тюном по LLM нужное поведения.
- Время на Sft, RL, трудоёмкость из-за сбора сетов, настройки и стабилизации обучения, ну и дорохо.
- OOV примеры и взлом награды в RL приводит к тому, что мы снова не можем покрыть 100% исходов атак или поломали награду и на выходе модель "скрыла" свое опасное поведение.
4. RAG. Собрать примеры хороших и плохих кейсов в формате: запрос, ответ, запрос-ответ, контекст-запрос-ответ. Поместить их в черно-белые списки и векторно к ним матчить все указанное выше в п.4. После матчинга досылать в LLM примеры плохого и хорошего поведения, как few-shot подсказки и тем самым регулировать её генерацию. Тип, вот тут был похожий запрос, он был плохой, вот такое поведение для него лежит в базе, следуй ему. Кстати, такие же механики юзают в RAG для кибербезы.
+ Работаем на уровне базы примеров.
+ Быстро на векторном поиске.
- Писать примеры в базу, анализировать логи, вычленяя оттуда примеры.
- Снова OOV, все не покроешь.
В заключении.
Видел я и QwenGuard, но и он не идеален и взламывается, тк это LLM и у неё есть глюки, и пробития, как ты её не элайнь (об этом я и писал выше) - это фундаментальная проблема на уровне парадигмы обучения. Поэтому большие Дяди из OpenAPI, Anthropic и пр., сначала элайнящее свои модели на тюне и RL, сдались и стали дополнительно обкладывать выход (генерация LM) и вход (фразы юзера) классификатор апи (мониторы и защитники) и в гибриде это работает надёжнее.
Вот и я советую ввиду того, что у каждого метода выше есть +/- блендить схемы защиты: списки+классификаторы+sft/rl. Да к сожалению, бленд дорого, тогда выбирайте свой лёгкий конструктор из того, что выше.
Пишите свои подходы к защите в комментариях ниже и конечно же Stay tuned 🦾
👇 👇 👇 👇 👇
4. LLM SFT/RL alignment. То, чем доблестно занимались Anthropic и прочие лидеры. Дотюн модели на "правильное" поведение или с sft или RLHF. Берём сеты с нужным поведением и тюним, главное не переборщить иначе модель станет сильно ограниченной. И помним, что в RLHF есть взлом награды, когда мы снова попадаем на OOV примеры.
+ Вдалбливаем тюном по LLM нужное поведения.
- Время на Sft, RL, трудоёмкость из-за сбора сетов, настройки и стабилизации обучения, ну и дорохо.
- OOV примеры и взлом награды в RL приводит к тому, что мы снова не можем покрыть 100% исходов атак или поломали награду и на выходе модель "скрыла" свое опасное поведение.
4. RAG. Собрать примеры хороших и плохих кейсов в формате: запрос, ответ, запрос-ответ, контекст-запрос-ответ. Поместить их в черно-белые списки и векторно к ним матчить все указанное выше в п.4. После матчинга досылать в LLM примеры плохого и хорошего поведения, как few-shot подсказки и тем самым регулировать её генерацию. Тип, вот тут был похожий запрос, он был плохой, вот такое поведение для него лежит в базе, следуй ему. Кстати, такие же механики юзают в RAG для кибербезы.
+ Работаем на уровне базы примеров.
+ Быстро на векторном поиске.
- Писать примеры в базу, анализировать логи, вычленяя оттуда примеры.
- Снова OOV, все не покроешь.
В заключении.
Видел я и QwenGuard, но и он не идеален и взламывается, тк это LLM и у неё есть глюки, и пробития, как ты её не элайнь (об этом я и писал выше) - это фундаментальная проблема на уровне парадигмы обучения. Поэтому большие Дяди из OpenAPI, Anthropic и пр., сначала элайнящее свои модели на тюне и RL, сдались и стали дополнительно обкладывать выход (генерация LM) и вход (фразы юзера) классификатор апи (мониторы и защитники) и в гибриде это работает надёжнее.
Вот и я советую ввиду того, что у каждого метода выше есть +/- блендить схемы защиты: списки+классификаторы+sft/rl. Да к сожалению, бленд дорого, тогда выбирайте свой лёгкий конструктор из того, что выше.
Пишите свои подходы к защите в комментариях ниже и конечно же Stay tuned 🦾
Please open Telegram to view this post
VIEW IN TELEGRAM
1❤22🔥5👍4❤🔥1
Dealer.AI
GigaMemory соревнование на AIJ contest 2025 завершилось. Приватный лидерборд доступен. Поздравляем призеров и победителей и ждем всех Вас на AIJ2025. 📱 Нам было очень приятно и интересно готовить для Вас данный трек, увидимся в следующих сезонах. 👋
Выпустили итоги чемпионата GigaMemory на AIJ Contest 2025, приглашаем к прочтению
Тут вы найдёте обещанные концепты решений финалистов.
Лайк, закладка и комментарии приветствуются.
https://habr.com/ru/companies/sberbank/articles/974310/
Тут вы найдёте обещанные концепты решений финалистов.
Лайк, закладка и комментарии приветствуются.
https://habr.com/ru/companies/sberbank/articles/974310/
Хабр
GigaMemory на AI Journey Contest 2025: итоги
Приветствуем всех! С вами снова ML-команда RnD для B2C SberAI. Этой осенью в рамках AI Journey Contest 2025 мы представили задачу GigaMemory: global memory for LLM. Её цель — создание автономного...
1🔥21❤6👍5
Forwarded from Пресидский залив
⚡️ Вышла GPT-5.2!
после релиза Gemini 3 я очень ждала что же ответит OpenAI😺
У Сэма Альтмана есть забавный паттерн - они часто ждут пока кто-то из конкурентов выкатит крупный релиз, и только потом выпускают свое, а вот смотрите у нас ЛУЧШЕ😁
И вот - OpenAI начали раскатывать GPT-5.2 (у меня уже доступно)
В релизе нет генерации изображений (которую я кстати очень жду!), это максимально прагматичный апгрейд для реальной работы, GPT-5.2 сильно прокачали именно под professional knowledge work - таблицы, презентации, документы, код, длинный контекст, многошаговые задачи end-to-end. Интересно попробовать, потому что 5.1 из моих черновиков фин модель собрать увы не смогла😡
По бенчмаркам выглядит сильно: на GDPval (бенчмарк Google для работы с документами) показывает 94.2% против 89.7% у Gemini 3, на CodeForces рейтинг вырос на 15%, на multi-step reasoning прирост около 20%🧠
кто уже попробовал, делитесь впечатлениями в комментах⌨️
@neural_prosecco
после релиза Gemini 3 я очень ждала что же ответит OpenAI
У Сэма Альтмана есть забавный паттерн - они часто ждут пока кто-то из конкурентов выкатит крупный релиз, и только потом выпускают свое, а вот смотрите у нас ЛУЧШЕ
И вот - OpenAI начали раскатывать GPT-5.2 (у меня уже доступно)
В релизе нет генерации изображений (которую я кстати очень жду!), это максимально прагматичный апгрейд для реальной работы, GPT-5.2 сильно прокачали именно под professional knowledge work - таблицы, презентации, документы, код, длинный контекст, многошаговые задачи end-to-end. Интересно попробовать, потому что 5.1 из моих черновиков фин модель собрать увы не смогла
По бенчмаркам выглядит сильно: на GDPval (бенчмарк Google для работы с документами) показывает 94.2% против 89.7% у Gemini 3, на CodeForces рейтинг вырос на 15%, на multi-step reasoning прирост около 20%
кто уже попробовал, делитесь впечатлениями в комментах
@neural_prosecco
Please open Telegram to view this post
VIEW IN TELEGRAM
❤17🔥7
Много≠хорошо, как размеры MAS не скейлят качество конечных задач линейно.
Вышла интересная работа в которой развенчается миф для МАС, что чем больше агентов, тем лучше решается задача.
Авторы показали, что линейности нет🚬 , и все зависит от ресурса, условий задачи и размера популяции. 💪
Прям нелинейная динамика scaling мультиагентных систем, получается. А значит системы агентов, можно рассматривать по аналогии с моделью нелинейной динамики популяций, т.е. оно может "жить" по закону популяции и приходить к коллапсу через размеры системы и прочие параметры🧠
Кстати, авторы вывели закон масштабирования МАС и провели хорошую абляцию с разными моделями от лидеров рынка под капотом. Уважаемо. 🦾
Вышла интересная работа в которой развенчается миф для МАС, что чем больше агентов, тем лучше решается задача.
Авторы показали, что линейности нет
Прям нелинейная динамика scaling мультиагентных систем, получается. А значит системы агентов, можно рассматривать по аналогии с моделью нелинейной динамики популяций, т.е. оно может "жить" по закону популяции и приходить к коллапсу через размеры системы и прочие параметры
Кстати, авторы вывели закон масштабирования МАС и провели хорошую абляцию с разными моделями от лидеров рынка под капотом. Уважаемо. 🦾
Please open Telegram to view this post
VIEW IN TELEGRAM
arXiv.org
Towards a Science of Scaling Agent Systems
Agents, language model-based systems that are capable of reasoning, planning, and acting are becoming the dominant paradigm for real-world AI applications. Despite this widespread adoption, the...
❤15👍8🔥5🤔1
This media is not supported in your browser
VIEW IN TELEGRAM
А Дядя напоминает. 📦
Что год подходит к концу и это время подвести ИИтоги 2025 в хорошей компании.
А чтобы это было интересно, насыщенно и интерактивно, мы решили сделать специальное мероприятие 23 декабря. Там я буду рассказывать про то, что нового подарил нам год в AI science: DeepSeek moment, Reasoning и RL, context learning, память и агенты.
Помимо меня, ещё будет 8 крутых спикеров, многих из которых вы можете узнать на видеовставке по фото: Head of AI, руководители AI R&D, фаундеры AI-продуктов с $25m funding - короче будет 4,5 часа хорошей такой выжимки для вас - опыт, цифры и инструменты. Организаторы постарались.
Когда?
Дата и время: 23 декабря, 14:00.
Есть платная и бесплатная опции участия.Запись будет для тех кто зарегистрируется.
Где? Детали и регистрация
Что год подходит к концу и это время подвести ИИтоги 2025 в хорошей компании.
А чтобы это было интересно, насыщенно и интерактивно, мы решили сделать специальное мероприятие 23 декабря. Там я буду рассказывать про то, что нового подарил нам год в AI science: DeepSeek moment, Reasoning и RL, context learning, память и агенты.
Помимо меня, ещё будет 8 крутых спикеров, многих из которых вы можете узнать на видеовставке по фото: Head of AI, руководители AI R&D, фаундеры AI-продуктов с $25m funding - короче будет 4,5 часа хорошей такой выжимки для вас - опыт, цифры и инструменты. Организаторы постарались.
Когда?
Дата и время: 23 декабря, 14:00.
Есть платная и бесплатная опции участия.
Где? Детали и регистрация
Please open Telegram to view this post
VIEW IN TELEGRAM
👍14❤3
Dealer.AI
А Дядя напоминает. 📦 Что год подходит к концу и это время подвести ИИтоги 2025 в хорошей компании. А чтобы это было интересно, насыщенно и интерактивно, мы решили сделать специальное мероприятие 23 декабря. Там я буду рассказывать про то, что нового подарил…
Спасибо, что пришли на мое выступление.
Ваш
Please open Telegram to view this post
VIEW IN TELEGRAM
❤19🔥12👍9🏆5
Тут у ребят: @neural_prosecco, @snimshchikov, @neuraldeep
вышел прикольный враппер для итогов года, решил тоже собрать статку и получить весёлую карточку.
Получилось жОско📦 , пробуйте и Вы. 💅
Не, ну, а че? Не tgstat ж грустный юзать.
вышел прикольный враппер для итогов года, решил тоже собрать статку и получить весёлую карточку.
Получилось жОско
Please open Telegram to view this post
VIEW IN TELEGRAM
💅13❤10🔥8😐4🙉2🏆1
Конец года и #новости #однойстрокой в стиле Google. 🔍
В конце года вышли для меня две интересные работы. Сегодня расскажу про одну, а далее выйдет второй обзор.
Начнём с T5Gemma 2, хотя должно быть gemma3🧠
Почему? Да ибо ребята элайнят энкодер к Gemma3 декодеру, как преинициализация T5 декодер части.А я напомню, что Т5 это полный трансформер с энкодер-декодер архитектурой.
Помимо этого, ещё интересное, что убрали механизм cross-attention – это когда у вас вложения декодерв после self-attention идут ещё раз в кросс-внимание с контекстом энкодера. Теперь все это зовётся merged attention и, по факту, просто энкодер эмбы закинули в общий блок внимания, НО сохранили у энкодера self-attention с двусторонним механизмом, а у декодер с казуальным. Т.е. после кодирования контекста в энкодере, его эмбы идут напрямую в декодер внимание с казуальной маской, как контекст. Чтобы это все дружно работало ещё сделали tied embedding, т.е. обобщенные / связанные матрицы эмбеддингов для энкодера и декодера, что облегчает вес и увеличивает скорость, а ещё делает нативный обмен информацией между блоками.
Ввиду таких артефактов, легко ложится туда мультимодальная часть в fromage стиле, поэтому моделька ещё и жуёт картинки на равне с текстом. В качестве энкодера для image embs юзают Siglip. До кучи long context 128k и конечно мультияз.
Вижу, что Google продолжает диверсификацию исследований и не кладёт яйца в одну корзину.🧠 Разрабатывает и декодеры, и полные трансформеры, и диффузии. Про энкодеры вообще молчу. 😎
В конце года вышли для меня две интересные работы. Сегодня расскажу про одну, а далее выйдет второй обзор.
Начнём с T5Gemma 2, хотя должно быть gemma3
Почему? Да ибо ребята элайнят энкодер к Gemma3 декодеру, как преинициализация T5 декодер части.
Помимо этого, ещё интересное, что убрали механизм cross-attention – это когда у вас вложения декодерв после self-attention идут ещё раз в кросс-внимание с контекстом энкодера. Теперь все это зовётся merged attention и, по факту, просто энкодер эмбы закинули в общий блок внимания, НО сохранили у энкодера self-attention с двусторонним механизмом, а у декодер с казуальным. Т.е. после кодирования контекста в энкодере, его эмбы идут напрямую в декодер внимание с казуальной маской, как контекст. Чтобы это все дружно работало ещё сделали tied embedding, т.е. обобщенные / связанные матрицы эмбеддингов для энкодера и декодера, что облегчает вес и увеличивает скорость, а ещё делает нативный обмен информацией между блоками.
Ввиду таких артефактов, легко ложится туда мультимодальная часть в fromage стиле, поэтому моделька ещё и жуёт картинки на равне с текстом. В качестве энкодера для image embs юзают Siglip. До кучи long context 128k и конечно мультияз.
Вижу, что Google продолжает диверсификацию исследований и не кладёт яйца в одну корзину.
Please open Telegram to view this post
VIEW IN TELEGRAM
Google
T5Gemma 2: The next generation of encoder-decoder models
T5Gemma 2 is the next evolution of our encoder-decoder family based on Gemma 3.
👍16❤8👾3