Dealer.AI
14.6K subscribers
684 photos
46 videos
16 files
713 links
Жоский ИИ Дядя
Твой личный поставщик AI 🦾🤖
Канал о мире интересного AI: GenAI, RecSys, поиск, classic ML, бизнес приклад и ai-meme👾

Для связи @dealer_ai (реклама и консультации)

Head of ML, AI.
Kaggle: https://www.kaggle.com/andrilko

РКН: 6348592885
Download Telegram
Заодно, потестим новую функцию тлдр от ТГ :) 🧠

Обновите клиент.
Please open Telegram to view this post
VIEW IN TELEGRAM
👌10🤗2
Команда DeepSeek готовится к выпуску 4ой версии модели, со всеми плюшками в лице оптимизаций mHSC, улучшенными свойствами кодирования и агентные темы в части работы с длинным контекстом, который стал эффективнее. Интересно, будет ли там, что-то новенькое а-ля gdpo и улучшение внимания+архитектуры от nvidia? 🤔

Оптимизация mHSC позволяет быстрее и эффективнее работать блокам трансформера - иметь более представимые внутренние вложения векторов, через улучшенные механики отображения и наследования информации.

А ещё недавно они расширили свой тех. репорт увеличив в 4 раза число страниц, с новыми подробностями обучения R1 поколения.
🔥17👌8👍3
Dealer.AI pinned «Когда награда важнее архитектуры - вырезки из интервью с ген.директором Convergent Research и ex. сотрудником DeepMind. Ниже представлено резюме, ещё одного интересного интервью с Адамом Марблстоуном: "Чего фундаментального не хватает ИИ в понимании мозга?"…»
Engram от DeepSeek, как O(1) лукап в памяти на эмбеддингах.

Осторожно длинопост.

Команда DeepSeek продолжает радовать новыми хинтами для архитектуры. Почему это стоит обозреть, думаю, что в v4 эта фишка обязательно появится. Действуем привентивно.

Немного вводных. Напомню, что MoE работает с роутингом FFN слоев. А FFN является местом, где хранятся "знания о мире" языковой модели. Как вы понимаете, данные знания являются статичными, т.е. они не изменяются во времени. И как вы можете понять, чтобы внести новые знания модель надо доучивать на актуальные вещи и в т.ч. поэтому RAG всегда требует актуальных источников, а модели из весов говорят чушь, что сегодня 2 декабря 2023 года. Это просто слепок данных претрена на такую дату.
В общем, в работе нам представлен ещё один вариант развития фичи с статичной памятью. Увы, научиться на лету делать её темпоральной без внешней инженерии а-ля RAG, и постоянного дотюна и ретрена не выйдет.

🔍 Основная концепция и мотивация.

Текущие LLM, включая модели MoE, вынуждены производить поиск знаний за compute – к сожалению, вы платите памятью за sparsed inference, тк надо всех экспертов держать на готове. При этом для обработки статической информации: именованные сущности, формулы и др., они также тратят compute и емкость весов для реконструкции паттернов, которые можно было бы получить простым поиском по памяти.

Авторы предлагают ввести в архитектуру LLM новую, дополнительную ось разреженности – условную память ака Conditional Memory (далее CM). Если MoE реализует условные вычисления (динамически активируемые параметры), то условная память обеспечивает разреженный доступ к статическим знаниям через механизм быстрого поиска. Практической реализацией этой идеи стал модуль Engram (репо тут), который модернизирует классические N-граммные эмбеддинги для эффективного поиска за время O(1).

🏗️ Архитектура Engram

Модуль Engram встраивается в блок трансформера в архитектуру с несколькими ветвями, на подобие новинки mHC и работает в два этапа:

1. Извлечение и поиск. На основе локального контекста (суффиксных N-грамм, где N=2,3) производится поиск статических векторных представлений из большой таблицы эмбеддингов. Чтобы работать с огромным комбинаторным пространством N-грамм, используется детерминированное хеширование с несколькими головами, что снижает коллизии. Для повышения семантической плотности применяется предварительное сжатие токенов, это прям как в lattent attention (было про это тут), которое нормализует разные написания одних и тех же слов.

2. Слияние. Извлеченные статические векторы на лету интегрируются в скрытые состояния модели. Для этого используется контекстно-зависимое просеивание, зовут это gating, но напоминает механизм внимания (а ещё гейты в GRU, ну и роутинг в МоЕ). По сути все как в attention - текущее скрытое состояние выступает в роли "запроса", который определяет, насколько релевантен/важен извлеченный "ключ" путем механизма dot-prod. Это позволяет модели игнорировать зашумленные или неуместные в контексте N-граммы. А ещё в конце стоит conv слой, т.е. свертка, которая, по сути берет итоговые эмбеддинги n-gramm и делает над ними то самое слияние в эмбеддинг фраз. Дядя напомнит, что слова и словосочетания составляют предложения. Ранее (где-то в 2014-2017годах) для такого сложения и использовали Conv1D свертки над эмбеддингами токенов, это давало эмбеддинги N-грамм, а pooling от этого даёт уже эмбеддинги текстов.
👍9🔥5💅2
⚖️ Законы масштабирования и распределение ресурсов (Sparsity Allocation).
Ключевой вопрос исследования: при фиксированном бюджете параметров и вычислений, как оптимально распределить разреженную емкость между экспертами MoE и памятью Engram?

Эксперименты выявили U-образный закон масштабирования:

· Чистый MoE (ρ=100%) неоптимален – модель тратит глубину слоев на реконструкцию статики.
· Чистый Engram (ρ=0%) тоже неэффективен – недостаточно вычислительной мощности для динамических рассуждений.

Оптимальной оказалась гибридная конфигурация с ~75-80% ресурсов для MoE и ~20-25% для Engram. Это доказывает, что условная память и условные вычисления являются структурно взаимодополняющими концептами.

📊 Результаты экспериментов

Обучили модель 27b и 40b.
Знания о мире ожидаемо улучшились результаты на MMLU +3.4), CMMLU +4.0.
Далее интересное - в reasoning задачах неожиданно больший прирост показали кейсы на сложные рассуждения: BBH +5.0, ARC-Challenge +3.7, DROP +3.3. Код и математика: HumanEval +3.0, MATH +2.4, GSM8K +2.2.

Длинный контекст и условная память. Освободив механизм внимания от обработки локальных зависимостей, Engram значительно улучшил способности модели к работе с длинным контекстом, например, точность Multi-Query NIAH выросла с 84.2% до 97.0%

Дальнейшее масштабирование только памяти, и как следствие ёмкости модели, при том же вычислительном бюджете продолжило улучшать качество модели, следуя предсказуемому степенному закону. О нем читайте также в статье.

🔬 Почему это работает?

1. Эффективное увеличение глубины. Engram берет на себя реконструкцию статических паттернов в ранних слоях модели. Анализ с помощью LogitLens и CKA показал, что представления в 5-м слое Engram-27B семантически эквивалентны представлениям в 12-м слое базовой MoE-модели. Это означает, что сеть получает «в подарок» дополнительную глубину для сложных рассуждений.
2. Функциональное разделение: Абляционные тесты (отключение Engram во время инференса) показали резкую дихотомию: задачи на статические знания почти полностью полагаются на Engram, в то время как задачи на понимание контекста (reading comprehension) почти не страдают, так как за них отвечает механизм внимания бэкбона.

Вывод. Довольно таки интересное исследование, мы видим тут и наследование недавних механик MoE, mHC, MLA и новый концепт статической памяти. Работа демонстрирует, что CM, реализованная через Engram, является хорошим дополнением  для моделей следующего поколения. Блоки CM образует синергию с MoE, существенно повышая эффективность, качество и глубину модели при решении разнообразных задач, от извлечения фактов до  рассуждений. Ждём в новом DeepSeek v4? Т.к. модели 27б и 40б на HF я не нашёл. 😔
10👍4🔥2
Архитектура
11
#meme на злобу Фрэнсису
1🔥46🤩11🥰5😎3🤗1💅1
Переводчик от OpenAI, как поступательное движение к монетизации.

Сегодня вышла новость о том, что OpenAI запустила свой переводчик. Да ещё и бесплатно. Среди фичей работа со стилистикой, например, деловой перевод или на пальцах для детей. В будущем добавят ещё работу с картинками и голосовой ввод. А ещё, думаю, введут работу с доками и иными фичами и не хуже, чем у гугл. 💪

С одной стороны, ну вышел и вышел. А с другой, вижу в этом путь к обещанной монетизации, посредством ещё одного канала для рекламы и персонализации. Правда пока это крутится бесплатно на отдельном сайте. Но он чёт прилёг. 🆒

Соседи уже шутят: "О, они выпустили cowork, навайбкоженный за полторы недели! Завтра к утру надо состряпать наш ответ!" 🤣
Please open Telegram to view this post
VIEW IN TELEGRAM
👍28🤓54😎2🦄1
Dealer.AI
Переводчик от OpenAI, как поступательное движение к монетизации. Сегодня вышла новость о том, что OpenAI запустила свой переводчик. Да ещё и бесплатно. Среди фичей работа со стилистикой, например, деловой перевод или на пальцах для детей. В будущем добавят…
🔍Империя наносит ответный удар 🍿

https://x.com/googledeepmind/status/2011848249850630363?s=46


Upd.

TranslateGemma is a family of lightweight, state-of-the-art open translation models from Google, based on the Gemma 3 family of models.
TranslateGemma models are designed to handle translation tasks across 55 languages. Their relatively small size makes it possible to deploy them in environments with limited resources such as laptops, desktops or your own cloud infrastructure, democratizing access to state of the art translation models and helping foster innovation for everyone.


Inputs and outputs

Input:
Text string, representing the text to be translated
Images, normalized to 896 x 896 resolution and encoded to 256 tokens each
Total input context of 2K tokens

Output:
Text translated into the target language

Тех.репорт тут.

Ну крч вы поняли, да?) Тут и текст и картинки. Это не игра в поддавки, и те кто хочет сменить лидера, должны это понимать везде. 👍
Please open Telegram to view this post
VIEW IN TELEGRAM
🤓147🤗7👍1
Dealer.AI
Переводчик от OpenAI, как поступательное движение к монетизации. Сегодня вышла новость о том, что OpenAI запустила свой переводчик. Да ещё и бесплатно. Среди фичей работа со стилистикой, например, деловой перевод или на пальцах для детей. В будущем добавят…
Сайт встал, но я думал, он лёг, чтобы пофиксить баги в приложении. По сути GPT translater промптился из GUI, и все ещё так. Такое чувство, что чисто продактам дали вайб кодинг и сказали, пишите интерфейс и выкатывайте сами.

Upd. Ну чуваки, ну даже на бэке приклейте вы защиту, LLM query decomposition с "переведи указанный текст на язык"... Ну емае...
🤩37😁24👏5
Dealer.AI
Photo
Сделай нам GPT translater, брат. (с)
😁60👍10🤩4
Dealer.AI pinned «Engram от DeepSeek, как O(1) лукап в памяти на эмбеддингах. Осторожно длинопост. Команда DeepSeek продолжает радовать новыми хинтами для архитектуры. Почему это стоит обозреть, думаю, что в v4 эта фишка обязательно появится. Действуем привентивно. Немного…»
OpenAI добавляет рекламу в ChatGPT 😐

16 января OpenAI анонсировали что в ближайшие недели в ChatGPT появится реклама для free и Go (который $8/месяц) пользователей в США. Подписки Plus, Pro и Enterprise останутся без ads. И не-US пользователей это не касается - по крайней мере пока что 😎

Это важный момент, потому что даже самые идеологичные компании в итоге приходят к рекламе когда burn rate становится невыносимым 💀

Но давайте по порядку 😧

OpenAI потерял $11.5B только в Q3 2025, при этом у них $1.4 trillion commitments на AI инфраструктуру на следующие 8 лет. Это астрономические деньги которые нужно как-то окупать 😠

При этом только ~5% пользователей (35M из 700M weekly users) платят за подписки А вы кстати платите? 😂

Для сравнения Google делает $74B revenue от рекламы в квартал, Meta $50B - реклама это cash cow для примерно всего 😮


Как это будет работать? 🧠

Ads будут внизу ответов, контекст будет по диалогам - если спрашиваешь про кето-диету, увидишь рекламу авокадо масла, рецепт супа - доставку еды. На самом деле это отличный канал, потому что пользователь по сути сам говорит в чем он сейчас заинтересован. Информации пока мало, но потенциально для Aesty это интересная возможность, так как многие советуются про одежду 😏

Конечно тут есть огромные риски для OpenAI, связанные с прайваси 👋

Диалоги в ChatGPT бывают очень личные и hyper-targeting на основе этого может быть "uniquely unsettling" как говорил сам Альтман. Действительно, обсуждая например психологию последнее что я хочу увидеть в моменте - рекламу курсов по разрешению конфликтов или типа того 😅

Я думаю, что это еще один прецедент в копилку историй, где даже самые передовые AI продукты будут искать способы монетизации через рекламу, потому что compute costs астрономические, а большинство пользователей не хотят платить 😡

@neural_prosecco
Please open Telegram to view this post
VIEW IN TELEGRAM
11😁7🔥4🤔3🤩1
Сделаю свой краткий обзор интервью топов Google и Anthropic.

Тлдр:

0. В течении 1-5 лет ожидается выход на петлю самоулучшения в кодинге, инженерии и решение мат.задач и т. п. Грязные задачи, с нечёткой постановкой и сложной верификацией все ещё не решены.

1. Замена 50% функций белых воротничков entry lvl в течении 5 лет (уже видно в контексте разработки).

По пунктам 0,1 важно, что AI все ещё не может заменить ведущих учёных. Тк уровень креатива и формулирования прорывных гипотез не впечатляет. Поэтому ребятки, кто может, в науку ИИ. 🧠


2. Рост AI и его приложение. Бизнес будет не поспевать адаптироваться за скоростью развития технологии. Задержка.

3. Владение AI инструментами конкурентное преимущество.

4. Государства реагируют на прогресс в AI слишком медленно. Необходимо ускорить разработку регулирующих процедур, законов и норм.

5. Риски луддизма, использования AI в зловредных целях и эпоха post agi (риски смысла жизни). А также вопросы перераспределения богатсва в post эру.
Please open Telegram to view this post
VIEW IN TELEGRAM
114💅9🦄6👌2
Forwarded from Записки C3PO
Люблю периодически читать статьи в инженерных блогах разных компаний, как они борются с проблемами скейла и нагрузки. И, чаще всего, самые лучшие способы - самые простые.

Вот и OpenAI рассказали, как они скейлят постгрю. Никаких вам атомных часов и спутников на орбите, чтобы обуздать CAP теорему и eventual consistency, а просто напросто набор прокси, шардирование и много read реплик и итог в виде миллионов qps.

https://openai.com/index/scaling-postgresql/
🔥253
Вайбовый STT с часом контекста от 📱

Microsoft выпустила VibeVoice-ASR на Hugging Face для тех, кто хочет в свой пайп агентов закинуть транскрибацию звука.

Модель умеет расшифровывать длинные аудио до 60 минут за один проход и без нарезки на короткие куски.

Что есть в функционале:
- Single-pass транскрипция дает меньше потерь контекста и стабильную речь по всей дорожке.
- Встроенная диарризация по принципу "кто говорит + таймкоды".
- Custom hotwords + user context. На вход можно подать список имён, терминов или контекст. Это позволяет работать со специфичными текстами.

Знаю, что много кто в своих пайпах с LLM используют ASR, OCR и тп. Вот вам новый кандидат на замену в аудио. До кучи. Приятно, что лицензия MIT. И код есть с поддержкой vLLM-asr.
Please open Telegram to view this post
VIEW IN TELEGRAM
20🔥11