Dealer.AI
Mem-agent еще одна концепция памяти 🧠 В своих постах про память, а также выступлении на datafest я обозревал самые популярные подходы к созданию памяти: long context, саммаризация, ner, function calling и rag. Однако мельком, буквально на слайдике одним…
Мода на файловую память, теперь и код-агенты anthropic.
Вышло agentic SDK от антропика и там нашлось несколько интересных вещей про контекст и память.
Это уже практичное и модное решение, которое в разной форме мы наблюдали у manus и memagent.
Основные позиции – не засоряем контекст и кладем все в файловую систему ОС. Также для поиска НЕ используем без нужды семантику или даже bm25, оставаясь на grep/tail и прочих способах поиска встроенными инструментами вашей ОС. Да это не исключает проблемы больших файлов, где grep может быть не эффективен, но скорее всего, подобно идее с чанкованием, для памяти создается иерархическая память на "малых" файлах.
В итоге, центре всего стоит тезис: зачем нам семантика, когда можно взять поиск в ОС и агента для чтения и записи? Но, думаю, без семантики не обойтись, особенно, когда у нас много зависит от контекста, да еще и синонимов до кучи. Однако, быстренько найти нужный нейм файла, пойдет, а если не вышло (пустой поиск), уже можно полнотекстом и семантикой искать имя, тем самым балансировать между скоростью и надежностью/сложностью поиска.Особенно для файлов сотни мб или гб. Тут кстати и может помочь аналог чанкования, в виде иерархии файлов, на которые заранее бьём большие. Далее, берем файлик и читаем агентом, переносим из файла релевантное в контекст.
В любом случае, такое решение в итоге завязывает вас на эффективный контекст и конечно свойство роутинга, ризонинга и поиска по контексту. Крч хорошая llm вам нужна, которая у антропика есть. Но есть ли она у вас?)
Вышло agentic SDK от антропика и там нашлось несколько интересных вещей про контекст и память.
Это уже практичное и модное решение, которое в разной форме мы наблюдали у manus и memagent.
Основные позиции – не засоряем контекст и кладем все в файловую систему ОС. Также для поиска НЕ используем без нужды семантику или даже bm25, оставаясь на grep/tail и прочих способах поиска встроенными инструментами вашей ОС. Да это не исключает проблемы больших файлов, где grep может быть не эффективен, но скорее всего, подобно идее с чанкованием, для памяти создается иерархическая память на "малых" файлах.
В итоге, центре всего стоит тезис: зачем нам семантика, когда можно взять поиск в ОС и агента для чтения и записи? Но, думаю, без семантики не обойтись, особенно, когда у нас много зависит от контекста, да еще и синонимов до кучи. Однако, быстренько найти нужный нейм файла, пойдет, а если не вышло (пустой поиск), уже можно полнотекстом и семантикой искать имя, тем самым балансировать между скоростью и надежностью/сложностью поиска.
В любом случае, такое решение в итоге завязывает вас на эффективный контекст и конечно свойство роутинга, ризонинга и поиска по контексту. Крч хорошая llm вам нужна, которая у антропика есть. Но есть ли она у вас?)
🔥17❤5🤔1
Forwarded from ДАНЯ ПЕЧАТАЕТ...
Вчера наблюдал реакцию коллег и знакомых на новую функцию OpenAI — ChatGPT Pulse.
Кто-то: «вау, какие персоналки!»
Кто-то: «ну всё, конец рексису».
Реальность, как всегда, сложнее.
Что такое Pulse — простыми словами
Pulse — это новый мобильный интерфейс для Pro-пользователей: ночью ассистент выполняет асинхронный сбор информации и утром выдаёт персональные обновления.
Контекст берётся из:
Карточки обновляются каждый день. Фокус не «забирать утро», а напоминать о важном.
Моё мнение как пользователя
Функция выглядит полезной и понятной широкой аудитории. Стратегически это логичный шаг: инвесторы и рынок ожидают масштабируемых продуктовых решений, которые простым людям решают повседневные задачи.
Однако говорить о «Feels AGI» преждевременно пока оно не способна выполнять бытовые действия — помыть посуду, заказать такси, комплексно спланировать ужин и автоматически закупить продукты — о чем вообще речь?
Моё мнение как специалиста по персонализации
Персонализация — это эволюция, а не революция. OpenAI постепенно шла к этому: папки → memory → агенты → персонализация чатов → доступ к календарю и внешним данным.
Pulse логично вписывается в этот путь и легко монетизируется. Бренд Сэма Альтмана создаёт сильный эффект «презентации»: любая новая функция вызывает широкий интерес и как же это похоже на
Подобные решения уже давно появлялись у других игроков — Perplexity, Яндекс (Нейропоиск и интеграции в экосистему), Google. Я до сих пор не видел ни одной успешной интеграции, где бы такой интерфейс полностью заменил рекомендательные системы.
Я уверен, что у меня есть четкое объяснение — Поиск ≠ рекомендации
Поиск помогает, когда ВЫ знаете, что ищете. Рекомендательные системы угадывают, когда вы сами не знаете, что хотите.
→ Конец рексису? Серьёзно? Тогда и «будильник» можно назвать убийцей Spotify.
MADE IN @danyatyping
Please open Telegram to view this post
VIEW IN TELEGRAM
👍13❤7💯4
MCP benchmark, как способ атомарного измерения качества работы агентов и интеграции с FC/TC.
Сегодня расскажу о статье "MCPMark: A Benchmark for Stress-Testing Realistic and Comprehensive MCP Use". Это исследование представляет собой новый эталонный тест для оценки работы LLM с внешними системами через MCP. Статья интересна тем, что подобно атомарным измерениям RAG систем (поиск, реранкинг, ответ LLM), показывает как можно измерить качество агентов с вызовом тулов. Как мы знаем, зачастую агенты с тулами ввиду своей нелинейности и недетерминированности сложно измеряются на качество в каждом действии, тк на одну и ту же задачу в разном контексте может быть разное количество действий. А таких бенчей нам и не хватало.
🎯 Постановка задачи
Авторы статьи отмечают, что существующие тесты для MCP остаются ограниченными: они фокусируются на задачах, связанных в основном с чтением информации, либо на задачах с небольшой глубиной взаимодействия. В результате, они не отражают комплексность и реалистичность рабочих процессов из реального мира. Это создает трудности в оценке истинной производительности современных моделей и агентов, а также их способностей к ризонигу, планированию, обработке длинного контекста и использованию инструментов. Цель состоит в том, чтобы получить такой комплексный бенчмарк.
💡 Идея подхода
В качестве решения предлагается бенчмарк MCPMark, который оценивает использование MCP более реалистично и комплексно. Его ключевые особенности:
– Реалистичные задачи: 127 высококачественных задач, созданных совместно экспертами и AI-агентами. Если уже не реалистичные, ну хотя бы приближенные к реальным.
– Сложные взаимодействия. Задачи требуют разнообразных операций Create, Read, Update, Delete (CRUD) в пяти различных средах: Notion, GitHub, Filesystem, PostgreSQL и Playwright.
– Программная проверка подобно награде в GRPO с компиляцией кода. Каждая задача включает скрипт программы для автоматической верификации результата, что делает оценку более объективной.
– Создание контекста разработки. Каждая задача начинается с тщательно подобранного начального состояния (например, шаблон базы данных или репозиторий GitHub с историей) и создается в рамках pipeline, сочетающего исследование, усложнение задачи, верификацию и действие.
🧪 Дизайн метрик
Для оценки моделей был создан MCPMark-Agent – минималистичный и универсальный фреймворк, который выполняет модели в стандартном tool-calling loop. Это обеспечивает честное и последовательное сравнение различных LLM.
Основные метрики, использованные в исследовании:
– pass@1 процент задач, успешно решенных моделью с первой попытки.
– pass^4 более строгая метрика, отражающая процент задач, которые модель стабильно решает в каждом из четырех запусков. Авторы подчеркивают, что эта метрика лучше отражает реальные условия, где надежность критически важна.
– Среднее количество ходов и вызовов инструментов на задачу. Эти метрики показывают сложность задач и эффективность модели.
🔢 Результаты оценки моделей
Ниже приведены примеры результатов оценки современных LLM, которые демонстрируют сложность бенчмарка:
•gpt-5-medium (OpenAI) имеет 52.56%, 33.86% метрики pass@1 и pass^4 соответственно.
•claude-sonnet-4 (Anthropic) <30%, <15% соответственно
•o3 (OpenAI) < 30%, < 15% соответственно.
В среднем, для решения одной задачи LLM требовалось 16.2 шагов выполнения и 17.4 вызова инструментов, что существенно превышает показатели в предыдущих бенчмарках.
🤔 Почему это важно
Исследование имеет несколько важных следствий для области AI-агентов:
1. Создание более реалистичной и надежной оценки. MCPMark предлагает гораздо более строгий и приближенный к реальности тест для агентов, чем предыдущие усилия.
2. Выявление слабых мест в работе систем агентов с тулами. Результаты ясно показывают, что даже самые передовые модели сегодня с трудом справляются со сложными, многошаговыми рабочими процессами. Большой разрыв между pass@1 и pass^4 указывает на это.
Надеюсь такой бенчмарк покажет пример как можно измерять агентов не только e2e и мы увидим еще больше атомарных бенчей.
Сегодня расскажу о статье "MCPMark: A Benchmark for Stress-Testing Realistic and Comprehensive MCP Use". Это исследование представляет собой новый эталонный тест для оценки работы LLM с внешними системами через MCP. Статья интересна тем, что подобно атомарным измерениям RAG систем (поиск, реранкинг, ответ LLM), показывает как можно измерить качество агентов с вызовом тулов. Как мы знаем, зачастую агенты с тулами ввиду своей нелинейности и недетерминированности сложно измеряются на качество в каждом действии, тк на одну и ту же задачу в разном контексте может быть разное количество действий. А таких бенчей нам и не хватало.
🎯 Постановка задачи
Авторы статьи отмечают, что существующие тесты для MCP остаются ограниченными: они фокусируются на задачах, связанных в основном с чтением информации, либо на задачах с небольшой глубиной взаимодействия. В результате, они не отражают комплексность и реалистичность рабочих процессов из реального мира. Это создает трудности в оценке истинной производительности современных моделей и агентов, а также их способностей к ризонигу, планированию, обработке длинного контекста и использованию инструментов. Цель состоит в том, чтобы получить такой комплексный бенчмарк.
💡 Идея подхода
В качестве решения предлагается бенчмарк MCPMark, который оценивает использование MCP более реалистично и комплексно. Его ключевые особенности:
– Реалистичные задачи: 127 высококачественных задач, созданных совместно экспертами и AI-агентами. Если уже не реалистичные, ну хотя бы приближенные к реальным.
– Сложные взаимодействия. Задачи требуют разнообразных операций Create, Read, Update, Delete (CRUD) в пяти различных средах: Notion, GitHub, Filesystem, PostgreSQL и Playwright.
– Программная проверка подобно награде в GRPO с компиляцией кода. Каждая задача включает скрипт программы для автоматической верификации результата, что делает оценку более объективной.
– Создание контекста разработки. Каждая задача начинается с тщательно подобранного начального состояния (например, шаблон базы данных или репозиторий GitHub с историей) и создается в рамках pipeline, сочетающего исследование, усложнение задачи, верификацию и действие.
🧪 Дизайн метрик
Для оценки моделей был создан MCPMark-Agent – минималистичный и универсальный фреймворк, который выполняет модели в стандартном tool-calling loop. Это обеспечивает честное и последовательное сравнение различных LLM.
Основные метрики, использованные в исследовании:
– pass@1 процент задач, успешно решенных моделью с первой попытки.
– pass^4 более строгая метрика, отражающая процент задач, которые модель стабильно решает в каждом из четырех запусков. Авторы подчеркивают, что эта метрика лучше отражает реальные условия, где надежность критически важна.
– Среднее количество ходов и вызовов инструментов на задачу. Эти метрики показывают сложность задач и эффективность модели.
🔢 Результаты оценки моделей
Ниже приведены примеры результатов оценки современных LLM, которые демонстрируют сложность бенчмарка:
•gpt-5-medium (OpenAI) имеет 52.56%, 33.86% метрики pass@1 и pass^4 соответственно.
•claude-sonnet-4 (Anthropic) <30%, <15% соответственно
•o3 (OpenAI) < 30%, < 15% соответственно.
В среднем, для решения одной задачи LLM требовалось 16.2 шагов выполнения и 17.4 вызова инструментов, что существенно превышает показатели в предыдущих бенчмарках.
🤔 Почему это важно
Исследование имеет несколько важных следствий для области AI-агентов:
1. Создание более реалистичной и надежной оценки. MCPMark предлагает гораздо более строгий и приближенный к реальности тест для агентов, чем предыдущие усилия.
2. Выявление слабых мест в работе систем агентов с тулами. Результаты ясно показывают, что даже самые передовые модели сегодня с трудом справляются со сложными, многошаговыми рабочими процессами. Большой разрыв между pass@1 и pass^4 указывает на это.
Надеюсь такой бенчмарк покажет пример как можно измерять агентов не только e2e и мы увидим еще больше атомарных бенчей.
arXiv.org
MCPMark: A Benchmark for Stress-Testing Realistic and Comprehensive MCP Use
MCP standardizes how LLMs interact with external systems, forming the foundation for general agents. However, existing MCP benchmarks remain narrow in scope: they focus on read-heavy tasks or...
🔥12❤6👍1
GRPO на самом деле DPO и это многое упрощает 😱
Не буду приводить доказательства, вся зубодробительная математика тут. Скажу лишь, что GRPO было развитием PPO от команды DeepSeek при создании R семейства. Данный метод также исследует политику на разных траекториях, только сводит все в группы. Т.к. это ppo-like подход мы наследуем все те же проблемы стабилизации и настройки алгоритма, мало у кого кроме таких топ игроков он завелся для LLM предсказуемо. Поэтому модификация в виде dpo like (оч подробно писал тут про это) нам дает более простой, стабильный и надёжный вариант RLHF чисто на уровне sft.
Поэтому данная статья считаю оч важна и упростит жизнь AI-engineer при обучении моделек. Модификацию к dpo-like лосса GRPO приложу на скринах ниже.
Не буду приводить доказательства, вся зубодробительная математика тут. Скажу лишь, что GRPO было развитием PPO от команды DeepSeek при создании R семейства. Данный метод также исследует политику на разных траекториях, только сводит все в группы. Т.к. это ppo-like подход мы наследуем все те же проблемы стабилизации и настройки алгоритма, мало у кого кроме таких топ игроков он завелся для LLM предсказуемо. Поэтому модификация в виде dpo like (оч подробно писал тут про это) нам дает более простой, стабильный и надёжный вариант RLHF чисто на уровне sft.
Поэтому данная статья считаю оч важна и упростит жизнь AI-engineer при обучении моделек. Модификацию к dpo-like лосса GRPO приложу на скринах ниже.
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
❤4👍1🔥1👌1🦄1
Forwarded from Pavel Zloi
Пару недель назад, Александр @dealerAI подробно рассказывал у себя на канале о проекте MemAgent, если в двух словах, то это проект запускающий специально науськанную на работу с файловой систему модель, для того чтобы на оной организовать Obsidian-подобное хранилище памяти, в виде эдаких заметок.
Меня данная возможность очень впечатлила, стал пробовать для локальной разработки, оказалось решение состоит из двух компонентов:
- хитрой LLM driaforall/mem-agent основанной на qwen3 4b, скрипты обучения модели тут (в репе будут еще и логи обучения 14b модели, но веса почему-то не выложили)
- обёртки firstbatchxyz/mem-agent-mcp для непосредственной работы с файловой системой в формате простенького MCP-сервера, к сожалению без Dockerfile
Ну и сами понимаете, пришлось ручками упаковывать всё в Docker-образ, по итогу у меня получились:
- отдельно docker-compose.yaml для запуска LLM-модельки на GPU-сервере с vLLM
- сам Dockerfile чтобы упаковать mem-agent
- и дополнительный docker-compose.yaml чтобы управлять сборкой Dockerfile
К слову сказать моделька отжирает 9Гб даже при bnb-квантизации до int4 с контекстом 4000 токена, так что вероятно в будущем я её конвертирую в GGUF.
Меня данная возможность очень впечатлила, стал пробовать для локальной разработки, оказалось решение состоит из двух компонентов:
- хитрой LLM driaforall/mem-agent основанной на qwen3 4b, скрипты обучения модели тут (в репе будут еще и логи обучения 14b модели, но веса почему-то не выложили)
- обёртки firstbatchxyz/mem-agent-mcp для непосредственной работы с файловой системой в формате простенького MCP-сервера, к сожалению без Dockerfile
Ну и сами понимаете, пришлось ручками упаковывать всё в Docker-образ, по итогу у меня получились:
- отдельно docker-compose.yaml для запуска LLM-модельки на GPU-сервере с vLLM
- сам Dockerfile чтобы упаковать mem-agent
- и дополнительный docker-compose.yaml чтобы управлять сборкой Dockerfile
К слову сказать моделька отжирает 9Гб даже при bnb-квантизации до int4 с контекстом 4000 токена, так что вероятно в будущем я её конвертирую в GGUF.
❤13
ModernVBERT, как fromage только для энкодера.
На днях ребята из моей группы эмбеддеров прислали статью про новый multimodal embedder. Очень изящный и красивый подход, мое увожение.🎩
В общем, как получают vlm без омнимодальности? Берут decoder выделяют ему спец токены под image projection, в которой кормят эмбы с картиночного бэкбона: clip, siglip, resnet и т.п. че хотите. Это живет вместе с текстовыми токенами, далее уже учатся генерить контекстно тексты, с опорой на мультимодальную информацию. Также можно кормить и аудио эмбы и видео и т.п. Такое придумали пару лет назад ребята из fromage, там правда еще присыпали темами с двухголовостью (token prediction + еще image retrieval), но это произвело фурор и дало ОГРОМНЫЙ вклад в создание последующих VLM и т.п.
Но в ModernVBERT челики красиво еще повернули эту темку. Тип, а че мы ток можем с декодерами так жить? Вигвам, будем пробовать с энкодером.Прям как мы с мерджингом.
Далее гипотеза: "а что если вкинем тоже самое в энкодер, ток на этапе MLM и тип у нас будет картинос эмб помогать помимо текстового контекста демаскировать токен (см. схему ниже)?" Собрали, обучили и получилось. Причем этот подход совмещает в себе два рабочих: первый, конечно же вышеуказанный fromage, а второй это REALM (картинка тоже будет снизу).
REALM - это RAG только не на этапе инференса, а на этапе MLM претрена, тут мы кидаем подсказки с БД в контекст энкодера для улучшения качества демаскирования токена. И тоже вполне себе рабочий подход.
В итоге микст дает:
1. Использование спец токенов для картиночных эмбов во общем внимании с текстовым контекстом.
2. Учит эти представления помогать для лучшего демаскирования токенов в MLM таске e2e.
Обучение идет по схеме: претрен на чисто текстовой задачке (опускаем, т.к. ModernBERT уже обучен) , далее допретрен (они зовут это выравнивание) на картиносах, далее contrastive tuning уже на ретривал задачу.
В завершении, получается турбо-хомяк до 300м параметров, с прекрасными свойствами мультимодального поиска и возможностью запускать модельку на CPU.🌿
На днях ребята из моей группы эмбеддеров прислали статью про новый multimodal embedder. Очень изящный и красивый подход, мое увожение.
В общем, как получают vlm без омнимодальности? Берут decoder выделяют ему спец токены под image projection, в которой кормят эмбы с картиночного бэкбона: clip, siglip, resnet и т.п. че хотите. Это живет вместе с текстовыми токенами, далее уже учатся генерить контекстно тексты, с опорой на мультимодальную информацию. Также можно кормить и аудио эмбы и видео и т.п. Такое придумали пару лет назад ребята из fromage, там правда еще присыпали темами с двухголовостью (token prediction + еще image retrieval), но это произвело фурор и дало ОГРОМНЫЙ вклад в создание последующих VLM и т.п.
Но в ModernVBERT челики красиво еще повернули эту темку. Тип, а че мы ток можем с декодерами так жить? Вигвам, будем пробовать с энкодером.
Далее гипотеза: "а что если вкинем тоже самое в энкодер, ток на этапе MLM и тип у нас будет картинос эмб помогать помимо текстового контекста демаскировать токен (см. схему ниже)?" Собрали, обучили и получилось. Причем этот подход совмещает в себе два рабочих: первый, конечно же вышеуказанный fromage, а второй это REALM (картинка тоже будет снизу).
REALM - это RAG только не на этапе инференса, а на этапе MLM претрена, тут мы кидаем подсказки с БД в контекст энкодера для улучшения качества демаскирования токена. И тоже вполне себе рабочий подход.
В итоге микст дает:
1. Использование спец токенов для картиночных эмбов во общем внимании с текстовым контекстом.
2. Учит эти представления помогать для лучшего демаскирования токенов в MLM таске e2e.
Обучение идет по схеме: претрен на чисто текстовой задачке
В завершении, получается турбо-хомяк до 300м параметров, с прекрасными свойствами мультимодального поиска и возможностью запускать модельку на CPU.
Please open Telegram to view this post
VIEW IN TELEGRAM
arXiv.org
ModernVBERT: Towards Smaller Visual Document Retrievers
Retrieving specific information from a large corpus of documents is a prevalent industrial use case of modern AI, notably due to the popularity of Retrieval-Augmented Generation (RAG) systems....
🔥22❤7
Онлайн конференция по использованию AI в разработке
Мои товарищи решили сделать онлайн AIDev конфу, и конечно, позвали меня поучаствовать, а я приглашаю Вас. Будет без буллщита и воды. Только личный опыт от действующих инженеров и их менеджеров.
Спикеры: тех лиды, руководители разработки, CTO и AI head.
Когда: 14 октября,14:30 14:00 (мск)
О чем: 6 докладов про эффективное использование AI инструментов в разработке для разного уровня подготовки от начинающих инженеров до авторов собственных тулов, от индивидуальных контрибьюторов до руководителей команд и департаментов.
Посмотреть детали и зарегистрироваться.
Upd. Будьте внимательны, обновлено время начала.
Мои товарищи решили сделать онлайн AIDev конфу, и конечно, позвали меня поучаствовать, а я приглашаю Вас. Будет без буллщита и воды. Только личный опыт от действующих инженеров и их менеджеров.
Спикеры: тех лиды, руководители разработки, CTO и AI head.
Когда: 14 октября,
О чем: 6 докладов про эффективное использование AI инструментов в разработке для разного уровня подготовки от начинающих инженеров до авторов собственных тулов, от индивидуальных контрибьюторов до руководителей команд и департаментов.
Посмотреть детали и зарегистрироваться.
Upd. Будьте внимательны, обновлено время начала.
❤19🔥7👍3😁1
Мама любит Mamba и Сережа тоже (с) Тихий "релиз" Mamba3 на ICLR2026.
Если хотите понять, про что Mamba и все эти RWKV, какие модели уже были и оценить перспективу – читайте тут, тут и тут.
Утечка тут, чирикают тут. Хвалебные отзывы по каналам смотреть не тут.💳
Мое мнение такое, уже несколько лет мы видим развитие SSM, RWKV моделей. Основной пойнт - это линейность от размера входного сиквенса, в отличии от механизмов внимания в трансформерах. При этом, мы наследуем и проблемы, аля затухание или взрыв градиента, что влияет на механизм "памяти" внутри архитектуры. Отсюда мы и получаем пляски с разными микстами rnn+transformer в виде указанных выше моделей семейств ssm, rwkv.
Причем можно проследить несколько направлений:
1. Работа с механизмом внутренней "памяти" в лице специальных блоков внутри архитектуры.
2. Работа с сложностью от длины контекста. Микстят блоки ssm с блоками трансформера, где-то последовательно, где-то параллельно.
3. Оптимизация работы всей этой доброты на GPU. Т.к. в отличии от RNN-like, трансформеры параллеляться хорошо.
Кстати знаю, что в бигтехах стажерам дают RWKV делать для тюна автокомплит и пр. Штуки для умной клавы, вместо lstm, разумеется. И это работает on-device хорошо, как и сказано в Mamba3 в качестве перспективы.
4. Работа над стабильностью самой архитектуры, чтобы исключить проблемы RNN. Все эти плавности/насыщения весов и сходимость оттуда же.
В итоге, задается вопрос: А за что мы платим линейной сложностью от длины контекста и памятью в рамках него же, и стабильностью архитектуры?
Также мы уже видели публично аналоги от Qwen3 next, от ребят из Nvidia и пр., стало ли это смертью трансформера? Поживем, увидим, пока все еще не становилось. Но динамика развития архитектур данного семейства хорошая, может даже кому-то лучше заложиться на знание и представление о таких архитектурах. А каким-то rnd командам и на собственные исследования и разработки, чтобы потом внезапно не оказаться в догоняющих .
Всем добра, увидимся.👍
Если хотите понять, про что Mamba и все эти RWKV, какие модели уже были и оценить перспективу – читайте тут, тут и тут.
Утечка тут, чирикают тут. Хвалебные отзывы по каналам смотреть не тут.
Мое мнение такое, уже несколько лет мы видим развитие SSM, RWKV моделей. Основной пойнт - это линейность от размера входного сиквенса, в отличии от механизмов внимания в трансформерах. При этом, мы наследуем и проблемы, аля затухание или взрыв градиента, что влияет на механизм "памяти" внутри архитектуры. Отсюда мы и получаем пляски с разными микстами rnn+transformer в виде указанных выше моделей семейств ssm, rwkv.
Причем можно проследить несколько направлений:
1. Работа с механизмом внутренней "памяти" в лице специальных блоков внутри архитектуры.
2. Работа с сложностью от длины контекста. Микстят блоки ssm с блоками трансформера, где-то последовательно, где-то параллельно.
3. Оптимизация работы всей этой доброты на GPU. Т.к. в отличии от RNN-like, трансформеры параллеляться хорошо.
Кстати знаю, что в бигтехах стажерам дают RWKV делать для тюна автокомплит и пр. Штуки для умной клавы, вместо lstm, разумеется. И это работает on-device хорошо, как и сказано в Mamba3 в качестве перспективы.
4. Работа над стабильностью самой архитектуры, чтобы исключить проблемы RNN. Все эти плавности/насыщения весов и сходимость оттуда же.
В итоге, задается вопрос: А за что мы платим линейной сложностью от длины контекста и памятью в рамках него же, и стабильностью архитектуры?
Также мы уже видели публично аналоги от Qwen3 next, от ребят из Nvidia и пр., стало ли это смертью трансформера? Поживем, увидим, пока все еще не становилось. Но динамика развития архитектур данного семейства хорошая, может даже кому-то лучше заложиться на знание и представление о таких архитектурах.
Всем добра, увидимся.
Please open Telegram to view this post
VIEW IN TELEGRAM
Telegram
Dealer.AI
Ты следующий ⡨⠪⠸⠋⠉ 🇨🇩
Новая модель Qwen3-Next...
Забавно, что в блоге утек обзор, но ссылку почистили и поэтому довольствуемся hf релизом. Однако, спасибо коллегам, они засейвили страничку и приложу ее ниже.
Итак, погнали. Задача, которую решают авторы…
Новая модель Qwen3-Next...
Забавно, что в блоге утек обзор, но ссылку почистили и поэтому довольствуемся hf релизом. Однако, спасибо коллегам, они засейвили страничку и приложу ее ниже.
Итак, погнали. Задача, которую решают авторы…
👍14🤔4❤🔥3❤2😁1😐1
В одном из чатиков про AI:
"ААААААААААААААААА!!!
МногоУважаемый Господин Qwen, только что, обвинил меня в ошибке при реализации кода, которую, допустил он...
Пойду повинюсь. А то кошкожены лишат...
"(С)
Занавес💳 💳 💳
UPD.
Вот и вайбкодь после этого.
Кстати, а кто по-вашему виноват в том, что в коде порожденном copilot'ом, курсором и т. п. допущена ошибка и она попала в проект?)
Пишите в комментариях. Это вчера мы на конфе не успели обсудить в рамках панельки.
👇 👇 👇
"ААААААААААААААААА!!!
МногоУважаемый Господин Qwen, только что, обвинил меня в ошибке при реализации кода, которую, допустил он...
Пойду повинюсь. А то кошкожены лишат...
"(С)
Занавес
UPD.
Вот и вайбкодь после этого.
Кстати, а кто по-вашему виноват в том, что в коде порожденном copilot'ом, курсором и т. п. допущена ошибка и она попала в проект?)
Пишите в комментариях. Это вчера мы на конфе не успели обсудить в рамках панельки.
Please open Telegram to view this post
VIEW IN TELEGRAM
😁40😐3❤1
Dealer.AI
В одном из чатиков про AI: "ААААААААААААААААА!!! МногоУважаемый Господин Qwen, только что, обвинил меня в ошибке при реализации кода, которую, допустил он... Пойду повинюсь. А то кошкожены лишат... "(С) Занавес 💳 💳 💳 UPD. Вот и вайбкодь после этого. Кстати…
Подписчики на вечер закинули #meme
🤣55🔥11❤4💯2😁1