Media is too big
VIEW IN TELEGRAM
DeepSeek снова в игре 🔥
"Conditional Memory via Scalable Lookup: A New Axis of Sparsity for Large Language Models"
Идея мощная: DeepSeek предлагают Engram - модуль памяти, который добавляет к LLM *lookup-память* с доступом за O(1).
Что это значит по-человечески:
вместо того чтобы каждый раз “вспоминать” шаблоны через слои трансформера, модель может моментально доставать нужные куски знаний из отдельной памяти.
Engram - это:
- хешированная N-gram память (modernized hashed N-gram embeddings)
- которая работает как быстрый словарь: *пришёл паттерн → достали представление → усилили модель*
Анализ показывает интересное:
🧠 Engram снижает необходимость ранним слоям заново реконструировать “статичные паттерны”
(частые формы, устойчивые токены, регулярные последовательности)
➡️ То есть ранние слои (слои трансформера, которые стоят ближе всего ко входу.) меньше заняты “механической работой”и больше ресурсов остаётся на главное.
В результате модель становится как будто глубже там, где надо:
- reasoning
- планирование
- длинные цепочки мыслей
Фактически это новый тип sparsity:
не только MoE/спарсные слои,
а спарсная память с быстрым доступом.
Это уже похоже на шаг к LLM, где часть знаний живёт как “кэш-память”, а не внутри весов.
Paper: https://github.com/deepseek-ai/Engram/blob/main/Engram_paper.pdf
https://www.youtube.com/watch?v=Hoz9HxHy_nQ
"Conditional Memory via Scalable Lookup: A New Axis of Sparsity for Large Language Models"
Идея мощная: DeepSeek предлагают Engram - модуль памяти, который добавляет к LLM *lookup-память* с доступом за O(1).
Что это значит по-человечески:
вместо того чтобы каждый раз “вспоминать” шаблоны через слои трансформера, модель может моментально доставать нужные куски знаний из отдельной памяти.
Engram - это:
- хешированная N-gram память (modernized hashed N-gram embeddings)
- которая работает как быстрый словарь: *пришёл паттерн → достали представление → усилили модель*
Анализ показывает интересное:
🧠 Engram снижает необходимость ранним слоям заново реконструировать “статичные паттерны”
(частые формы, устойчивые токены, регулярные последовательности)
➡️ То есть ранние слои (слои трансформера, которые стоят ближе всего ко входу.) меньше заняты “механической работой”и больше ресурсов остаётся на главное.
В результате модель становится как будто глубже там, где надо:
- reasoning
- планирование
- длинные цепочки мыслей
Фактически это новый тип sparsity:
не только MoE/спарсные слои,
а спарсная память с быстрым доступом.
Это уже похоже на шаг к LLM, где часть знаний живёт как “кэш-память”, а не внутри весов.
Paper: https://github.com/deepseek-ai/Engram/blob/main/Engram_paper.pdf
https://www.youtube.com/watch?v=Hoz9HxHy_nQ
❤5👍5🔥3
Forwarded from Machinelearning
Media is too big
VIEW IN TELEGRAM
Модель, ранее доступная лишь в среде Codex, теперь предлагается широкому кругу разработчиков. OpenAI позиционирует версию 5.2 как инструмент для глубокого рефакторинга, написания сложной функциональности и аудита безопасности.
Модель поддерживает мультимодальный ввод и предлагает гибкую настройку глубины рассуждений — от низкого до очень высокого уровня.
За повышенную производительность придется платить: стоимость токенов выросла до $1.75 за миллион на вход и $14 на выход. Поддержка новой модели уже появилась в Cursor и Windsurf.
OpenAI Developers в сети X
Майк Кригер оставляет пост директора по продукту, чтобы сосредоточиться на создании новых инструментов в паре с Беном Манном. Руководство основной продуктовой стратегией переходит к Ами Вора, присоединившейся к компании в конце 2025 года; она возглавит Labs совместно с техническим директором Рахулом Патилом.
Подразделение зарекомендовало себя как генератор хитов Anthropic. Именно здесь родился Claude Code, который всего за 6 месяцев превратился в продукт с миллиардной выручкой и был разработан стандарт MCP, ставший отраслевым эталоном со 100 млн. загрузок ежемесячно.
Президент компании Даниэла Амодей говорит, что формат лаборатории позволяет действовать экстремально быстро: например, Cowork был создан с нуля именно в Labs всего за полторы недели.
anthropic.com
GLM-Image стала важной вехой в технологической независимости КНР. Это первая модель, которая обучалась исключительно на китайском стеке - серверах Huawei Ascend Atlas 800T A2 и фреймворке MindSpore, без использования ускорителей NVIDIA.
Под капотом гибрид из 9-миллиардного авторегрессионного трансформера и 7-миллиардного диффузионного декодера на базе DiT. Разработчики утверждают, что такая связка превосходит конкурентов в рендеринге текста и создания инфографики.
API модели предлагается по цене примерно 1,5 цента за изображение, а веса выложены на HuggingFace и ModelScope.
z.ai
Google обновила свою видеомодель Veo до версии 3.1, добавив возможность генерации роликов с соотношением сторон 9:16, инструменты для апскейлинга до 4K и переработку функции референса по изображению.
3.1 лучше удерживает визуальную консистентность персонажей и окружения между сценами и точнее следует коротким промптам.
Новые возможности уже доступны в приложении Gemini, AI Studio и на Vertex AI.
blog.google
Госпроект Сеула стоимостью $6,9 млрд, призванный избавить страну от технологической зависимости от США и КНР, оказался в центре скандала: ключевые участники использовали опен-сорс решения китайских конкурентов.
Проверка показала, что 3 из 5 финалистов конкурса, компании Naver Cloud, SK Telecom и стартап Upstage заимствовали компоненты у Alibaba, DeepSeek и Zhipu AI. В частности, выяснилось, что визуальный энкодер флагманской модели Naver HyperCLOVA X на 99,5% совпадает с архитектурой Qwen 2.5.
Разработчики оправдываются инженерной целесообразностью, утверждая, что заимствовали лишь вспомогательные модули и код инференса. Однако, использование компонентов с китайскими копирайтами в проекте, который финансируется государством, вызвало жесткую критику общественности и поставило под угрозу квалификацию участников.
wsj.com
@ai_machinelearning_big_data
#news #ai #ml
Please open Telegram to view this post
VIEW IN TELEGRAM
❤4👍1🔥1
🧠 Почему современные LLM (скорее всего) не могут быть «сознательными» - строгий аргумент
Вышла работа, которая очень трезво разбирает популярный вопрос:
могут ли LLM обладать сознанием?
Автор утверждает: есть научная причина, почему сегодняшние большие языковые модели *не* сознательны - и аргумент построен не на мнениях, а на критериях научности.
Критерии теории сознания:
✅ falsifiable - теорию можно (в принципе) опровергнуть
✅ non-trivial - теория не должна “назначать сознание” почти всему подряд
И вот ключевой вывод статьи:
многие известные теории сознания не проходят эти критерии.
Главная мысль:
по одним только ответам модели нельзя доказать сознание - потому что ответы можно полностью скопировать.
Автор строит “цепочку подстановок”:
LLM → простая feedforward-сеть → lookup table
(таблица «вопрос-ответ», просто хранилище пар)
Все три системы дают одинаковые ответы.
Но lookup table очевидно не сознателен - это просто сохранённые пары.
А значит:
если теория считает LLM сознательной из-за ответов,
она обязана признать сознательной и lookup table,
а это делает теорию тривиальной и бессмысленной.
Если же теория пытается “спастись” внутренним устройством модели,
подстановки сохраняют те же ответы, но ломают предсказания теории -
то есть теорию можно опровергнуть.
Отсюда сильный вывод:
📌 нет серьёзной, проверяемой теории, которая могла бы назвать
статичные, развернутые LLM сознательными.
Что может быть важным отличием?
Автор указывает на continual learning:
когда система реально меняется от опыта и несёт контекст внутри себя.
У людей мозгу не нужно “вставлять весь чат заново” каждый раз - контекст хранится внутри.
У LLM без continual learning этого свойства нет.
Самое интересное: работа превращает вопрос «ChatGPT сознателен?» в конкретный стресс-тест
и даёт чеклист - что будущие заявления про conscious AI обязаны объяснить.
web3.arxiv.org/pdf/2512.12802
Вышла работа, которая очень трезво разбирает популярный вопрос:
могут ли LLM обладать сознанием?
Автор утверждает: есть научная причина, почему сегодняшние большие языковые модели *не* сознательны - и аргумент построен не на мнениях, а на критериях научности.
Критерии теории сознания:
✅ falsifiable - теорию можно (в принципе) опровергнуть
✅ non-trivial - теория не должна “назначать сознание” почти всему подряд
И вот ключевой вывод статьи:
многие известные теории сознания не проходят эти критерии.
Главная мысль:
по одним только ответам модели нельзя доказать сознание - потому что ответы можно полностью скопировать.
Автор строит “цепочку подстановок”:
LLM → простая feedforward-сеть → lookup table
(таблица «вопрос-ответ», просто хранилище пар)
Все три системы дают одинаковые ответы.
Но lookup table очевидно не сознателен - это просто сохранённые пары.
А значит:
если теория считает LLM сознательной из-за ответов,
она обязана признать сознательной и lookup table,
а это делает теорию тривиальной и бессмысленной.
Если же теория пытается “спастись” внутренним устройством модели,
подстановки сохраняют те же ответы, но ломают предсказания теории -
то есть теорию можно опровергнуть.
Отсюда сильный вывод:
📌 нет серьёзной, проверяемой теории, которая могла бы назвать
статичные, развернутые LLM сознательными.
Что может быть важным отличием?
Автор указывает на continual learning:
когда система реально меняется от опыта и несёт контекст внутри себя.
У людей мозгу не нужно “вставлять весь чат заново” каждый раз - контекст хранится внутри.
У LLM без continual learning этого свойства нет.
Самое интересное: работа превращает вопрос «ChatGPT сознателен?» в конкретный стресс-тест
и даёт чеклист - что будущие заявления про conscious AI обязаны объяснить.
web3.arxiv.org/pdf/2512.12802
❤4👍3👎2😘2
🧪 Новое исследование Anthropic: как ученые используют Claude, чтобы ускорять науку
Claude подключают к базам данных и научному софту, добавляют guardrails (проверяемость и контроль) - и модель начинает работать как агент, который не “болтает”, а реально выполняет исследования.
1) Stanford - Biomni (Claude + сотни биомедицинских инструментов)
Biomni объединяет огромный набор научных тулов, и Claude-агент может работать сразу по ~25 биоподразделам по обычному запросу на английском.
Результаты тестов:
- GWAS-анализ (поиск связей генов и признаков) занимает 20 минут вместо месяцев
- обработка 450 файлов с носимых устройств (30 людей) - 35 минут вместо 3 недель
- анализ 336 000 эмбриональных клеток - нашел известные регуляторы и предложил новые факторы транскрипции
- можно “обучать” его экспертным рабочим процессам как переиспользуемым навыкам
2) CRISPR-лаборатория - MozzareLLM
В CRISPR-экспериментах отключают тысячи генов и смотрят, что ломается.
Самая сложная часть - интерпретация массивов результатов.
MozzareLLM:
- группирует связанные гены
- объясняет, какую функцию они могут делить
- отмечает малоизученные гены
- выставляет confidence, чтобы понять, что реально стоит продолжать
В сравнении моделей Claude оказался лучшим - и даже смог правильно распознал путь модификации РНК, который другие модели списали как шум.
3) Лаборатория с дорогими скринингами
Один точечный экран может стоить > $20 000.
Обычно люди выбирают гены “вручную”, буквально по табличке, как гадание.
Они построили карту молекул и связей между ними - и Claude “путешествует” по этой карте, предлагая лучшие генные цели.
Дальше планируют сравнить:
выбор Claude vs выбор человека vs полный геномный скрининг.
Это исследование про экономику науки:
⚡ скорость + масштаб
= больше экспериментов
= быстрее открытия
= без увеличения команды и бюджета
https://www.anthropic.com/news/accelerating-scientific-research
Claude подключают к базам данных и научному софту, добавляют guardrails (проверяемость и контроль) - и модель начинает работать как агент, который не “болтает”, а реально выполняет исследования.
1) Stanford - Biomni (Claude + сотни биомедицинских инструментов)
Biomni объединяет огромный набор научных тулов, и Claude-агент может работать сразу по ~25 биоподразделам по обычному запросу на английском.
Результаты тестов:
- GWAS-анализ (поиск связей генов и признаков) занимает 20 минут вместо месяцев
- обработка 450 файлов с носимых устройств (30 людей) - 35 минут вместо 3 недель
- анализ 336 000 эмбриональных клеток - нашел известные регуляторы и предложил новые факторы транскрипции
- можно “обучать” его экспертным рабочим процессам как переиспользуемым навыкам
2) CRISPR-лаборатория - MozzareLLM
В CRISPR-экспериментах отключают тысячи генов и смотрят, что ломается.
Самая сложная часть - интерпретация массивов результатов.
MozzareLLM:
- группирует связанные гены
- объясняет, какую функцию они могут делить
- отмечает малоизученные гены
- выставляет confidence, чтобы понять, что реально стоит продолжать
В сравнении моделей Claude оказался лучшим - и даже смог правильно распознал путь модификации РНК, который другие модели списали как шум.
3) Лаборатория с дорогими скринингами
Один точечный экран может стоить > $20 000.
Обычно люди выбирают гены “вручную”, буквально по табличке, как гадание.
Они построили карту молекул и связей между ними - и Claude “путешествует” по этой карте, предлагая лучшие генные цели.
Дальше планируют сравнить:
выбор Claude vs выбор человека vs полный геномный скрининг.
Это исследование про экономику науки:
⚡ скорость + масштаб
= больше экспериментов
= быстрее открытия
= без увеличения команды и бюджета
https://www.anthropic.com/news/accelerating-scientific-research
❤3👍1
Forwarded from Machinelearning
Обычные языковые модели читают текст как одну длинную ленту.
Что ближе к началу внимания - то “важнее”.
Что дальше - то модель видит хуже.
И тут появляется проблема: если важный факт спрятан где-то далеко среди шума, модель может его просто не использовать.
Она тратит внимание на всё подряд, вместо того чтобы сосредоточиться на главном.
Sakana AI предложили решение - RePo (Context Re-Positioning).
Идея очень понятная: модель получает модуль, который позволяет динамически “перепозиционировать” контекст.
Примерно как человек:
ты читаешь длинный документ, понимаешь, что важная часть была 20 страниц назад - и мысленно перечитываешь её , а лишнее игнорируешь.
Что делает RePo
- подтягивает важные куски информации ближе
- отодвигает шум и лишний текст
- помогает вниманию модели фокусироваться на нужном
В результате модель с такой памятью начинает лучше работать там, где LLM обычно страдают:
- когда контекст длинный
- когда много шума
- когда важные детали раскиданы далеко друг от друга
- когда данные структурированные (таблички, списки, правила)
Авторы показывают, что RePo даёт заметный прирост устойчивости, при этом не ухудшая общее качество.
Средний результат по 8 noisy-бенчмаркам:
- Обычный RoPE: 21.07
- RePo: 28.31
Авторы отдельно фиксируют ключевую цифру:
на noisy-eval (4K контекст) RePo лучше RoPE на +11.04 пункта.
(везде RePo > RoPE)
- TriviaQA: 61.47 → 73.02 (**+11.55**)
- GovReport: 6.23 → 16.80 (**+10.57**)
- 2WikiMultihopQA: 23.32 → 30.86 (**+7.54**)
- MuSiQue: 7.24 → 13.45 (**+6.21*
Это шаг к моделям, которые не просто “читают что дали”, а умеют сами организовать свою рабочую память.
@ai_machinelearning_big_data
#RePo #SakanaAI #LLM #AI #AIAgents #Context #LongContext #Attention
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
❤4👍3🔥2
📌 Новая работа Microsoft + University of Pennsylvania показывает, как LLM могут решать более сложную математику **короче и точнее** - за счёт семплирования и “слияния” вариантов мысли.
Метод называется Multiplex Thinking.
Обычный Chain-of-Thought работает так:
модель расписывает шаги рассуждений текстом, и это:
- быстро раздувает длину ответа
- заставляет рано выбрать один путь решения (и ошибиться)
Multiplex Thinking меняет сам механизм шага:
на каждом шаге модель семплирует K вариантов следующего токена, а затем объединяет их в один “внутренний токен”.
Как это устроено:
- токены - это маленькие куски текста, которые предсказывает модель
- вместо выбора одного варианта сразу, берутся K предположений
- затем их эмбеддинги (внутренние векторы модели) смешиваются в один токен
- итог: неопределённость “упаковывается” без увеличения длины рассуждения
Если модель уверена - варианты совпадают, и поведение почти как обычное.
Если не уверена - сомнения сохраняются внутри шага, не раздувая цепочку мыслей.
Ключевой плюс:
так как варианты берутся как реальные случайные выборки из распределения вероятностей модели, обучение через reward может направлять модель к более сильным траекториям рассуждений.
Авторы проверили метод на двух размерах DeepSeek R1 Distill Qwen:
- 6 сложных математических бенчмарков
- сравнение с обычным пошаговым CoT и другими continuous-token методами
Результат:
✅ точность выше (от 1 до 1024 семплов)
✅ при этом генерируется меньше токенов, что критично, когда дорого прогонять много попыток решения
arxiv.org/abs/2601.08808
Метод называется Multiplex Thinking.
Обычный Chain-of-Thought работает так:
модель расписывает шаги рассуждений текстом, и это:
- быстро раздувает длину ответа
- заставляет рано выбрать один путь решения (и ошибиться)
Multiplex Thinking меняет сам механизм шага:
на каждом шаге модель семплирует K вариантов следующего токена, а затем объединяет их в один “внутренний токен”.
Как это устроено:
- токены - это маленькие куски текста, которые предсказывает модель
- вместо выбора одного варианта сразу, берутся K предположений
- затем их эмбеддинги (внутренние векторы модели) смешиваются в один токен
- итог: неопределённость “упаковывается” без увеличения длины рассуждения
Если модель уверена - варианты совпадают, и поведение почти как обычное.
Если не уверена - сомнения сохраняются внутри шага, не раздувая цепочку мыслей.
Ключевой плюс:
так как варианты берутся как реальные случайные выборки из распределения вероятностей модели, обучение через reward может направлять модель к более сильным траекториям рассуждений.
Авторы проверили метод на двух размерах DeepSeek R1 Distill Qwen:
- 6 сложных математических бенчмарков
- сравнение с обычным пошаговым CoT и другими continuous-token методами
Результат:
✅ точность выше (от 1 до 1024 семплов)
✅ при этом генерируется меньше токенов, что критично, когда дорого прогонять много попыток решения
arxiv.org/abs/2601.08808
❤3🔥1🥰1