Машиннное обучение | Наука о данных Библиотека

DeepSeek снова в игре 🔥

"Conditional Memory via Scalable Lookup: A New Axis of Sparsity for Large Language Models"

Идея мощная: DeepSeek предлагают Engram - модуль памяти, который добавляет к LLM *lookup-память* с доступом за O(1).

Что это значит по-человечески:
вместо того чтобы каждый раз “вспоминать” шаблоны через слои трансформера, модель может моментально доставать нужные куски знаний из отдельной памяти.

Engram - это:
- хешированная N-gram память (modernized hashed N-gram embeddings)
- которая работает как быстрый словарь: *пришёл паттерн → достали представление → усилили модель*

Анализ показывает интересное:

🧠 Engram снижает необходимость ранним слоям заново реконструировать “статичные паттерны”
(частые формы, устойчивые токены, регулярные последовательности)

➡️ То есть ранние слои (слои трансформера, которые стоят ближе всего ко входу.) меньше заняты “механической работой”и больше ресурсов остаётся на главное.

В результате модель становится как будто глубже там, где надо:
- reasoning
- планирование
- длинные цепочки мыслей

Фактически это новый тип sparsity:
не только MoE/спарсные слои,
а спарсная память с быстрым доступом.

Это уже похоже на шаг к LLM, где часть знаний живёт как “кэш-память”, а не внутри весов.

Paper: https://github.com/deepseek-ai/Engram/blob/main/Engram_paper.pdf

https://www.youtube.com/watch?v=Hoz9HxHy_nQ

❤5👍5🔥3

1.46K views05:48

Forwarded from Machinelearning

4:38

Media is too big

VIEW IN TELEGRAM

✔️

OpenAI открыла доступ к GPT-5.2 Codex через Responses API.

Модель, ранее доступная лишь в среде Codex, теперь предлагается широкому кругу разработчиков. OpenAI позиционирует версию 5.2 как инструмент для глубокого рефакторинга, написания сложной функциональности и аудита безопасности.

Модель поддерживает мультимодальный ввод и предлагает гибкую настройку глубины рассуждений — от низкого до очень высокого уровня.

За повышенную производительность придется платить: стоимость токенов выросла до $1.75 за миллион на вход и $14 на выход. Поддержка новой модели уже появилась в Cursor и Windsurf.
OpenAI Developers в сети X

✔️

Anthropic усиливает команду экспериментальных продуктов Labs.

Майк Кригер оставляет пост директора по продукту, чтобы сосредоточиться на создании новых инструментов в паре с Беном Манном. Руководство основной продуктовой стратегией переходит к Ами Вора, присоединившейся к компании в конце 2025 года; она возглавит Labs совместно с техническим директором Рахулом Патилом.

Подразделение зарекомендовало себя как генератор хитов Anthropic. Именно здесь родился Claude Code, который всего за 6 месяцев превратился в продукт с миллиардной выручкой и был разработан стандарт MCP, ставший отраслевым эталоном со 100 млн. загрузок ежемесячно.

Президент компании Даниэла Амодей говорит, что формат лаборатории позволяет действовать экстремально быстро: например, Cowork был создан с нуля именно в Labs всего за полторы недели.
anthropic.com

✔️

Z.AI представила модель GLM-Image.

GLM-Image стала важной вехой в технологической независимости КНР. Это первая модель, которая обучалась исключительно на китайском стеке - серверах Huawei Ascend Atlas 800T A2 и фреймворке MindSpore, без использования ускорителей NVIDIA.

Под капотом гибрид из 9-миллиардного авторегрессионного трансформера и 7-миллиардного диффузионного декодера на базе DiT. Разработчики утверждают, что такая связка превосходит конкурентов в рендеринге текста и создания инфографики.

API модели предлагается по цене примерно 1,5 цента за изображение, а веса выложены на HuggingFace и ModelScope.
z.ai

✔️

Google обновила модель Veo.

Google обновила свою видеомодель Veo до версии 3.1, добавив возможность генерации роликов с соотношением сторон 9:16, инструменты для апскейлинга до 4K и переработку функции референса по изображению.

3.1 лучше удерживает визуальную консистентность персонажей и окружения между сценами и точнее следует коротким промптам.

Новые возможности уже доступны в приложении Gemini, AI Studio и на Vertex AI.
blog.google

✔️

Скандал с суверенным ИИ в Южной Корее.

Госпроект Сеула стоимостью $6,9 млрд, призванный избавить страну от технологической зависимости от США и КНР, оказался в центре скандала: ключевые участники использовали опен-сорс решения китайских конкурентов.

Проверка показала, что 3 из 5 финалистов конкурса, компании Naver Cloud, SK Telecom и стартап Upstage заимствовали компоненты у Alibaba, DeepSeek и Zhipu AI. В частности, выяснилось, что визуальный энкодер флагманской модели Naver HyperCLOVA X на 99,5% совпадает с архитектурой Qwen 2.5.

Разработчики оправдываются инженерной целесообразностью, утверждая, что заимствовали лишь вспомогательные модули и код инференса. Однако, использование компонентов с китайскими копирайтами в проекте, который финансируется государством, вызвало жесткую критику общественности и поставило под угрозу квалификацию участников.
wsj.com

@ai_machinelearning_big_data

#news #ai #ml

Please open Telegram to view this post

VIEW IN TELEGRAM

❤4👍1🔥1

997 views05:19

Машиннное обучение | Наука о данных Библиотека

🧠 Почему современные LLM (скорее всего) не могут быть «сознательными» - строгий аргумент

Вышла работа, которая очень трезво разбирает популярный вопрос:
могут ли LLM обладать сознанием?

Автор утверждает: есть научная причина, почему сегодняшние большие языковые модели *не* сознательны - и аргумент построен не на мнениях, а на критериях научности.

Критерии теории сознания:
✅ falsifiable - теорию можно (в принципе) опровергнуть
✅ non-trivial - теория не должна “назначать сознание” почти всему подряд

И вот ключевой вывод статьи:
многие известные теории сознания не проходят эти критерии.

Главная мысль:
по одним только ответам модели нельзя доказать сознание - потому что ответы можно полностью скопировать.

Автор строит “цепочку подстановок”:
LLM → простая feedforward-сеть → lookup table
(таблица «вопрос-ответ», просто хранилище пар)

Все три системы дают одинаковые ответы.

Но lookup table очевидно не сознателен - это просто сохранённые пары.
А значит:
если теория считает LLM сознательной из-за ответов,
она обязана признать сознательной и lookup table,
а это делает теорию тривиальной и бессмысленной.

Если же теория пытается “спастись” внутренним устройством модели,
подстановки сохраняют те же ответы, но ломают предсказания теории -
то есть теорию можно опровергнуть.

Отсюда сильный вывод:
📌 нет серьёзной, проверяемой теории, которая могла бы назвать
статичные, развернутые LLM сознательными.

Что может быть важным отличием?
Автор указывает на continual learning:
когда система реально меняется от опыта и несёт контекст внутри себя.

У людей мозгу не нужно “вставлять весь чат заново” каждый раз - контекст хранится внутри.
У LLM без continual learning этого свойства нет.

Самое интересное: работа превращает вопрос «ChatGPT сознателен?» в конкретный стресс-тест
и даёт чеклист - что будущие заявления про conscious AI обязаны объяснить.

web3.arxiv.org/pdf/2512.12802

❤4👍3👎2😘2

1.22K views09:45

Машиннное обучение | Наука о данных Библиотека

🧪 Новое исследование Anthropic: как ученые используют Claude, чтобы ускорять науку

Claude подключают к базам данных и научному софту, добавляют guardrails (проверяемость и контроль) - и модель начинает работать как агент, который не “болтает”, а реально выполняет исследования.

1) Stanford - Biomni (Claude + сотни биомедицинских инструментов)
Biomni объединяет огромный набор научных тулов, и Claude-агент может работать сразу по ~25 биоподразделам по обычному запросу на английском.

Результаты тестов:
- GWAS-анализ (поиск связей генов и признаков) занимает 20 минут вместо месяцев
- обработка 450 файлов с носимых устройств (30 людей) - 35 минут вместо 3 недель
- анализ 336 000 эмбриональных клеток - нашел известные регуляторы и предложил новые факторы транскрипции
- можно “обучать” его экспертным рабочим процессам как переиспользуемым навыкам

2) CRISPR-лаборатория - MozzareLLM
В CRISPR-экспериментах отключают тысячи генов и смотрят, что ломается.
Самая сложная часть - интерпретация массивов результатов.

MozzareLLM:
- группирует связанные гены
- объясняет, какую функцию они могут делить
- отмечает малоизученные гены
- выставляет confidence, чтобы понять, что реально стоит продолжать

В сравнении моделей Claude оказался лучшим - и даже смог правильно распознал путь модификации РНК, который другие модели списали как шум.

3) Лаборатория с дорогими скринингами
Один точечный экран может стоить > $20 000.
Обычно люди выбирают гены “вручную”, буквально по табличке, как гадание.

Они построили карту молекул и связей между ними - и Claude “путешествует” по этой карте, предлагая лучшие генные цели.
Дальше планируют сравнить:
выбор Claude vs выбор человека vs полный геномный скрининг.

Это исследование про экономику науки:

⚡ скорость + масштаб
= больше экспериментов
= быстрее открытия
= без увеличения команды и бюджета

https://www.anthropic.com/news/accelerating-scientific-research

❤3👍1

1.07K views12:02

Машиннное обучение | Наука о данных Библиотека

Forwarded from Machinelearning

0:06

This media is not supported in your browser

VIEW IN TELEGRAM

✔️ Sakana AI выпустили RePo - LLM, которые умеют “наводить порядок” в контексте

Обычные языковые модели читают текст как одну длинную ленту.

Что ближе к началу внимания - то “важнее”.
Что дальше - то модель видит хуже.

И тут появляется проблема: если важный факт спрятан где-то далеко среди шума, модель может его просто не использовать.

Она тратит внимание на всё подряд, вместо того чтобы сосредоточиться на главном.

Sakana AI предложили решение - RePo (Context Re-Positioning).

Идея очень понятная: модель получает модуль, который позволяет динамически “перепозиционировать” контекст.

Примерно как человек:
ты читаешь длинный документ, понимаешь, что важная часть была 20 страниц назад - и мысленно перечитываешь её , а лишнее игнорируешь.

Что делает RePo
- подтягивает важные куски информации ближе
- отодвигает шум и лишний текст
- помогает вниманию модели фокусироваться на нужном

В результате модель с такой памятью начинает лучше работать там, где LLM обычно страдают:
- когда контекст длинный
- когда много шума
- когда важные детали раскиданы далеко друг от друга
- когда данные структурированные (таблички, списки, правила)

Авторы показывают, что RePo даёт заметный прирост устойчивости, при этом не ухудшая общее качество.

▶️ Устойчивость к шуму (Noisy Context)
Средний результат по 8 noisy-бенчмаркам:

- Обычный RoPE: 21.07
- RePo: 28.31

🟡 Прирост: +7.24 пункта (сильно)

Авторы отдельно фиксируют ключевую цифру:
на noisy-eval (4K контекст) RePo лучше RoPE на +11.04 пункта.

🔥 Примеры прироста на конкретных задачах
(везде RePo > RoPE)

- TriviaQA: 61.47 → 73.02 (**+11.55**)
- GovReport: 6.23 → 16.80 (**+10.57**)
- 2WikiMultihopQA: 23.32 → 30.86 (**+7.54**)
- MuSiQue: 7.24 → 13.45 (**+6.21*

Это шаг к моделям, которые не просто “читают что дали”, а умеют сами организовать свою рабочую память.

🟡

Подробности: pub.sakana.ai/repo/

🟡

Статья: arxiv.org/abs/2512.14391

@ai_machinelearning_big_data

#RePo #SakanaAI #LLM #AI #AIAgents #Context #LongContext #Attention

Please open Telegram to view this post

VIEW IN TELEGRAM

Please open Telegram to view this post

VIEW IN TELEGRAM

❤4👍3🔥2

728 views07:11

Машиннное обучение | Наука о данных Библиотека

📌 Новая работа Microsoft + University of Pennsylvania показывает, как LLM могут решать более сложную математику **короче и точнее** - за счёт семплирования и “слияния” вариантов мысли.

Метод называется Multiplex Thinking.

Обычный Chain-of-Thought работает так:
модель расписывает шаги рассуждений текстом, и это:
- быстро раздувает длину ответа
- заставляет рано выбрать один путь решения (и ошибиться)

Multiplex Thinking меняет сам механизм шага:
на каждом шаге модель семплирует K вариантов следующего токена, а затем объединяет их в один “внутренний токен”.

Как это устроено:
- токены - это маленькие куски текста, которые предсказывает модель
- вместо выбора одного варианта сразу, берутся K предположений
- затем их эмбеддинги (внутренние векторы модели) смешиваются в один токен
- итог: неопределённость “упаковывается” без увеличения длины рассуждения

Если модель уверена - варианты совпадают, и поведение почти как обычное.
Если не уверена - сомнения сохраняются внутри шага, не раздувая цепочку мыслей.

Ключевой плюс:
так как варианты берутся как реальные случайные выборки из распределения вероятностей модели, обучение через reward может направлять модель к более сильным траекториям рассуждений.

Авторы проверили метод на двух размерах DeepSeek R1 Distill Qwen:
- 6 сложных математических бенчмарков
- сравнение с обычным пошаговым CoT и другими continuous-token методами

Результат:
✅ точность выше (от 1 до 1024 семплов)
✅ при этом генерируется меньше токенов, что критично, когда дорого прогонять много попыток решения

arxiv.org/abs/2601.08808

❤3🔥1🥰1

789 views13:02

About

Blog

Apps

Platform