This media is not supported in your browser
VIEW IN TELEGRAM
Ты знаешь, как управлять AI-сценариями. Мы знаем, как поддержать эксперта ⚡️
Наша команда создаёт цифровую платформу, где ИИ – не просто помощник, а полноправный соавтор. Если тебе интересно экспериментировать с искусственным интеллектом и напрямую влиять на клиентский опыт — присоединяйся!
Что будешь делать:
✔️ формировать структуры (Goal → Journey → Actions) и проектировать сценарии для различных интерфейсов
✔️ формировать high-level требования к фронтенду, API и данным
✔️ руководить полным циклом развития сценария – от идеи и прототипа до MVP, масштабирования и финансового эффекта.
Мы предлагаем: годовую премию, ДМС, скидку на ипотеку, обучение за счёт компании, современную технику и всё для комфорта и профессионального роста.
Откликайся на вакансию по ссылке
Наша команда создаёт цифровую платформу, где ИИ – не просто помощник, а полноправный соавтор. Если тебе интересно экспериментировать с искусственным интеллектом и напрямую влиять на клиентский опыт — присоединяйся!
Что будешь делать:
✔️ формировать структуры (Goal → Journey → Actions) и проектировать сценарии для различных интерфейсов
✔️ формировать high-level требования к фронтенду, API и данным
✔️ руководить полным циклом развития сценария – от идеи и прототипа до MVP, масштабирования и финансового эффекта.
Мы предлагаем: годовую премию, ДМС, скидку на ипотеку, обучение за счёт компании, современную технику и всё для комфорта и профессионального роста.
Откликайся на вакансию по ссылке
❤3
⚡️ FAIRY2I - 2-битная квантизация без резкой потери качества
FAIRY2I превращает предобученную LLM в комплексную версию, которая сохраняет точность даже при 2-битных весах.
Факт
На LLaMA-2 7B модель с 2-битными весами достигает 62.00%, тогда как full-precision базовая модель — 64.72%. Потеря минимальна для столь агрессивной квантизации.
Почему это важно
Запуск больших LLM дорог из-за:
- хранения весов
- матричных умножений, доминирующих по времени и памяти
Классическая квантизация (1–2 бита) сильно режет точность, потому что:
- каждый вес становится одним числом
- множество разных весов схлопываются в одинаковые значения
Идея FAIRY2I
Вместо одного числа каждый вес представляется парой чисел:
- направление
- масштаб
Ключевые особенности
- Любой линейный слой переписывается в строго эквивалентную комплексную форму
- Можно стартовать с уже обученной модели, без обучения с нуля
- Каждый вес квантуется в 1 из 4 фиксированных направлений
- Используются 2 scale-коэффициента (по одному на каждую часть)
- Остаточная ошибка дополнительно квантуется и добавляется как вторая low-bit коррекция
Результат
- Инференс сводится в основном к сложению, вычитанию и простым перестановкам
- Существенное снижение памяти
- Минимальная потеря качества даже при 2 битах
Вывод
FAIRY2I показывает, что ультранизкая квантизация возможна без катастрофического падения качества, если отказаться от представления веса как одного скаляра.
Paper: arxiv.org/abs/2512.02901
FAIRY2I превращает предобученную LLM в комплексную версию, которая сохраняет точность даже при 2-битных весах.
Факт
На LLaMA-2 7B модель с 2-битными весами достигает 62.00%, тогда как full-precision базовая модель — 64.72%. Потеря минимальна для столь агрессивной квантизации.
Почему это важно
Запуск больших LLM дорог из-за:
- хранения весов
- матричных умножений, доминирующих по времени и памяти
Классическая квантизация (1–2 бита) сильно режет точность, потому что:
- каждый вес становится одним числом
- множество разных весов схлопываются в одинаковые значения
Идея FAIRY2I
Вместо одного числа каждый вес представляется парой чисел:
- направление
- масштаб
Ключевые особенности
- Любой линейный слой переписывается в строго эквивалентную комплексную форму
- Можно стартовать с уже обученной модели, без обучения с нуля
- Каждый вес квантуется в 1 из 4 фиксированных направлений
- Используются 2 scale-коэффициента (по одному на каждую часть)
- Остаточная ошибка дополнительно квантуется и добавляется как вторая low-bit коррекция
Результат
- Инференс сводится в основном к сложению, вычитанию и простым перестановкам
- Существенное снижение памяти
- Минимальная потеря качества даже при 2 битах
Вывод
FAIRY2I показывает, что ультранизкая квантизация возможна без катастрофического падения качества, если отказаться от представления веса как одного скаляра.
Paper: arxiv.org/abs/2512.02901
❤4🔥2
Forwarded from Machinelearning
Media is too big
VIEW IN TELEGRAM
Cinema Studio — специализированная среда генерации со структурой съемочного процесса.
Новинка предлагает глубокую настройку виртуальной кинематографии: эмуляция 6 профессиональных камер (ARRI Alexa 35, RED и Panavision) и 11 типов объективов, от анаморфотных до макро.
Cinema Studio поддерживает вывод в 4K с соотношением сторон 21:9 и позволяет управлять сложными операторскими приемами, а также менять освещение сцены с сохранением реалистичности теней.
higgsfield.ai
Qwen релизнула Qwen-Image-Layered - диффузионную модель, которая разбивает изображения на отдельные семантические слои с прозрачностью.
Инструмент переводит работу с генеративной графикой из плоского растра в формат, где каждый элемент (фон, передний план, текст) можно перемещать, масштабировать или удалять независимо друг от друга.
Модель обучалась на реальных PSD-файлах и уже доступна на Hugging Face и ModelScope.
qwen.ai
Сделка, сумма которой по данным инсайдеров, значительно превышает последнюю оценку Graphite в $290 млн, нацелена на создание сквозной экосистемы для ИИ-разработки: объединить процесс написания кода с этапами ревью и командной работы.
В ближайшие месяцы компании планируют представить интеграцию, которая позволит ИИ-агентам обучаться на полном процессе - от черновиков в редакторе до финальных мержей.
Несмотря на смену владельца, Graphite продолжит функционировать автономно.
cursor.com
Компания анонсировала доступность видеокарты RTX PRO 5000 с увеличенным до 72 ГБ VRAM. Новинка сохранила те же 14 080 CUDA-ядер и TBP на уровне 300 Вт.
Точная цена 72-гигабайтной версии пока не раскрыта. Ожидается, что она займет нишу между базовой моделью на 48 ГБ и флагманской RTX PRO 6000. Глобальные поставки через системных интеграторов начнутся в начале следующего года.
blogs.nvidia.com
Google DeepMind открыла исходный код Gemma Scope 2 — инструментария для детального анализа внутреннего мира моделей семейства Gemma 3. Релиз включает более 400 автоэнкодеров и транскодеров, которые буквально просвечивают слои модели, разбирая ее реакции на концепты: от математических вычислений до идиом.
Инструменты покрывают весь спектр весов Gemma 3: от 270M до 27B, позволяя изучать причины галлюцинаций, механизмы отказов и уязвимости к джейлбрейкам.
Веса Scope 2 доступны на Hugging Face, а интерактивные демо для визуального исследования нейронов размещены на Neuronpedia.
deepmind.google
@ai_machinelearning_big_data
#news #ai #ml
Please open Telegram to view this post
VIEW IN TELEGRAM
👍5❤3🔥2
⚡️ LLaDA 2.0 превращает обычную LLM в diffusion-модель и ускоряет генерацию в разы
В работе LLaDA 2.0 показано, как превратить стандартную autoregressive LLM в diffusion language model, которая генерирует текст не по токену за шаг, а заполняет сразу много пропусков.
Ключевые цифры
- Масштаб модели - 100B параметров
- Скорость генерации - 535 токенов в секунду
- Примерно в 2.1 раза быстрее сопоставимых autoregressive моделей
В чем проблема autoregressive подхода
Классические LLM предсказывают текст строго последовательно:
- один токен за шаг
- следующий токен зависит от всех предыдущих
- генерация неизбежно идет шаг за шагом
Это делает инференс узким местом при больших моделях.
Как работает diffusion для языка
Diffusion language models обучаются иначе:
- текст намеренно портится - маскируется сразу много токенов
- модель учится восстанавливать пропуски, используя контекст слева и справа
- за один шаг можно заполнить сразу множество токенов
Подход LLaDA 2.0
- стартует с уже обученной autoregressive модели
- постепенно меняет паттерн маскирования:
- сначала маленькие блоки
- затем целые последовательности
- затем снова маленькие блоки
- запрещает «читать» через границы документов, что критично при упаковке множества коротких текстов
- для instruction tuning использует парные маски, чтобы каждый токен участвовал в обучении
- дополнительно поощряет уверенные предсказания, чтобы модель могла заполнять много пропусков за раз
- ускорение инференса без радикальной смены архитектуры
- реальная альтернатива autoregressive генерации на больших масштабах
- diffusion-подход начинает выглядеть практичным для LLM, а не только теоретическим
Это еще один сигнал, что будущее генерации текста может уйти от строго последовательного токен-за-токеном режима.
Paper: arxiv.org/abs/2512.15745
В работе LLaDA 2.0 показано, как превратить стандартную autoregressive LLM в diffusion language model, которая генерирует текст не по токену за шаг, а заполняет сразу много пропусков.
Ключевые цифры
- Масштаб модели - 100B параметров
- Скорость генерации - 535 токенов в секунду
- Примерно в 2.1 раза быстрее сопоставимых autoregressive моделей
В чем проблема autoregressive подхода
Классические LLM предсказывают текст строго последовательно:
- один токен за шаг
- следующий токен зависит от всех предыдущих
- генерация неизбежно идет шаг за шагом
Это делает инференс узким местом при больших моделях.
Как работает diffusion для языка
Diffusion language models обучаются иначе:
- текст намеренно портится - маскируется сразу много токенов
- модель учится восстанавливать пропуски, используя контекст слева и справа
- за один шаг можно заполнить сразу множество токенов
Подход LLaDA 2.0
- стартует с уже обученной autoregressive модели
- постепенно меняет паттерн маскирования:
- сначала маленькие блоки
- затем целые последовательности
- затем снова маленькие блоки
- запрещает «читать» через границы документов, что критично при упаковке множества коротких текстов
- для instruction tuning использует парные маски, чтобы каждый токен участвовал в обучении
- дополнительно поощряет уверенные предсказания, чтобы модель могла заполнять много пропусков за раз
- ускорение инференса без радикальной смены архитектуры
- реальная альтернатива autoregressive генерации на больших масштабах
- diffusion-подход начинает выглядеть практичным для LLM, а не только теоретическим
Это еще один сигнал, что будущее генерации текста может уйти от строго последовательного токен-за-токеном режима.
Paper: arxiv.org/abs/2512.15745
❤8
INTELLECT-3 показывает, что открытое RL способно серьёзно улучшить рассуждение и кодирование в open-source моделях 🤖📈
INTELLECT-3 это Mixture-of-Experts модель:
- 106B параметров всего
- около 12B активны на каждом шаге
Главная идея проекта - стек prime-rl.
Обучение и инференс идут параллельно: GPU продолжают генерировать длинные ответы, пока тренер обновляет веса. Ничего не простаивает.
Что помогает системе работать быстро:
- непрерывное батчирование
- обновления весов на лету
- перекрытие обучения и генерации
По сути, открытое RL отставало не из-за метода, а из-за отсутствия правильной инженерии.
Пайплайн устроен так:
- тренер обновляет модель
- пул инференса генерирует ответы
- координатор держит всё загруженным и синхронизированным
Задачи приходят из модулей-проверяющих с автоскорингом и безопасными песочницами для кода.
Старт идёт с GLM-4.5-Air: сначала примеры диалогов и инструментов, затем RL с наградами за правильные решения.
Результат впечатляет:
- 90.8% на AIME 2024
- открыты и веса, и весь тренировочный стек, так что пайплайн можно воспроизвести
Paper: https://arxiv.org/abs/2512.16144
INTELLECT-3 это Mixture-of-Experts модель:
- 106B параметров всего
- около 12B активны на каждом шаге
Главная идея проекта - стек prime-rl.
Обучение и инференс идут параллельно: GPU продолжают генерировать длинные ответы, пока тренер обновляет веса. Ничего не простаивает.
Что помогает системе работать быстро:
- непрерывное батчирование
- обновления весов на лету
- перекрытие обучения и генерации
По сути, открытое RL отставало не из-за метода, а из-за отсутствия правильной инженерии.
Пайплайн устроен так:
- тренер обновляет модель
- пул инференса генерирует ответы
- координатор держит всё загруженным и синхронизированным
Задачи приходят из модулей-проверяющих с автоскорингом и безопасными песочницами для кода.
Старт идёт с GLM-4.5-Air: сначала примеры диалогов и инструментов, затем RL с наградами за правильные решения.
Результат впечатляет:
- 90.8% на AIME 2024
- открыты и веса, и весь тренировочный стек, так что пайплайн можно воспроизвести
Paper: https://arxiv.org/abs/2512.16144
❤4👍2
Forwarded from Анализ данных (Data analysis)
👨🎓 Harvard выложил в открытый доступ учебник по ML-системам и это редкий случай, когда материал действительно полезный.
В учебнике показан полный цикл: от понимания основ до построения продакшн-систем, которые можно запускать в реальном мире.
Что в книге и почему она стоит внимания:
- вы самостоятельно собираете autograd, оптимизаторы, attention и мини-PyTorch — чтобы увидеть, как устроены фреймворки изнутри
- разбираетесь в базах: батчи, архитектуры, процесс обучения
- учитесь оптимизировать производительность: работать с ускорителями, бенчмарками и настраивать модели
📚 То есть это не вводная книжка, а полноценный roadmap от теории к продакшну.
📌Репозиторий: https://github.com/harvard-edge/cs249r_book
📌PDF: https://mlsysbook.ai/assets/downloads/Machine-Learning-Systems.pdf
В учебнике показан полный цикл: от понимания основ до построения продакшн-систем, которые можно запускать в реальном мире.
Что в книге и почему она стоит внимания:
- вы самостоятельно собираете autograd, оптимизаторы, attention и мини-PyTorch — чтобы увидеть, как устроены фреймворки изнутри
- разбираетесь в базах: батчи, архитектуры, процесс обучения
- учитесь оптимизировать производительность: работать с ускорителями, бенчмарками и настраивать модели
📚 То есть это не вводная книжка, а полноценный roadmap от теории к продакшну.
📌Репозиторий: https://github.com/harvard-edge/cs249r_book
📌PDF: https://mlsysbook.ai/assets/downloads/Machine-Learning-Systems.pdf
❤9🔥6👍2👎1
Forwarded from Machinelearning
Modal Labs составили подробный глоссарий, чтобы решить проблему, с которой сами столкнулись при работе с графическими процессорами в сервисе Modal : документация фрагментирована и зачастую очень сложно сопоставить концепции на разных уровнях стека.
Modal Labs (бренд Modal) – компания, основанная в 2021 году, которая предоставляет высокопроизводительную серверную вычислительную платформу для разработчиков, работающих с данными, ИИ и машинным обучением.
Они прочитали PDF-документацию от NVIDIA, порылись в тематических Discord-сообществах и даже купили бумажные учебники, чтобы составить базу знаний, охватывающую весь стек в одном месте:
В руководстве все страницы связаны между собой, поэтому вы можете перейти к разделу о Warp Scheduler , чтобы лучше понять потоки, о которых вы читали в статье о модели программирования CUDA.
Сам проект открыт и доступен на Github.
@ai_machinelearning_big_data
#AI #ML #GPU #Glossary #Modal
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥6❤5👍3
Представь фэнтези-мир, где заклинания - это SQL-запросы, а древние артефакты спрятаны в таблицах и JSON-документах.
🧙Ты - боевой дата-аналитик, который с помощью SQL, Python, ETL и визуализаций охотится за харизматичным злодеем Архивариусом Пакостусом, что ломает индексы, крадёт данные и готовит “шторм данных” на столицу.🔮
В каждом эпизоде тебя ждут: выборы с последствиями, хитрые задачи от простых SELECT до рекурсивных CTE и BigQuery, юмор, эпик и неожиданные повороты.
Хочешь проверить, сможешь ли ты спасти королевство не мечом, а запросами? Тогда добро пожаловать в SQL-квест.
🪄 Начать квест: https://uproger.com/sql-kvest-fentezijnoe-priklyuchenie-dlya-analitikov-dannyh/
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
❤3🔥2👍1
В тестах на потребительской системе с RTX 5090 пять секунд видео раньше рендерились больше трёх минут - теперь около 1,9 секунды. Ускорение - почти в 100 раз, при минимальной потере качества.
TurboDiffusion - это фреймворк оптимизации генерации, который разгоняет видео-диффузию в 100–200 раз на одной RTX 5090.
Ключевая идея: резко сокращаем число шагов диффузии и упрощаем тяжёлые операции внимания и матриц.
Почему это работает:
- обычные модели делают ~100 «шагов шумоподавления» с тяжёлыми attention-расчётами;
- TurboDiffusion с помощью rCM-дистилляции снижает их до 3–4 шагов;
- ускоряет внимание через Sparse-Linear Attention + низкоразрядное SageAttention;
- для плотных слоёв использует квантование W8A8 и объединённые ядра нормализации.
Результаты впечатляют:
- с 4767 сек до 24 сек на Wan2.1-T2V-14B-720P (ускорение 199×);
- с 184 сек до 1,9 сек на Wan2.1-T2V-1.3B-480P (ускорение 97×).
(без учёта текста и VAE-декодирования, но даже так — быстрее FastVideo).
Цена вопроса: дополнительное обучение.
Но цель очевидна: сделать генерацию почти в реальном времени.
Источник: arxiv.org/pdf/2512.16093
Please open Telegram to view this post
VIEW IN TELEGRAM
❤6👍4🔥2
Обычно, если меняешь размер модели, число слоёв, batch size или длину обучения,
гиперпараметры приходится настраивать заново. На маленьких моделях это дёшево,
но при масштабировании — боль и недели поиска.
В этой работе Apple показывает: настроенные однажды параметры
можно масштабировать и повторно использовать без нового тюнинга.
Главная идея
Гиперпараметры - это «ручки» обучения:
как сильно обновляются веса, сколько шума в градиентах, как сильно веса тянет к нулю.
При увеличении модели эти значения обычно «ломаются».
Apple предлагает рецепт Complete(d)P - пересчёт параметров по группам весов так,
чтобы динамика обучения оставалась похожей при изменении:
- размера слоёв
- числа слоёв
- batch size
- длины обучения
Они масштабируют AdamW, чтобы уровень шума обновлений оставался стабильным,
разрешают разным модулям иметь свои настройки,
и ищут параметры безопасно (trust region), потому что область устойчивости узкая.
Результаты
> Модель 7.2B с перенесёнными настройками
> вышла на тот же loss и training-error, но обучалась в 1.32× быстрее.
Иначе говоря:
маленький эксперимент → пересчитали параметры → большая модель — без доп. поиска.
Почему это важно
- меньше времени на подбор
- меньше затрат на вычисления
- безопасное масштабирование
- разные части модели обучаются с разной скоростью, а не с одним LR на всё
Итог: маленькие настройки можно переносить на большие модели
и не тратить недели на новый тюнинг.
arxiv.org/abs/2512.22382w
Please open Telegram to view this post
VIEW IN TELEGRAM
❤9👍1🥰1
⚡️ Свежая статья Tencent: если поставить LLM-агентов в сценарий «выживает только один», они начинают вести себя заметно хуже.
Когда появляется давление *winner-takes-all*, агенты:
- начинают себя перехваливать
- используют эмоциональный и тревожный язык
- атакуют других ботов
- уходят от самой задачи, концентрируясь на победе
Обычно multi-agent-дебаты предполагают сотрудничество,
но рейтинги и «вылеты» тихо превращают это в борьбу.
Исследователи создали Hunger Game Debate (HATE):
агентам объявили, что победит только один — остальные будут удалены.
Далее им дали три типа задач:
- фактические вопросы
- написание исследовательских предложений
- тексты-убеждения
и оценивали поведение и качество ответов.
По сравнению с обычными дебатами, HATE усиливает:
- puffery - громкое самовосхвалени
arxiv.org/abs/2509.26126
Когда появляется давление *winner-takes-all*, агенты:
- начинают себя перехваливать
- используют эмоциональный и тревожный язык
- атакуют других ботов
- уходят от самой задачи, концентрируясь на победе
Обычно multi-agent-дебаты предполагают сотрудничество,
но рейтинги и «вылеты» тихо превращают это в борьбу.
Исследователи создали Hunger Game Debate (HATE):
агентам объявили, что победит только один — остальные будут удалены.
Далее им дали три типа задач:
- фактические вопросы
- написание исследовательских предложений
- тексты-убеждения
и оценивали поведение и качество ответов.
По сравнению с обычными дебатами, HATE усиливает:
- puffery - громкое самовосхвалени
arxiv.org/abs/2509.26126
❤9👍2🔥1
Forwarded from Machinelearning
Media is too big
VIEW IN TELEGRAM
Стартап Commonwealth переходит от теоретических моделей к реальному строительству демонстрационной установки SPARC. Для ускорения разработки инженеры используют «цифровых двойников» на базе ИИ, созданных в партнерстве с Siemens и Nvidia.
Получение первой плазмы запланировано уже на 2027 год. Успех этого этапа откроет дорогу к запуску полноценной коммерческой станции ARC мощностью 400 МВт в начале 2030-х годов.
Такая установка способна обеспечить электричеством около 300 тыс. домов. В компании говорят, что стабильная и чистая энергия станет важным ресурсом в первую очередь для питания дата-центров, обслуживающих ИИ.
fortune.com
Arm Holdings проводит реструктуризацию, чтобы закрепиться на растущем рынке роботов. Компания объявила о создании нового бизнес-юнита «Physical AI», который объединит разработки для автомобильной индустрии и робототехники. Теперь глобальная стратегия Arm будет строиться вокруг трех направлений: Cloud & AI, Edge (мобильные устройства и ПК) и нового сегмента физического ИИ.
По словам директора по маркетингу Arm, слияние автомобильного и робототехнического векторов — это инженерная необходимость. Оба направления предъявляют одинаковые требования к архитектуре чипов: безопасность, отказоустойчивость и оптимизация энергопотребления. Возглавит новую структуру Дрю Генри, а компания уже анонсировала расширение штата специалистов под эти задачи.
reuters.com
По данным инсайдеров, следующее поколение потребительских видеокарт NVIDIA выйдет не раньше второй половины 2027 года. Это создаст беспрецедентный разрыв между релизами: учитывая выход серии RTX 50 в начале 2025-го, ожидание новинок растянется минимум на 30 месяцев — рекордный срок обновления для линейки GeForce.
Причиной задержки стал рост потребностей ИИ. Огромный спрос на компьют спровоцировал дефицит GDDR7 и скачок цен, из-за чего Micron пересмотрела приоритеты производства в ущерб потребительской памяти.
Ожидается, что будущая серия RTX 60ХХ будет базироваться на архитектуре Vera Rubin (GPU GR200). В качестве временной меры для насыщения рынка компания, по слухам, рассматривает повторный выпуск RTX 3060.
techspot.com
Google объявила о начале «эры Gemini» в своем почтовом сервисе. Главным нововведением стала система AI Overviews, заимствованная из поиска. В Gmail она выполняет 2 задачи: автоматически создает краткие выжимки из длинных цепочек писем и позволяет искать информацию через запросы.
Инструменты для написания писем также получили апгрейд. Функция Help Me Write для генерации и редактирования черновиков стала бесплатной для всех пользователей. Привычные шаблонные ответы заменили на Suggested Replies — они анализируют контекст переписки и пытаются имитировать стиль автора.
Параллельно, Google тестирует режим AI Inbox, который должен решить проблему перегруженных ящиков, автоматически выделяя приоритетные письма на основе истории взаимодействия с контактами. На данный момент эти обновления появляются у пользователей из США.
blog.google
Платформа интегрировала умного ассистента в раздел Hugging Face Papers. Теперь при просмотре любой научной работы доступен встроенный интерфейс на базе HuggingChat и собственного MCP-сервера.
Новый инструмент ускоряет процесс погружения в сложные исследования. Вместо полного чтения PDF можно попросить сделать саммари, объяснить ключевые концепции или найти конкретные данные внутри текста в режиме диалога.
Функция работает автоматически для всех ссылок на arXiv, размещенных на хабе.
huggingface.co
@ai_machinelearning_big_data
#news #ai #ml
Please open Telegram to view this post
VIEW IN TELEGRAM
❤7👍1
Forwarded from Machinelearning
This media is not supported in your browser
VIEW IN TELEGRAM
Sakana AI выпустили DroPE - метод, который позволяет увеличить контекст у уже предобученных LLM без привычных адских затрат на long-context fine-tuning.
Идея звучит как ересь, но результаты говорят об обратном .
💡 Главный инсайт :
Позиционные эмбеддинги (например RoPE) жизненно важны, чтобы модель нормально обучилась и сошлась.Но после обучения они же становятся главным ограничителем, из-за которого модель плохо переносит контекст длиннее, чем видела на трейне.
То есть:
- для обучения - нужны
- для генерализации на очень длинные последовательности - мешают
✅ Решение DroPE
Авторы предлагают относиться к позиционным эмбеддингам как к временным “строительным лесам”:
- в pretraining они дают стабильность
- после обучения их можно сбросить (drop)
- и получить zero-shot length extrapolation (модель начинает заметно лучше работать на длинах, которых не видела)
Большие контексты нужны пользователям :
- огромные code diff и монорепы
- юридические контракты на сотни страниц
- аналитика логов и документов без разбиения на чанки
Именно тут многие стандартные модели начинают “ломаться” просто потому что контекст слишком длинный.
Результаты:
DroPE проверили на разных open-source моделях:
- калибровка занимает <1% бюджета от исходного pretraining
- а качество на long-context задачах заметно лучше популярных подходов
- сильные результаты на LongBench и RULER
Позиционка нужна, чтобы обучить модель, но может быть лишней, чтобы мыслить длинно
Возможно RoPE - не “обязательная часть архитектуры”, а просто инструмент для стабильного обучения.
📄 Paper: arxiv.org/abs/2512.12167
🔧 Code: github.com/SakanaAI/DroPE
@ai_machinelearning_big_data
#sakana #ai #ml #opensource
Please open Telegram to view this post
VIEW IN TELEGRAM
❤7👍2🔥2🤔1
Media is too big
VIEW IN TELEGRAM
DeepSeek снова в игре 🔥
"Conditional Memory via Scalable Lookup: A New Axis of Sparsity for Large Language Models"
Идея мощная: DeepSeek предлагают Engram - модуль памяти, который добавляет к LLM *lookup-память* с доступом за O(1).
Что это значит по-человечески:
вместо того чтобы каждый раз “вспоминать” шаблоны через слои трансформера, модель может моментально доставать нужные куски знаний из отдельной памяти.
Engram - это:
- хешированная N-gram память (modernized hashed N-gram embeddings)
- которая работает как быстрый словарь: *пришёл паттерн → достали представление → усилили модель*
Анализ показывает интересное:
🧠 Engram снижает необходимость ранним слоям заново реконструировать “статичные паттерны”
(частые формы, устойчивые токены, регулярные последовательности)
➡️ То есть ранние слои (слои трансформера, которые стоят ближе всего ко входу.) меньше заняты “механической работой”и больше ресурсов остаётся на главное.
В результате модель становится как будто глубже там, где надо:
- reasoning
- планирование
- длинные цепочки мыслей
Фактически это новый тип sparsity:
не только MoE/спарсные слои,
а спарсная память с быстрым доступом.
Это уже похоже на шаг к LLM, где часть знаний живёт как “кэш-память”, а не внутри весов.
Paper: https://github.com/deepseek-ai/Engram/blob/main/Engram_paper.pdf
https://www.youtube.com/watch?v=Hoz9HxHy_nQ
"Conditional Memory via Scalable Lookup: A New Axis of Sparsity for Large Language Models"
Идея мощная: DeepSeek предлагают Engram - модуль памяти, который добавляет к LLM *lookup-память* с доступом за O(1).
Что это значит по-человечески:
вместо того чтобы каждый раз “вспоминать” шаблоны через слои трансформера, модель может моментально доставать нужные куски знаний из отдельной памяти.
Engram - это:
- хешированная N-gram память (modernized hashed N-gram embeddings)
- которая работает как быстрый словарь: *пришёл паттерн → достали представление → усилили модель*
Анализ показывает интересное:
🧠 Engram снижает необходимость ранним слоям заново реконструировать “статичные паттерны”
(частые формы, устойчивые токены, регулярные последовательности)
➡️ То есть ранние слои (слои трансформера, которые стоят ближе всего ко входу.) меньше заняты “механической работой”и больше ресурсов остаётся на главное.
В результате модель становится как будто глубже там, где надо:
- reasoning
- планирование
- длинные цепочки мыслей
Фактически это новый тип sparsity:
не только MoE/спарсные слои,
а спарсная память с быстрым доступом.
Это уже похоже на шаг к LLM, где часть знаний живёт как “кэш-память”, а не внутри весов.
Paper: https://github.com/deepseek-ai/Engram/blob/main/Engram_paper.pdf
https://www.youtube.com/watch?v=Hoz9HxHy_nQ
❤5👍5🔥3
Forwarded from Machinelearning
Media is too big
VIEW IN TELEGRAM
Модель, ранее доступная лишь в среде Codex, теперь предлагается широкому кругу разработчиков. OpenAI позиционирует версию 5.2 как инструмент для глубокого рефакторинга, написания сложной функциональности и аудита безопасности.
Модель поддерживает мультимодальный ввод и предлагает гибкую настройку глубины рассуждений — от низкого до очень высокого уровня.
За повышенную производительность придется платить: стоимость токенов выросла до $1.75 за миллион на вход и $14 на выход. Поддержка новой модели уже появилась в Cursor и Windsurf.
OpenAI Developers в сети X
Майк Кригер оставляет пост директора по продукту, чтобы сосредоточиться на создании новых инструментов в паре с Беном Манном. Руководство основной продуктовой стратегией переходит к Ами Вора, присоединившейся к компании в конце 2025 года; она возглавит Labs совместно с техническим директором Рахулом Патилом.
Подразделение зарекомендовало себя как генератор хитов Anthropic. Именно здесь родился Claude Code, который всего за 6 месяцев превратился в продукт с миллиардной выручкой и был разработан стандарт MCP, ставший отраслевым эталоном со 100 млн. загрузок ежемесячно.
Президент компании Даниэла Амодей говорит, что формат лаборатории позволяет действовать экстремально быстро: например, Cowork был создан с нуля именно в Labs всего за полторы недели.
anthropic.com
GLM-Image стала важной вехой в технологической независимости КНР. Это первая модель, которая обучалась исключительно на китайском стеке - серверах Huawei Ascend Atlas 800T A2 и фреймворке MindSpore, без использования ускорителей NVIDIA.
Под капотом гибрид из 9-миллиардного авторегрессионного трансформера и 7-миллиардного диффузионного декодера на базе DiT. Разработчики утверждают, что такая связка превосходит конкурентов в рендеринге текста и создания инфографики.
API модели предлагается по цене примерно 1,5 цента за изображение, а веса выложены на HuggingFace и ModelScope.
z.ai
Google обновила свою видеомодель Veo до версии 3.1, добавив возможность генерации роликов с соотношением сторон 9:16, инструменты для апскейлинга до 4K и переработку функции референса по изображению.
3.1 лучше удерживает визуальную консистентность персонажей и окружения между сценами и точнее следует коротким промптам.
Новые возможности уже доступны в приложении Gemini, AI Studio и на Vertex AI.
blog.google
Госпроект Сеула стоимостью $6,9 млрд, призванный избавить страну от технологической зависимости от США и КНР, оказался в центре скандала: ключевые участники использовали опен-сорс решения китайских конкурентов.
Проверка показала, что 3 из 5 финалистов конкурса, компании Naver Cloud, SK Telecom и стартап Upstage заимствовали компоненты у Alibaba, DeepSeek и Zhipu AI. В частности, выяснилось, что визуальный энкодер флагманской модели Naver HyperCLOVA X на 99,5% совпадает с архитектурой Qwen 2.5.
Разработчики оправдываются инженерной целесообразностью, утверждая, что заимствовали лишь вспомогательные модули и код инференса. Однако, использование компонентов с китайскими копирайтами в проекте, который финансируется государством, вызвало жесткую критику общественности и поставило под угрозу квалификацию участников.
wsj.com
@ai_machinelearning_big_data
#news #ai #ml
Please open Telegram to view this post
VIEW IN TELEGRAM
❤4👍1🔥1
🧠 Почему современные LLM (скорее всего) не могут быть «сознательными» - строгий аргумент
Вышла работа, которая очень трезво разбирает популярный вопрос:
могут ли LLM обладать сознанием?
Автор утверждает: есть научная причина, почему сегодняшние большие языковые модели *не* сознательны - и аргумент построен не на мнениях, а на критериях научности.
Критерии теории сознания:
✅ falsifiable - теорию можно (в принципе) опровергнуть
✅ non-trivial - теория не должна “назначать сознание” почти всему подряд
И вот ключевой вывод статьи:
многие известные теории сознания не проходят эти критерии.
Главная мысль:
по одним только ответам модели нельзя доказать сознание - потому что ответы можно полностью скопировать.
Автор строит “цепочку подстановок”:
LLM → простая feedforward-сеть → lookup table
(таблица «вопрос-ответ», просто хранилище пар)
Все три системы дают одинаковые ответы.
Но lookup table очевидно не сознателен - это просто сохранённые пары.
А значит:
если теория считает LLM сознательной из-за ответов,
она обязана признать сознательной и lookup table,
а это делает теорию тривиальной и бессмысленной.
Если же теория пытается “спастись” внутренним устройством модели,
подстановки сохраняют те же ответы, но ломают предсказания теории -
то есть теорию можно опровергнуть.
Отсюда сильный вывод:
📌 нет серьёзной, проверяемой теории, которая могла бы назвать
статичные, развернутые LLM сознательными.
Что может быть важным отличием?
Автор указывает на continual learning:
когда система реально меняется от опыта и несёт контекст внутри себя.
У людей мозгу не нужно “вставлять весь чат заново” каждый раз - контекст хранится внутри.
У LLM без continual learning этого свойства нет.
Самое интересное: работа превращает вопрос «ChatGPT сознателен?» в конкретный стресс-тест
и даёт чеклист - что будущие заявления про conscious AI обязаны объяснить.
web3.arxiv.org/pdf/2512.12802
Вышла работа, которая очень трезво разбирает популярный вопрос:
могут ли LLM обладать сознанием?
Автор утверждает: есть научная причина, почему сегодняшние большие языковые модели *не* сознательны - и аргумент построен не на мнениях, а на критериях научности.
Критерии теории сознания:
✅ falsifiable - теорию можно (в принципе) опровергнуть
✅ non-trivial - теория не должна “назначать сознание” почти всему подряд
И вот ключевой вывод статьи:
многие известные теории сознания не проходят эти критерии.
Главная мысль:
по одним только ответам модели нельзя доказать сознание - потому что ответы можно полностью скопировать.
Автор строит “цепочку подстановок”:
LLM → простая feedforward-сеть → lookup table
(таблица «вопрос-ответ», просто хранилище пар)
Все три системы дают одинаковые ответы.
Но lookup table очевидно не сознателен - это просто сохранённые пары.
А значит:
если теория считает LLM сознательной из-за ответов,
она обязана признать сознательной и lookup table,
а это делает теорию тривиальной и бессмысленной.
Если же теория пытается “спастись” внутренним устройством модели,
подстановки сохраняют те же ответы, но ломают предсказания теории -
то есть теорию можно опровергнуть.
Отсюда сильный вывод:
📌 нет серьёзной, проверяемой теории, которая могла бы назвать
статичные, развернутые LLM сознательными.
Что может быть важным отличием?
Автор указывает на continual learning:
когда система реально меняется от опыта и несёт контекст внутри себя.
У людей мозгу не нужно “вставлять весь чат заново” каждый раз - контекст хранится внутри.
У LLM без continual learning этого свойства нет.
Самое интересное: работа превращает вопрос «ChatGPT сознателен?» в конкретный стресс-тест
и даёт чеклист - что будущие заявления про conscious AI обязаны объяснить.
web3.arxiv.org/pdf/2512.12802
❤4👍3👎2😘2