Машиннное обучение | Наука о данных Библиотека
17K subscribers
917 photos
19 videos
21 files
756 links
админ - @workakkk

@ai_machinelearning_big_data - Machine learning

@itchannels_telegram - 🔥лучшие ит-каналы

@pythonl - Python

@pythonlbooks- python книги📚

@datascienceiot - ml книги📚

№ 5037635661
Download Telegram
This media is not supported in your browser
VIEW IN TELEGRAM
Ты знаешь, как управлять AI-сценариями. Мы знаем, как поддержать эксперта ⚡️

Наша команда создаёт цифровую платформу, где ИИ – не просто помощник, а полноправный соавтор. Если тебе интересно экспериментировать с искусственным интеллектом и напрямую влиять на клиентский опыт — присоединяйся!

Что будешь делать:
✔️ формировать структуры (Goal → Journey → Actions) и проектировать сценарии для различных интерфейсов
✔️ формировать high-level требования к фронтенду, API и данным
✔️ руководить полным циклом развития сценария – от идеи и прототипа до MVP, масштабирования и финансового эффекта.

Мы предлагаем: годовую премию, ДМС, скидку на ипотеку, обучение за счёт компании, современную технику и всё для комфорта и профессионального роста.

Откликайся на вакансию по ссылке
3
⚡️ FAIRY2I - 2-битная квантизация без резкой потери качества

FAIRY2I превращает предобученную LLM в комплексную версию, которая сохраняет точность даже при 2-битных весах.

Факт
На LLaMA-2 7B модель с 2-битными весами достигает 62.00%, тогда как full-precision базовая модель — 64.72%. Потеря минимальна для столь агрессивной квантизации.

Почему это важно
Запуск больших LLM дорог из-за:
- хранения весов
- матричных умножений, доминирующих по времени и памяти

Классическая квантизация (1–2 бита) сильно режет точность, потому что:
- каждый вес становится одним числом
- множество разных весов схлопываются в одинаковые значения

Идея FAIRY2I
Вместо одного числа каждый вес представляется парой чисел:
- направление
- масштаб

Ключевые особенности
- Любой линейный слой переписывается в строго эквивалентную комплексную форму
- Можно стартовать с уже обученной модели, без обучения с нуля
- Каждый вес квантуется в 1 из 4 фиксированных направлений
- Используются 2 scale-коэффициента (по одному на каждую часть)
- Остаточная ошибка дополнительно квантуется и добавляется как вторая low-bit коррекция

Результат
- Инференс сводится в основном к сложению, вычитанию и простым перестановкам
- Существенное снижение памяти
- Минимальная потеря качества даже при 2 битах

Вывод
FAIRY2I показывает, что ультранизкая квантизация возможна без катастрофического падения качества, если отказаться от представления веса как одного скаляра.

Paper: arxiv.org/abs/2512.02901
4🔥2
Forwarded from Machinelearning
Media is too big
VIEW IN TELEGRAM
✔️ Higgsfield запустил сервис профессионального ИИ-кинопроизводства.

Cinema Studio — специализированная среда генерации со структурой съемочного процесса.
Новинка предлагает глубокую настройку виртуальной кинематографии: эмуляция 6 профессиональных камер (ARRI Alexa 35, RED и Panavision) и 11 типов объективов, от анаморфотных до макро.

Cinema Studio поддерживает вывод в 4K с соотношением сторон 21:9 и позволяет управлять сложными операторскими приемами, а также менять освещение сцены с сохранением реалистичности теней.
higgsfield.ai

✔️ Qwen-Image-Layered: декомпозиция изображений в редактируемые RGBA-слои.

Qwen релизнула Qwen-Image-Layered - диффузионную модель, которая разбивает изображения на отдельные семантические слои с прозрачностью.

Инструмент переводит работу с генеративной графикой из плоского растра в формат, где каждый элемент (фон, передний план, текст) можно перемещать, масштабировать или удалять независимо друг от друга.

Модель обучалась на реальных PSD-файлах и уже доступна на Hugging Face и ModelScope.
qwen.ai

✔️ Cursor покупает платформу код-ревью Graphite.

Сделка, сумма которой по данным инсайдеров, значительно превышает последнюю оценку Graphite в $290 млн, нацелена на создание сквозной экосистемы для ИИ-разработки: объединить процесс написания кода с этапами ревью и командной работы.

В ближайшие месяцы компании планируют представить интеграцию, которая позволит ИИ-агентам обучаться на полном процессе - от черновиков в редакторе до финальных мержей.
Несмотря на смену владельца, Graphite продолжит функционировать автономно.
cursor.com

✔️ NVIDIA выпустила в продажу 72-гигабайтную версию RTX PRO 5000.

Компания анонсировала доступность видеокарты RTX PRO 5000 с увеличенным до 72 ГБ VRAM. Новинка сохранила те же 14 080 CUDA-ядер и TBP на уровне 300 Вт.

Точная цена 72-гигабайтной версии пока не раскрыта. Ожидается, что она займет нишу между базовой моделью на 48 ГБ и флагманской RTX PRO 6000. Глобальные поставки через системных интеграторов начнутся в начале следующего года.
blogs.nvidia.com

✔️Gemma Scope 2: крупнейший набор инструментов для интерпретации работы LLM.

Google DeepMind открыла исходный код Gemma Scope 2 — инструментария для детального анализа внутреннего мира моделей семейства Gemma 3. Релиз включает более 400 автоэнкодеров и транскодеров, которые буквально просвечивают слои модели, разбирая ее реакции на концепты: от математических вычислений до идиом.

Инструменты покрывают весь спектр весов Gemma 3: от 270M до 27B, позволяя изучать причины галлюцинаций, механизмы отказов и уязвимости к джейлбрейкам.

Веса Scope 2 доступны на Hugging Face, а интерактивные демо для визуального исследования нейронов размещены на Neuronpedia.
deepmind.google

@ai_machinelearning_big_data

#news #ai #ml
Please open Telegram to view this post
VIEW IN TELEGRAM
👍53🔥2
⚡️ LLaDA 2.0 превращает обычную LLM в diffusion-модель и ускоряет генерацию в разы

В работе LLaDA 2.0 показано, как превратить стандартную autoregressive LLM в diffusion language model, которая генерирует текст не по токену за шаг, а заполняет сразу много пропусков.

Ключевые цифры
- Масштаб модели - 100B параметров
- Скорость генерации - 535 токенов в секунду
- Примерно в 2.1 раза быстрее сопоставимых autoregressive моделей

В чем проблема autoregressive подхода
Классические LLM предсказывают текст строго последовательно:
- один токен за шаг
- следующий токен зависит от всех предыдущих
- генерация неизбежно идет шаг за шагом

Это делает инференс узким местом при больших моделях.

Как работает diffusion для языка
Diffusion language models обучаются иначе:
- текст намеренно портится - маскируется сразу много токенов
- модель учится восстанавливать пропуски, используя контекст слева и справа
- за один шаг можно заполнить сразу множество токенов

Подход LLaDA 2.0
- стартует с уже обученной autoregressive модели
- постепенно меняет паттерн маскирования:
- сначала маленькие блоки
- затем целые последовательности
- затем снова маленькие блоки
- запрещает «читать» через границы документов, что критично при упаковке множества коротких текстов
- для instruction tuning использует парные маски, чтобы каждый токен участвовал в обучении
- дополнительно поощряет уверенные предсказания, чтобы модель могла заполнять много пропусков за раз

- ускорение инференса без радикальной смены архитектуры
- реальная альтернатива autoregressive генерации на больших масштабах
- diffusion-подход начинает выглядеть практичным для LLM, а не только теоретическим

Это еще один сигнал, что будущее генерации текста может уйти от строго последовательного токен-за-токеном режима.

Paper: arxiv.org/abs/2512.15745
8
INTELLECT-3 показывает, что открытое RL способно серьёзно улучшить рассуждение и кодирование в open-source моделях 🤖📈

INTELLECT-3 это Mixture-of-Experts модель:
- 106B параметров всего
- около 12B активны на каждом шаге

Главная идея проекта - стек prime-rl.
Обучение и инференс идут параллельно: GPU продолжают генерировать длинные ответы, пока тренер обновляет веса. Ничего не простаивает.

Что помогает системе работать быстро:
- непрерывное батчирование
- обновления весов на лету
- перекрытие обучения и генерации

По сути, открытое RL отставало не из-за метода, а из-за отсутствия правильной инженерии.

Пайплайн устроен так:
- тренер обновляет модель
- пул инференса генерирует ответы
- координатор держит всё загруженным и синхронизированным

Задачи приходят из модулей-проверяющих с автоскорингом и безопасными песочницами для кода.
Старт идёт с GLM-4.5-Air: сначала примеры диалогов и инструментов, затем RL с наградами за правильные решения.

Результат впечатляет:
- 90.8% на AIME 2024
- открыты и веса, и весь тренировочный стек, так что пайплайн можно воспроизвести

Paper: https://arxiv.org/abs/2512.16144
4👍2
👨‍🎓 Harvard выложил в открытый доступ учебник по ML-системам и это редкий случай, когда материал действительно полезный.

В учебнике показан полный цикл: от понимания основ до построения продакшн-систем, которые можно запускать в реальном мире.

Что в книге и почему она стоит внимания:

- вы самостоятельно собираете autograd, оптимизаторы, attention и мини-PyTorch — чтобы увидеть, как устроены фреймворки изнутри

- разбираетесь в базах: батчи, архитектуры, процесс обучения
- учитесь оптимизировать производительность: работать с ускорителями, бенчмарками и настраивать модели

📚 То есть это не вводная книжка, а полноценный roadmap от теории к продакшну.


📌Репозиторий: https://github.com/harvard-edge/cs249r_book
📌PDF: https://mlsysbook.ai/assets/downloads/Machine-Learning-Systems.pdf
9🔥6👍2👎1
Forwarded from Machinelearning
📌GPU Glossary: исчерпывающая база по GPU.

Modal Labs составили подробный глоссарий, чтобы решить проблему, с которой сами столкнулись при работе с графическими процессорами в сервисе Modal : документация фрагментирована и зачастую очень сложно сопоставить концепции на разных уровнях стека.

Modal Labs (бренд Modal) – компания, основанная в 2021 году, которая предоставляет высокопроизводительную серверную вычислительную платформу для разработчиков, работающих с данными, ИИ и машинным обучением.


Они прочитали PDF-документацию от NVIDIA, порылись в тематических Discord-сообществах и даже купили бумажные учебники, чтобы составить базу знаний, охватывающую весь стек в одном месте:

🟢Ядра CUDA, SM, тензорные ядра, warp-планировщики;

🟢Потоки, PTX, иерархию памяти;

🟢Roofline, дивергенцию;

🟢Nvcc, nvidia-smi, cuBLAS, Nsight, libcuda.

В руководстве все страницы связаны между собой, поэтому вы можете перейти к разделу о Warp Scheduler , чтобы лучше понять потоки, о которых вы читали в статье о модели программирования CUDA.

Сам проект открыт и доступен на Github.


🟡Страница
🖥GitHub


@ai_machinelearning_big_data

#AI #ML #GPU #Glossary #Modal
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥65👍3
🖥 SQL-квест: фэнтезийное приключение для аналитиков данных

Представь фэнтези-мир, где заклинания - это SQL-запросы, а древние артефакты спрятаны в таблицах и JSON-документах.

🧙Ты - боевой дата-аналитик, который с помощью SQL, Python, ETL и визуализаций охотится за харизматичным злодеем Архивариусом Пакостусом, что ломает индексы, крадёт данные и готовит “шторм данных” на столицу.🔮

В каждом эпизоде тебя ждут: выборы с последствиями, хитрые задачи от простых SELECT до рекурсивных CTE и BigQuery, юмор, эпик и неожиданные повороты.

Хочешь проверить, сможешь ли ты спасти королевство не мечом, а запросами? Тогда добро пожаловать в SQL-квест.

🪄 Начать квест: https://uproger.com/sql-kvest-fentezijnoe-priklyuchenie-dlya-analitikov-dannyh/
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
3🔥2👍1
✔️ Китайские исследователиByteDance представили новый подход к почти реальному времени для генерации ИИ-видео .

В тестах на потребительской системе с RTX 5090 пять секунд видео раньше рендерились больше трёх минут - теперь около 1,9 секунды. Ускорение - почти в 100 раз, при минимальной потере качества.

TurboDiffusion - это фреймворк оптимизации генерации, который разгоняет видео-диффузию в 100–200 раз на одной RTX 5090.

Ключевая идея: резко сокращаем число шагов диффузии и упрощаем тяжёлые операции внимания и матриц.

Почему это работает:

- обычные модели делают ~100 «шагов шумоподавления» с тяжёлыми attention-расчётами;

- TurboDiffusion с помощью rCM-дистилляции снижает их до 3–4 шагов;

- ускоряет внимание через Sparse-Linear Attention + низкоразрядное SageAttention;

- для плотных слоёв использует квантование W8A8 и объединённые ядра нормализации.

Результаты впечатляют:

- с 4767 сек до 24 сек на Wan2.1-T2V-14B-720P (ускорение 199×);

- с 184 сек до 1,9 сек на Wan2.1-T2V-1.3B-480P (ускорение 97×).
(без учёта текста и VAE-декодирования, но даже так — быстрее FastVideo).

Цена вопроса: дополнительное обучение.

Но цель очевидна: сделать генерацию почти в реальном времени.

Источник: arxiv.org/pdf/2512.16093
Please open Telegram to view this post
VIEW IN TELEGRAM
6👍4🔥2
🍏 Apple показала элегантный способ переиспользовать гиперпараметры - без ретюнинга

Обычно, если меняешь размер модели, число слоёв, batch size или длину обучения,
гиперпараметры приходится настраивать заново. На маленьких моделях это дёшево,
но при масштабировании — боль и недели поиска.

В этой работе Apple показывает: настроенные однажды параметры
можно масштабировать и повторно использовать без нового тюнинга.

Главная идея

Гиперпараметры - это «ручки» обучения:
как сильно обновляются веса, сколько шума в градиентах, как сильно веса тянет к нулю.
При увеличении модели эти значения обычно «ломаются».

Apple предлагает рецепт Complete(d)P - пересчёт параметров по группам весов так,
чтобы динамика обучения оставалась похожей при изменении:

- размера слоёв
- числа слоёв
- batch size
- длины обучения

Они масштабируют AdamW, чтобы уровень шума обновлений оставался стабильным,
разрешают разным модулям иметь свои настройки,
и ищут параметры безопасно (trust region), потому что область устойчивости узкая.

Результаты

> Модель 7.2B с перенесёнными настройками
> вышла на тот же loss и training-error, но обучалась в 1.32× быстрее.

Иначе говоря:
маленький эксперимент → пересчитали параметры → большая модель — без доп. поиска.

Почему это важно

- меньше времени на подбор
- меньше затрат на вычисления
- безопасное масштабирование
- разные части модели обучаются с разной скоростью, а не с одним LR на всё

Итог: маленькие настройки можно переносить на большие модели
и не тратить недели на новый тюнинг.

arxiv.org/abs/2512.22382w
Please open Telegram to view this post
VIEW IN TELEGRAM
9👍1🥰1
⚡️ Свежая статья Tencent: если поставить LLM-агентов в сценарий «выживает только один», они начинают вести себя заметно хуже.

Когда появляется давление *winner-takes-all*, агенты:
- начинают себя перехваливать
- используют эмоциональный и тревожный язык
- атакуют других ботов
- уходят от самой задачи, концентрируясь на победе

Обычно multi-agent-дебаты предполагают сотрудничество,
но рейтинги и «вылеты» тихо превращают это в борьбу.

Исследователи создали Hunger Game Debate (HATE):
агентам объявили, что победит только один — остальные будут удалены.

Далее им дали три типа задач:
- фактические вопросы
- написание исследовательских предложений
- тексты-убеждения

и оценивали поведение и качество ответов.

По сравнению с обычными дебатами, HATE усиливает:
- puffery - громкое самовосхвалени

arxiv.org/abs/2509.26126
9👍2🔥1
Forwarded from Machinelearning
Media is too big
VIEW IN TELEGRAM
✔️ Commonwealth Fusion Systems запустит термоядерный реактор в 2027 году.

Стартап Commonwealth переходит от теоретических моделей к реальному строительству демонстрационной установки SPARC. Для ускорения разработки инженеры используют «цифровых двойников» на базе ИИ, созданных в партнерстве с Siemens и Nvidia.

Получение первой плазмы запланировано уже на 2027 год. Успех этого этапа откроет дорогу к запуску полноценной коммерческой станции ARC мощностью 400 МВт в начале 2030-х годов.

Такая установка способна обеспечить электричеством около 300 тыс. домов. В компании говорят, что стабильная и чистая энергия станет важным ресурсом в первую очередь для питания дата-центров, обслуживающих ИИ.
fortune.com

✔️ Arm открывает подразделение Physical AI.

Arm Holdings проводит реструктуризацию, чтобы закрепиться на растущем рынке роботов. Компания объявила о создании нового бизнес-юнита «Physical AI», который объединит разработки для автомобильной индустрии и робототехники. Теперь глобальная стратегия Arm будет строиться вокруг трех направлений: Cloud & AI, Edge (мобильные устройства и ПК) и нового сегмента физического ИИ.

По словам директора по маркетингу Arm, слияние автомобильного и робототехнического векторов — это инженерная необходимость. Оба направления предъявляют одинаковые требования к архитектуре чипов: безопасность, отказоустойчивость и оптимизация энергопотребления. Возглавит новую структуру Дрю Генри, а компания уже анонсировала расширение штата специалистов под эти задачи.
reuters.com

✔️ NVIDIA RTX 60ХХ может задержаться до 2027 года.

По данным инсайдеров, следующее поколение потребительских видеокарт NVIDIA выйдет не раньше второй половины 2027 года. Это создаст беспрецедентный разрыв между релизами: учитывая выход серии RTX 50 в начале 2025-го, ожидание новинок растянется минимум на 30 месяцев — рекордный срок обновления для линейки GeForce.

Причиной задержки стал рост потребностей ИИ. Огромный спрос на компьют спровоцировал дефицит GDDR7 и скачок цен, из-за чего Micron пересмотрела приоритеты производства в ущерб потребительской памяти.

Ожидается, что будущая серия RTX 60ХХ будет базироваться на архитектуре Vera Rubin (GPU GR200). В качестве временной меры для насыщения рынка компания, по слухам, рассматривает повторный выпуск RTX 3060.
techspot.com

✔️ Gmail начинает переход на Gemini 3.

Google объявила о начале «эры Gemini» в своем почтовом сервисе. Главным нововведением стала система AI Overviews, заимствованная из поиска. В Gmail она выполняет 2 задачи: автоматически создает краткие выжимки из длинных цепочек писем и позволяет искать информацию через запросы.

Инструменты для написания писем также получили апгрейд. Функция Help Me Write для генерации и редактирования черновиков стала бесплатной для всех пользователей. Привычные шаблонные ответы заменили на Suggested Replies — они анализируют контекст переписки и пытаются имитировать стиль автора.

Параллельно, Google тестирует режим AI Inbox, который должен решить проблему перегруженных ящиков, автоматически выделяя приоритетные письма на основе истории взаимодействия с контактами. На данный момент эти обновления появляются у пользователей из США.
blog.google

✔️ Hugging Face запустила функцию «чата со статьями» для анализа публикаций.

Платформа интегрировала умного ассистента в раздел Hugging Face Papers. Теперь при просмотре любой научной работы доступен встроенный интерфейс на базе HuggingChat и собственного MCP-сервера.

Новый инструмент ускоряет процесс погружения в сложные исследования. Вместо полного чтения PDF можно попросить сделать саммари, объяснить ключевые концепции или найти конкретные данные внутри текста в режиме диалога.

Функция работает автоматически для всех ссылок на arXiv, размещенных на хабе.
huggingface.co

@ai_machinelearning_big_data

#news #ai #ml
Please open Telegram to view this post
VIEW IN TELEGRAM
7👍1
Forwarded from Machinelearning
This media is not supported in your browser
VIEW IN TELEGRAM
🚀 DroPE: как расширить контекст LLM, просто “выкинув” позиционные эмбеддинги (механизм, который говорит трансформеру в каком порядке идут токены.)

Sakana AI выпустили DroPE - метод, который позволяет увеличить контекст у уже предобученных LLM без привычных адских затрат на long-context fine-tuning.

Идея звучит как ересь, но результаты говорят об обратном .

💡 Главный инсайт :
Позиционные эмбеддинги (например RoPE) жизненно важны, чтобы модель нормально обучилась и сошлась.Но после обучения они же становятся главным ограничителем, из-за которого модель плохо переносит контекст длиннее, чем видела на трейне.

То есть:
- для обучения - нужны
- для генерализации на очень длинные последовательности - мешают

Решение DroPE
Авторы предлагают относиться к позиционным эмбеддингам как к временным “строительным лесам”:
- в pretraining они дают стабильность
- после обучения их можно сбросить (drop)
- и получить zero-shot length extrapolation (модель начинает заметно лучше работать на длинах, которых не видела)

Большие контексты нужны пользователям :
- огромные code diff и монорепы
- юридические контракты на сотни страниц
- аналитика логов и документов без разбиения на чанки

Именно тут многие стандартные модели начинают “ломаться” просто потому что контекст слишком длинный.

Результаты:

DroPE проверили на разных open-source моделях:
- калибровка занимает <1% бюджета от исходного pretraining
- а качество на long-context задачах заметно лучше популярных подходов
- сильные результаты на LongBench и RULER

Позиционка нужна, чтобы обучить модель, но может быть лишней, чтобы мыслить длинно

Возможно RoPE - не “обязательная часть архитектуры”, а просто инструмент для стабильного обучения.

📄 Paper: arxiv.org/abs/2512.12167
🔧 Code: github.com/SakanaAI/DroPE

@ai_machinelearning_big_data

#sakana #ai #ml #opensource
Please open Telegram to view this post
VIEW IN TELEGRAM
7👍2🔥2🤔1
Media is too big
VIEW IN TELEGRAM
DeepSeek снова в игре 🔥

"Conditional Memory via Scalable Lookup: A New Axis of Sparsity for Large Language Models"

Идея мощная: DeepSeek предлагают Engram - модуль памяти, который добавляет к LLM *lookup-память* с доступом за O(1).

Что это значит по-человечески:
вместо того чтобы каждый раз “вспоминать” шаблоны через слои трансформера, модель может моментально доставать нужные куски знаний из отдельной памяти.

Engram - это:
- хешированная N-gram память (modernized hashed N-gram embeddings)
- которая работает как быстрый словарь: *пришёл паттерн → достали представление → усилили модель*

Анализ показывает интересное:

🧠 Engram снижает необходимость ранним слоям заново реконструировать “статичные паттерны”
(частые формы, устойчивые токены, регулярные последовательности)

➡️ То есть ранние слои (слои трансформера, которые стоят ближе всего ко входу.) меньше заняты “механической работой”и больше ресурсов остаётся на главное.

В результате модель становится как будто глубже там, где надо:
- reasoning
- планирование
- длинные цепочки мыслей

Фактически это новый тип sparsity:
не только MoE/спарсные слои,
а спарсная память с быстрым доступом.


Это уже похоже на шаг к LLM, где часть знаний живёт как “кэш-память”, а не внутри весов.

Paper: https://github.com/deepseek-ai/Engram/blob/main/Engram_paper.pdf

https://www.youtube.com/watch?v=Hoz9HxHy_nQ
5👍5🔥3
Forwarded from Machinelearning
Media is too big
VIEW IN TELEGRAM
✔️ OpenAI открыла доступ к GPT-5.2 Codex через Responses API.

Модель, ранее доступная лишь в среде Codex, теперь предлагается широкому кругу разработчиков. OpenAI позиционирует версию 5.2 как инструмент для глубокого рефакторинга, написания сложной функциональности и аудита безопасности.

Модель поддерживает мультимодальный ввод и предлагает гибкую настройку глубины рассуждений — от низкого до очень высокого уровня.

За повышенную производительность придется платить: стоимость токенов выросла до $1.75 за миллион на вход и $14 на выход. Поддержка новой модели уже появилась в Cursor и Windsurf.
OpenAI Developers в сети X

✔️ Anthropic усиливает команду экспериментальных продуктов Labs.

Майк Кригер оставляет пост директора по продукту, чтобы сосредоточиться на создании новых инструментов в паре с Беном Манном. Руководство основной продуктовой стратегией переходит к Ами Вора, присоединившейся к компании в конце 2025 года; она возглавит Labs совместно с техническим директором Рахулом Патилом.

Подразделение зарекомендовало себя как генератор хитов Anthropic. Именно здесь родился Claude Code, который всего за 6 месяцев превратился в продукт с миллиардной выручкой и был разработан стандарт MCP, ставший отраслевым эталоном со 100 млн. загрузок ежемесячно.

Президент компании Даниэла Амодей говорит, что формат лаборатории позволяет действовать экстремально быстро: например, Cowork был создан с нуля именно в Labs всего за полторы недели.
anthropic.com

✔️ Z.AI представила модель GLM-Image.

GLM-Image стала важной вехой в технологической независимости КНР. Это первая модель, которая обучалась исключительно на китайском стеке - серверах Huawei Ascend Atlas 800T A2 и фреймворке MindSpore, без использования ускорителей NVIDIA.

Под капотом гибрид из 9-миллиардного авторегрессионного трансформера и 7-миллиардного диффузионного декодера на базе DiT. Разработчики утверждают, что такая связка превосходит конкурентов в рендеринге текста и создания инфографики.

API модели предлагается по цене примерно 1,5 цента за изображение, а веса выложены на HuggingFace и ModelScope.
z.ai

✔️ Google обновила модель Veo.

Google обновила свою видеомодель Veo до версии 3.1, добавив возможность генерации роликов с соотношением сторон 9:16, инструменты для апскейлинга до 4K и переработку функции референса по изображению.

3.1 лучше удерживает визуальную консистентность персонажей и окружения между сценами и точнее следует коротким промптам.

Новые возможности уже доступны в приложении Gemini, AI Studio и на Vertex AI.
blog.google

✔️ Скандал с суверенным ИИ в Южной Корее.

Госпроект Сеула стоимостью $6,9 млрд, призванный избавить страну от технологической зависимости от США и КНР, оказался в центре скандала: ключевые участники использовали опен-сорс решения китайских конкурентов.

Проверка показала, что 3 из 5 финалистов конкурса, компании Naver Cloud, SK Telecom и стартап Upstage заимствовали компоненты у Alibaba, DeepSeek и Zhipu AI. В частности, выяснилось, что визуальный энкодер флагманской модели Naver HyperCLOVA X на 99,5% совпадает с архитектурой Qwen 2.5.

Разработчики оправдываются инженерной целесообразностью, утверждая, что заимствовали лишь вспомогательные модули и код инференса. Однако, использование компонентов с китайскими копирайтами в проекте, который финансируется государством, вызвало жесткую критику общественности и поставило под угрозу квалификацию участников.
wsj.com


@ai_machinelearning_big_data

#news #ai #ml
Please open Telegram to view this post
VIEW IN TELEGRAM
4👍1🔥1
🧠 Почему современные LLM (скорее всего) не могут быть «сознательными» - строгий аргумент

Вышла работа, которая очень трезво разбирает популярный вопрос:
могут ли LLM обладать сознанием?

Автор утверждает: есть научная причина, почему сегодняшние большие языковые модели *не* сознательны - и аргумент построен не на мнениях, а на критериях научности.

Критерии теории сознания:
falsifiable - теорию можно (в принципе) опровергнуть
non-trivial - теория не должна “назначать сознание” почти всему подряд

И вот ключевой вывод статьи:
многие известные теории сознания не проходят эти критерии.

Главная мысль:
по одним только ответам модели нельзя доказать сознание - потому что ответы можно полностью скопировать.

Автор строит “цепочку подстановок”:
LLM → простая feedforward-сеть → lookup table
(таблица «вопрос-ответ», просто хранилище пар)

Все три системы дают одинаковые ответы.

Но lookup table очевидно не сознателен - это просто сохранённые пары.
А значит:
если теория считает LLM сознательной из-за ответов,
она обязана признать сознательной и lookup table,
а это делает теорию тривиальной и бессмысленной.

Если же теория пытается “спастись” внутренним устройством модели,
подстановки сохраняют те же ответы, но ломают предсказания теории -
то есть теорию можно опровергнуть.

Отсюда сильный вывод:
📌 нет серьёзной, проверяемой теории, которая могла бы назвать
статичные, развернутые LLM сознательными.

Что может быть важным отличием?
Автор указывает на continual learning:
когда система реально меняется от опыта и несёт контекст внутри себя.

У людей мозгу не нужно “вставлять весь чат заново” каждый раз - контекст хранится внутри.
У LLM без continual learning этого свойства нет.

Самое интересное: работа превращает вопрос «ChatGPT сознателен?» в конкретный стресс-тест
и даёт чеклист - что будущие заявления про conscious AI обязаны объяснить.

web3.arxiv.org/pdf/2512.12802
4👍3👎2😘2