Новая модель генерации изображений от OpenAI выглядит потрясно.
Больше всего удивляет не качество само по себе, а уровень сложности, который она тянет.
Такое ощущение, что может обрабатывать в разы больше деталей и сцен, при этом почти не теряя в скорости.
Промпт незамысловатый - сгенерируй на картинку на русском, сколько ошибок найдете ?)
@ai_machinelearning_big_data
Больше всего удивляет не качество само по себе, а уровень сложности, который она тянет.
Такое ощущение, что может обрабатывать в разы больше деталей и сцен, при этом почти не теряя в скорости.
@ai_machinelearning_big_data
🤩107❤47👍32👏28🔥21🤔12🐳2🗿1
HeyGen выложила проект HyperFrames, который рендерит HTML-композиции в видеофайлы и ориентирован на ИИ-агентов: если модель умеет писать HTML и CSS, она теперь умеет собирать видео.
HeyGen - популярная ИИ-платформа, которая специализируется на создании видеороликов с использованием аватаров и синтеза голоса.
Проект позиционируется как мост между генеративным ИИ и веб-разработкой. Видеопроизводство становится таким же воспроизводимым, как деплой фронтенда, и теперь не требует ни специального софта, ни облачных сервисов.
Композиция в HyperFrames - это обычный HTML-файл с data-атрибутами. Без React и без проприетарных DSL.
Анимации можно писать на GSAP, векторную графику подключать через Lottie, 3D-сцены - через WebGL и Three.js. Паттерн Frame Adapter позволяет подключить любой анимационный рантайм на выбор.
Рендеринг выполняется локально через Puppeteer и FFmpeg с детерминированным результатом на выходе: одинаковый вход даёт идентичный выход.
CLI по умолчанию неинтерактивный - команды рассчитаны на запуск агентом, а не человеком.
Вместе с фреймворком HeyGen поставляет skills для Claude Code, Cursor, Gemini CLI и Codex, которые регистрируются в агенте как slash-команды.
Из требований - Node.js 22+ и FFmpeg.
В каталоге есть готовые блоки и компонены: шейдерные переходы, оверлеи для соцсетей, анимированные графики, кинематографические эффекты.
@ai_machinelearning_big_data
#AI #ML #Framework #HyperFrames #HeyGen
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
🤩103👏24👨💻24❤14🔥8🎉8
Компания представила 2 новых автономных агента в Gemini API - Deep Research и Deep Research Max. Оба построены на Gemini 3.1 Pro и доступны через Interactions API.
Главное изменение по сравнению с декабрьским превью - поддержка MCP: теперь агент умеет выходить за пределы открытого веба и работать с закрытыми корпоративными источниками данных.
Типичный сценарий: асинхронные фоновые процессы, например ночной cron-job, готовящий аналитикам к утру набор подробных аналитических отчётов.
По внутренним замерам Google, Max консультируется с заметно большим числом источников и точнее взвешивает противоречивые свидетельства, чем декабрьская версия. Все отчёты полностью сопровождаются ссылками (от документов SEC до открытых рецензируемых журналов).
Инструменты агента можно включать одновременно: Google Search, URL Context, Code Execution, File Search и произвольные удалённые MCP-серверы. Веб при желании отключается (тогда поиск идёт только по пользовательским данным). В качестве опорных данных принимаются PDF, CSV, изображения, аудио и видео.
Отдельное новшество - нативная генерация графиков и инфографики прямо в теле отчёта через HTML или Nano Banana, без внешних библиотек.
Для интерактивных интерфейсов предусмотрен стриминг промежуточных рассуждений и результатов в реальном времени.
Появился и режим совместного планирования: план исследования можно просмотреть и скорректировать до того, как агент начнёт его выполнять.
Deep Research и Deep Research Max доступны в режиме public preview на платных тарифах Gemini API.
В ближайшее время оба агента появятся в Google Cloud для корпоративных клиентов.
@ai_machinelearning_big_data
#news #ai #ml
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
❤33👍20🔥12👏3
Media is too big
VIEW IN TELEGRAM
Новая модель работает как полноценный графический движок: позволяет итеративно редактировать визуал через диалог, удерживает контекст предыдущих шагов и точечно меняет детали без полной перегенерации кадра.
Обновление принесло два режима. Instant ориентирован на скорость отклика, Thinking работает медленнее, так как сначала выстраивает логику сцены. Images 2.0 поддерживает разрешения до 2K, соотношения сторон от 3:1 до 1:3 и выдаёт до 8 вариантов за прогон.
Базовые функции открыты всем пользователям ChatGPT и по API. Thinking доступен на тарифах Plus и Pro.
openai.com
Регистрация новых пользователей в тарифах Pro, Pro+ и Student приостановлена - для подключения теперь доступен только базовый Copilot Free. Действующим подписчикам урезали доступ к флагманским моделям: семейство Claude Opus убрали из Pro, а в Pro+ оставили только Opus 4.7.
Лимиты теперь рассчитываются для каждой сессии и недели по формуле "потреблённые токены, умноженные на коэффициент модели". При исчерпании лимита токенов система принудительно переведёт пользователя на базовую модель Auto до конца расчётного периода.
Плагины для VS Code и Copilot CLI заранее предупреждают о приближении к порогу отключения. Несогласные с новыми условиями могут отменить подписку и запросить полный возврат средств за апрель до 20 мая.
github.blog
Команду ведущих исследователей и инженеров лично курируют сооснователь Google Сергей Брин и CTO DeepMind. Задача - радикально улучшить способности моделей к генерации сложного кода и созданию автономных ИИ-агентов. Решение принято из-за отставания от Anthropic: там ИИ пишет почти 100% их внутреннего кода, тогда как в Google - около 50%.
Фокус сместился с внешних коммерческих API на закрытые решения, которые целенаправленно обучаются на специфической кодовой базе Google. Сотрудников обязали активнее применять корпоративного ассистента Jetski, внедрив метрики отслеживания его использования.
Цель - достичь эффекта "взлёта ИИ", при котором агенты смогут самостоятельно проводить эксперименты, писать софт и автоматизировать рутинную работу по созданию следующих поколений моделей.
theinformation.com
Стартап Миры Мурати продолжает терять кадры. Империя Марка Цукерберга наняла ещё троих специалистов TML, включая двух сооснователей - Марка Джена и Инхай Лу. Всего из TML к Цукербергу уже перешли семь человек из команды основателей, включая разработчика флагманского продукта Tinker Джошуа Гросса.
Ситуация парадоксальная: несмотря на потерю инженерного костяка, TML продолжает привлекать сильных исследователей, а текущий технический директор Сумит Чинтала ранее перешёл к Мурати именно от Цукерберга.
Тем не менее, уход специалистов, отвечающих за превращение исследований в готовые продукты, наносит стартапу ощутимый удар. TML делает ставку на академический вес, а авторы Llama планомерно консолидируют инженерную экспертизу.
businessinsider.com
Эмад Мостак анонсировал первый продукт своего стартапа Intelligent Internet. Инструмент Logos - это система логического вывода, которая поможет декомпозировать сложные научные проблемы до уровня фундаментальных правил, делая каждый шаг доказательства доступным для публичной верификации.
Пока Logos тестируется на задачах из физики, но в будущем обещают добавить поддержку математики, биологии и экономики.
В первой демонстрации на примере теории относительности алгоритм показал, что существование фиксированной максимальной скорости можно вывести, опираясь только на базовый принцип относительности, без условия о постоянстве скорости света.
ii.inc
@ai_machinelearning_big_data
#news #ai #ml
Please open Telegram to view this post
VIEW IN TELEGRAM
👍71❤24🔥10❤🔥3
Anthropic убрала Claude Code из описания подписки Pro на странице тарифов.
Пользователи заметили это в 21 апреля, и уже через несколько часов компания объяснила, что речь идёт об эксперименте на небольшой группе новых пользователей, а не о массовом изменении плана.
Напротив Claude Code в колонке Pro теперь стоит крестик вместо галочки, а фраза о том, что инструмент входит в тариф, исчезла. При этом страница Claude Code и CLI-клиент по-прежнему показывают доступ для Pro, то есть правки внесены не везде, что и породило волнения в сети и путаницу.
Глава отдела развития Anthropic Амол Авасаре уточнил в X, что тест затрагивает около 2% новых регистраций и не касается действующих подписчиков Pro и Max.
По его словам, за год с запуска Max характер использования подписок изменился радикально: Claude Code встроили в Max, и он взлетел после релиза Opus 4, появился Cowork, а длительные асинхронные агенты стали повседневным сценарием. Под такую нагрузку текущие тарифы изначально не проектировались.
Anthropic уже несколько месяцев подряд закручивает гайки действуя по аналогии с тем, как энергокомпании снижают нагрузку на сеть. Причина банальна: стоимость подписки кратно ниже рыночной цены реально расходуемых токенов (по оценкам - иногда в 10 и более раз). С тем же дисбалансом уже столкнулись GitHub и Google.
На Reddit и в соцсетях подписчики восприняли эксперимент болезненно. Главная претензия, впрочем, не к самому изменению, а к коммуникации: правки на странице тарифов увидели все, хотя тест должен был затронуть лишь 2% пользователей.
Авасаре пообещал, что если эксперимент приведёт к пересмотру подписок для действующих клиентов, их уведомят заранее, "не скриншотом в X или на Reddit" (с).
Это сообщение он, впрочем, опубликовал именно в X.
@ai_machinelearning_big_data
#news #ai #ml
Please open Telegram to view this post
VIEW IN TELEGRAM
🤔70🤬23👍18❤13😢10🔥3💔3😁1🌭1
Институт Аллена выпустил BAR - рецепт посттрейна, в котором доменные эксперты обучаются по отдельности, а затем собираются в единую MoE-модель через обучаемый роутер.
Метод снимает давнюю проблему: как добавить модели новый навык, не переобучая её целиком и не разрушая то, что она уже умела.
Замена код-эксперта на версию, обученную на более качественных данных с RL, даёт +16.5 пунктов на кодинге при почти нулевом влиянии на другие домены. Добавление RL к существующему math-эксперту - +13 пунктов.
Стоимость обновления одного домена масштабируется линейно, а не квадратично, как в монолитном пайплайне, где любое улучшение требует прогона всех доменов заново
Основа BAR - прогрессивное размораживание общих параметров по стадиям. На mid-training они остаются заморожены, а на этапе SFT размораживаются эмбеддинги и хэд: без этого эксперт не умеет вводить новые специальные токены (например, для вызова функций).
На RLVR размораживается всё, включая внимание. Каждый эксперт при этом учится на смеси доменных и общих SFT-данных: чистый доменный SFT ломает следование инструкциям и общие знания.
После обучения эксперты сливаются простым усреднением разошедшихся общих параметров, а роутер дообучается на стратифицированной 5%-й выборке SFT-данных.
Тестовая модель BAR-5x7B на основе Olmo 2 7B с экспертами по математике, коду, tool use и безопасности набирает 49.1 балла против 47.8 у монолитного переобучения на стадии посттрейна и 46.7 у BTX, где эксперты обучаются как полностью независимые плотные модели.
Ai2 выложил полный набор чекпоинтов, на которых валидировался метод: исходную 7B-модель как точку старта, базовый двухэкспертный MoE, а также промежуточные и финальные версии доменных экспертов - по математике и программированию в двух вариантах (после SFT и после SFT+RLVR), плюс экспертов по tool-use и безопасности, обученных только через SFT. Завершает набор итоговая пятиэкспертная MoE-модель с обученным роутером, объединяющая все домены.
@ai_machinelearning_big_data
#AI #ML #LLM #Train #BAR #Ai2
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥58🤓32👍13👏12❤8💯5😁1
Команда Qwen снова любопытный показала фокус.
Их свежая модель Qwen3.6-27B это плотная, открытая и, что важнее, наглая. Она обгоняет собственного старшего брата Qwen3.5-397B-A17B почти во всех серьёзных бенчмарках по кодингу.
То есть модель в четырнадцать раз меньше по объёму бьёт флагмана. Вдумайтесь в эту арифметику, а потом посмотрите, сколько ваш ноутбук умеет держать в памяти.
Qwen3.6-27B заточена под агентный кодинг, то есть под сценарии, где модель не просто дописывает функцию, а сама планирует шаги, ходит по проекту, чинит баги и доводит задачу до рабочего состояния.
Плюс к этому вменяемое рассуждение в тексте и мультимодалке, два режима работы (с размышлением и без) и лицензия Apache 2.0. Никаких корпоративных оков, берёшь и пилишь своё.
Самое сочное в этой истории то, что локальный энтузиаст с одной приличной видеокартой теперь получает инструмент уровня того, за что ещё год назад просили API-ключ и подписку.
Blog: https://qwen.ai/blog?id=qwen3.6-27b
Qwen Studio: https://chat.qwen.ai/?models=qwen3.6-27b
Github: https://github.com/QwenLM/Qwen3.6
Hugging Face:
https://huggingface.co/Qwen/Qwen3.6-27B
https://huggingface.co/Qwen/Qwen3.6-27B-FP8
ModelScope:
https://modelscope.cn/models/Qwen/Qwen3.6-27B
https://modelscope.cn/models/Qwen/Qwen3.6-27B-FP8
@ai_machinelearning_big_data
#qwen
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👏126❤125🔥33🏆28👍14😁4🤩2
У WildDet3D от Института Аллена появился сосед по задаче: Reality Labs корпорации Марка Цукерберга опубликовала проект с той же целью - перевести 2D-детекции в 3D, но с иным профилем возможностей и открытости.
Boxer - более узкий, но геометрически более строгий инструмент для indoor-сценариев с трекингом и фузией.
Пайплайн трехступенчатый:
В отличие от WildDet3D, Boxer работает с видеопоследовательностями: ему нужны 6-DoF позы каждого кадра, гравитация и калибровка.
Взамен он дает то, чего у WildDet3D нет: согласованные сценовые 3D-боксы на уровне всей сцены и онлайн-трекинг с сохранением идентичности объектов.
Boxer поставляется как inference-решение: авторы не планируют выкладывать код обучения и оценки, объясняя это нежеланием тянуть долгосрочную поддержку.
В репозитории - только скрипты запуска и загрузчики датасетов Project Aria (Gen 1 и 2), CA-1M, SUN-RGBD и ScanNet.
Boxer запускается на macOS и Linux. Windows официально не поддерживается
@ai_machinelearning_big_data
#AI #ML #CV #Detection #Boxer #RealityLabs
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
🤔102🆒25👍22👌17❤13🔥5👏5
Media is too big
VIEW IN TELEGRAM
Google и DeepMind разделили новую линейку тензорных процессоров на 2 чипа: TPU 8t для обучения и TPU 8i для инференса. Оба работают в связке с Arm-процессорами Google Axion. Причина разделения - рост агентных нагрузок, при которых универсальная архитектура проигрывает специализированной.
Суперпод TPU 8t содержит 9600 чипов, 2 ПБ HBM и выдаёт 121 экзафлопс пиковой производительности. Оптическая коммутация изолирует сбойные узлы без остановки кластера и держит goodput выше 97%.
TPU 8i заточен под инференс MoE-моделей с низкой задержкой. На борту 288 ГБ HBM и утроенный объём накристальной SRAM (384 МБ). Этого хватает, чтобы активный контекст модели лежал прямо на чипе, без обращений к внешней памяти. Новая топология межсоединений и жидкостное охлаждение дают 2х прирост энергоэффективности к прошлому поколению.
blog.google
Anthropic проверяет сообщение о несанкционированном доступе к Mythos через стороннего подрядчика. Доказательств того, что доступ распространился за пределы вендора, у компании пока нет. Триггером расследования стала публикация Bloomberg о том, что несколько человек делились доступом к модели.
Сообщество кибербезопасности оценивает Mythos двойственно: одни опасаются, что неконтролируемое распространение модели запустит волну атак, другие рассчитывают, что ограниченные релизы как раз дадут фору защитникам.
Это второй инцидент с утечкой у Anthropic за месяц - ранее в сеть утекли исходники Claude Code.
wsj.com
Компания создаёт совместное предприятие с частными инвестфондами и вложит в него до $1.5 млрд, первый транш - $500 млн. Структура под рабочим названием DeployCo будет внедрять ИИ в портфельные компании фондов-партнёров. Контрольный пакет будет у OpenAI, руководить структурой будет бывший COO компании Брэд Лайткэп.
Цель DeployCo - сократить разрыв между тем, что умеют современные модели, и тем, что бизнес у себя внедрил. Сейчас узкое место в энтерпрайзе - не возможности моделей, а сложность их развёртывания на стороне заказчика. Собственный интегратор должен снять этот барьер и помочь OpenAI удерживать долю корпоративного рынка в конкуренции с Anthropic и другими игроками.
ft.com
Новый флагман обучили под долгие агентные сценарии с множеством вызовов внешних инструментов без потери контекста. На демо модель написала компилятор на Rust за 4.3 часа и собрала десктопный видеоредактор на 8000 строк за 11.5 часов.
Отдельно Xiaomi выделяет автоматизацию проектирования аналоговых микросхем: задачи, на которые у инженеров уходят дни, модель закрывает за час. По бенчмаркам самой Xiaomi, MiMo-V2.5-Pro расходует на 40–60% меньше токенов, чем Opus 4.6, Gemini 3.1 Pro и GPT-5.4 на сопоставимых задачах.
На период тестирования доступ открыт по API. Исходники всей серии MiMo-V2.5 обещают открыть в ближайшее время. Попробовать модель можно в веб-студии.
mimo.xiaomi.com
Стартап, основанный выходцами из индустрии беспилотных автомобилей, выпустил вторую версию своей модели мира. Odyssey-2 Max построена на авторегрессионном DiT, который предсказывает кадр за кадром и реагирует на пользовательский ввод в реальном времени.
По параметрам модель в 3 раза больше предыдущей версии, по объёму обучающих данных - в 10 раз. На VBench 2 новинка обошла NVIDIA Cosmos-Predict2.5-14B по точности физических симуляций.
Доступ - в закрытой бете для партнёров из робототехники, геймдева, оборонки и интерактивных систем.
odyssey.ml
@ai_machinelearning_big_data
#news #ai #ml
Please open Telegram to view this post
VIEW IN TELEGRAM
👍114🔥44❤27🤔13👏6⚡2🤩2
Агенты, которые управляют браузером или правят код, решают каждую задачу с нуля. Провалился - забыл. Получилось - тоже забыл. Google Research предложил фреймворк ReasoningBank, который даёт агенту память и позволяет учиться на ошибках, а не только на победах.
Предшественники (Synapse, AWM) запоминали только успешные прогоны. Когда им скормили провальные - стало хуже: AWM потерял 2,2% точности. ReasoningBank, в свою очередь, из успешной траектории он берёт валидированную стратегию, а из провальной - урок, что пошло не так.
Агент получает задачу "найди дату первой покупки". Без системы памяти он заходит в "Последние заказы", видит свежий заказ и выдаёт неверный ответ.
С ReasoningBank - вспоминает стратегию из прошлого опыта: при поиске в истории проверяй все страницы, а не только первую. Переходит в полный список заказов, листает до конца и находит правильную дату.
Другой пример: задача "купи самый топовый товар из категории мужской обуви". Без памяти агент тратит 29 шагов, потому что не может найти фильтр по категории, а с памятью только 10, так как стратегия фильтрации уже в запасе.
После каждой задачи та же языковая модель оценивает, удалась попытка или нет. Из траектории извлекаются записи (заголовок, описание, содержание), намеренно абстрагированные от конкретного сайта.
Перед новой задачей агент ищет похожие записи через эмбеддинг-поиск и получает их как часть промпта.
Это метод (Memory-aware Test-Time Scaling) масштабирования вычислений на инференсе с учётом памяти.
Агент генерирует несколько попыток для одной задачи, сравнивает их между собой и выделяет устойчивые паттерны.
Получается цикл: хорошая память направляет попытки в перспективные области, а разнообразные попытки обогащают память.
На WebArena ReasoningBank поднимает процент успеха на 8,3 п.п. с Gemini-2.5-flash и на 7,2 п.п. с Gemini-2.5-pro, сокращая число шагов до 16%.
На SWE-Bench-Verified resolve rate увеличился с 54% до 57,4%, при этом расход токенов больше всего на 4,3%.
Фреймворк работает и на маленьких моделях: на WebArena-Shopping даже Gemma-3-12B с ReasoningBank улучшает показатель с 17,1% до 24,1%.
@ai_machinelearning_big_data
#AI #ML #Memory #Agents #ReasoningBank #Google
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
1🤩108💯32🔥28❤24👍14🤓14👏8⚡1