Python RU

✔️

Эффективность локального ИИ выросла в 5.3 раза за два года.

Группа Hazy Research провела исследование, доказывающее рост жизнеспособности локального ИИ-инференса. Для оценки взяли унифицированный показатель «интеллект на ватт» (intelligence per watt, IPW) - это соотношение точности выполнения задачи к потребляемой мощности.

Результаты показали, что локальные LLM до 20 млрд. параметров уже способны обрабатывать 88.7% типичных одноэтапных запросов в чатах и задачах на логику. Общая эффективность локального ИИ показала рост в 5.3 раза за период с 2023 по 2025 год. Этот скачок обусловлен как улучшением самих моделей (в 3.1 раза), так и развитием аппаратных ускорителей (в 1.7 раза).
stanford.edu

✔️

LeJEPA: self-supervised learning без сложных эвристик.

Ян Лекун предложил простой метод ля self-supervised обучения - LeJEPA. Традиционные подходы требовали сложных трюков чтобы избежать коллапса признаков: stop-gradient и сетей учитель-студент. LeJEPA отказывается от этих эвристик в пользу одного регуляризатора, SIGReg (Sketched Isotropic Gaussian Regularization).

Задача SIGReg - заставить векторы признаков равномерно распределяться в пространстве, формируя изотропное сферическое облако. В своей работе, Ян доказывает, что такая форма математически оптимальна для минимизации ошибок на будущих задачах.

На практике это делает обучение более стабильным, упрощает его масштабирование и оценку качества модели. Тестовая модель на 1.8 млрд. параметров и показала 79% точности на ImageNet-1K. Код LeJEPA доступен на GitHub.
arxiv.org

✔️

Lumine от ByteDance: ИИ-агент, способный часами проходить 3D-игры.

ByteDance разработал ИИ-агента, который может самостоятельно выполнять многочасовые миссии в сложных открытых 3D-мирах, например в Genshin Impact, Honkai: Star Rail и Wuthering Waves. В отличие от своих конкурентов, Lumine обрабатывает видеопоток с экрана и генерирует команды для клавиатуры и мыши в реальном времени.

Агент построен на базе Qwen2-VL-7B и обучен на 1700 часах человеческого геймплея. Сначала он осваивал базовые действия, а затем учился следовать инструкциям и, наконец, развил способность к адаптивному мышлению на небольшом ризонинг-датасете.

В тестах Lumine показал способности сражаться с боссами, используя тактику, решать головоломки и взаимодействовать с NPC. Что важно, агент может переносить навыки, справляясь с задачами в незнакомых локациях и в совершенно новых играх без дополнительного обучения.
lumine-ai.org

✔️

IBM представила квантовые процессоры Nighthawk и Loon.

IBM анонсировала 2 новых квантовых процессора и объявила о переносе всего производства на 300-мм пластины на мощностях Albany NanoTech. Этот переход позволяет снизить стоимость чипов и, по заявлению компании, уже удвоил скорость НИОКР.

Nighthawk на 30% увеличивает сложность схем при прежнем уровне ошибок и ориентирован на задачи с 5000 двухкубитных гейтов. Он станет доступен пользователям IBM к концу 2025 года. Чип Loon, в свою очередь, сфокусирован на отказоустойчивости, он использует эффективные коды коррекции ошибок (qLDPC), реализованные на год раньше, чем планировалось.

Опираясь на эти инновации, IBM подтвердила свои планы по достижению квантового превосходства к 2026 году и созданию полноценной отказоустойчивой системы к 2029.
ibm.com

✔️

Chad IDE: среда разработки со встроенными TikTok и Tinder.

Стартап Clad Labs, выпустился из Y Combinator с продуктом «Chad: The Brainrot IDE». Это среда разработки со встроенными развлечениями. Идея в том, что пока разработчик ждет завершения задачи от ИИ-ассистента, он может полистать TikTok, Tinder или поиграть в мини-игры прямо в окне IDE.

По мнению основателей, это решает проблему «переключения контекста». Вместо того чтобы брать в руки телефон и полностью выпадать из рабочего процесса, разработчик остается в среде разработки и может мгновенно вернуться к коду, как только ИИ закончит свою работу.

Сейчас Chad IDE находится в стадии закрытого бета-тестирования, доступ можно получить только по приглашению.
techcrunch.com

@ai_machinelearning_big_data

#news #ai #ml

Please open Telegram to view this post

VIEW IN TELEGRAM

❤3👍1👎1🔥1

1.86K views05:43

Python RU

Forwarded from Machinelearning

⚡️

Вышла Z-Image Base.

Tongyi выложила фундаментальную версию модели семейства Z-Image.

В отличие от ранее выпущенной Turbo, это полновесный трансформер, ориентированный на максимальное качество и управляемость генерации .

Z-Image отлично подходит для дообучения, тренировки LoRA и интеграции с ControlNet.

Модель поддерживает CFG и работу с негативными промптами, генерируя результат за 28–50 шагов.

📌Лицензирование: Apache 2.0 License.

🟡

🟡

🟡

🟡

🟡

🖥

GitHub

@ai_machinelearning_big_data

#AI #ML #Diffusion #ZImage #Tongyi

Please open Telegram to view this post

VIEW IN TELEGRAM

❤3👍1👎1

1.37K views16:38

Python RU

Forwarded from Machinelearning

🌟

Tencent HY-WU: динамические LoRA для редактирования изображений.

Tencent HY опубликовала первую часть серии работ под названием HY-WU (Weight Unleashing). Суть метода в отказе от стандартной парадигмы адаптации, при которой модель получает один фиксированный набор весов для всех задач.

Специальная модель-генератор синтезирует LoRA отдельно под каждый входной пример прямо во время инференса, без дополнительной оптимизации на тест-тайме.

Проблема, которую решает HY-WU, хорошо знакома всем, кто работал с дообучением: когда задачи противоречат друг другу (например, "размыть" против "убрать размытие" или "состарить лицо" против "восстановить"), общий адаптер вынужден идти на компромисс.

Градиенты конфликтуют, и результат оказывается хуже, чем если бы задачи обучались раздельно.

Чтобы не быть голословными, авторы измерили это напрямую: косинусное сходство градиентов между разнородными задачами устойчиво отрицательно, среднее около −0.30, то есть задачи буквально тянут веса в противоположные стороны.

HY-WU предлагает условную генерацию параметров. Модель-генератор (8B параметров) принимает на вход совместное представление изображения и текстового запроса через энкодер SigLIP2, после чего генерирует LoRA-матрицы (~0.72B) и инжектирует их в базовую модель.

Обучение сквозное, только через downstream-loss, без предварительно собранных чекпойнтов адаптеров.

🟡

Тесты и результаты

Для тестов выбрали задачу редактирования изображения текстовым запросом - в нем конфликты неизбежны и визуально очевидны.

🟢В попарном human evaluation (GSB) HY-WU выигрывает у всех топовых open-source редакторов с большим отрывом: 67–78% против Step1X, Qwen, LongCat и FLUX;

🟢Среди закрытых систем модель обошла Seedream 4.5 (55.6%) и GPT Image 1.5 (55.5%).

🟠Единственные, кто пока впереди - Nano Banana 2 и Nano Banana Pro.

Tencent проверили: прирост качества дается именно условной маршрутизацией, а не просто увеличением числа параметров. Когда генератор использовали с перемешанными или усредненными условиями, результат проваливался до уровня базовой модели.

Полный SFT с намного большим числом обучаемых параметров давал сопоставимый результат с обычным Shared LoRA, так как в обоих случаях в инференсе применяется одна фиксированная точка в пространстве весов.

Выпущенная работа - первая часть серии исследований по функциональной памяти для генеративных моделей. В планах:

🟢сравнить функциональную память с retrieval-подходами и понять, когда каждый из них уместен;

🟢разработать протоколы онлайн-обучения, при которых модель усваивает новые задачи без деградации на старых;

🟢исследовать масштабирование модели-генератора отдельно от базовой модели.

Помимо этого, в планах выйти за пределы LoRA на другие операторные интерфейсы, распространить метод на видео и агентные системы, а также проработать возможность точечно удалять поведение модели через управление состоянием генератора.

Кроме этого архиполезного исследования Tencent выложили связку из модели-генератора и базовой модели HY-Image-3.0-Instruct, поверх которой она и работает.

Поиграться этой красотой можно, если под рукой простаивает 8х40 GB или 4х80 GB VRAM.

📌Лицензирование: Tencent Hunyuan Community License.

🟡

Страница проекта

🟡

Prompt Handbook (китайский)

🟡

Модель

🟡

Техотчет

🖥

Github

@ai_machinelearning_big_data

#AI #ML #ImageEdit #HYWU #Tencent

Please open Telegram to view this post

VIEW IN TELEGRAM

Please open Telegram to view this post

VIEW IN TELEGRAM

❤3👍1

1.6K views06:28

Python RU

Forwarded from Machinelearning

🌟

OLMo Hybrid: RNN плюс трансформер в одной модели.

Институт Аллена опубликовал OLMo Hybrid 7B - модель, которая построена на чередовании слоев Gated DeltaNet и стандартного внимания в соотношении 3:1. Такая архитектура решает больше подзадач из обучающих данных за меньшее число токенов, что напрямую снижает потребность в данных при обучении.

Gated DeltaNet - это RNN с расширением в виде отрицательных значений матрицы переходов. Это небольшое изменение в правиле обновления внутреннего состояния позволяет слоям Gated DeltaNet реализовывать динамику попарной перестановки элементов и за счет этого решать задачи отслеживания состояния, недоступные чистым трансформерам.

В OLMo Hybrid Ai2 показали, что гибридные модели выразительнее суммы своих частей. Существует класс задач (назовем их отслеживание состояния с обращением к памяти), которые не решают ни чистые трансформеры, ни чистые RNN, но гибрид справляется с ними уже при одинарном чередовании типов слоев.

Абляционные эксперименты от 60M до 1B параметров показали, что GDN стабильно лучше Mamba2 как в чистом, так и в гибридном варианте, равномерное чередование слоев лучше концентрации внимания в середине сети, а соотношение 3:1 - оптимальный баланс между качеством и вычислительной стоимостью на средних и крупных масштабах.

🟡

Тесты

🟢На MMLU OLMo Hybrid достигает той же точности, что OLMo 3 7B, используя на 49% меньше токенов; на срезе Common Crawl - на 35% меньше.

🟢Коэффициент эффективности использования данных у гибрида равен 83,7 против 94,9 у трансформера.

🟢Экономия данных растет с размером модели: примерно в 1,3 раза на 1B параметров и в 1,9 раза на 70B.

После дообучения и адаптации к длинному контексту OLMo Hybrid обходит OLMo 3 во всех категориях оценки. На RULER при 64k токенах - 85,0 против 70,9 у базовой модели.

📌Лицензирование: Apache 2.0 License.

🟡

Статья

🟡

Набор моделей

🟡

Техотчет

@ai_machinelearning_big_data

#AI #ML #LLM #OLMoHybrid #Ai2

Please open Telegram to view this post

VIEW IN TELEGRAM

Please open Telegram to view this post

VIEW IN TELEGRAM

👍3❤2

1.82K views07:47

Python RU

Forwarded from Machinelearning

📌

Студенты собрали GPT целиком в железе на учебной плате

Лютира Абейкун и Криш Чхаджер из Университета Торонто взяли microGPT Андрея Карпатого и переписали его на языке описания цифровых схем SystemVerilog. Так родился проект TALOS-V2, который работает на образовательной плате DE1-SoC с FPGA Cyclone V, которую обычно дают в вузах для лабораторных работ.

Инференс на ней не выполняет ни GPU, ни PyTorch, ни даже CPU - каждый шаг трансформера, от эмбеддингов и самовнимания до нормализации, MLP и выбора следующего токена, превращён в физическую цепь из логических элементов.

Сама модель - символьный microGPT, обученный на датасете имён Карпатого: символ за символом она генерирует новые имена. Маленькая по меркам индустрии, но устроенная как взрослые генеративные модели: те же блоки, те же связи.

Внутри FPGA числа хранятся не как привычные дроби с плавающей точкой, а в формате Q4.12 - 16 бит, разделённые на целую и дробную часть.

Это компромисс: точности хватает для такой модели, а схема получается компактной и предсказуемой по времени работы.

Веса заранее переведены в шестнадцатеричные файлы и загружены прямо в постоянную память чипа.

Сердце схемы - один универсальный вычислительный блок на 16 параллельных каналов, который умеет умножать вектор на матрицу.

Он по очереди обслуживает все ключевые операции трансформера: проекции Q, K, V, выходную проекцию внимания, оба слоя MLP и LM-head.

Самый трудный для железа блок - softmax, нормирующая функция внутри механизма внимания. Экспоненту считает таблица заранее заготовленных значений, деление выполняет специальный многотактный модуль, заточенный под узкий диапазон входных чисел и потому быстрее универсального.

В механизме внимания деление - самая медленная операция и тормозит весь блок, поэтому таких делителей поставили сразу 2: они работают параллельно и снимают эту задержку. Поиск максимума совмещён с подсчётом скалярных произведений, чтобы не делать лишний проход по данным.

Даже выбор следующего токена происходит внутри чипа: алгоритм xorshift даёт случайность, а специальная схема сэмплирования бережёт распределение от перекоса в сторону младших символов. Хост-компьютер только запускает генерацию и забирает готовый результат.

В итоге плата устойчиво выдаёт больше 50 000 токенов в секунду, зафиксированный пик - около 53 000.

Проект открыт на GitHub: SystemVerilog-ядро, тестбенч под ModelSim, Python-утилиты для экспорта весов и запуска инференса через JTAG, скрипты под Quartus.

🟡

Статья

🖥

GitHub

@ai_machinelearning_big_data

#AI #ML #FPGA #RTL #Transformer #TALOS

Please open Telegram to view this post

VIEW IN TELEGRAM

❤5👍1

1.1K views17:38

Python RU

Forwarded from Machinelearning

3:45

Media is too big

VIEW IN TELEGRAM

✔️

Anthropic запустила платформу Claude for Small Business

Компания представила пакет интеграций Claude через интерфейс Claude Cowork, который связывает языковую модель с QuickBooks, PayPal, HubSpot, Canva, Docusign, Google Workspace и Microsoft 365.

Пользователям доступны 15 готовых агентов для финансов, операционной деятельности, продаж, маркетинга и HR. Система умеет сводить бухгалтерский баланс, искать расхождения в транзакциях PayPal, составлять финансовые прогнозы, анализировать метрики HubSpot и генерировать промо-материалы в Canva.

В архитектуру заложен принцип human-in-the-loop. Модель берет на себя вычисления и рутинную нагрузку, но критические действия - проводка платежей, подписание контрактов и отправка писем требуют финального подтверждения пользователя.
anthropic.com

✔️

Создатель Qwen ищет инвестиции на свою ИИ-лабораторию

Бывший технический руководитель Qwen в Alibaba привлекает финансирование для своего стартапа. Целевая оценка около $2 млрд, в переговорах об инвестициях участвуют Gaorong Capital и Sequoia China.

Готового продукта у компании нет, оценка строится на репутации основателя. За 3 года в Alibaba он развил Qwen в одно из самых востребованных семейств open-source моделей. В марте техлид объявил об уходе из корпорации, после чего Alibaba перевела команду Qwen в прямое подчинение CEO и сместила фокус на закрытую коммерциализацию.

Американские проекты выходцев из OpenAI стартуют выше: SSI Ильи Суцкевера на старте оценивали в $5 млрд, стартап Миры Мурати - в $10 млрд. Инвесторы осторожничают с китайским рынком: здесь не работает поглощение IT-гигантами, а экспортные санкции США на чипы ограничивают лаборатории в доступе к вычислениям.
theinformation.com

✔️

Xiaomi опубликовала модель для автономного вождения

Xiaomi Embodied Intelligence опубликовала код и веса 4B VLA-модели OneVL для беспилотных автомобилей и робототехники. По заявлению разработчиков, она принимает решения точнее, чем более крупные модели, и делает это почти мгновенно.

Архитектура построена на Latent CoT, под капотом Qwen3-VL. Модель сжимает логику принятия решений в 55 скрытых токенов (35 визуальных и 20 текстовых). Подход сохраняет глубину рассуждений при задержке инференса на бортовом оборудовании в 0,24 секунды.

На бенчмарках NAVSIM и ROADWork OneVL обходит аналоги вдвое крупнее. Xiaomi утверждает, что это первый случай, когда сеть с латентными рассуждениями превосходит текстовые CoT-модели по точности при сохранении скорости предиктивных систем.
xiaomi.github.io

✔️

Индекс Ramp: Anthropic обошла OpenAI по доле корпоративных клиентов

По данным платежного индекса Ramp AI, решения Anthropic используют 34,4% корпоративных клиентов платформы, OpenAI - 32,3%. За год доля Anthropic выросла в 4 раза, база OpenAI увеличилась на 0,3%.

Статистика опирается на транзакции преимущественно американских компаний. Индекс учитывает факт оплаты услуг провайдера, а не реальные объемы API-запросов или токенов.

Динамика спроса связана с ростом цен на проприетарные решения. Из-за удорожания закрытых API бизнес переходит на платформы инференса для open-source моделей и дешевые специализированные инструменты.
ramp.com

✔️

Xynova анонсировала роботизированную кисть Flex 2

Китайская компания Xynova представила роботизированную кисть Flex 2 для гуманоидных роботов и систем воплощённого ИИ. При собственной массе 400 граммов манипулятор удерживает объекты весом до 12 кг.

Кинематика устройства обеспечивает 23 степени свободы. Встроенные сенсоры проскальзывания и миллисекундный аппаратный отклик позволяют алгоритмам адаптивного захвата корректировать силу давления на предмет при контакте.

Xynova самостоятельно производит аппаратные и программные компоненты продукта: сборку электродвигателей, редукторов, роликовых винтов, сервоконтроллеров и драйверов, а также написание алгоритмов управления. Разработкой занимается R&D-центр компании из 40 специалистов, более 70% из которых имеют ученые степени.
xynova.com.cn

@ai_machinelearning_big_data

#news #ai #ml

Please open Telegram to view this post

VIEW IN TELEGRAM

❤2👍1🔥1

935 views09:07

Python RU

Forwarded from Machinelearning

2:52

Media is too big

VIEW IN TELEGRAM

✔️

Qwen анонсировала модель для управления роботами разных конструкций

Подразделение Alibaba сообщила о выпуске Qwen-VLA - модели, которая способна управлять роботами разных типов без отдельной настройки под каждую платформу.

VLA-модели получают на вход изображение с камеры и текстовую команду, а на выходе выдают конкретные действия для робота.

Новинка построена на VL-основе Qwen3.5-4B и дополнена декодером действий на 1,15 млрд параметров.

Модель объединяет 3 типа задач: манипуляции (захват и перемещение предметов), навигацию и прогнозирование траекторий, а переключение между разными роботами требует лишь изменения текстовой инструкции.

Qwen-VLA не уступает специализированным системам, обученным под каждую отдельную задачу - GR00T (разработка NVIDIA) и π0.5 (Physical Intelligence).

На наборе тестов LIBERO Qwen-VLA показала 97,9%, на RoboTwin-Hard - 87,2%, а в экспериментах с двуруким роботом ALOHA средний процент успешных выполнений в знакомых условиях составил 83,6% и 76,9% в незнакомых.

Пока опубликован технический отчет и создан репозиторий проекта, о доступности самих моделей не сообщается.

@ai_machinelearning_big_data

#news #ai #ml

Please open Telegram to view this post

VIEW IN TELEGRAM

Please open Telegram to view this post

VIEW IN TELEGRAM

❤2

335 views12:59

About

Blog

Apps

Platform