Python RU
12.5K subscribers
1.02K photos
95 videos
40 files
1.26K links
Все для python разработчиков

админ - @haarrp

@python_job_interview - Python собеседования

@ai_machinelearning_big_data - машинное обучение

@itchannels_telegram - 🔥лучшие ит-каналы

@programming_books_it - it книги

@pythonl

РКН: clck.ru/3Fmy2j
Download Telegram
Forwarded from Machinelearning
🌟 OLMo Hybrid: RNN плюс трансформер в одной модели.

Институт Аллена опубликовал OLMo Hybrid 7B - модель, которая построена на чередовании слоев Gated DeltaNet и стандартного внимания в соотношении 3:1. Такая архитектура решает больше подзадач из обучающих данных за меньшее число токенов, что напрямую снижает потребность в данных при обучении.

Gated DeltaNet - это RNN с расширением в виде отрицательных значений матрицы переходов. Это небольшое изменение в правиле обновления внутреннего состояния позволяет слоям Gated DeltaNet реализовывать динамику попарной перестановки элементов и за счет этого решать задачи отслеживания состояния, недоступные чистым трансформерам.


В OLMo Hybrid Ai2 показали, что гибридные модели выразительнее суммы своих частей. Существует класс задач (назовем их отслеживание состояния с обращением к памяти), которые не решают ни чистые трансформеры, ни чистые RNN, но гибрид справляется с ними уже при одинарном чередовании типов слоев.

Абляционные эксперименты от 60M до 1B параметров показали, что GDN стабильно лучше Mamba2 как в чистом, так и в гибридном варианте, равномерное чередование слоев лучше концентрации внимания в середине сети, а соотношение 3:1 - оптимальный баланс между качеством и вычислительной стоимостью на средних и крупных масштабах.

🟡Тесты

🟢На MMLU OLMo Hybrid достигает той же точности, что OLMo 3 7B, используя на 49% меньше токенов; на срезе Common Crawl - на 35% меньше.

🟢Коэффициент эффективности использования данных у гибрида равен 83,7 против 94,9 у трансформера.

🟢Экономия данных растет с размером модели: примерно в 1,3 раза на 1B параметров и в 1,9 раза на 70B.

После дообучения и адаптации к длинному контексту OLMo Hybrid обходит OLMo 3 во всех категориях оценки. На RULER при 64k токенах - 85,0 против 70,9 у базовой модели.


📌Лицензирование: Apache 2.0 License.


🟡Статья
🟡Набор моделей
🟡Техотчет


@ai_machinelearning_big_data

#AI #ML #LLM #OLMoHybrid #Ai2
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍32
Forwarded from Machinelearning
📌 Студенты собрали GPT целиком в железе на учебной плате

Лютира Абейкун и Криш Чхаджер из Университета Торонто взяли microGPT Андрея Карпатого и переписали его на языке описания цифровых схем SystemVerilog. Так родился проект TALOS-V2, который работает на образовательной плате DE1-SoC с FPGA Cyclone V, которую обычно дают в вузах для лабораторных работ.

Инференс на ней не выполняет ни GPU, ни PyTorch, ни даже CPU - каждый шаг трансформера, от эмбеддингов и самовнимания до нормализации, MLP и выбора следующего токена, превращён в физическую цепь из логических элементов.

Сама модель - символьный microGPT, обученный на датасете имён Карпатого: символ за символом она генерирует новые имена. Маленькая по меркам индустрии, но устроенная как взрослые генеративные модели: те же блоки, те же связи.

Внутри FPGA числа хранятся не как привычные дроби с плавающей точкой, а в формате Q4.12 - 16 бит, разделённые на целую и дробную часть.

Это компромисс: точности хватает для такой модели, а схема получается компактной и предсказуемой по времени работы.

Веса заранее переведены в шестнадцатеричные файлы и загружены прямо в постоянную память чипа.


Сердце схемы - один универсальный вычислительный блок на 16 параллельных каналов, который умеет умножать вектор на матрицу.

Он по очереди обслуживает все ключевые операции трансформера: проекции Q, K, V, выходную проекцию внимания, оба слоя MLP и LM-head.

Самый трудный для железа блок - softmax, нормирующая функция внутри механизма внимания. Экспоненту считает таблица заранее заготовленных значений, деление выполняет специальный многотактный модуль, заточенный под узкий диапазон входных чисел и потому быстрее универсального.

В механизме внимания деление - самая медленная операция и тормозит весь блок, поэтому таких делителей поставили сразу 2: они работают параллельно и снимают эту задержку. Поиск максимума совмещён с подсчётом скалярных произведений, чтобы не делать лишний проход по данным.

Даже выбор следующего токена происходит внутри чипа: алгоритм xorshift даёт случайность, а специальная схема сэмплирования бережёт распределение от перекоса в сторону младших символов. Хост-компьютер только запускает генерацию и забирает готовый результат.

В итоге плата устойчиво выдаёт больше 50 000 токенов в секунду, зафиксированный пик - около 53 000.


Проект открыт на GitHub: SystemVerilog-ядро, тестбенч под ModelSim, Python-утилиты для экспорта весов и запуска инференса через JTAG, скрипты под Quartus.


🟡Статья
🖥GitHub


@ai_machinelearning_big_data

#AI #ML #FPGA #RTL #Transformer #TALOS
Please open Telegram to view this post
VIEW IN TELEGRAM
5👍1
Forwarded from Machinelearning
Media is too big
VIEW IN TELEGRAM
✔️ Anthropic запустила платформу Claude for Small Business

Компания представила пакет интеграций Claude через интерфейс Claude Cowork, который связывает языковую модель с QuickBooks, PayPal, HubSpot, Canva, Docusign, Google Workspace и Microsoft 365.

Пользователям доступны 15 готовых агентов для финансов, операционной деятельности, продаж, маркетинга и HR. Система умеет сводить бухгалтерский баланс, искать расхождения в транзакциях PayPal, составлять финансовые прогнозы, анализировать метрики HubSpot и генерировать промо-материалы в Canva.

В архитектуру заложен принцип human-in-the-loop. Модель берет на себя вычисления и рутинную нагрузку, но критические действия - проводка платежей, подписание контрактов и отправка писем требуют финального подтверждения пользователя.
anthropic.com

✔️ Создатель Qwen ищет инвестиции на свою ИИ-лабораторию

Бывший технический руководитель Qwen в Alibaba привлекает финансирование для своего стартапа. Целевая оценка около $2 млрд, в переговорах об инвестициях участвуют Gaorong Capital и Sequoia China.

Готового продукта у компании нет, оценка строится на репутации основателя. За 3 года в Alibaba он развил Qwen в одно из самых востребованных семейств open-source моделей. В марте техлид объявил об уходе из корпорации, после чего Alibaba перевела команду Qwen в прямое подчинение CEO и сместила фокус на закрытую коммерциализацию.

Американские проекты выходцев из OpenAI стартуют выше: SSI Ильи Суцкевера на старте оценивали в $5 млрд, стартап Миры Мурати - в $10 млрд. Инвесторы осторожничают с китайским рынком: здесь не работает поглощение IT-гигантами, а экспортные санкции США на чипы ограничивают лаборатории в доступе к вычислениям.
theinformation.com

✔️ Xiaomi опубликовала модель для автономного вождения

Xiaomi Embodied Intelligence опубликовала код и веса 4B VLA-модели OneVL для беспилотных автомобилей и робототехники. По заявлению разработчиков, она принимает решения точнее, чем более крупные модели, и делает это почти мгновенно.

Архитектура построена на Latent CoT, под капотом Qwen3-VL. Модель сжимает логику принятия решений в 55 скрытых токенов (35 визуальных и 20 текстовых). Подход сохраняет глубину рассуждений при задержке инференса на бортовом оборудовании в 0,24 секунды.

На бенчмарках NAVSIM и ROADWork OneVL обходит аналоги вдвое крупнее. Xiaomi утверждает, что это первый случай, когда сеть с латентными рассуждениями превосходит текстовые CoT-модели по точности при сохранении скорости предиктивных систем.
xiaomi.github.io

✔️ Индекс Ramp: Anthropic обошла OpenAI по доле корпоративных клиентов

По данным платежного индекса Ramp AI, решения Anthropic используют 34,4% корпоративных клиентов платформы, OpenAI - 32,3%. За год доля Anthropic выросла в 4 раза, база OpenAI увеличилась на 0,3%.

Статистика опирается на транзакции преимущественно американских компаний. Индекс учитывает факт оплаты услуг провайдера, а не реальные объемы API-запросов или токенов.

Динамика спроса связана с ростом цен на проприетарные решения. Из-за удорожания закрытых API бизнес переходит на платформы инференса для open-source моделей и дешевые специализированные инструменты.
ramp.com

✔️ Xynova анонсировала роботизированную кисть Flex 2

Китайская компания Xynova представила роботизированную кисть Flex 2 для гуманоидных роботов и систем воплощённого ИИ. При собственной массе 400 граммов манипулятор удерживает объекты весом до 12 кг.

Кинематика устройства обеспечивает 23 степени свободы. Встроенные сенсоры проскальзывания и миллисекундный аппаратный отклик позволяют алгоритмам адаптивного захвата корректировать силу давления на предмет при контакте.

Xynova самостоятельно производит аппаратные и программные компоненты продукта: сборку электродвигателей, редукторов, роликовых винтов, сервоконтроллеров и драйверов, а также написание алгоритмов управления. Разработкой занимается R&D-центр компании из 40 специалистов, более 70% из которых имеют ученые степени.
xynova.com.cn

@ai_machinelearning_big_data

#news #ai #ml
Please open Telegram to view this post
VIEW IN TELEGRAM
2👍1🔥1
Forwarded from Machinelearning
✔️ Qwen анонсировала модель для управления роботами разных конструкций

Подразделение Alibaba сообщила о выпуске Qwen-VLA - модели, которая способна управлять роботами разных типов без отдельной настройки под каждую платформу.

VLA-модели получают на вход изображение с камеры и текстовую команду, а на выходе выдают конкретные действия для робота.


Новинка построена на VL-основе Qwen3.5-4B и дополнена декодером действий на 1,15 млрд параметров.

Модель объединяет 3 типа задач: манипуляции (захват и перемещение предметов), навигацию и прогнозирование траекторий, а переключение между разными роботами требует лишь изменения текстовой инструкции.

Qwen-VLA не уступает специализированным системам, обученным под каждую отдельную задачу - GR00T (разработка NVIDIA) и π0.5 (Physical Intelligence).

На наборе тестов LIBERO Qwen-VLA показала 97,9%, на RoboTwin-Hard - 87,2%, а в экспериментах с двуруким роботом ALOHA средний процент успешных выполнений в знакомых условиях составил 83,6% и 76,9% в незнакомых.

Пока опубликован технический отчет и создан репозиторий проекта, о доступности самих моделей не сообщается.


@ai_machinelearning_big_data

#news #ai #ml
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
3