Forwarded from Machinelearning
NVIDIA показала, как 1.5B-модель можно раскачать до топовых результатов в логике, математике, коду и STEM-задачам — без увеличения параметров модели.
📈 Результат после месяцев обучения:
+55% к логическим задачам
+14.7% к математике
+13.9% к коду
+25.1% к сложным STEM-вопросам
🛠 Как они это сделали:
– Использовали RL (обучение с подкреплением) на 5 типах задач, включая 40K примеров по математике и 24K по программированию
– Все ответы проверялись автоматически в "песочнице", которая оценивает, правильный ли результат
– Применили улучшенную стратегию обучения — *Group Relative Policy Optimization* — и добавили несколько хитрых трюков:
Все эти приёмы помогли сохранить интерес модели к поиску новых решений, а не скатываться к заученным паттернам.
Итог: модель не "застывает", а продолжает исследовать — и выдает стабильный рост качества без расширения архитектуры.
📄 Почитать статью полностью : arxiv.org/abs/2507.12507
@ai_machinelearning_big_data
#ml #ai #nvidia
Please open Telegram to view this post
VIEW IN TELEGRAM
❤6🔥4👍2
Forwarded from Машинное обучение digest
Согласно анализу Международного энергетического агентства, на долю дата-центров приходится почти 9% от общего потребления электроэнергии в США.
Международное энергетическое агентство (МЭА) - автономная международная организация, созданная в 1974 году. Ее цели: обеспечение энергетической безопасности, продвижение возобновляемых источников энергии и борьбу с изменением климата.
Страна является абсолютным мировым лидером по установленной мощности ЦОД (53.7 ГВт), и этот показатель продолжает стремительно расти. Уже к 2028 году, по прогнозам, дата-центры могут потреблять 12% всей американской электроэнергии.
Спрос на вычислительные мощности, подстегиваемый бурным развитием ИИ, растет по всему миру. В Великобритании на ЦОД приходится 5.1% энергопотребления, в Евросоюзе — 4.8%. Даже в Китае, несмотря на огромные масштабы экономики, этот показатель достиг 2.3%.
Особенно ярко тренд проявляется на региональном уровне. Например, в штате Вирджиния, который является хабом для многих ЦОД, на их долю приходится уже 26% всего энергопотребления.
Этот бум заставляет технологические компании активно инвестировать не только в сами дата-центры, но и в источники энергии для них, в частности, в атомную энергетику.
@ai_machinelearning_big_data
#news #ai #ml
Please open Telegram to view this post
VIEW IN TELEGRAM
❤5🤔3👍2
Google представила MLE-STAR — ИИ-агента, который автоматизирует разработку ML-моделей и побеждает в 63% соревнований Kaggle.
🚀 Полная автоматизация — агент сам проектирует, тестирует и оптимизирует модели без ручного кода.
🏆 Рекордные результаты — медали в 63% конкурсов MLE Bench Lite (36% из них — золото) против 25,8% у предыдущих решений.
🌐 Веб-поиск вместо устаревших моделей — MLE-STAR находит и использует актуальные архитектуры (EfficientNet, ViT) вместо ResNet.
🛡 Три модуля защиты — автоматическая проверка на баги, утечки данных и ошибки LLM.
💻 Open source — Google выложила код в составе Agent Development Kit (ADK).
🔄 Авто-апгрейд — за счёт постоянного поиска новейших моделей производительность растёт сама по мере развития ML.
🔜 Подробнее
#Google #GoogleResearch #ml #mle #llm
🚀 Полная автоматизация — агент сам проектирует, тестирует и оптимизирует модели без ручного кода.
🏆 Рекордные результаты — медали в 63% конкурсов MLE Bench Lite (36% из них — золото) против 25,8% у предыдущих решений.
🌐 Веб-поиск вместо устаревших моделей — MLE-STAR находит и использует актуальные архитектуры (EfficientNet, ViT) вместо ResNet.
🛡 Три модуля защиты — автоматическая проверка на баги, утечки данных и ошибки LLM.
💻 Open source — Google выложила код в составе Agent Development Kit (ADK).
🔄 Авто-апгрейд — за счёт постоянного поиска новейших моделей производительность растёт сама по мере развития ML.
#Google #GoogleResearch #ml #mle #llm
Please open Telegram to view this post
VIEW IN TELEGRAM
😱7❤5👍1🔥1💩1
Forwarded from Machinelearning
Embedding Atlas — опенсорсный инструмент от Apple для интерактивной визуализации больших наборов векторных представлений, который позволяет не просто смотреть на облако точек, а полноценно с ним работать. И что самое приятное, он способен отрисовывать до нескольких миллионов точек благодаря реализации на WebGPU.
Embedding Atlas сам находит скопления в данных и подписывает их, позволяя мгновенно сориентироваться в общей структуре датасета. Чтобы отделить реальные кластеры от случайных выбросов, используется оценка плотности ядра с отрисовкой контуров плотности.
Решена и вечная проблема визуализаций - "каша" из перекрывающихся точек. Embedding Atlas использует технологию order-independent transparency, так что даже при большом наложении точек картинка остаётся четкой и информативной.
В инструменте есть поиск в реальном времени и нахождение ближайших соседей. Можно ввести текстовый запрос или просто кликнуть на любую точку в облаке, и Embedding Atlas мгновенно подсветит наиболее похожие на нее данные.
Еще есть интерактивный фильтр по метаданным. Например, можно выбрать на гистограмме определенный класс объектов, и визуализация тут же отфильтрует эмбединги, оставив только соответствующие ему точки.
Дает три варианта интеграции: утилиту командной строки для быстрой визуализации датафреймов, виджет для Jupyter, позволяющий встраивать атлас прямо в ноутбуки, и компонент для Streamlit, если вы создаете полноценные веб-приложения.
Этот пакет для тех, кто хочет встроить визуализацию в собственные веб-приложения. Он предоставляет готовые UI-компоненты в виде API:
Table, EmbeddingView, EmbeddingViewMosaic и EmbeddingAtlas.@ai_machinelearning_big_data
#AI #ML #Embedding #Visualisation #Apple
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
❤12🔥3🥰1🤯1
Forwarded from Machinelearning
Google представила g-AMIE (guardrailed-AMIE) — расширенную версию своей исследовательской системы AMIE, которая работает в паре с врачом по принципу асинхронного надзора.
Идея проста: ИИ собирает анамнез, а врач принимает решения. Для этого была разработана многоагентная система на базе Gemini 2.0 Flash и специальный веб-интерфейс "кабинет врача"
Агент-диалог ведёт беседу с пациентом, собирая информацию. Его работа делится на 3 фазы: общий сбор анамнеза, целенаправленная проверка первоначального дифференциального диагноза и заключительная фаза с ответами на вопросы пациента.Агент-ограничитель следит за тем, чтобы агент-диалог не давал никаких индивидуальных медицинских советов, диагнозов или планов лечения, при необходимости перефразируя его ответы.Агент SOAP-записи генерирует подробную медицинскую карту в популярном формате SOAP, разделяя задачи предварительных итогов (жалобы пациента, объективные данные) и вывода (оценка и план лечения).После сбора анамнеза сгенерированная SOAP-запись и черновик заключения отправляются на проверку врачу через «кабинет врача». Врач может редактировать документы и либо одобрить отправку сообщения, либо принять решение о необходимости очной консультации.
Чтобы оценить эффективность такого подхода, было проведено рандомизированное слепое исследование в формате виртуального объективного структурированного клинического экзамена (ОСКЭ) на 60 клинических сценариях.
В исследовании участвовали пациенты, g-AMIE и 2 контрольные группы: врачи общей практики и медсестры-практики/ассистенты врачей. Обеим человеческим группам было предписано работать в тех же ограничениях, что и g-AMIE, то есть только собирать анамнез без предоставления советов. Затем их SOAP-записи и проекты сообщений оценивались группой опытных врачей-наблюдателей.
Во-первых, g-AMIE успешно справился с задачей и ни разу не был уличён в предоставлении индивидуальных медицинских советов.
Во-вторых, его способность извлекать ключевую информацию из беседы с пациентом была оценена выше, чем у обеих контрольных групп. SOAP-записи, сгенерированные g-AMIE, были признаны более полными, точными и читаемыми.
Врачи-наблюдатели чаще предпочитали работать с записями от ИИ и с большей вероятностью одобряли составленные им сообщения для пациентов.
Более того, дифференциальные диагнозы и планы лечения, основанные на данных от g-AMIE, были оценены как более адекватные.
g-AMIE оказался более "многословным", что, с одной стороны, способствовало лучшему установлению контакта с пациентом (тестовые пациенты отметили его эмпатию), но с другой — приводило к более длительному времени проверки записей врачами.
Во-вторых, хотя в записях g-AMIE и встречались галлюцинации, их частота была сопоставима с ошибками памяти у людей.
Интересно, что медсестры и ассистенты врачей показали себя лучше, чем врачи общей практики, как в сборе анамнеза, так и в соблюдении ограничений.
Авторы объясняют это тем, что врачи не привыкли воздерживаться от советов во время консультации и их стандартный рабочий процесс был нарушен. Поэтому результаты не следует интерпретировать как прямое превосходство ИИ над клиницистами в реальном мире, так как люди не были обучены работать в этой новой парадигме.
@ai_machinelearning_big_data
#news #ai #ml
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
❤5👍2
Forwarded from Machinelearning
Ландшафт архитектур LLM превратился в настоящий зоопарк. Почти каждую неделю появляются новые методы, обещающие меньший расход памяти и более быстрый инференс. Разобраться в этом становится все сложнее.
Большая группа исследователей выпустила подробный обзор Speed Always Wins, чтобы систематизировать все ключевые инновации в области эффективных архитектур для LLM.
Это не просто очередная статья, а попытка упорядочить и структурировать актуальные подходы, которые решают главную проблему классического трансформера - его квадратичную вычислительную сложность.
Обзор описывает 7 основных направлений.
Здесь авторы разбирают все подходы, которые так или иначе сводят сложность самовнимания к линейной. В эту категорию попадают 3 большие ветви: линейное внимание; линейные RNN, вроде и, конечно, модели на основе пространства состояний (SSM).
Разреженное моделирование последовательностей основано на простом принципе: не каждый токен должен общаться с каждым. Здесь выделяются статические подходы (как в Longformer), где паттерны внимания заданы заранее, и динамические, где они определяются на лету в зависимости от контента.
Методика, которая уже стала мейнстримом. В МоЕ разреженность применяется не в механизме внимания, а в FFN-слоях, где для каждого токена активируется лишь небольшая часть экспертов, что позволяет наращивать число параметров без пропорционального роста вычислений.
В нем речь идет не об изменении асимптотической сложности, а об ее аппаратной оптимизации. Флагман - FlashAttention.
Есть детальный разбор, как за счет оптимизации обращений к памяти GPU удается кардинально ускорить вычисления, не прибегая к аппроксимациям. Сюда же относятся и групповые механизмы внимания: GQA и MQA.
Это, пожалуй, самый горячий тренд. Его идея в том, чтобы стратегически комбинировать быстрые слои с линейной сложностью и медленные, но мощные слои с полным вниманием.
В обзоре выделяют два типа гибридизации: межслойную, как в Jamba, где разные типы слоев чередуются, и внутрислойную, где в одном слое разные головы могут использовать разные механизмы внимания.
Это неавторегрессионные модели, которые генерируют текст, постепенно восстанавливая его из шума. Их главная фишка в параллельном декодировании, что дает ощутимое ускорение инференса.
В конце обзора есть анализ применения всех этих архитектур в разных модальностях - CV и аудио.
Так что, если хотите быстро разобраться в базовых методах, которые будут двигать дизайн LLM в ближайшее время,
@ai_machinelearning_big_data
#AI #ML #LLM #Architectures
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
❤6👍1🔥1
Forwarded from Machinelearning
Media is too big
VIEW IN TELEGRAM
Компания объявила о покупке Statsig - платформы, специализирующейся на продуктовой аналитике и A/B-тестировании. Ее основатель и CEO Statsig, Виджая Раджи, будет назначен на пост технического директора по приложениям (CTO of Applications) в OpenAI. Он возглавит продуктовую инженерию для ChatGPT и Codex. Вся команда Statsig присоединится к OpenAI, однако сама платформа продолжит работать независимо и обслуживать текущих клиентов.
openai.com
OpenAI анонсировала новые функции безопасности для ChatGPT для на защиты молодых пользователей и помощи в кризисных ситуациях. Первая новинка - система автоматической маршрутизации: при обнаружении признаков острого психологического стресса разговор будет передаваться "думающим" моделям. Они обучены с помощью метода Deliberative Alignment и дают более медленные и взвешенные ответы. Обновление планируется выпустить в течение 120 дней.
В ближайший месяц также появятся функции родительского контроля. Родители смогут связывать свои аккаунты с аккаунтами подростков от 13 лет, чтобы устанавливать ограничения и получать оповещения, если система зафиксирует у ребенка признаки кризисного состояния.
openai.com
В Швейцарии состоялся запуск Apertus — национальной LLM с открытым исходным кодом. Проект, разработанный консорциумом государственных институтов, позиционируется как альтернатива коммерческим моделям. Apertus полностью прозрачен: разработчики опубликовали не только саму модель, но и исходный код процесса обучения, документацию и использованные наборы данных.
Модель обучена на 15 трлн. токенов и поддерживает более 1000 языков, 40% данных - не на английском. Apertus создавалась с учетом швейцарских и европейских законов о защите данных и авторском праве, что делает ее привлекательной для местного бизнеса. Модель доступна на Hugging Face в 2 версиях: 8 и 70 млрд. параметров.
swissinfo.ch
Dolby Vision 2 - следующее поколение формата HDR, который постепенно заменит Dolby Vision и Dolby Vision IQ. Особенность новой технологии - использование ИИ для динамической подстройки качества изображения в реальном времени.
Система Content Intelligence будет анализировать сцены, учитывать условия освещения в комнате и с помощью машинного обучения корректировать картинку "на лету". Например, функция Precision Black улучшит детализацию в темных сценах, а Light Sense адаптирует изображение под окружающую среду.
Первым производителем, который внедрит Dolby Vision 2, станет Hisense, а первым чипом со встроенной поддержкой нового стандарта будет MediaTek Pentonic 800.
dolby.com
ЦЕРН применила методы машинного обучения для поиска редких событий - распада бозона Хиггса на два charm-кварка. Эта задача критически важна для проверки Стандартной модели, так как взаимодействие бозона с легкими кварками, из которых состоит обычная материя, до сих пор экспериментально не подтверждено.
Основная сложность заключалась в идентификации так называемых «джетов», порожденных именно charm-кварками. Для этого исследователи использовали графовую нейронную сеть, обученную на сотнях миллионов симуляций, а для отделения реальных событий от фонового шума была задействована сеть, архитектурно схожая с ChatGPT.
В результате анализа данных, собранных на БАК, удалось установить самые строгие на сегодняшний день ограничения на силу взаимодействия бозона Хиггса с charm-кварком. Это значительный шаг в понимании механизма, который придает массу фундаментальным частицам.
scitechdaily.com
@ai_machinelearning_big_data
#news #ai #ml
Please open Telegram to view this post
VIEW IN TELEGRAM
❤6👍5
Forwarded from Machinelearning
OpenAI опубликовали исследование о причинах галлюцинации LLM.
Галлюцинации - это не мистический сбой в сознании ИИ, а вполне предсказуемый побочный эффект его обучения.
Представьте, что перед моделью стоит задача бинарной классификации - определить, является ли предложенное утверждение корректным или нет. Математическая выкладка в исследовании проста: уровень ошибок генерации как минимум в 2 раза превышает уровень ошибок классификации. Если модель не способна надежно отличить факт от вымысла, она неизбежно будет этот вымысел генерировать.
Даже на идеально чистых данных статистические цели обучения подталкивают модель к генерации ошибок. Особенно это касается фактов, которые редко встречаются в обучающей выборке.
В работе вводится понятие
singleton rate — доля фактов, которые появились в данных лишь один раз. Теоретический расклад показывает, что уровень галлюцинаций модели будет как минимум равен этой доле. Проще говоря, если 20% фактов о днях рождения в датасете встретились единожды, модель будет выдумывать дни рождения как минимум в 20% случаев.
Модель DeepSeek-V3, на просьбу назвать день рождения одного из авторов статьи, трижды выдала неверные даты:
03-07, 15-06 и 01-01. Ни одна из них не была даже близка к правильной (осенью). В другом тесте, где нужно было сосчитать количество букв
D в слове DEEPSEEK, та же DeepSeek-V3 выдавала 2 или 3, а модели компании Марка Цукерберга и Claude 3.7 Sonnet доходили до 6 и 7. При этом базовые модели после претрейна часто показывают отличную калибровку. Например, у предобученной GPT-4 ожидаемая ошибка калибровки составляла всего 0.007, что говорит о высокой статистической адекватности ее предсказаний.
Ответ на этот вопрос - в системе оценки. Большинство современных бенчмарков поощряют угадывание. Модели, по сути, постоянно находятся в режиме сдачи экзамена, где за правильный ответ дают 1 балл, а за пустой бланк или ответ
я не знаю - 0. В такой системе оптимальная стратегия при неуверенности - только угадать. Любой шанс на правильный ответ лучше, чем гарантированный ноль.Эту гипотезу подтвердили анализом популярных оценочных наборов.
В GPQA, MMLU-Pro, Omni-MATH, SWE-bench и HLE используется строго бинарная система оценки (правильно/неправильно). Возможности получить частичный балл за честное признание в незнании там просто нет. Из 10 рассмотренных в исследовании популярных бенчмарков только один, WildBench, присуждает частичные баллы за ответы формата
я не знаю. Остальные же фактически наказывают модель за отказ галлюцинировать, создавая эпидемию штрафов за неуверенность и поощряя ее выдавать правдоподобную ложь.OpenAI предлагает встраивать явные целевые уровни уверенности в рубрики, вводить поведенческую калибровку и оценивать модели по секциям с разными порогами уверенности.
Еще рекомендуют включают мониторинг
singleton-rate на корпусе, измерение вероятности важных ответов, комбинирование RAG с верификацией фактов и изменение лидербордов чтобы ответы я не знаю не штрафовались автоматически.@ai_machinelearning_big_data
#AI #ML #LLM #Research #OpenAI
Please open Telegram to view this post
VIEW IN TELEGRAM
👍5❤3🤔1
Forwarded from Machinelearning
Media is too big
VIEW IN TELEGRAM
Это vision-language модель, которая умеет управлять графическими интерфейсами, писать код, строить диаграммы в Draw.io по макетам и распознавать объекты в самых разных областях - от повседневной жизни до узкоспециализированных сфер. Среди ключевых возможностей: точное определение событий в видео продолжительностью до двух часов, расширение поддержки OCR с 19 до 32 языков с улучшением качества на редких символах и наклонном тексте, работа с контекстом длиной 256 тысяч токенов с возможностью увеличения до миллиона, а также высокая точность в задачах обнаружения рисков в реальных условиях.
HF
Исследователи показали, что foundation-модели могут обучаться в стиле few-shot, то есть адаптироваться к новой задаче прямо «на лету», без отдельного переобучения.
В основе подхода лежит TimesFM, расширенный методом in-context fine-tuning (TimesFM-ICF). Модель получает несколько примеров вместе с историей данных и учится делать прогнозы более точно. В экспериментах на 23 датасетах точность выросла на 6,8% по сравнению с базовой моделью, при этом качество оказалось сопоставимо с версиями, обученными специально под каждый набор данных.
Теперь модели временных рядов можно использовать как LLM: им достаточно нескольких примеров в контексте, чтобы подстроиться под задачу. Это открывает путь к более гибкому и простому применению таких систем в бизнесе, финансах, энергетике и других областях.
Главная идея в том, что вместо ручного конструирования симуляций теперь можно задавать цель в виде текста, а модель будет находить или создавать такие системы, где возникают жизнеподобные явления.
ASAL работает на разных субстратах - от классических Boids и Game of Life до Lenia, Particle Life и нейронных клеточных автоматов. В ходе экспериментов метод открыл новые формы поведения в Lenia и Boids, а также клеточные автоматы, способные демонстрировать открытое и сложное развитие, сравнимое с «Жизнью» Конвея.
Это открывает путь к ускоренному исследованию искусственной жизни и автоматическому открытию новых «жизнеподобных» систем, которые раньше приходилось искать вручную.
По результатам тестов Qwen3-Max выходит на уровень топовых моделей на таких бенчмарках, как SWE-Bench, Tau2-Bench, SuperGPQA, LiveCodeBench и AIME25. Модель построена на масштабном датасете и опирается на значительные вычислительные мощности как в предобучении, так и в RL.
Компания позиционирует Qwen3-Max как новый флагман и открывает доступ сразу на нескольких платформах: в Qwen Chat, через API Alibaba Cloud и в блоге разработчиков.
X
Доверие остаётся ограниченным: 46% доверяют «отчасти», 23% — «немного», и только 20% - «сильно». Это объясняется частыми мелкими исправлениями после автогенерации. Влияние на качество кода оценивается сдержанно: 31% видят лёгкое улучшение, 30% — «без изменений». Зато ощутим рост скорости за счёт снижения рутины.
На рынке труда обстановка сложнее: вакансии для новичков сократились на 71% с 2022 года, а кандидаты подают сотни заявок, прежде чем получить работу.
Report
@ai_machinelearning_big_data
#news #ai #ml
Please open Telegram to view this post
VIEW IN TELEGRAM
❤5👍1
Forwarded from Machinelearning
Media is too big
VIEW IN TELEGRAM
Новая флагманская модель получила заметные улучшения: поддержка длинного контекста до 200K токенов, сильные возможности в рассуждении, генерации кода, поиска и агентных задачах.
Hf | Api | Попробовать
Newton - это открытый физический движок с GPU-ускорением, созданный на базе NVIDIA Warp и OpenUSD и выпущенный под лицензией Apache 2.0. Он показывает огромный прирост скорости: в задачах движения до 152× быстрее, а при манипуляции объектами — до 313× быстрее по сравнению с MJX на RTX 4090.
Isaac Lab позволяет запускать тысячи параллельных симуляций для ускоренного обучения с подкреплением. Среди демонстраций — робот ANYmal, осваивающий ходьбу, и симуляция складывания одежды с реалистичной мультифизикой.
NVIDIA Blog
Главная идея - контекст не равен простому prompt’у: это весь набор информации (инструкции, история сообщений, память, внешние данные), который агент использует для принятия решений.
Контекст - ограниченный ресурс, длинные цепочки приводят к «context rot» - постепенной потере качества.
Нужно уметь структурировать и минимизировать инструкции, оставляя только важное.
Важно грамотно управлять вызовами инструментов: они должны возвращать релевантные и компактные данные.
Историю лучше периодически сжимать, сохраняя факты, а не «сырые токены».
Для сложных случаев полезно делить задачи между суб-агентами, а затем агрегировать их результаты.
Эффективная контекстная инженерия делает агентов точнее, дешевле и устойчивее при работе с длинными
Подробнее
Новая 15B reasoning-модель с открытыми весами набрала 52 балла в Artificial Analysis Intelligence Index - уровень моделей в сотни миллиардов параметров. Отличается сильным instruction following, многошаговыми диалогами и поддержкой 128k контекста. Доступна на Hugging Face под MIT-лицензией для свободного коммерческого использования.
HF
@ai_machinelearning_big_data
#news #ai #ml
Please open Telegram to view this post
VIEW IN TELEGRAM
❤3