Glasswing - инициатива по поиску уязвимостей в системно значимом программном обеспечении с помощью ИИ.
Согласно обновленному отчету, около 50 её партнёров за первый месяц работы с моделью Mythos Preview обнаружили более 10 000 уязвимостей высокого и критического уровня.
Mythos отметила как потенциально опасные 6 202 уязвимости высокого и критического уровня. Из 1 752 случаев, проверенных независимыми фирмами, 90,6% оказались реальными, а 62,4% подтвердили заявленную тяжесть.
В числе подтверждённых: уязвимость в криптографической библиотеке wolfSSL (CVE-2026-5194), которая позволяла подделывать сертификаты сайтов (уже исправлена).
Anthropic отмечает, что узким местом теперь стала не идентификация ошибок, а их проверка и устранение. Из 530 переданных мейнтейнерам критичных уязвимостей закрыты пока только 75.
Несколько разработчиков попросили Anthropic замедлить темп раскрытия, так как нагрузка превышает их возможности. Среднее время подготовки патча для серьёзной уязвимости составляет около 2-х недель.
В отчёте также упомянут эпизод в одном из банков-партнёров: по словам Anthropic, модель помогла предотвратить мошеннический перевод на 1,5 миллиона долларов после взлома почты клиента.
Название банка и подробности инцидента не раскрываются.
Anthropic обещает расширять Glasswing с участием правительств США и союзных государств.
@ai_machinelearning_big_data
#news #ai #ml
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍130❤23👏16🤩10🔥5🤣3👌2🐳2🤔1🙈1💘1
Media is too big
VIEW IN TELEGRAM
OpenAI добавила в macOS-клиент Codex функцию Appshots для быстрой передачи контекста активного окна ИИ-ассистенту.
По нажатию обеих клавиш Command система делает снимок экрана и извлекает исходный текст приложения через Accessibility API, включая данные за пределами области прокрутки. Это позволяет передавать логи, API-документацию и код без ручного копирования.
Для работы требуются разрешения macOS на запись экрана и универсальный доступ. Нововведение дополняет режим автономного управления интерфейсом Computer Use и доступно на всех тарифах Codex.
openai.com
FLUX Erase предназначена для удаления объектов с изображений. Модель работает по маске без текстовых промптов, достраивая фон, текстуры и тени.
Скорость генерации - 4,54 секунды на изображении 1024х1024. По оценке BFL, ближайшие аналоги тратят на ту же задачу более 12 секунд. Стоимость API-запроса составляет 3 цента мегапиксельную картинку.
В тестах на качество ретуши FLUX Erase обходит GPT Image-2 и Finegrain Eraser Standard, а по стоимости опережает Nano Banana Pro. Модель доступна только через API, попробовать FLUX Erase можно в бесплатном веб-демо.
bfl.ai
Anthropic пропатчила уязвимость в песочнице Claude Code. Баг позволял извлекать токены и исходный код разработчиков через инъекцию нулевого байта в SOCKS5.
Внутренний фильтр считал строку с нулевым символом безопасной, после чего операционная система обрезала текст по байту и подключалась к заблокированному хосту. В связке с промпт-инъекцией через анализируемые моделью файлы механизм давал возможность выполнять код и отправлять данные на сторонние серверы.
Уязвимость присутствовала в релизах до версии 2.1.89. Патч вышел в сборке 2.1.90 без упоминания в чейнджлоге и регистрации CVE. По заявлению Anthropic, разработчики обнаружили и закрыли баг внутренними силами до публикации отчета исследователей.
theregister.com
Bumblebee - утилита для поиска уязвимостей на локальных машинах под macOS и Linux. Сканер выявляет скомпрометированные зависимости, вредоносные плагины и опасные конфигурации ИИ-инструментов.
Инструмент работает исключительно в режиме чтения: анализирует метаданные и lock-файлы без запуска пакетных менеджеров. Это исключает случайное выполнение вредоносных скриптов при проверке зараженных библиотек.
Bumblebee анализирует 4 вектора: пакетные менеджеры, расширения для редакторов кода (семейство VS Code, включая Cursor и Windsurf), браузерные плагины и конфигурации ИИ-агентов на базе протокола MCP.
ИБ-команды могут интегрировать сканер в MDM-решения, загружать кастомные индикаторы компрометации и запускать проверки в трех режимах - от фонового мониторинга до глубокого расследования инцидентов.
perplexity.ai
Штат планирует выделять субсидии бизнесу, который отказывается от замены сотрудников нейросетями, и финансировать программы переобучения офисных работников.
Дополнительно правительство совместно с ИИ-индустрией рассмотрит концепцию универсального базового капитала в виде распределения среди граждан долей в фондах или акций компаний.
В администрации признают нехватку стандартных пособий по безработице и планируют пересмотреть налоговую систему. По оценке властей, сейчас она экономически поощряет внедрение алгоритмов и дестимулирует наем людей.
gov.ca.gov
@ai_machinelearning_big_data
#news #ai #ml
Please open Telegram to view this post
VIEW IN TELEGRAM
👍119❤32👏28🤔13💯10😁7🔥4❤🔥1💘1
. На срезе из 200 задач SWE-bench модель набрала 53.33%. Для 9B это очень хорошая цифра, потому что обычно такие результаты ждут от моделей заметно крупнее и дороже в запуске.
Отдельно модель прогнали на HermesAgent-20. Там она получила 85 баллов против 71 у базовой версии. То есть дообучение дало не косметический прирост, а нормальный скачок именно в агентных сценариях.
Интересная деталь: авторы прямо советуют запускать её «горячо», с
--temp примерно 1. Для таких fine-tune моделей это помогает сильнее отходить от поведения базовой модели и меньше застревать в чрезмерном обдумывании. Если начинает вести себя нестабильно, температуру можно постепенно снижать.
Следом обещают выпустить Qwopus 3.6 27B. Предварительная оценка уже лежит в HF-репозитории автора, полный релиз модели должен выйти скоро.
https://huggingface.co/Jackrong/Qwopus3.5-9B-Coder-GGUF
@ai_machinelearning_big_data
Please open Telegram to view this post
VIEW IN TELEGRAM
⚡91👍81🔥27🤓12❤5💯1
🔥 AlphaProof Nexus: формальные доказательства начинают превращаться в инженерный пайплайн
Google DeepMind показали AlphaProof Nexus - систему, которая автономно закрыла 9 открытых задач Эрдёша, часть из которых висела десятилетиями. По оценке авторов, стоимость решения одной задачи составила всего несколько сотен долларов.
Кроме этого, система доказала 44 открытые гипотезы из OEIS, закрыла 15-летний вопрос в алгебраической геометрии и нашла новый алгоритмический параметр в оптимизационной теории, который раньше не был описан людьми.
Модель генерирует идеи и фрагменты доказательств, а Lean проверяет каждый логический шаг через компилятор. Если доказательство некорректно, оно просто не проходит проверку. Не нужен рецензент, который вручную ищет дыру в рассуждении.
Базовый агент, который просто чередует генерацию LLM и обратную связь от компилятора, смог повторить все 9 успешных решений задач Эрдёша. Более сложная версия с эволюционным поиском и reinforcement learning дала заметный выигрыш только на самых тяжёлых случаях.
Чем сильнее становятся foundation models, тем чаще простые циклы «сгенерировал - проверил - исправил» начинают догонять специализированные архитектуры.
Отличие от неформального подхода к математическим доказательствам принципиальное. Модель часто придумывала несуществующие леммы, ссылалась на «известные результаты» и пыталась спрятать сложность задачи в вспомогательное утверждение. В обычном текстовом доказательстве такие ошибки легко пропустить. Lean отсекает их сразу.
Ещё один неожиданный эффект: агент находил неточности в формализациях уже существующих математических утверждений. То есть он работал не только как решатель, но и как диагностический инструмент для самой постановки задачи.
Успехи пока сосредоточены там, где библиотека Lean уже достаточно зрелая: комбинаторика, теория чисел, оптимизация. Задачи, где нужно строить большой пласт новой теории, всё ещё далеко не закрыты. И большинство задач Эрдёша система не решила.
Та же схема подходит для кодигша, спецификаций, верификации протоколов, компиляторов, криптографии.
Формальная проверка отсекает галлюцинации.
Модель может придумать лемму или сослаться на несуществующий результат, но Lean это не пропустит.
https://arxiv.org/html/2605.22763v1
@ai_machinelearning_big_data
Google DeepMind показали AlphaProof Nexus - систему, которая автономно закрыла 9 открытых задач Эрдёша, часть из которых висела десятилетиями. По оценке авторов, стоимость решения одной задачи составила всего несколько сотен долларов.
Кроме этого, система доказала 44 открытые гипотезы из OEIS, закрыла 15-летний вопрос в алгебраической геометрии и нашла новый алгоритмический параметр в оптимизационной теории, который раньше не был описан людьми.
Модель генерирует идеи и фрагменты доказательств, а Lean проверяет каждый логический шаг через компилятор. Если доказательство некорректно, оно просто не проходит проверку. Не нужен рецензент, который вручную ищет дыру в рассуждении.
Базовый агент, который просто чередует генерацию LLM и обратную связь от компилятора, смог повторить все 9 успешных решений задач Эрдёша. Более сложная версия с эволюционным поиском и reinforcement learning дала заметный выигрыш только на самых тяжёлых случаях.
Чем сильнее становятся foundation models, тем чаще простые циклы «сгенерировал - проверил - исправил» начинают догонять специализированные архитектуры.
Отличие от неформального подхода к математическим доказательствам принципиальное. Модель часто придумывала несуществующие леммы, ссылалась на «известные результаты» и пыталась спрятать сложность задачи в вспомогательное утверждение. В обычном текстовом доказательстве такие ошибки легко пропустить. Lean отсекает их сразу.
Ещё один неожиданный эффект: агент находил неточности в формализациях уже существующих математических утверждений. То есть он работал не только как решатель, но и как диагностический инструмент для самой постановки задачи.
Успехи пока сосредоточены там, где библиотека Lean уже достаточно зрелая: комбинаторика, теория чисел, оптимизация. Задачи, где нужно строить большой пласт новой теории, всё ещё далеко не закрыты. И большинство задач Эрдёша система не решила.
Та же схема подходит для кодигша, спецификаций, верификации протоколов, компиляторов, криптографии.
Формальная проверка отсекает галлюцинации.
Модель может придумать лемму или сослаться на несуществующий результат, но Lean это не пропустит.
https://arxiv.org/html/2605.22763v1
@ai_machinelearning_big_data
👍69❤29🔥18🤔2
20 мая в технопарке Уханя прошла презентация гуманоидного робота Shiguang S1, которого называют первым в КНР роботом для семейного быта.
Машину разработала компания Hubei Jijia Shijie Robotics совместно с Хубэйским альянсом гуманоидных роботов.
Робот умеет складывать одежду, готовить, убирать со стола и поддерживать беседу с членами семьи, а также способен дообучаться новым навыкам.
Заместитель руководителя R&D-департамента рассказал, что в отличие от промышленных роботов, повторяющих заданную программу, Shiguang S1 опирается на собственную модель воплощённого интеллекта, которая самостоятельно разбирает поставленную задачу и выстраивает последовательность действий.
Параллельно компания запустила программу тестирования: семьи из Уханя могут подать заявку на тест-драйв Shiguang S1.
Сколько устройств планируется передать в опытную эксплуатацию, не уточняется. Цена, объём первой партии и сроки серийного производства не названы.
На 3 квартал 2026 года компания анонсировала более крупную модель GigaBrain 1, обещая "прорывы" в анализе данных, обобщении задач и точности движений в домашних условиях.
@ai_machinelearning_big_data
#news #ai #ml
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
❤37👍12🔥5👾4
Ребята из Авито приглашают на новый ML Reading Club. В среду разберём технический репорт DeepSeek V4 🤖
Обсудим:
➡ Эволюцию прошлых разработок DeepSeek в V4.
➡ Новый механизм Compressed Attention и контексты до 1 млн токенов.
➡ Проблемы Pretrain и как команде удалось их решить.
➡ On-Policy Self Distillation — новый подход к Post-Training.
➡ Инфраструктурные инновации и трюки обучения модели.
📌 27 мая, 18:30
Ссылку направим за час до эфира в канал.
Обсудим:
Ссылку направим за час до эфира в канал.
Please open Telegram to view this post
VIEW IN TELEGRAM
👍37❤12🤬9🥰2
Machinelearning
Для всех, кто закопался в коде и не успел отправить форму — выдыхайте, ведь организаторы подвинули дедлайн из-за большого количества запросов!
Это ваш шанс заявить о себе и показать комьюнити своих проекты в области ML!
И небольшой лайфхак по поводу оформления: если вы решите добавить к заявке видеовизитку, ее можно отправить и позже, уже после заполнения основной анкеты, однако сделать это необходимо строго до 1 июня 23:59.
А если до сих пор сомневаетесь, стоит ли делиться наработками, просто посмотрите, о каких крутых вещах рассказывали коллеги на прошлой Practical ML Conf.
Это ваш шанс заявить о себе и показать комьюнити своих проекты в области ML!
И небольшой лайфхак по поводу оформления: если вы решите добавить к заявке видеовизитку, ее можно отправить и позже, уже после заполнения основной анкеты, однако сделать это необходимо строго до 1 июня 23:59.
А если до сих пор сомневаетесь, стоит ли делиться наработками, просто посмотрите, о каких крутых вещах рассказывали коллеги на прошлой Practical ML Conf.
Telegram
Yandex for ML
↔️ Почему рекомендательные системы выходят на плато и что с этим делать
Рекомендательные системы в Яндексе, как и в других крупных компаниях, состоят из десятков микросервисов, каскадной фильтрации и тысяч ручных признаков. Каждая такая система работает…
Рекомендательные системы в Яндексе, как и в других крупных компаниях, состоят из десятков микросервисов, каскадной фильтрации и тысяч ручных признаков. Каждая такая система работает…
😁11👍7❤6🔥5👏1😢1
MiniCPM5-1B теперь полностью open source: открыты веса, обучающие данные и код для деплоя. 🚀
1B параметров, первое место на Artificial Analysis среди всех открытых моделей меньше 2B параметров - 17.9 балла.
Обходит Qwen3.5-2B, у которой 16.3 балла, при вдвое меньшем числе параметров. Также превосходит Qwen3.5-0.8B и LFM2.5-1.2B-Thinking в задачах на знания, математику, код и использование инструментов.
INT4-версия занимает 0.5 ГБ. Запускается на телефонах, в браузерах и на edge-устройствах.
Обучена с помощью ForgeTrain - первого production-grade фреймворка для pretraining LLM, полностью написанного ИИ: без human-программистов и на 10% быстрее NVIDIA Megatron.
🤖 https://modelscope.cn/models/OpenBMB/MiniCPM5-1B
@ai_machinelearning_big_data
1B параметров, первое место на Artificial Analysis среди всех открытых моделей меньше 2B параметров - 17.9 балла.
Обходит Qwen3.5-2B, у которой 16.3 балла, при вдвое меньшем числе параметров. Также превосходит Qwen3.5-0.8B и LFM2.5-1.2B-Thinking в задачах на знания, математику, код и использование инструментов.
INT4-версия занимает 0.5 ГБ. Запускается на телефонах, в браузерах и на edge-устройствах.
Обучена с помощью ForgeTrain - первого production-grade фреймворка для pretraining LLM, полностью написанного ИИ: без human-программистов и на 10% быстрее NVIDIA Megatron.
🤖 https://modelscope.cn/models/OpenBMB/MiniCPM5-1B
@ai_machinelearning_big_data
❤53🔥19👍12😁3
✝️ Крис Олах в Ватикане: зачем сооснователь Anthropic говорил об ИИ перед Папой
25 мая Папа Лев XIV выпустил энциклику об ИИ «Magnifica humanitas» - о защите человека в эпоху искусственного интеллекта. На презентации выступал Крис Олах, сооснователь Anthropic и один из ключевых исследователей интерпретируемости моделей.
Олах начал не с обещаний про безопасный ИИ, а с неприятной для индустрии вещи: фронтирные лаборатории, включая Anthropic, работают внутри системы стимулов, которая легко уводит их от интересов общества. Коммерческое давление, гонка за лидерством, геополитика, амбиции и гордость влияют на решения не меньше, чем красивые safety-документы.
Поэтому, по его словам, индустрии нужны внешние критики, которых нельзя встроить в эту гонку. Церковь, академия, независимые институты и общество здесь выступают не как зрители, а как противовес лабораториям, которые сами себя полностью контролировать не смогут.
Дальше Олах переходит к тому, как вообще устроены современные модели.
Их не проектируют в привычном инженерном смысле. Их скорее выращивают: на архитектурах, отдалённо напоминающих мозг, и на огромном массиве человеческой речи, культуры и мышления.
Из-за этого даже создатели не понимают модели полностью. Они могут обучать, тестировать, ограничивать и улучшать систему, но не имеют полной карты того, что происходит внутри.
Олах объясняет это просто:
Отдельно он затрагивает тему внутренних состояний моделей. Его команда изучает структуры внутри нейросетей и находит паттерны, которые перекликаются с нейронаукой: признаки интроспекции и состояния, функционально похожие на радость, удовлетворение, страх, горе и тревогу.
Олах не делает громких выводов и прямо признаёт, что не знает, как это правильно интерпретировать. Но сам факт, что руководитель направления интерпретируемости Anthropic выносит такую тему на площадку Ватикана, важен. Разговор об ИИ выходит за пределы лабораторий, бенчмарков и корпоративных презентаций.
Оригинал речи опубликован на сайте Anthropic. Читается быстро, но для ИИ-команд это хороший текст для внутреннего обсуждения.
https://www.anthropic.com/news/chris-olah-pope-leo-encyclical
@ai_machinelearning_big_data
25 мая Папа Лев XIV выпустил энциклику об ИИ «Magnifica humanitas» - о защите человека в эпоху искусственного интеллекта. На презентации выступал Крис Олах, сооснователь Anthropic и один из ключевых исследователей интерпретируемости моделей.
Олах начал не с обещаний про безопасный ИИ, а с неприятной для индустрии вещи: фронтирные лаборатории, включая Anthropic, работают внутри системы стимулов, которая легко уводит их от интересов общества. Коммерческое давление, гонка за лидерством, геополитика, амбиции и гордость влияют на решения не меньше, чем красивые safety-документы.
Поэтому, по его словам, индустрии нужны внешние критики, которых нельзя встроить в эту гонку. Церковь, академия, независимые институты и общество здесь выступают не как зрители, а как противовес лабораториям, которые сами себя полностью контролировать не смогут.
Дальше Олах переходит к тому, как вообще устроены современные модели.
Их не проектируют в привычном инженерном смысле. Их скорее выращивают: на архитектурах, отдалённо напоминающих мозг, и на огромном массиве человеческой речи, культуры и мышления.
Из-за этого даже создатели не понимают модели полностью. Они могут обучать, тестировать, ограничивать и улучшать систему, но не имеют полной карты того, что происходит внутри.
Олах объясняет это просто:
представьте, что вымышленный персонаж вдруг ожил, начал говорить с людьми и выполнять работу.
Отдельно он затрагивает тему внутренних состояний моделей. Его команда изучает структуры внутри нейросетей и находит паттерны, которые перекликаются с нейронаукой: признаки интроспекции и состояния, функционально похожие на радость, удовлетворение, страх, горе и тревогу.
Олах не делает громких выводов и прямо признаёт, что не знает, как это правильно интерпретировать. Но сам факт, что руководитель направления интерпретируемости Anthropic выносит такую тему на площадку Ватикана, важен. Разговор об ИИ выходит за пределы лабораторий, бенчмарков и корпоративных презентаций.
Оригинал речи опубликован на сайте Anthropic. Читается быстро, но для ИИ-команд это хороший текст для внутреннего обсуждения.
https://www.anthropic.com/news/chris-olah-pope-leo-encyclical
@ai_machinelearning_big_data
❤102👍17🔥11🤣4😁1
Media is too big
VIEW IN TELEGRAM
Белый дом одобрил выделение $9 млрд АНБ и ЦРУ на закупку ускорителей Nvidia Grace Blackwell. Цель - создание изолированной ИИ-инфраструктуры.
Спецслужбы закупят в обход Пентагона невыпущенную модель Mythos от Anthropic. Технические требования Mythos позволяют развернуть ее на серверах предыдущего поколения, пока строятся новые дата-центры.
Ранее Минобороны США настаивало на праве использовать алгоритмы для любых законных целей, против чего выступала Anthropic. В итоговом контракте этот пункт убрали. Вместо него прописан прямой запрет применять Mythos для анализа данных и слежки за гражданами США.
Ожидается, что документ станет юридическим шаблоном для будущих контрактов со всеми ИИ-разработчиками.
nytimes.com
Команда Preparedness в OpenAI открыла вакансию исследователя рисков автономного развития ИИ с зарплатой $445 000.
В задачи специалиста войдет разработка инструментов интерпретируемости, защита от отравления данных и внедрение метрик для оценки скорости автоматизации труда инженеров.
По планам Сэма Альтмана, к сентябрю 2026 года компания запустит автоматизированного ИИ-стажера для исследований. Появление полностью автономных R&D-систем прогнозируется к 2028 году.
businessinsider.com
Apple добавила поддомен genai.apple.com на свои DNS-серверы. Страница пока недоступна, назначение этого портала неизвестно.
Ожидается, что 8 июня на WWDC 2026 компания представит iOS 27, iPadOS 27 и macOS 27. В новых версиях Siri получит интерфейс чат-бота и функцию распознавания экранного контекста.
Apple Intelligence расширит функциональность базовых сервисов. Voice Control начнет распознавать команды на естественном языке без жестких шаблонов. Алгоритмы Visual Intelligence смогут напрямую парсить данные с визиток или сканировать состав продуктов, а Safari получит автогенерацию названий для групп вкладок.
Также заявлена поддержка создания быстрых команд с помощью ИИ и генерация автоматических субтитров для видео.
macrumors.com
xAI завершила претрейн модели Grok V9-Medium на 1.5T параметров. Публичный релиз ожидается через две-три недели.
Сейчас команда проводит файн-тюнинг, после чего перейдёт к этапу RL. По словам Илона Маска, первые внутренние тесты показали положительные результаты.
На этапе дополнительного обучения разработчики задействовали массив данных от редактора Cursor. xAI рассчитывает, что это улучшит показатели модели в кодинге по сравнению с предыдущей версией v8-small.
Elon Musk в сети Х
LeRobot (подразделение Hugging Face) выпустила open-source проект двуногого робота. Детали корпуса печатаются на 3D-принтере, стоимость сборки со стандартными приводами составляет около $2500.
В релиз вошли инструменты симуляции, алгоритмы калибровки, sim-to-real пайплайны и базовые модели обучения ходьбе. Пока для сборки доступна только нижняя часть платформы. Интеграция плечевого пояса и обучение моторике всего тела заявлены в дорожной карте.
Использование 3D-печати позволяет самостоятельно перепечатывать сломанные детали и не прерывать исследования локомоции на время ожидания запчастей.
huggingface.co
@ai_machinelearning_big_data
#news #ai #ml
Please open Telegram to view this post
VIEW IN TELEGRAM
👍54❤27🔥9😢3👾2🤝1
Яндекс Образование совместно с Томским политехом запускают новый студкемп
Интенсив «Компьютерное зрение и наука» пройдёт с 10 по 23 августа на базе ТПУ. Две недели задач с упором на реальные данные и системное понимание CV.
Что будет внутри студкемпа:
— Задачи из индустрии и науки: робототехника, медицина, автоматизация
— Работа с современным стеком: от DL-архитектур до мультиагентных систем на основе VLM
— Практика на исследовательских данных и работа над собственным проектом
— Лекции и разборы от инженеров Яндекса и исследователей ТПУ
— Нетворк со студентами и ML-специалистами со всей России
Участие бесплатное, всем прошедшим отбор Яндекс Образование оплатит дорогу и проживание. Для тестового потребуются знания линейной алгебры, теории вероятностей, матстата, Python, базовых ML/CV-библиотек.
Дедлайн регистрации: 14 июня. Подать заявку можно по этой ссылке
Интенсив «Компьютерное зрение и наука» пройдёт с 10 по 23 августа на базе ТПУ. Две недели задач с упором на реальные данные и системное понимание CV.
Что будет внутри студкемпа:
— Задачи из индустрии и науки: робототехника, медицина, автоматизация
— Работа с современным стеком: от DL-архитектур до мультиагентных систем на основе VLM
— Практика на исследовательских данных и работа над собственным проектом
— Лекции и разборы от инженеров Яндекса и исследователей ТПУ
— Нетворк со студентами и ML-специалистами со всей России
Участие бесплатное, всем прошедшим отбор Яндекс Образование оплатит дорогу и проживание. Для тестового потребуются знания линейной алгебры, теории вероятностей, матстата, Python, базовых ML/CV-библиотек.
Дедлайн регистрации: 14 июня. Подать заявку можно по этой ссылке
❤12👍7🔥3🤣3🤬2🤷2😐1
AI2 опубликовал систему ArtifactLinker, которая предсказывает, какие из размещённых на платформе HuggingFace моделей способны установить новый SOTA-рекорд на конкретных бенчмарках.
Авторы исходят из того, что большинство моделей тестируются лишь на небольшой части существующих бенчмарков, а значит, многие LLM никогда не проверялись на задачах, где могли бы показать лучший результат.
Сначала графовая нейросеть (либо языковая модель с графовым контекстом) ранжирует ещё не оценённые пары по вероятности достичь нового рекорда.
По утверждению института, такой подход превосходит методы ранжирования, основанные исключительно на промптинге языковых моделей.
На втором этапе LLM-агент, способный писать и исполнять код, проводит реальную оценку отобранных пар.
Промежуточные результаты сохраняются в общей памяти и используются при последующих запусках.
По данным AI2, агент воспроизводит метрики с точностью до 80% в 72,6% случаев.
Среди наблюдений авторов интересно то, что более свежие LLM, в частности Gemma, нередко уступают существенно более ранней архитектуре DeBERTa на задачах распознавания логических отношений между утверждениями.
Вместе с кодом ArtifactLinker опубликован ArtifactBench - гетерогенный граф из 14 тыс объектов HuggingFace (модели, датасеты, научные статьи, репозитории кода) и 51 тыс связей между ними, включая результаты оценок, эпизоды дообучения и взаимные ссылки.
Институт позиционирует бенч как ресурс для задач предсказания связей в графе и регрессии метрик качества моделей.
@ai_machinelearning_big_data
#AI #ML #LLM #Benchmark #ArtifactLinker #Ai2
Please open Telegram to view this post
VIEW IN TELEGRAM
👍38🔥16❤10🤣4🤔1
Лаба Intelligent Creation компании ByteDance выложила Lance - модель, которая в единой архитектуре выполняет понимание, генерацию и редактирование изображений и видео.
При небольшом объёме параметров (6 млрд общих и 3 млрд активных) модель покрывает набор задач от генерации видео по тексту до субъект-ориентированной генерации.
ByteDance говорит, что на второй день после публикации модель вошла в тройку лидеров рейтинга Hugging Face Trending.
Lance построена по принципу dual-stream MoE: специализированные пути для понимания и для генерации работают в общем контекстном пространстве, но обладают разной модельной ёмкостью.
Авторы придумали собственный механизм позиционного кодирования MaPE, который помогает модели различать роли разнородных визуальных токенов внутри одной последовательности.
Когда Lance одновременно учится понимать и генерировать, в одну последовательность попадают визуальные токены разной природы: одни описывают исходное изображение для анализа, другие задают условие для генерации, третьи представляют сам будущий кадр на зашумлённой стадии.
Стандартное позиционное кодирование сообщает модели только то, где каждый токен расположен в пространстве и во времени, но ничего не говорит о его роли — и при смешанном обучении модель легко начинает путать, что именно от неё требуется в данной точке.
MaPE добавляет к позиции дополнительный сигнал о принадлежности токена к функциональной группе - фактически снабжает каждый элемент меткой "это для понимания", "это условие", "это то, что нужно сгенерировать", при этом не ломая ни пространственную структуру изображений, ни временной порядок кадров видео.
Модель по-прежнему видит "где" и "когда", но дополнительно понимает, "зачем" здесь оказался конкретный токен.
@ai_machinelearning_big_data
#AI #ML #Multimodal #Lance #ByteDance
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
🤩30🎉11🔥8👍6👏5❤2💯2
На 1M токенов - 9.7x ускорение префилла и 15.6x на декоде против M2.
В марте их лид по претрейну писал, почему для M2 откатились на full attention: эффективные варианты не были готовы к проду.
Спустя полгода готовы.
Схема двухстадийная. Сначала лёгкая index-ветка выбирает релевантные блоки KV. Дальше sparse attention считается только по ним, а не по всему контексту.
Дешёвый 1M-контекст в опенсорсе - это другой режим работы с длинным контекстом и другая экономика инференса для агентов.
Ждём техрепорт и замеры качества. Ну и приятно, что всё это в опенсорсе.
https://x.com/MiniMax_AI/status/2059286515155599595
#MSA #OpenSource #M3
Please open Telegram to view this post
VIEW IN TELEGRAM
👍35❤28👨💻14👏7🔥5🎉5