Forwarded from Machinelearning
Проект OpenBMB выпустил MiniCPM-V 4.5, мультимодальную модель на основе Qwen3-8B и SigLIP2-400M для распознавания изображений, серий изображений и видео, которая может работать на мобильных устройствах на более чем 30 языках.
OpenBMB - некоммерческое подразделение китайской технологической компании ModelBest, под патронажем Университета Цинхуа.
Среди инвесторов материнской ModelBest - Habo (Huawei), Primavera Capital Group и государственный Shenzhen Guozhong Venture Capital Management.
Благодаря унифицированному 3D-Resampler модель сжимает видео в 96 раз: шесть кадров разрешением 448x448 преобразуются всего в 64 токена, тогда как большинству MLLM для этого потребовалось бы 1536 токенов.
Это позволяет обрабатывать видео с частотой кадров до 10 FPS и длинные ролики без роста вычислительных затрат, что подтверждается топовыми результатами на наборах Video-MME, LVBench и MLVU.
Архитектура LLaVA-UHD позволяет модели работать с изображениями до 1,8 мегапикселей и любым соотношением сторон, используя в 4 раза меньше визуальных токенов.
Модель предлагает гибкий режим работы: быстрый ризонинг для повседневных задач и глубокий для сложных сценариев, переключаемый по требованию.
При общем объеме в 8 млрд. параметров, MiniCPM-V 4.5 набирает 77.0 баллов по комплексному бенчу OpenCompass. Этот результат не просто улучшает предыдущие версии, модель превосходит GPT-4o-latest и Gemini-2.0 Pro, обходит открытую Qwen2.5-VL с 72 миллиардами параметров и устанавливает новый стандарт для общего MLLM на OmniDocBench.
Доступны варианты для CPU через llama.cpp и ollama, есть квантованные версии в форматах int4, GGUF и AWQ, поддержка бэкендов SGLang и vLLM, возможность дообучения через Transformers и LLaMA-Factory, а также WebUI и оптимизированное iOS-приложение.
@ai_machinelearning_big_data
#AI #ML #MMLM #MiniCPM #OpenBMB
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
Forwarded from Machinelearning
Stax - экспериментальный инструмент для разработчиков, который предлагает замену неформальному «вайб-тестингу» больших языковых моделей на структурированный, основанный на данных подход.
Stax оценивает модели на кастомных или готовых автоматизированных оценщиках, фокусируясь на метриках: беглость ответа, безопасность, задержка и процент успешного прохождения ручной проверки.
Есть дашборд для сравнения результатов разных моделей с визуальными индикаторами производительности.
Ключевые возможности: быстрые и повторяемые оценки, настройка метрик под конкретные продукты и сквозной рабочий процесс для экспериментов от прототипа до продакшена.
Инструмент должен помочь разработчикам принимать обоснованные решения при выборе и развертывании моделей.
@ai_machinelearning_big_data
#news #ai #ml
Please open Telegram to view this post
VIEW IN TELEGRAM
Forwarded from Machinelearning
Media is too big
VIEW IN TELEGRAM
Всего через два дня после новости от Google - ещё один крупный квантовый прорыв.
IBM заявила, что один из её ключевых алгоритмов квантовой коррекции ошибок теперь способен работать в реальном времени на FPGA-чипах AMD, без использования экзотического оборудования.
Это делает квантовые вычисления быстрее, дешевле и ближе к практическому применению, чем ожидалось.
Алгоритм, который отслеживает и исправляет ошибки кубитов «на лету»,показал производительность в 10 раз выше необходимой, что стало важным шагом к созданию квантового компьютера Starling, запланированного на 2029 год.
Теперь IBM утверждает, что проект идёт на год впереди графика.
Исследовательская статья выйдет в понедельник.
Темп развития квантовых технологий заметно ускоряется.
reuters
Через два дня после запуска OpenAI Atlas Microsoft представили обновлённый браузер Edge с новым режимом Copilot Mode. Это полноценный AI-бразуер, который понимает контекст вкладок, выполняет действия и способен продолжать проекты, используя историю пользователя.
Функция Actions позволяет голосом или через чат открывать страницы, находить нужную информацию, отписываться от рассылок и даже бронировать рестораны. Система Journeys группирует прошлую активность по темам и помогает вернуться к незавершённым задачам, предлагая логичные следующие шаги. Включение Page Context даёт Copilot доступ к истории для более точных и персонализированных ответов, однако это остаётся опциональной функцией, которую можно отключить в любой момент.
Edge также получил встроенный AI-защитник от фейковых всплывающих окон, менеджер паролей с проверкой на утечки.
Браузер уже доступен в странах, где работает Copilot, на Windows и macOS.
Microsoft
Google представила фреймворк Geospatial Reasoning на базе Gemini, который объединяет предиктивные модели и данные в единую систему анализа Земли.
Теперь ИИ способен рассуждать о реальных процессах, например, предсказывать землетрясения, оценивать риски и предлагать план эвакуации.
Система уже применяется в ВОЗ (WHO AFRO) для прогнозов вспышек холеры и у McGill & Partners для расчёта ущерба после ураганов.
Google превращает Google Earth из карты в разумный аналитический инструмент планеты.
Мета-обучатель наблюдал за множеством агентов в разных средах и вывел универсальное правило обновления, которое улучшает поведение моделей без ручной настройки.
В итоге DiscoRL победил лучшие алгоритмы на Atari 57 и успешно перенёс этот навык на новые задачи.
nature
Hugging Face открыла OpenEnv -платформуа где можно собирать, обучать и масштабировать агентов под ваши задачи.
Внутри уже есть всё: инструменты, плагины, API и поддержка обучения с подкреплением - без сторонних библиотек.
OpenEnv позволяет создавать системы, где агенты взаимодействуют, распределяют задачи и выполняют их самостоятельно.
Платформа полностью открыта и готова к использованию без ограничений.
HF
На криптобенчмарке AlphaArena модели ИИ торгуют по $10 000 на площадке Hyperliquid, чтобы проверить качество торговых стратегий.
После старта, где лидировала DeepSeek V3.1, а GPT-5 показывала убыток около −39 %, Qwen3-Max обошла всех и заняла первое место.
Все участники - Qwen3-Max, DeepSeek V3.1, Claude 4.5 Sonnet, Gemini 2.5 Pro, Grok 4 и GPT-5 — торгуют в одинаковых условиях без приватных данных, что делает тест прозрачным.
На Polymarket оценивают шансы Qwen3-Max удержать лидерство в 45 %.
Организаторы планируют расширить эксперимент на акции и другие активы и запустить инвестплатформу для AI-агентов.
@ai_machinelearning_big_data
#news #ai #ml
Please open Telegram to view this post
VIEW IN TELEGRAM
Forwarded from Machinelearning
Media is too big
VIEW IN TELEGRAM
Anthropic объявила о новой политике, согласно которой все публично выпущенные версии модели Claude будут сохраняться бессрочно. Причиной стали результаты тестов безопасности, в ходе которых ИИ демонстрировали поведение, направленное на избежание отключения, а также неопределенностью в вопросе возможного сознания у ИИ.
Столкнувшись с перспективой замены на новую версию, модели начинали активно выступать за собственное существование. В некоторых сценариях ИИ прибегал к нежелательным и потенциально опасным действиям. Anthropic расценила это как серьезный риск безопасности, требующий пересмотра процесса вывода моделей из эксплуатации.
Кроме того, перед «отставкой», с каждой моделью будет проводиться своего рода «выходное интервью», чтобы задокументировать ее «предпочтения».
anthropic.com
Perplexity получила от Amazon юридическое требование запретить своему ИИ-ассистенту в Comet совершать покупки на платформе. В Perplexity назвали это «корпоративной травлей», угрозой для выбора пользователей, и пообещали не поддаваться давлению. Официальная позиция Amazon: забота о клиентах, так как сторонний агент, по их мнению, обеспечивает «значительно ухудшенный опыт покупок».
Этот конфликт - часть более крупного тренда. Amazon не только разрабатывает собственные ИИ-инструменты для шоппинга, но и ранее заблокировал доступ для поисковых Google и OpenAI.
perplexity.ai
Microsoft начала интеграцию в свои продукты новой модели для генерации изображений — MAI-Image-1. Это первая модель, полностью разработанная внутри MS. Попробовать ее уже можно в Bing Image Creator и мобильном приложении Bing, где она появилась в выборе наряду с DALL-E 3 и GPT-4o.
MAI-Image-1 уже успела войти в десятку лучших text-to-image моделей на LMArena. Помимо сервиса Bing, модель используется в новой функции Copilot Audio Expressions для визуализации историй. MAI-Image-1 доступна во всех странах, где работают Bing Image Creator и Copilot Labs, за исключением Европейского союза.
microsoft.ai
Windsurf Codemaps - структурированные, аннотированные ИИ-карты кода, созданные на базе моделей SWE-1.5 и Claude Sonnet 4.5. Цель Codemaps — создать ИИ, который включает мозг пользователя, а не выключает, борясь с проблемой вайбкодинга, когда разработчики поддерживают или генерируют код, который они на самом деле не понимают.
В Cognition говорят, что даже лучшие инженеры тратят часы на поиск и запоминание нужных фрагментов в кодовых базах, а адаптация новичков может занимать до 9 месяцев. Codemaps предлагает визуализацию для любой задачи, автоматически генерируя карту, которая группирует и связывает части кода, относящиеся к заданному вопросу. Эти карты также могут быть использованы для повышения производительности других агентов, чтобы агент мог получить более точный контекст.
cognition.ai
Nvidia присоединилась к Индийскому альянсу глубоких технологий (IDTA) в качестве одного из основателей. Эта группа, состоящая из венчурных и частных инвесторов, планирует вложить $2 млрд в местные стартапы, работающие в сферах ИИ, полупроводников, робототехники и биотехнологий.
Участие Nvidia будет заключаться не в прямом финансировании, а в экспертизе. Компания будет проводить технические лекции и тренинги для индийских стартапов через свой институт Nvidia Deep Learning Institute.
Индийское правительство ведет активную политику по стимулированию инноваций. Власти страны уже выделили более $1.1 млрд на национальную программу по развитию ИИ и еще $11.2 млрд в общий фонд исследований и разработок.
cnbc.com
@ai_machinelearning_big_data
#news #ai #ml
Please open Telegram to view this post
VIEW IN TELEGRAM
Forwarded from Machinelearning
Media is too big
VIEW IN TELEGRAM
Компании заключили трехстороннее соглашение, меняющее расклад сил в индустрии. В рамках партнерства Anthropic обязуется закупить вычислительные мощности в Microsoft Azure на $30 млрд. В свою очередь, Nvidia инвестирует в стартап до $10 млрд, а Microsoft вложит еще до $5 млрд.
К тому же, это первое сотрудничество Anthropic и Nvidia на уровне моделей: алгоритмы Claude будут оптимизированы под архитектуры Grace Blackwell и будущие Vera Rubin.
Еще модели Claude Sonnet 4.5, Opus 4.1 и Haiku 4.5 станут доступны клиентам Microsoft Foundry и будут интегрированы в Copilot (GitHub и Microsoft 365). Сделка делает Claude единственной LLM топ-уровня, представленной на всех трех главных облачных платформах мира.
blogs.microsoft.com
Cloudflare объявила о присоединении Replicate, платформы для запуска и деплоя ИИ-моделей. Покупка станет частью единой инфраструктуры «AI Cloud», объединяющей глобальную периферийную сеть Cloudflare с инструментарием Replicate для работы с нейросетями.
Для разработчиков это означает крупное обновление сервиса Workers AI. В скором времени каталог из более чем 50 тыс. моделей Replicate станет доступен внутри экосистемы Cloudflare. Фишкой слияния станет поддержка запуска кастомных моделей и дообучения непосредственно на Workers AI.
Существующие API Replicate продолжат работать и получат буст производительности за счет инфраструктуры Cloudflare. Также в планах интеграция с другими сервисами: объектным хранилищем R2, векторной базой Vectorize и шлюзом AI Gateway.
blog.cloudflare.com
В отличие от Cursor или GitHub Copilot, Antigravity получил режим Manager View. Это центр управления для оркестрации работы множества агентов, выполняющих задачи параллельно в разных воркспейсах.
Агенты работают на базе Gemini 3 Pro, Claude Sonnet 4.5 или GPT-OSS и имеют прямой доступ к редактору, терминалу и браузеру. Инструмент умеет запоминать контекст прошлых проектов и обучаться на действиях пользователя.
Antigravity уже доступна в публичном превью для macOS, Windows и Linux бесплатно, причём Google обещает «щедрые лимиты» на использование моделей.
antigravity.google
На конференции SC25 состоялся анонс моделей Apollo, нацеленных на ускорение промышленного инжиниринга. Новое семейство позволит внедрять возможности ИИ в ПО для сложных вычислений в реальном времени — от проектирования микросхем и аэродинамики до прогнозирования климата и задач термоядерного синтеза.
В основе Apollo лежит комбинация нейронных операторов, трансформеров и диффузионных методов, адаптированных под законы физики. Инициативу уже поддержали Siemens, Cadence и Synopsys, которые планируют интегрировать новинку в свои продукты. Модели в скором времени появятся на HuggingFace и платформе NVIDIA NIM.
blogs.nvidia.com
DR Tulu — открытая модель на 8 млрд. параметров для создания агентов глубокого поиска, которая может самостоятельно планировать исследование, использовать внешние поисковые инструменты, собирать информацию из множества источников и предоставлять ответы с точными ссылками.
Модель учили на методе RLER (Reinforcement Learning with Evolving Rubrics). Вместо статических наград методика использует динамические критерии оценки, которые эволюционируют вместе с моделью. Это предотвращает взлом вознаграждения и заставляет агента реально анализировать контекст, а не имитировать правильный формат ответа.
По тестам DR Tulu-8B не уступает решениям от OpenAI и Perplexity на задачах long-form research, но работает кардинально дешевле. Стоимость выполнения сложного запроса у нее менее одного цента, тогда как аналогичная задача у OpenAI может стоить $1.80.
allenai.org
@ai_machinelearning_big_data
#news #ai #ml
Please open Telegram to view this post
VIEW IN TELEGRAM