Forwarded from Machinelearning
Физики Гарварда создали первый в мире квантовый компьютер, который работает непрерывно без перезапуска.
Ранее квантовые машины держались миллисекунды, максимум - около 13 секунд.
Новая установка работает более 2 часов и может функционировать бесконечно.
Ключевое новшество - решение проблемы потери атомов: система в реальном времени пополняет кубиты, впрыскивая 300 000 атомов в секунду с помощью оптических инструментов.
Учёные считают, что практические, постоянно работающие квантовые компьютеры могут появиться уже в течение 2 лет - с огромным влиянием на медицину, финансы и научные исследования.
thecrimson
По данным The Information, Anthropic продвигает свою модель Claude как основу для создания enterprise-замен привычных приложений вроде Slack. Компания делает ставку на обучение с подкреплением, чтобы улучшить способности модели к программированию.
Похожую стратегию развивает и xAI Илона Маска, но эксперты сомневаются, что крупные корпорации откажутся от укоренившихся систем вроде SAP или ServiceNow. Более вероятно, что первыми такие AI-first инструменты начнут использовать небольшие стартапы.
Тем временем JPMorgan и другие банки активно заявляют об интеграции решений OpenAI, Anthropic и Google, хотя реальные масштабы затрат пока не соответствуют публичному энтузиазму.
theinformation
Comet, запущенный в июле 2025 года, работает как встроенный ассистент: он умеет анализировать страницы, вытаскивать ключевые детали и сердить по ссылкам, проводя многошаговые исследования.
Perplexity также представила Comet Plus за $5 — партнёрскую подписку, которая открывает доступ к контенту от CNN, The Washington Post, Fortune, Los Angeles Times и Condé Nast (The New Yorker, Wired и др.).
Однако запуск совпал с продолжающимися исками от крупных издателей, включая Dow Jones (The Wall Street Journal) и New York Post, обвиняющих стартап в использовании их материалов для обучения ИИ.
Скачать Comet
TechCrunch пишет, что запуск нового соцприложения Sora 2 вызвал тревогу внутри самой OpenAI. Это TikTok-подобная лента, наполненная видео, созданными ИИ, включая дипфейки самого Сэма Альтмана.
Часть исследователей OpenAI считает, что компания уходит от своей миссии ради хайпового контента. Один из сотрудников прямо заявил: «AI-ленты - пугающие. Я был шокирован, узнав, что мы выпускаем Sora 2…»
Сторонники проекта объясняют, что такие продукты нужны, чтобы финансировать фундаментальные исследования и дать пользователям почувствовать силу технологий. В OpenAI утверждают, что хотят «показать людям что-то классное, чтобы они улыбнулись».
Но вместе с ростом Sora OpenAI рискует повторить судьбу классических соцсетей: зависимость, манипуляции c информацией, проблемы с дипфейками и давлением на метрики вовлечённости.
techcrunch
Китай в 2025 году вложит до 98 млрд долларов, но экспортные ограничения на топовые чипы Nvidia и AMD тормозят прогресс.
Huawei продвигает Ascend 910C, однако по памяти, пропускной способности и софту он уступает решениям Nvidia. США разрешили ограниченные продажи H20 и MI308 в Китай с 15% налогом, но топовые GPU недоступны китацы, и разрыв в производительности всё ещё в пользу американцев.
X
@ai_machinelearning_big_data
#news #ai #ml
Please open Telegram to view this post
VIEW IN TELEGRAM
❤6👍3🔥2🥰2🤣1
Forwarded from Machinelearning
Media is too big
VIEW IN TELEGRAM
Модель GPT-5 Pro заняла первое место среди всех проверенных frontier-LLM на закрытом бенчмарке ARC-AGI Semi-Private. Этот тест оценивает способность моделей к абстрактному рассуждению и решению сложных задач.
Интересно, что GPT-5 Pro всё ещё уступает результатам старого o3-preview, который OpenAI тестировал ещё в декабре прошлого года. Однако тот экспериментальный вариант был почти в 50 раз дороже в вычислительных затратах и никогда не был публично выпущен.
Версия o3-preview (high) достигала впечатляющих 87,5 % точности на ARC-AGI-1, но потребляла 172 раза ресурсов, чем версия (low). Из-за этого она не попала в официальный лидерборд - по правилам, тесты с compute-стоимостью выше $10 000 не публикуются.
GPT-5 Pro является самой мощной из доступных и подтверждённых моделей на Semi-Private ARC-AGI.
В список вошли достижения в самых разных областях: ИИ робототехника, медицина, экология, образование, энергетика и дизайн. Среди ключевых технологий - Claude Sonnet 4 от Anthropic, новая версия ИИ-модели, которая продемонстрировала более точные и безопасные ответы; NVIDIA DGX Spark - «настольный» AI-суперкомпьютер, делающий высокопроизводительные вычисления доступнее; UiPath Agentic Automation, объединяющая работу AI-агентов; и XReal One - компактные AR-очки, приближающие смешанную реальность к массовому использованию.
TIME отметили разработки в области биотехнологий, биопечати тканей, устойчивых источников энергии и переработки отходов. Эти изобретения демонстрируют, как технологии становятся не просто инструментами, а основой будущего образа жизни.
time
Google Cloud опубликовал обновлённый список из 321 корпоративного примера применения генеративного ИИ, что в 10 раз больше, чем годом ранее. Это показывает, что AI уже массово используется в продакшене по всему миру.
В банках и ритейле Commerzbank ИИ обрабатывает 2 млн клиентских чатов с 70% успешных решений, Best Buy ускоряет анализ отзывов, а Mercedes внедрил голосового ассистента на базе Gemini.
Внутри компаний ИИ автоматизирует рутину: Toyota экономит более 10 000 часов в год, Manipal Hospitals сократил передачу смен с 90 до 20 минут, Equifax - 97% сотрудников хотят сохранить AI-лицензии.
Wayfair ускорил настройку окружений на 55%, CME сэкономил 10,5 часов в месяц, а BMW и UPS используют цифровых двойников для моделирования логистики и производств.
Подробнее
Министр экономики Тайваня заявил, что TSMC сохранит свои самые передовые технологии и основное производство на острове, несмотря на предложение США сделать «50 на 50».
Компания вкладывает $165 млрд в шесть фабрик в США, но строит десять на Тайване и планирует новые - там останутся ведущие технологические узлы.
По словам министра, зарубежные заводы допустимы только при реальных заказах, прибыли и отсутствии рисков для безопасности.
Идея «50-50» возникла из-за стремления США увеличить долю внутренних чипов после кризиса поставок 2020–2021 годов.
Аналитики считают, что перенос производства в США слишком дорог и займёт годы, поэтому Вашингтон делает ставку на «friendshoring» - распределённые цепочки поставок между союзниками.
times
Microsoft представила новую модель UserLM-8B, созданную для симуляции поведения пользователя в диалоге. В отличие от обычных LLM, эта модель генерирует реплики от лица человека, включая уточнения, эмоции и ошибки, как в реальном общении.
Модель построена на базе Llama3.1 8B и дообучена на корпусе WildChat-1M, где она анализировала сотни тысяч реальных и синтетических диалогов. Такой подход позволяет создавать реалистичные сценарии общения для тестирования чат-ботов, обучения ассистентов и генерации синтетических данных.
HF
@ai_machinelearning_big_data
#news #ai #ml
Please open Telegram to view this post
VIEW IN TELEGRAM
👍5🔥4❤3
Forwarded from Machinelearning
Media is too big
VIEW IN TELEGRAM
Google анонсировала проект Suncatcher, который будет строить ML-инфраструктуру в космическом пространстве. Концепция состоит из развертывания группировок спутников, оснащенных TPU и связанных оптическими каналами. Идея проекта в том, что на правильной орбите солнечная панель может быть до 8 раз продуктивнее, чем на Земле, а значит космос - это лучшее место для масштабирования вычислений.
Для реализации еще предстоит решить как поддерживать высокоскоростную межспутниковую связь, которая требует полета аппаратов в очень плотном строю (километр или менее). К началу 2027 года планируют запуск двух прототипов спутников для проверки работы оборудования на орбите.
research.google
Новый рекорд производительности был получен на виртуальных машинах Azure ND GB300 v6, запущенных на стоечной системе NVIDIA GB300 NVL72. В ходе тестов была достигнута совокупная скорость инференса модели Llama 2 70B в 1.1 млн токенов в секунду. Это на 27% больше предыдущего рекорда, установленного на GB200.
Новая конфигурация дала почти пятикратный прирост пропускной способности на один GPU по сравнению с поколением H100. Ключевыми факторами стали возможности архитектуры Blackwell, использование FP4 и оптимизация библиотеки NVIDIA TensorRT-LLM. Результаты были подтверждены независимой аналитической компанией Signal 65. Логи запуска тестового инстанса можно посмотреть на Github.
techcommunity.microsoft.com
Платформа вводит новые, более строгие правила для раздела Computer Science. Причиной стал резкий рост числа обзорных и концептуальных статей низкого качества, многие из которых созданы с помощью нейросетей.
Теперь работы будут приниматься к публикации только после того, как их одобрят в рецензируемом научном журнале или на конференции. Авторам потребуется предоставить соответствующее подтверждение при загрузке работы, в противном случае статья будет отклонена. Новая политика не затрагивает обычные исследовательские статьи, однако в будущем может быть распространена и на другие научные области, если там возникнет схожая проблема.
blog.arxiv.org
AgiBot в партнерстве с Longcheer Technology развернула систему обучения с подкреплением в реальном мире (RW-RL) на пилотной производственной линии. Это первый подтвержденный случай промышленного применения технологии, которая позволяет роботам обучаться непосредственно в процессе работы, а не следовать жестким инструкциям.
С RW-RL роботы AgiBot осваивают новые навыки за минуты, автономно адаптируясь к изменениям в деталях или производственных допусках. Система поддерживает стабильность промышленного уровня и не требует сложной аппаратной модификации при смене продукта. После успешного пилотного проекта компании планируют расширить применение RW-RL на сборку потребительской электроники и автомобильных компонентов.
gizmochina.com
Scale AI и Center for AI Safety опубликовали результаты бенчмарка Remote Labor Index, который оценивает способность ИИ выполнять реальную работу фрилансеров. В рамках теста исследователи взяли 240 завершенных проектов с биржи Upwork и поставили идентичные задачи 6 топовым ИИ-системам.
Результаты показали, что даже лучшие модели справились с заданиями на человеческом уровне лишь в 2.5% случаев. Почти 97% работ были признаны неудовлетворительными из-за низкого качества, неполных данных или поврежденных файлов. ИИ справился только с узкими задачами: создание логотипов или сведение аудио.
Тест наглядно подсветил огромный разрыв между показателями ИИ на синтетических бенчмарках и его реальной готовностью к автоматизации сложных проектов.
scale.com
@ai_machinelearning_big_data
#news #ai #ml
Please open Telegram to view this post
VIEW IN TELEGRAM
❤11👍8🔥8😢1
Forwarded from Machinelearning
GPT-5-Codex-Mini - более доступная версия флагманского Codex, она в 4 раза эффективней по затратам по сравнению с полной версией GPT-5-Codex при небольшом компромиссе в производительности.
Разница в возможностях минимальна: на SWE-bench Verified версия Mini набрала 71.3%, в то время как старшая GPT-5-Codex - 74.5%. OpenAI рекомендует переключаться на Mini для решения более простых задач или для экономии ресурсов при приближении к лимитам. Старший Codex будет автоматически предлагать переход на Mini, когда пользователь достигнет 90% своего лимита.
Модель уже доступна в CLI и расширении для IDE, а в скором времени появится и поддержка через API.
@ai_machinelearning_big_data
#news #ai #ml
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥10❤4
Forwarded from Machinelearning
Miles - фреймворк для RL-обучения от команды LMSYS ORG, ориентированный на энтерпрайз-уровень.
Если вы следите за опенсорс разработками, вы наверняка слышали о предшественнике этой системы, проекте slime. Это легкий инструмент, который используют во многих современных пайплайнов пост-трейна. На нем, кстати, запускали GLM-4.6.
Slime доказал, что легковесный дизайн работает, и Miles делает следующий шаг - масштабное обучение архитектур MoE и поддержка тяжелых промышленных нагрузок.
Miles предлагает то, что называют "True On-Policy". Раньше между тренировкой и инференсом часто возникало расхождение. Теперь же, благодаря инфраструктурному подходу, LMSYS добилась нулевой дивергенции. Это стало возможным благодаря использованию Flash Attention 3, библиотеки DeepGEMM и ядер от Thinking Machines Lab, работающих в связке с
torch.compile.Вторая особенность - в использовании спекулятивного декодирования. Обычно в RL черновая модель замораживается, что мешает ей следовать политике целевой модели. LMSYS добавили онлайн-обучение черновой модели.
Результаты на тестах положительные: ускорение генерации более чем на 25%, особенно на поздних стадиях обучения.
Для энтерпрайза память - это деньги. В Miles включили механизмы, предотвращающие падение системы при некритичных ошибках OOM и исправили чрезмерное потребление памяти в FSDP.
В дорожной карте проекта обещают поддержку мультимодального обучения, совместимость со SGLang v2 и расширенное спекулятивное декодирование.
@ai_machinelearning_big_data
#AI #ML #RL #Miles #LMSYS
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍6🔥3❤2🥰1
Forwarded from Machinelearning
Media is too big
VIEW IN TELEGRAM
OpenAI представила GPT-5.2-Codex, которую называет самым продвинутым инструментом для реальной программной инженерии на сегодняшний день. Модель получила нативную поддержку сжатия контекста, улучшенную интеграцию с терминалом Windows и способность проводить глубокий рефакторинг крупных репозиториев без потери логической нити.
Ключевой апдейт коснулся сферы безопасности - Codex резко прибавил способностей в анализе защищенности кода. Модель уже доступна платным пользователям ChatGPT, а API будет открыт в ближайшие недели.
openai.com
Компания Илона Маска открыла публичный доступ к Grok Voice Agent API — нативному интерфейсу speech-to-speech для создания голосовых ассистентов. Решение построено на полностью собственной архитектуре, что позволило достичь задержки ответа менее 1 секунды.
API поддерживает вызов внешних инструментов, веб-поиск, прямую интеграцию с телефонией через SIP и понимает более 100 языков. В бенчмарке Big Bench Audio модель заняла 1 место с точностью 92,3%, опередив Gemini 2.5 Flash и GPT Realtime.
Главной фишкой стала ценовая политика: единый тариф составляет $0.05 за минуту. Это значительно дешевле, чем у OpenAI и ElevenLabs.
x.ai
В VS Code Insiders появилась поддержка Agent Skills - открытого протокола, разработанного Anthropic. Технология позволяет упаковывать инструкции, скрипты и вспомогательные ресурсы в модули, которыми можно пользоваться в разных ИИ-инструментах.
Главное отличие Agent Skills от привычных кастомных инструкций в функциональности: это не текстовые гайдлайны по стилю кода, а полноценные наборы инструментов для автоматизации задач, которые подгружаются в контекст модели динамически и только при необходимости.
Стандарт дает кросс-платформенность: созданный один раз скилл будет работать одинаково как в интерфейсе редактора, так и в CLI-агентах.
code.visualstudio.com
T5Gemma 2 получила серьезные архитектурные изменения по сравнению с первой версией. Чтобы снизить потребление памяти, инженеры внедрили
tied word embeddings для энкодера и декодера, а также объединили механизмы self-attention и cross-attention в единый слой. Модели доступны в компактных конфигурациях на 270M, 1B и 4B параметров.Новинка поддерживает контекстное окно до 128 тыс. токенов и умеет обрабатывать не только текст на 140 языках, но и изображения. В бенчмарках T5Gemma 2 обошла базовую Gemma 3 в задачах на длинный контекст, кодинг и мультимодальное понимание. Модели доступны на Hugging Face и Kaggle для исследовательских целей.
blog.google
Perception Encoder Audiovisual (PE-AV) - техническое ядро, лежащее в основе SAM Audio. Это мультимодальная модель, которая объединяет аудио, видео и текст в единое пространство эмбеддингов.
PE-AV умеет извлекать векторы признаков из аудио или видеокадров и формировать совместные аудиовизуальные представления. Это повышает точность в задачах кросс-модального поиска, детекции звуков и глубокого понимания сцен, где важен синхронный контекст изображения и звука.
В открытом доступе - 6 чекпоинтов модели разного размера (от Small до Large) с вариациями по количеству обрабатываемых кадров. Код опубликован на GitHub, а веса - на Hugging Face.
huggingface.co
@ai_machinelearning_big_data
#news #ai #ml
Please open Telegram to view this post
VIEW IN TELEGRAM
👍7❤5🔥2
Вчера, на просторах сети Х, Tongyi Lab запостила тизер "новогоднего подарка, который уже в пути".
Так как все очень сильно и давно ждут Z-Image Base
Розыскную бригаду собирать не пришлось - новинку спойлернул gemini-code-assist в репозитории Modelscope : это будет qwen-image-2512
#news #ai #ml
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
❤5👍2🥰2
Forwarded from Machinelearning
DeepSeek опять шатают устои архитектуры трансформеров свежайшим пейпером, который доказывает, что новое — это хорошо
Пока все пытаются запихнуть в LLM как можно больше слоев и параметров, DeepSeek задались вопросом: зачем тратить дорогой компьют на запоминание фактов, если их можно просто подсмотреть? Знакомьтесь:
DeepSeek предлагает разделить "думалку" (MoE-слои) и "хранилище знаний" (Engram):
Чтобы правильно поделить бюджет параметров между MoE и Engram посчитали сценарии масштабирования. График лосса от соотношения этих частей выглядит как буква U:
DeepSeek обучили модель Engram-27B и сравнили ее с классической MoE-27B при одинаковом бюджете параметров и FLOPs. Итоги:
Общее качество подросло: MMLU +3.4 пункта, HumanEval (код) +3.0.
На длинном контексте - разнос. В тесте на поиск иголки (NIAH) точность выросла с 84.2 до 97.0. Модель разгрузила слои внимания от запоминания локальных паттернов, и оно сфокусировалось на глобальном контексте.
Модель быстрее сходится. Engram берет на себя рутину в ранних слоях, тем самым позволяя модели сразу учиться сложным вещам.
Таблица эмбеддингов для Engram может быть запредельно огромной (в пейпере разгоняли до 100B параметров) и, очевидно, в VRAM это не влезает.
Решили так: раз ID токенов известен до прогона слоя, то эти данные можно хранить в RAM и асинхронно подтягивать. В реале, оверхед от этой механики показал меньше 3%., т.е. мы получаем модель, которая знает больше, чем влезает в GPU, используя оперативку сервера.
Вместо того чтобы заставлять модель учить все наизусть, ей дают гигантский справочник. Теоретически, это открывает путь к
Похоже, в V4 мы увидим как эта схема работает, ведь инсайдеры обещают у нее запредельные скилы.
@ai_machinelearning_big_data
#AI #ML #LLM #Engram #Deepseek
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
❤35👍14🔥8
Forwarded from Machinelearning
Media is too big
VIEW IN TELEGRAM
В обновленном коллективном иске против Nvidia всплыли неожиданные подробности: техногигант напрямую контактировал с крупнейшей теневой библиотеки Anna’s Archive. Согласно судебным документам, инженеры компании искали способ получить приоритетный доступ к массиву данных книг, чтобы ускорить обучение своих языковых моделей.
Ситуация выглядит парадоксально: авторы иска утверждают, что Anna’s Archive предупреждал Nvidia о нелегальном характере контента. Однако менеджмент Nvidia, ссылаясь на конкурентное давление и острую нехватку качественных текстов, дал добро на скачивание.
Речь шла о передаче 500 Тб информации, включающие материалы из LibGen и Sci-Hub, которые Nvidia планировала использовать для тренировки своих моделей.
torrentfreak.com
OpenAI внедряет предиктивный анализ системы защитных фильтров для подростков. Алгоритм оценивает не только данные, указанные при регистрации, но и косвенные признаки: время активности в чате, историю аккаунта и поведенческие паттерны.
Если нейросеть решит, что перед ней несовершеннолетний, ChatGPT ограничит генерацию взрослого контента, а в случае ошибочного срабатывания - придется подтверждать возраст через сервис Persona с помощью селфи.
Это часть новой стратегии по ослаблении цензуры для взрослой аудитории, которая откроет доступ к материалам, ранее заблокированным для всех. Первыми новую механику опробуют пользователи из ЕС уже в ближайшие недели.
openai.com
В свежем Economic Index Repot Anthropic выяснила, что ИИ берет на себя около четверти задач в половине всех профессий, но полное замещение сотрудников происходит менее чем в 10% компаний. Основной паттерн использования сместился от автоматизации к сотрудничеству.
В топе сценариев по-прежнему лидирует кодинг, однако характер работы изменился. Разработчики все чаще используют Claude не для генерации кода с нуля, а для обучения, получения фидбека и доработки решений.
Главный риск касается новичков. ИИ забрал на себя всю рутину, на которой традиционно набивали руку джуны и это создает проблему: продуктивность сеньоров растет, но у молодых специалистов исчезает полигон для получения первичного опыта.
anthropic.com
Платформа представила функцию паблишинга, которая берет на себя техническую рутину по развертыванию приложений. Инструмент не только компилирует код, но и полностью автоматизирует подготовку тестовых окружений для iOS и Android.
Для Android система генерирует готовый AAB-файл, который остается лишь загрузить в Google Play Console. С Apple интеграция еще глубже: Manus самостоятельно создает запись приложения в аккаунте разработчика, упаковывает сборку и отправляет ее в App Store Connect на ревью в TestFlight. Функция уже открыта для всех пользователей с доступом к Develop Apps.
manus.im
OptiMind — MoE-модель с 20B/3.6A параметров, которая умеет преобразовывать текстовые описания задач (планирование логистики, производство или цепочки поставок) в готовые математические формулировки, понятные профессиональному софту.
Несмотря на скромный размер, OptiMind не уступает крупным аналогам. Инженеры Microsoft вручную чистили датасеты от некорректных решений и задействовали систему экспертных подсказок, которая корректирует логику модели в процессе генерации. Модель доступна на Hugging Face под лицензией MIT.
microsoft.com
@ai_machinelearning_big_data
#news #ai #ml
Please open Telegram to view this post
VIEW IN TELEGRAM
❤13👍4🔥1🤨1
Forwarded from Machinelearning
Пока
В течении часа глава OpenAI отвечал на вопросы и рассказывал про видение ИИ сейчас и в будущем. Главный тезис стрима:
Мы входим в эпоху "радикального изобилия", где интеллект станет слишком дешевым, чтобы его измерять.
Сэм Альтман прогнозирует, что к 2027 году стоимость инференса упадет в 100 раз, а модели уровня GPT-5.ХX станут основой для создания сложнейшего софта силами одного человека.
Основным дефицитным ресурсом останется человеческое внимание и способность генерировать качественные идеи.
Ключевые моменты трансляции
Удешевление создания кода не снизит спрос на программистов, а наоборот, резко увеличит объем создаваемого софта. Инженеры будут тратить меньше времени на код и больше на проектирование.
ИИ станет дефляционным фактором. Софт, на разработку которого раньше уходили годы работы команд, теперь можно создать за пару сотен долларов инференса и одну хорошую идею.
Значительная часть мирового ВВП будет создаваться и потребляться через софт, генерируемый ИИ.
Цель — сделать интеллект "too cheap to meter". К концу 2027 года ожидается появление моделей уровня 5.2X со снижением стоимости в 100 раз.
Скорость важнее цены. Разрабатываются методы выдачи результата в 1/100 времени от текущего, даже если это будет стоить дороже.
В GPT-4.5 был упор на текстовый стиль. В GPT-5 команда сместила фокус на "ризонинг, кодинг и инжиниринг". Альтман признает, что сейчас стиль может казаться громоздким, но это исправят в будущих итерациях.
Будущее за приложениями, которые пишутся на лету под конкретного пользователя, т.е софт, который эволюционирует вместе с вашими привычками.
Готовится функция «Sign in with ChatGPT», которая позволит передавать ИИ контекст всей цифровой жизни пользователя (почта, файлы, история), чтобы он мог действовать как полноценный ассистент.
Обсуждается создание иерархии памяти: рабочая идентичность, личная и т.д., чтобы модель знала, какой контекст использовать в разных ситуациях.
Модели становятся слишком хороши в биологии. Старая стратегия блокировки доступа скоро перестанет работать. Нужен переход к стратегии устойчивости, как в пожарной безопасности.
Альтман признался, что сам быстро перешел от "никогда не дам ИИ доступ к компьютеру" до "пусть делает всё сам", потому что удобство перевешивает страх. Это создает риск скрытых уязвимостей, которые могут проявиться через недели работы агента.
Стройте продукты, предполагая, что GPT-6 будет «невероятным». Если ваш бизнес выиграет от новой модели - вы на верном пути. Если модель его съест - это плохой путь.
Софт-скилс - самые важные навыки сейчас: высокая субъектность, способность генерировать идеи, устойчивость и адаптивность.
Альтман советует амбициозным разработчикам ИИ уходить из университетов, так как текущая академическая среда не успевает за темпами индустрии.
Используйте ИИ как безлимитного аспиранта или партнера по брейн-шторму для проверки тысяч идей в режиме "поиска в ширину".
@ai_machinelearning_big_data
#news #ai #ml
Please open Telegram to view this post
VIEW IN TELEGRAM
❤15👍7🔥4🌚3🤣1
Forwarded from Machinelearning
Media is too big
VIEW IN TELEGRAM
Экспериментальный прототип Project Genie стал доступным для американских подписчиков тарифа Gemini Ultra. Проект построен на модели мира Genie 3 и может генерировать игровые 2D/3D-окружения по текстовым описаниям или референсным изображений, а затем свободно перемещаться по ним в реальном времени.
На старте доступны функции создания, исследования и модификации локаций. Генерация мира происходит процедурно прямо в процессе взаимодействия.
Длительность сессии - до 60 секунд, есть задержки отклика и визуальные артефакты. Под капотом - Nano Banana Pro и Gemini.
blog.google
Китайский стартап открыл массовый наем специалистов для создания поисковой системы. Судя по описаниям вакансий, DeepSeek строит мультимодальный движок, который будет обрабатывать запросы через текст, изображения и аудио на разных языках.
Вторым вектором хантинга стали автономные агенты. Компания ищет инженеров для создания инфраструктуры постоянно работающих ИИ-помощников, способных решать задачи с минимальным вмешательством человека.
Конечной целью в описании позиций компания называет создание AGI.
bloomberg.com
Институт Аллена представил семейство открытых ИИ-агентов SERA, оптимизированных для работы с реальными кодовыми базами. Флагманская модель SERA-32B успешно решает более 55% задач в SWE-Bench Verified, опережая Qwen3-Coder и проприетарный Devstral Small 2. Младшая версия на 8 млрд. параметров - 29,4%, это тоже выглядит бодро для сопоставимой весовой категории.
Самое крутое здесь — это ценник. Инженеры научились тренировать агентов всего за $400, что примерно в 100 раз дешевле привычных методов. Секрет такой экономии в использовании синтетических данных.
Ai2 выкатили в опенсорс вообще все, включая скрипты для интеграции с Claude Code. Теперь, чтобы поднять собственного ИИ-разработчика, достаточно прописать буквально пару строчек кода..
allenai.org
Чипмэйкер опубликовал семейство открытых моделей и библиотек Earth-2, которое заменяет тяжелые физические симуляции нейросетями. Earth-2 генерирует метеопрогнозы на порядки быстрее и дешевле традиционных численных методов NWP.
В релиз вошли 3 архитектуры: Medium Range дает глобальный прогноз на 15 дней вперед по 70+ параметрам, генеративная система Nowcasting следит за штормами здесь и сейчас с окном прогноза до 6 часов и разрешением в километр и третий модуль, Global Data Assimilation, сокращает время расчета начальных атмосферных условий с часов до секунд.
Первые две уже доступны на GitHub и Hugging Face, а выход модуля ассимиляции данных запланирован на 2026 год.
nvidia.com
Google официально отправила LiteRT (тот самый TensorFlow Lite) в стабильный продакшн. Разработчики наконец-то получили нормальный, унифицированный доступ к NPU от Qualcomm и MediaTek. Плюс ко всему, новый движок ML Drift на GPU обгоняет классический TFLite в среднем в 1,5 раза.
Результаты бенчмарков на Samsung S25 Ultra выглядят почти нереально: на Gemma 3 LiteRT умудрился обойти llama.cpp в 3 раза на процессоре и в 19 раз на GPU (в prefill).
Если вы раньше страдали при переносе моделей, хорошая новость: теперь есть прямая конвертация из PyTorch и JAX. При этом старые наработки не сломали: формат .tflite поддерживается, но Google рекомендует использовать новый API CompiledModel.
developers.googleblog.com
@ai_machinelearning_big_data
#news #ai #ml
Please open Telegram to view this post
VIEW IN TELEGRAM
❤10🔥7👍4
🚀 Mistral научили маленькие модели думать как большие
Mistral AI представила семейство Ministral - компактные модели, созданные с помощью подхода cascade distillation.
- Большая модель Mistral 3 выступает в роли «учителя»
- Дистилляция проходит в несколько этапов, а не за один раз
- Каждая следующая модель учится на результатах предыдущей
- Быстрее inference
- Дешевле запуск в продакшене
- Подходит для edge-устройств и локального запуска
- Можно масштабировать AI-сервисы без огромных затрат
- В итоге - меньше размер, ниже стоимость, высокая точность
Большие модели будут использоваться для обучения…
а в продакшене будут работать маленькие и эффективные.
https://www.deeplearning.ai/the-batch/mistral-uses-cascade-distillation-on-mistral-3-to-build-ministral-family
#ai #ml #llm #Mistral
Mistral AI представила семейство Ministral - компактные модели, созданные с помощью подхода cascade distillation.
- Большая модель Mistral 3 выступает в роли «учителя»
- Дистилляция проходит в несколько этапов, а не за один раз
- Каждая следующая модель учится на результатах предыдущей
- Быстрее inference
- Дешевле запуск в продакшене
- Подходит для edge-устройств и локального запуска
- Можно масштабировать AI-сервисы без огромных затрат
- В итоге - меньше размер, ниже стоимость, высокая точность
Большие модели будут использоваться для обучения…
а в продакшене будут работать маленькие и эффективные.
https://www.deeplearning.ai/the-batch/mistral-uses-cascade-distillation-on-mistral-3-to-build-ministral-family
#ai #ml #llm #Mistral
❤20👍12🔥6
Forwarded from Machinelearning
This media is not supported in your browser
VIEW IN TELEGRAM
Новый инструмент сканирует кодовую базу и предлагает патчи для исправления найденных проблем. Сейчас он доступен в режиме ограниченного превью для Enterprise и Team клиентов, а мейнтейнеры репозиториев могут запросить приоритетный бесплатный доступ.
Обычный статический анализ ищет совпадения с известными паттернами уязвимостей. Этого достаточно, чтобы поймать торчащие наружу пароли или устаревшее шифрование.
Но прорехи в бизнес-логике или сломанный контроль доступа такие инструменты пропускают - там нужно понимать, как компоненты взаимодействуют между собой и куда движутся данные.
Claude Code Security делает именно это: читает и анализирует код так, как его читал бы человек-исследователь безопасности.
Каждая находка проходит многоступенчатую верификацию. Claude сам перепроверяет результаты, пытаясь опровергнуть собственные выводы и отсеять ложные срабатывания.
Финальные находки появляются в дашборде с оценкой серьезности и уровнем уверенности модели. Решение, применять предложенный патч или нет остается за людьми, без человеческого одобрения ничего не меняется.
За инструментом - более года исследований. Команда Frontier Red Team тестировала Claude на соревнованиях CTF и совместно с Pacific Northwest National Laboratory отрабатывала защиту критической инфраструктуры.
С Opus 4.6 команда обнаружила в open-source проектах более 500 уязвимостей, которые не замечали годами, несмотря на регулярный аудит.
@ai_machinelearning_big_data
#news #ai #ml
Please open Telegram to view this post
VIEW IN TELEGRAM
👍15❤8🔥5😁2
Forwarded from Machinelearning
This media is not supported in your browser
VIEW IN TELEGRAM
Программа Codex Open Source Fund, запущенная год назад, получила апдейт льгот для разработчиков, которые поддерживают публичные репозитории.
Теперь участники программы получают не только API-кредиты, но и полный доступ к ChatGPT Pro с Codex на полгода.
Обновленный набор поддержки выглядит теперь так:
Условность в том, то Codex Security одобряется вручную. OpenAI объясняет это возможностями GPT-5.4, команда рассматривает каждую заявку отдельно, чтобы убедиться, что инструмент применяется осознанно.
OpenAI формулирует требования к просителям программы размыто:
core maintainer с write access к широко используемому публичному проекту. Что считается широко используемым - не уточняется.Если проект не вписывается в стандартные критерии, OpenAI все равно рекомендует подавать заявку с объяснением роли проекта в экосистеме.
Неделю назад Antropic запустила похожую тему поддержки опен-сорса.
@ai_machinelearning_big_data
#news #ai #ml
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥13❤7👍4
Forwarded from Machinelearning
Флагман. Триллион параметров суммарно, 42 млрд. активных при инференсе, архитектура MoE с гибридным вниманием и контекстным окном в 1 миллион токенов. До официального анонса модель тестировалась на OpenRouter под именем Hunter Alpha.
Реальная агентская эффективность на GDPval-AA: Elo 1434 (лучший результат среди китайских моделей).
Цена API: $1 вход / $3 выход за млн. токенов при контексте 256K и $2 вход / $6 выход для контекста 256К-1М.
Принимает текст, изображения, видео и аудио через единую базу с отдельными энкодерами для каждой модальности. Параметры не раскрыты. Модель поддерживает непрерывную обработку аудио длиной свыше 10 часов в одном запросе.
Цена: $0,40 вход / $2,00 выход.
На демонстрации модель прошла цикл онлайн-покупки автономно: нашла отзывы на Xiaohongshu, сравнила продавцов на JD.com, поторговалась с поддержкой, оформила заказ.
Второе демо: получила одно текстовое задание, сняла 15-секундный ролик из 4 сцен, синтезировала звук, исправила ошибку рендеринга шрифта, загрузила на TikTok и опубликовала.
Модель обучена на сотнях миллионов часов аудио, и допилена через многомерный RL. Синтезирует речь с управлением эмоциями на уровне отдельных предложений, поёт с сохранением высоты и ритма, воспроизводит китайские диалекты: сычуаньский, хэнаньский, кантонский, тайваньский. Поддержка других языков не заявлена.
Форматные маркеры в тексте: пунктуацию, частицы и выделение сама переводит в просодику без дополнительной разметки.
Доступ на ограниченный период - бесплатно. Сроки предложения не указаны.
Кстати, команду MiMo возглавляет Ло Фули, один из ключевых авторов DeepSeek R1.
Все модели релиза доступны через API на platform.xiaomimimo.com и в MiMo Studio.
@ai_machinelearning_big_data
#news #ai #ml
Please open Telegram to view this post
VIEW IN TELEGRAM
👍11❤7🔥1
Forwarded from Machinelearning
Парижский стартап H Company выпустил семейство мультимодальных моделей Holo3, предназначенных для управления графическими интерфейсами.
H Company (ранее Holistic AI) публично вышла на рынок в начале 2024 года. Основатели: Шарль Кантор, бывший исследователь Стэнфорда, и Лоран Сифр, ветеран Google DeepMind и один из ключевых участников проекта AlphaGo.
Посевной раунд составил $220 млн - один из крупнейших в истории европейского венчура. Среди инвесторов: Эрик Шмидт, Юрий Мильнер, Бернар Арно, Ксавье Ньель, а также Amazon, Samsung и UiPath.
Старшая Holo3-122B-A10B доступна только на платформе H Company по цене 40 центов за миллион входящих и 3 доллара за миллион выходных токенов.
Младшая версия Holo3-35B-A3B выложена на Hugging Face под лицензией Apache 2.0 и также доступна бесплатно через Inference API с ограничением в 10 PRM. В платном режиме - 0,25/1.8 доллара за миллион входных/выходных токенов.
Сначала по заданным сценариям генерируются синтетические примеры навигации по интерфейсам.
Затем данные расширяются за пределы исходных условий, чтобы модель учитывала нестандартные ситуации.
На финальном этапе все примеры проходят курируемый отбор и обучение с подкреплением.
Для тренировки H Company построила генератор синтетических корпоративных сред, в котором агенты создают веб-приложения по спецификациям сценариев, формируя верифицируемые задачи разной сложности.
На базе этих сред разработан H Corporate Benchmarks - набор из 486 многошаговых задач в 4 категориях: электронная коммерция, бизнес-ПО, инструменты совместной работы и межприложенческие сценарии.
Последние требуют координации между несколькими системами одновременно (скажем, извлечь цены из PDF, сопоставить их с бюджетами сотрудников и автоматически разослать персонализированные письма с одобрением или отказом).
Флагманская Holo3-122B-A10B набрала 78,85% на бенчмарке OSWorld-Verified - это лучший результат на ведущем тесте взаимодействия с рабочим столом.
@ai_machinelearning_big_data
#AI #ML #MMLM #Holo3 #HCompany
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
❤6👍4🔥2
Forwarded from Machinelearning
Project Glasswing - инициатива по защите критической программной инфраструктуры с помощью ИИ.
Поводом стали возможности разрабатываемой модели Claude Mythos Preview, которая, по оценке самой компании, превосходит почти всех специалистов по поиску и эксплуатации уязвимостей в коде.
За несколько недель работы Mythos Preview обнаружила тысячи 0-day уязвимостей, в том числе во всех крупных операционных системах и браузерах. Среди раскрытых примеров:
Модель находила уязвимости и писала эксплойты без участия человека. Все упомянутые баги уже исправлены, для остальных Anthropic уже опубликовала криптографические хэши описаний и раскроет детали после выхода патчей.
Партнеры Glasswing получат модель для оборонительных задач: локального поиска уязвимостей, тестирования бинарников, защиты конечных точек и пентестов. Доступ открыт более чем 40 организациям, поддерживающим критическую и open-source-инфраструктуру.
К проекту присоединились AWS, Apple, Broadcom, Cisco, CrowdStrike, Google, JPMorganChase, Linux Foundation, Microsoft, NVIDIA и Palo Alto Networks.
Anthropic выделяет до $100 млн. в кредитах на использование модели и $4 млн. прямых пожертвований: $2,5 млн в Alpha-Omega и OpenSSF через Linux Foundation и $1,5 млн. для Apache Software Foundation.
После этапа превью, модель будет доступна участникам Glasswing по цене $25 за миллион входных и $125 за миллион выходных токенов через Claude API, Amazon Bedrock, Vertex AI и Microsoft Foundry.
Защитные механизмы для моделей такого класса Anthropic планирует обкатать на ближайшем релизе Claude Opus, который не несет сопоставимых рисков.
Anthropic уже обсуждает возможности Mythos Preview (как атакующие, так и защитные) с американскими госструктурами.
Подробности о возможностях модели, ее свойствах и общих характеристиках доступны в Claude Mythos Preview system card.
@ai_machinelearning_big_data
#news #ai #ml
Please open Telegram to view this post
VIEW IN TELEGRAM
❤12🤯7🔥2
Tongyi Lab (Alibaba Group) опубликовала VimRAG - фреймворк агентного RAG для работы с текстом, изображениями и видео.
Проект развивает прошлогодний VRAG-RL и решает проблему мультимодального RAG: визуальные данные тяжелые по токенам, но семантически разрежены, а классическая ReAct-история забивает контекст шумом и провоцирует повторные бесполезные запросы к поиску.
Вместо журнала наблюдений VimRAG моделирует рассуждение как динамический направленный ацикличный граф. Каждая вершина хранит подзапрос, действие агента, текстовое саммари и банк визуальных токенов.
Ребра фиксируют логические зависимости между шагами. Такой граф позволяет агенту отличать тупиковую ветку от новой гипотезы и не уходить в циклы повторных поисков.
Бюджет визуальных токенов распределяется с учетом исходящей степени в графе, экспоненциального временного затухания (имитация забывания) и рекурсивной обратной связи от потомков.
Ключевым фрагментам достается высокое разрешение, а второстепенные кадры сжимаются или отбрасываются. Для видео задействована способность VLM привязывать содержимое к временной шкале (извлечение ключевых кадров по таймкодам).
GGPO строит критический путь от корня к ответу и накладывает градиентную маску, исключая тупиковые узлы из положительных примеров, а ценные ретривы - из отрицательных.
По графикам обучения это дает более быструю сходимость, чем базовый GSPO без прунинга.
При этом средняя длина траектории ниже, чем у ReAct и Mem1: структурированная память съедает меньше действий на ответ.
В репозитории доступны:
Поисковый движок построен на FAISS и поддерживает эмбеддинги GVE-3B/7B и Qwen3-VL-Embedding-2B/8B. Индексировать можно изображения, PDF (через конвертацию) и нарезанное на чанки видео.
Код трейна самого VimRAG обещают выложить после внутреннего ревью Alibaba.
#AI #ML #RAG #VRAG #TongyiLab
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
❤12👍7🔥4
Forwarded from Machinelearning
🚨 Claude «деградировал» и это видно по логам.
Senior AI Director из AMD разобрала сессии Claude за январь-март и картина получилась неприятная.
Модель стала думать меньше. Медианная длина reasoning упала примерно с 2200 до 600 символов. Это сразу бьёт по качеству решений.
Параллельно выросло количество API-запросов - почти в 80 раз с февраля на март. Меньше анализа, больше попыток, больше ретраев и сжигания токенов.
Поведение тоже поменялось. Модель чаще «сдаётся» или начинает спрашивать, продолжать ли дальше. За 17 дней таких кейсов было 173, до 8 марта - ноль.
Ещё одна неприятность падение reads-per-edit (reads-per-edit = сколько файлов / участков кода модель посмотрела перед правкой). Было 6.6, стало 2.0. То есть Claude теперь хуже изучает код перед изменениями.
Плюс выросло количество противоречий. Модель чаще переобувается по ходу ответа.
Пользователи замечают, что Клод начинает игнорировать такие вещи, как CLAUDE.md. Просто не хватает «бюджета мышления», чтобы учитывать контекст.
Что интресно, наблюдается зависимость от времени суток. Худшие результаты в 5–7 вечера по PST, ночью качество заметно выше. Похоже, это напрямую связано с загрузкой GPU.
Claude всё ещё мощный, но его поведение стало менее стабильным и сильно зависит от нагрузки
Замечали ли вы, что Claude стал тупее в последнее время ?🤯
Директор по AI в AMD проанализировала 6 852 сессии Claude Code и показала, что модель сильно ухудшили.
234 760 вызовов инструментов, 17 871 блоков размышлений, 3 месяца логов.
После этого Anthropic ответили и фактически подтвердили её выводы.
Пожалуй, самый чистый и показательный аудит AI за 2026 год 👇
https://github.com/anthropics/claude-code/issues/42796#issuecomment-4194007103
@ai_machinelearning_big_data
#news #ai #ml #claude
Senior AI Director из AMD разобрала сессии Claude за январь-март и картина получилась неприятная.
Модель стала думать меньше. Медианная длина reasoning упала примерно с 2200 до 600 символов. Это сразу бьёт по качеству решений.
Параллельно выросло количество API-запросов - почти в 80 раз с февраля на март. Меньше анализа, больше попыток, больше ретраев и сжигания токенов.
Поведение тоже поменялось. Модель чаще «сдаётся» или начинает спрашивать, продолжать ли дальше. За 17 дней таких кейсов было 173, до 8 марта - ноль.
Ещё одна неприятность падение reads-per-edit (reads-per-edit = сколько файлов / участков кода модель посмотрела перед правкой). Было 6.6, стало 2.0. То есть Claude теперь хуже изучает код перед изменениями.
Плюс выросло количество противоречий. Модель чаще переобувается по ходу ответа.
Пользователи замечают, что Клод начинает игнорировать такие вещи, как CLAUDE.md. Просто не хватает «бюджета мышления», чтобы учитывать контекст.
Что интресно, наблюдается зависимость от времени суток. Худшие результаты в 5–7 вечера по PST, ночью качество заметно выше. Похоже, это напрямую связано с загрузкой GPU.
Claude всё ещё мощный, но его поведение стало менее стабильным и сильно зависит от нагрузки
Замечали ли вы, что Claude стал тупее в последнее время ?🤯
Директор по AI в AMD проанализировала 6 852 сессии Claude Code и показала, что модель сильно ухудшили.
234 760 вызовов инструментов, 17 871 блоков размышлений, 3 месяца логов.
После этого Anthropic ответили и фактически подтвердили её выводы.
Пожалуй, самый чистый и показательный аудит AI за 2026 год 👇
https://github.com/anthropics/claude-code/issues/42796#issuecomment-4194007103
@ai_machinelearning_big_data
#news #ai #ml #claude
👍22❤7🔥6💯5😢2🤣2😁1
Forwarded from Machinelearning
Издание опубликовало расширенную версию рейтинга TIME100 Most Influential Companies - впервые выбрав их по отраслевому принципу.
Владелец TikTok стал одним из ведущих ИИ-разработчиков Китая: его ассистент Doubao набрал более 155 млн еженедельных пользователей. В 2026 году компания, оценённая примерно в $550 млрд, потратит $14 млрд на чипы Nvidia (при условии одобрения экспорта со стороны США).
Корпорация запустила Project Rainier - один из крупнейших вычислительных ИИ-кластеров в мире, работающий примерно на 500 тыс. собственных чипов Trainium2 и обслуживающий модели Anthropic.
Китайская компания первой среди местных LLM-разработчиков вышла на биржу в Гонконге и в феврале представила модель GLM-5 на 744 млрд параметров. По данным самой компании, её моделями пользуются более 4 млн корпоративных клиентов и разработчиков, а годовая выручка достигла около $107 млн.
Число еженедельных пользователей ChatGPT превысило 900 млн, ежемесячная выручка — $2 млрд. Параллельно OpenAI заключила контракт с Пентагоном и столкнулась с исками, в которых ChatGPT, по утверждению истцов, мог сыграть крайне деструктивную роль по отношению к людям.
Под руководством Сундара Пичаи Google вернулся в число лидеров ИИ: модели Gemini поднялись в верхушку рейтингов возможностей, а годовая выручка Alphabet впервые превысила $400 млрд. ИИ-функции компании встроены в Gmail, Maps, YouTube и сервис беспилотных такси Waymo.
В 2025 году Meta показала рекордную рекламную выручку, частично за счёт ИИ-обработки данных собственных соцсетей, и продолжает вкладываться в исследователей и дата-центры. В марте этого года суд признал Meta ответственной за вред психике несовершеннолетнего пользователя и присудили истцу $6 млн; компания заявила, что обжалует решение.
Claude стал первой ИИ-системой, допущенной в засекреченные сети США, и, по сообщениям СМИ, использовался при планировании военных операций. После отказа Anthropic снять ограничения на массовую слежку и автономное оружие Белый дом объявил компанию риском цепочки поставок.
Семейство открытых моделей Qwen превысило миллиард скачиваний и породило более 200 тыс. производных моделей. Гендиректор Эдди У заявил, что за пять лет компания рассчитывает превысить $100 млрд внешней выручки от облака и ИИ.
Французский стартап, оценённый примерно в $14 млрд, делает ставку на открытые модели и развёртывание на инфраструктуре заказчика; среди её клиентов - ASML, TotalEnergies, HSBC и министерство вооружённых сил Франции. В начале 2026 года её годовая выручка достигла $400 млн (примерно в 20 раз больше, чем годом ранее).
Платформа стала своего рода «GitHub для ИИ»: на ней размещено свыше 2 млн моделей и 500 тыс. датасетов, аккаунты есть более чем у 30% компаний из списка Fortune 500. Компания развивает инструменты для ИИ-агентов и в 2025 году представила открытого робота Reachy Mini.
* Компания Meta признана в России экстремистской организацией и запрещена
@ai_machinelearning_big_data
#news #ai #ml
Please open Telegram to view this post
VIEW IN TELEGRAM
❤16🔥4👍3🥱2