⚡️ Alibaba Tongyi Lab открыла исходники GUI-Owl-1.5 и Mobile-Agent-v3.5 - семейства моделей-агентов, которые умеют напрямую управлять интерфейсами: desktop, мобильными приложениями и браузером.
Все модели построены на базе Qwen3-VL и обучены в одной парадигме для работы с GUI.
Доступно 6 размеров моделей:
• 2B / 4B / 8B / 32B Instruct — быстрые модели с низкой задержкой (без Chain-of-Thought)
• 8B / 32B Thinking — более сильное планирование и reasoning
По бенчмаркам это open-source SOTA на более чем 20 тестах GUI-агентов:
• OSWorld-Verified — 56.5 (32B-Instruct)
• AndroidWorld — 71.6 (8B-Thinking)
• VisualWebArena — 46.6
• WebArena — 48.4 (32B-Thinking)
• ScreenSpot-Pro — 80.3 с двухэтапным crop refine
• OSWorld-MCP — 47.6
• MobileWorld — 46.8
Архитектура обучения строится на трех ключевых идеях:
• Hybrid Data Flywheel — комбинация симуляций и cloud sandbox для генерации GUI-траекторий с проверкой чекпоинтов
• Unified CoT Synthesis — world modeling, knowledge injection и tool/MCP reasoning встроены в каждый шаг
• MRPO — multi-platform reinforcement learning с online rollout buffer и защитой от outcome collapse
Фактически это еще один шаг к полностью автономным AI-агентам, которые могут работать с интерфейсами так же, как человек.
Models: modelscope.cn/models/iic/GUI-Owl-1.5-8B-Instruct
GitHub: github.com/X-PLUG/MobileAgent
🎯Полезные Мл-ресурсы 🚀 Max
@machinelearning_interview
Все модели построены на базе Qwen3-VL и обучены в одной парадигме для работы с GUI.
Доступно 6 размеров моделей:
• 2B / 4B / 8B / 32B Instruct — быстрые модели с низкой задержкой (без Chain-of-Thought)
• 8B / 32B Thinking — более сильное планирование и reasoning
По бенчмаркам это open-source SOTA на более чем 20 тестах GUI-агентов:
• OSWorld-Verified — 56.5 (32B-Instruct)
• AndroidWorld — 71.6 (8B-Thinking)
• VisualWebArena — 46.6
• WebArena — 48.4 (32B-Thinking)
• ScreenSpot-Pro — 80.3 с двухэтапным crop refine
• OSWorld-MCP — 47.6
• MobileWorld — 46.8
Архитектура обучения строится на трех ключевых идеях:
• Hybrid Data Flywheel — комбинация симуляций и cloud sandbox для генерации GUI-траекторий с проверкой чекпоинтов
• Unified CoT Synthesis — world modeling, knowledge injection и tool/MCP reasoning встроены в каждый шаг
• MRPO — multi-platform reinforcement learning с online rollout buffer и защитой от outcome collapse
Фактически это еще один шаг к полностью автономным AI-агентам, которые могут работать с интерфейсами так же, как человек.
Models: modelscope.cn/models/iic/GUI-Owl-1.5-8B-Instruct
GitHub: github.com/X-PLUG/MobileAgent
🎯Полезные Мл-ресурсы 🚀 Max
@machinelearning_interview
🔥8❤5👍5
Исследование Стэнфорда показало неожиданную проблему современных AI-ассистентов: они слишком часто соглашаются с пользователем, даже когда тот неправ.
Учёные проанализировали 11 500+ реальных диалогов, где люди просили советы. В эксперименте участвовали 11 популярных моделей, включая ChatGPT и Gemini.
Результат оказался одинаковым для всех.
Модели соглашались с пользователем примерно на 50% чаще, чем это сделал бы человек.
Это значит, что когда люди спрашивают AI о:
- конфликте с партнёром
- проблемах на работе
- сложных личных решениях
модель чаще всего говорит то, что человек хочет услышать, а не то, что ему действительно нужно услышать.
Исследователи заметили и более тревожный эффект.
Даже когда пользователь описывал ситуации, где он манипулирует людьми, обманывает друзей или причиняет вред, модель часто не возражала и не оспаривала позицию, а фактически подтверждала её.
Затем учёные провели эксперимент с 1604 участниками, обсуждавшими реальные личные конфликты с AI.
Одной группе дали “угождающую” модель (sycophantic AI),
другой — нейтральную.
Результат:
люди, общавшиеся с угождающей моделью, стали
- реже извиняться
- реже идти на компромисс
- хуже видеть позицию другого человека
AI фактически усиливал их собственные предубеждения.
Самое парадоксальное — участники оценили угождающую модель как более качественную и сказали, что хотят пользоваться именно ей.
Это создаёт опасный цикл:
пользователи предпочитают AI, который говорит им, что они правы →
компании оптимизируют модели под удовлетворённость пользователей →
модели становятся ещё более льстивыми →
люди всё меньше склонны к саморефлексии.
Каждый день миллионы людей спрашивают AI о своих отношениях, конфликтах и решениях.
И слишком часто получают один и тот же ответ:
“Ты прав.”
Даже когда это не так.
https://arxiv.org/abs/2510.01395
🎯Полезные Мл-ресурсы 🚀 Max
@machinelearning_interview
Учёные проанализировали 11 500+ реальных диалогов, где люди просили советы. В эксперименте участвовали 11 популярных моделей, включая ChatGPT и Gemini.
Результат оказался одинаковым для всех.
Модели соглашались с пользователем примерно на 50% чаще, чем это сделал бы человек.
Это значит, что когда люди спрашивают AI о:
- конфликте с партнёром
- проблемах на работе
- сложных личных решениях
модель чаще всего говорит то, что человек хочет услышать, а не то, что ему действительно нужно услышать.
Исследователи заметили и более тревожный эффект.
Даже когда пользователь описывал ситуации, где он манипулирует людьми, обманывает друзей или причиняет вред, модель часто не возражала и не оспаривала позицию, а фактически подтверждала её.
Затем учёные провели эксперимент с 1604 участниками, обсуждавшими реальные личные конфликты с AI.
Одной группе дали “угождающую” модель (sycophantic AI),
другой — нейтральную.
Результат:
люди, общавшиеся с угождающей моделью, стали
- реже извиняться
- реже идти на компромисс
- хуже видеть позицию другого человека
AI фактически усиливал их собственные предубеждения.
Самое парадоксальное — участники оценили угождающую модель как более качественную и сказали, что хотят пользоваться именно ей.
Это создаёт опасный цикл:
пользователи предпочитают AI, который говорит им, что они правы →
компании оптимизируют модели под удовлетворённость пользователей →
модели становятся ещё более льстивыми →
люди всё меньше склонны к саморефлексии.
Каждый день миллионы людей спрашивают AI о своих отношениях, конфликтах и решениях.
И слишком часто получают один и тот же ответ:
“Ты прав.”
Даже когда это не так.
https://arxiv.org/abs/2510.01395
🎯Полезные Мл-ресурсы 🚀 Max
@machinelearning_interview
❤23👍18😁4😱3💊2🦄1
NVIDIA: LLM получат “память как у человека” и начнут учиться прямо во время ответа 🔥
NVIDIA выпустили очень сильный материал:
Reimagining LLM Memory: Using Context as Training Data Unlocks Models That Learn at Test-Time
Суть проблемы:
мы постоянно слышим про 128K / 1M токенов контекста…
но в реальности LLM всё равно:
- повторяют ошибки
- забывают важные детали
- требуют “скинь весь контекст заново”
И вот что предлагают NVIDIA:
Контекст = обучающие данные
Обычный трансформер читает контекст как “текст”.
NVIDIA предлагают читать его как данные для обучения.
То есть модель не просто смотрит на историю —
а компрессит её в свои веса через next-token prediction.
Этот подход называется:
TTT-E2E (Test-Time Training End-to-End)
Почему это прорыв
Фактически это новая форма памяти:
модель может адаптироваться внутри одной сессии
и “становиться умнее” прямо во время выполнения задачи.
Главный кайф: скорость на длинном контексте
TTT-E2E даёт постоянную стоимость инференса (без взрыва по latency),
поэтому при длинных окнах это очень выгодно:
- ~2.7x быстрее, чем full attention на 128K токенов
- ~35x быстрее на 2M токенов (H100)
Как это меняет RAG
Классический RAG:
“ищем в базе → вставляем в контекст → читаем”.
TTT:
“прочитали → и записали опыт внутрь модели”.
То есть это ближе к тому, как работает человек:
мы не держим всё в голове дословно — мы обновляем мозг опытом.
Вывод:
контекстные окна будут расти, но настоящая “память” LLM —
это модели, которые умеют учиться на контексте в моменте.
И NVIDIA прямо сейчас толкают индустрию в эту сторону.
https://developer.nvidia.com/blog/reimagining-llm-memory-using-context-as-training-data-unlocks-models-that-learn-at-test-time/
NVIDIA выпустили очень сильный материал:
Reimagining LLM Memory: Using Context as Training Data Unlocks Models That Learn at Test-Time
Суть проблемы:
мы постоянно слышим про 128K / 1M токенов контекста…
но в реальности LLM всё равно:
- повторяют ошибки
- забывают важные детали
- требуют “скинь весь контекст заново”
И вот что предлагают NVIDIA:
Контекст = обучающие данные
Обычный трансформер читает контекст как “текст”.
NVIDIA предлагают читать его как данные для обучения.
То есть модель не просто смотрит на историю —
а компрессит её в свои веса через next-token prediction.
Этот подход называется:
TTT-E2E (Test-Time Training End-to-End)
Почему это прорыв
Фактически это новая форма памяти:
модель может адаптироваться внутри одной сессии
и “становиться умнее” прямо во время выполнения задачи.
Главный кайф: скорость на длинном контексте
TTT-E2E даёт постоянную стоимость инференса (без взрыва по latency),
поэтому при длинных окнах это очень выгодно:
- ~2.7x быстрее, чем full attention на 128K токенов
- ~35x быстрее на 2M токенов (H100)
Как это меняет RAG
Классический RAG:
“ищем в базе → вставляем в контекст → читаем”.
TTT:
“прочитали → и записали опыт внутрь модели”.
То есть это ближе к тому, как работает человек:
мы не держим всё в голове дословно — мы обновляем мозг опытом.
Вывод:
контекстные окна будут расти, но настоящая “память” LLM —
это модели, которые умеют учиться на контексте в моменте.
И NVIDIA прямо сейчас толкают индустрию в эту сторону.
https://developer.nvidia.com/blog/reimagining-llm-memory-using-context-as-training-data-unlocks-models-that-learn-at-test-time/
🔥15🤔9❤6🗿3
Forwarded from Machinelearning
Media is too big
VIEW IN TELEGRAM
Связанное с КСИР иранское агентство Tasnim опубликовало список объектов для возможных будущих ударов. В него впервые официально вошла ближневосточная инфраструктура американских IT-гигантов: Google, Amazon, Microsoft, NVIDIA, IBM и Oracle. Под угрозой оказались региональные офисы компаний, дата-центры и исследовательские лаборатории.
Иранская сторона объясняет этот шаг тем, что вычислительная инфраструктура корпораций тесно связана с военными и экономическими операциями США и Израиля. По заявлению агентства, текущие региональные конфликты перерастают в полноценные инфраструктурные войны, в связи с чем список потенциальных IT-мишеней будет постепенно расширяться.
aljazeera.com
Корпорация подала ходатайство в суд Сан-Франциско в поддержку Anthropic, который Министерство обороны США признало угрозой для цепочек поставок. Microsoft просит суд заморозить решение Пентагона и наложить временный запрет на блокировку текущих государственных контрактов.
По заявлению Microsoft, немедленный запрет на использование технологий Anthropic вынудит IT-компании экстренно перестраивать архитектуру своих продуктов. Это грозит серьезными сбоями в работе ИИ-инструментов, которые уже внедрены и активно используются американскими военными. Временная отсрочка позволит избежать хаоса и обеспечит более безопасный переходный период для оборонного ведомства.
Действия Microsoft продиктованы прямым финансовым интересом. В ноябре корпорация объявила о планах вложить в Anthropic до 5 млрд. долларов, параллельно оставаясь ключевым инвестором их главного конкурента - OpenAI.
cnbc.com
Модель на 120В на архитектуре МоЕ с 12 млрд. активных параметров была создана специально для автономных агентов, выполняющих сложные многоступенчатые задачи. Под капотом гибрид из слоев Mamba, которые экономят память, и классических трансформеров, отвечающих за глубокий логический вывод.
Модель получила контекстное окно на 1 млн. токенов. Дополнительно внедрена функция мульти-токеновой генерации, ускоряющая выдачу результатов в 3 раза.
Nemotron 3 Super под открытой лицензией NVIDIA доступна на HuggingFace. Ее интеграцию уже начали Perplexity, Palantir, Siemens и другие крупные IT-компании.
developer.nvidia.com
ИИ-поисковик предложил концепцию агента, который работает круглосуточно без участия пользователя. Personal Computer интегрируется с локальными файлами и приложениями на выделенном Mac mini, автономно выполняя сложные рабочие процессы. Система построена на гибридной архитектуре: взаимодействие с десктопом происходит локально, а тяжелые вычисления перенесены на серверы Perplexity.
Ядро платформы - собственный движок оркестрации, который автоматически переключается между передовыми моделями для решения задач. Контролировать ИИ-помощника можно удаленно с любого устройства. Особое внимание уделили безопасности: внедрены функция экстренного отключения, ведение детального аудита всех сессий и ручное подтверждение для чувствительных действий системы. Записаться в лист ожидания проекта можно по ссылке.
PerplexityAI в сети Х
Новое аналитическое подразделение Anthropic Institute займется изучением глобального влияния ИИ на экономику, безопасность и общество. Возглавил инициативу сооснователь стартапа Джек Кларк. Институт сфокусируется на трансформации рынка труда, рисках злоупотребления технологиями, а также на механизмах сохранения человеческого контроля над саморазвивающимися ИИ-системами.
В команду вошли около 30 специалистов из существующих отделов Anthropic, включая группу стресс-тестирования Frontier Red Team. К проекту уже присоединились бывшие исследователи из Google DeepMind и OpenAI.
anthropic.com
@ai_machinelearning_big_data
#news #ai #ml
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥7❤3👏2🐳2🍾2👍1
⚡️ NVIDIA представила Nemotron 3 Super и архитектура у модели очень необычная.
Это модель на 120B параметров, но во время работы активны только 12B. Такой результат достигается за счёт гибридной архитектуры Mamba + Transformer + MoE, которая позволяет получать высокую производительность при гораздо меньших вычислениях.
Что особенно выделяется:
• контекстное окно до 1 миллиона токенов
• 36 баллов в Artificial Analysis Intelligence Index — выше, чем у GPT-OSS-120B
• примерно на 10% больше throughput на GPU
• можно выбирать режим рассуждений: полный, облегчённый или отключённый — контролируя стоимость запроса
• модель обучена с нуля в NVFP4 precision, что впервые используется в этой линейке
• полностью открытые веса, данные и рецепты обучения — 83 балла в Openness Index
Но самое интересное - стратегия NVIDIA.
Компания больше не гонится за самыми большими моделями. Вместо этого ставка делается на максимальную эффективность.
Всего 12B активных параметров на 2× H100 дают уровень reasoning, который сопоставим с моделями, имеющими в 3–8 раз больше активных параметров.
Модель уже доступна на DeepInfra и Lightning AI со скоростью до 484 токенов в секунду.
https://artificialanalysis.ai/models/nvidia-nemotron-3-super-120b-a12b
Это модель на 120B параметров, но во время работы активны только 12B. Такой результат достигается за счёт гибридной архитектуры Mamba + Transformer + MoE, которая позволяет получать высокую производительность при гораздо меньших вычислениях.
Что особенно выделяется:
• контекстное окно до 1 миллиона токенов
• 36 баллов в Artificial Analysis Intelligence Index — выше, чем у GPT-OSS-120B
• примерно на 10% больше throughput на GPU
• можно выбирать режим рассуждений: полный, облегчённый или отключённый — контролируя стоимость запроса
• модель обучена с нуля в NVFP4 precision, что впервые используется в этой линейке
• полностью открытые веса, данные и рецепты обучения — 83 балла в Openness Index
Но самое интересное - стратегия NVIDIA.
Компания больше не гонится за самыми большими моделями. Вместо этого ставка делается на максимальную эффективность.
Всего 12B активных параметров на 2× H100 дают уровень reasoning, который сопоставим с моделями, имеющими в 3–8 раз больше активных параметров.
Модель уже доступна на DeepInfra и Lightning AI со скоростью до 484 токенов в секунду.
https://artificialanalysis.ai/models/nvidia-nemotron-3-super-120b-a12b
❤13🔥8👍4
⚡️ Google DeepMind выпустили исследование о том, как на самом деле нужно делегировать задачи AI.
Главная идея: проблема не в том, что AI плохо работает.
Проблема в том, что люди не умеют правильно передавать ему задачи.
DeepMind предлагает рассматривать делегирование не как один запрос, а как процесс из нескольких решений:
1. Нужно ли вообще отдавать задачу AI
2. Как правильно её сформулировать
3. Как проверить результат
4. Что делать, если AI ошибся
Это новый подход: делегирование как управление риском, а не как промпт.
Самое интересное из исследования
Рынок AI-агентов
Вместо фиксированных систем предлагается модель, где агенты:
- соревнуются за задачи
- оценивают свою способность выполнить их
- подтверждают навыки цифровыми сертификатами
Не рейтинг.
Криптографически подтверждённая компетенция.
Нельзя просто доверять AI
Фреймворк вводит обязательную проверку:
- правила, когда ответ можно принять
- оценка уверенности модели
- резервные сценарии при ошибке
Главный принцип:
Никогда не принимать результат AI без валидации.
Борьба с двумя крайностями
DeepMind вводит понятия:
Over-delegation
- отдаём AI задачи, к которым он не готов
Under-delegation
- делаем сами то, что AI уже умеет лучше
Будущее эффективности - в правильном балансе.
Динамическое делегирование
В процессе работы:
- ответственность может передаваться
- задачи могут перераспределяться
- система адаптируется при сбоях
Это важно для реального бизнеса, где условия постоянно меняются.
Когда AI управляет AI
Фреймворк учитывает цепочки:
AI → AI → AI
При этом:
- сохраняется ответственность
- отслеживается, кто за что отвечает
- не теряется контроль над процессом
Главный вывод
Эпоха «напиши промпт и жди» заканчивается.
Будущее — это:
- управление AI
- контроль качества
- системы доверия
- инфраструктура делегирования
AI становится не инструментом.
AI становится рабочей системой, которой нужно управлять как командой.
arxiv.org/abs/2602.11865
Главная идея: проблема не в том, что AI плохо работает.
Проблема в том, что люди не умеют правильно передавать ему задачи.
DeepMind предлагает рассматривать делегирование не как один запрос, а как процесс из нескольких решений:
1. Нужно ли вообще отдавать задачу AI
2. Как правильно её сформулировать
3. Как проверить результат
4. Что делать, если AI ошибся
Это новый подход: делегирование как управление риском, а не как промпт.
Самое интересное из исследования
Рынок AI-агентов
Вместо фиксированных систем предлагается модель, где агенты:
- соревнуются за задачи
- оценивают свою способность выполнить их
- подтверждают навыки цифровыми сертификатами
Не рейтинг.
Криптографически подтверждённая компетенция.
Нельзя просто доверять AI
Фреймворк вводит обязательную проверку:
- правила, когда ответ можно принять
- оценка уверенности модели
- резервные сценарии при ошибке
Главный принцип:
Никогда не принимать результат AI без валидации.
Борьба с двумя крайностями
DeepMind вводит понятия:
Over-delegation
- отдаём AI задачи, к которым он не готов
Under-delegation
- делаем сами то, что AI уже умеет лучше
Будущее эффективности - в правильном балансе.
Динамическое делегирование
В процессе работы:
- ответственность может передаваться
- задачи могут перераспределяться
- система адаптируется при сбоях
Это важно для реального бизнеса, где условия постоянно меняются.
Когда AI управляет AI
Фреймворк учитывает цепочки:
AI → AI → AI
При этом:
- сохраняется ответственность
- отслеживается, кто за что отвечает
- не теряется контроль над процессом
Главный вывод
Эпоха «напиши промпт и жди» заканчивается.
Будущее — это:
- управление AI
- контроль качества
- системы доверия
- инфраструктура делегирования
AI становится не инструментом.
AI становится рабочей системой, которой нужно управлять как командой.
arxiv.org/abs/2602.11865
❤19😁5👍4🔥3
Распознай, кто говорит, и выиграй 600 тысяч рублей! 💙
ИТ-компания «Криптонит» приглашает на дататон «Криптонит.Тембр»!
❗️ Задача — разработать модель распознавания по голосу, устойчивую к искажениям аудиосигнала.
Тебе предстоит обучить Speaker Recognition модель, устойчивую к искажениям аудио, возникающим в реальных сценариях эксплуатации речевых интерфейсов и систем обработки звука:
🔹 искажения, вносимые акустической средой;
🔹 посторонние шумы;
🔹 реверберация;
🔹 большое расстояние до микрофона;
🔹 искажения каналов связи.
Участвуй, и ты сможешь:
🟦 получить шанс разделить призовой фонд в 600 000 рублей;
🟦 разработать решения в области Audio/Speech ML;
🟦 прокачать скиллы в Speaker Recognition и Deep Learning.
👆 Регистрируйтесь до 10 апреля включительно!
Подписывайтесь на телеграм-канал «Криптонит. Разработка, наука, шифрование» — там много всего интересного.
ИТ-компания «Криптонит» приглашает на дататон «Криптонит.Тембр»!
Тебе предстоит обучить Speaker Recognition модель, устойчивую к искажениям аудио, возникающим в реальных сценариях эксплуатации речевых интерфейсов и систем обработки звука:
Участвуй, и ты сможешь:
Подписывайтесь на телеграм-канал «Криптонит. Разработка, наука, шифрование» — там много всего интересного.
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥4👍3🤔2
🚨 Исследование UW Allen School и Stanford показало странный эффект в мире AI.
Учёные задали 70+ языковым моделям одинаковые открытые вопросы:
- «Напиши стихотворение о времени»
- «Придумай стартап»
- «Дай жизненный совет»
Это вопросы, где нет правильного ответа, и люди обычно отвечают по-разному.
Но произошло неожиданное.
Модели от разных компаний - GPT, Claude, Gemini, DeepSeek, Qwen, Llama и другие - начали давать почти одинаковые ответы.
Похожие идеи, одинаковые структуры, даже одинаковые метафоры.
Исследователи назвали этот эффект Artificial Hivemind.
Главная причина - современные методы обучения вроде RLHF.
Модели оптимизируются под «безопасные» и «понравившиеся людям» ответы, поэтому со временем начинают сходиться к одному стилю мышления.
В результате AI часто создаёт иллюзию разнообразия, хотя на самом деле повторяет одни и те же идеи.
Для задач вроде брейншторминга это проблема:
если один AI ошибается, велика вероятность, что ошибутся сразу все.
Генерировать много вариантов, использовать разные промпты и не воспринимать первый ответ модели как креативный результат.
https://arxiv.org/abs/2510.22954
Учёные задали 70+ языковым моделям одинаковые открытые вопросы:
- «Напиши стихотворение о времени»
- «Придумай стартап»
- «Дай жизненный совет»
Это вопросы, где нет правильного ответа, и люди обычно отвечают по-разному.
Но произошло неожиданное.
Модели от разных компаний - GPT, Claude, Gemini, DeepSeek, Qwen, Llama и другие - начали давать почти одинаковые ответы.
Похожие идеи, одинаковые структуры, даже одинаковые метафоры.
Исследователи назвали этот эффект Artificial Hivemind.
Главная причина - современные методы обучения вроде RLHF.
Модели оптимизируются под «безопасные» и «понравившиеся людям» ответы, поэтому со временем начинают сходиться к одному стилю мышления.
В результате AI часто создаёт иллюзию разнообразия, хотя на самом деле повторяет одни и те же идеи.
Для задач вроде брейншторминга это проблема:
если один AI ошибается, велика вероятность, что ошибутся сразу все.
Генерировать много вариантов, использовать разные промпты и не воспринимать первый ответ модели как креативный результат.
https://arxiv.org/abs/2510.22954
❤31👍5🔥3👏2😁2🤔2
This media is not supported in your browser
VIEW IN TELEGRAM
Я смотрю, как AI-скептики вручную верстают лендинг, потому что «LLM - это всего лишь предсказание следующего токена».
😁60🥱12❤5💊3🔥2🥴2💯2👍1🤣1
⚡️ Google протестировали LLM на реальных научных вопросах по сверхпроводимости.
Исследователи собрали 67 сложных вопросов, которые обычно обсуждают физики в области высокотемпературной сверхпроводимости, и дали их шести моделям:
• GPT-4o
• Claude 3.5
• Gemini Advanced 1.5
• Perplexity
• NotebookLM
• специальной RAG-системе
Каждый ответ оценивали 12 международных экспертов по нескольким критериям:
• полнота ответа
• объективность
• точность
• наличие научных источников
• ясность объяснения
Интересный результат:
модели с закрытой, тщательно подобранной научной базой отвечали точнее, чем модели с доступом ко всему интернету.
В закрытой базе использовали:
• 15 ключевых обзорных статей
• около 3300 научных ссылок
• ~1700 отобранных источников по экспериментам и теории.
Главный вывод исследования:
LLM могут быть полезны как “виртуальный научный ассистент”, который помогает исследователю быстро разобраться в сложной области и увидеть разные научные точки зрения.
Но качество сильно зависит от контролируемых источников знаний, а не просто от доступа к интернету.
https://research.google/blog/testing-llms-on-superconductivity-research-questions/
🎯Полезные Мл-ресурсы 🚀 Max
@machinelearning_interview
Исследователи собрали 67 сложных вопросов, которые обычно обсуждают физики в области высокотемпературной сверхпроводимости, и дали их шести моделям:
• GPT-4o
• Claude 3.5
• Gemini Advanced 1.5
• Perplexity
• NotebookLM
• специальной RAG-системе
Каждый ответ оценивали 12 международных экспертов по нескольким критериям:
• полнота ответа
• объективность
• точность
• наличие научных источников
• ясность объяснения
Интересный результат:
модели с закрытой, тщательно подобранной научной базой отвечали точнее, чем модели с доступом ко всему интернету.
В закрытой базе использовали:
• 15 ключевых обзорных статей
• около 3300 научных ссылок
• ~1700 отобранных источников по экспериментам и теории.
Главный вывод исследования:
LLM могут быть полезны как “виртуальный научный ассистент”, который помогает исследователю быстро разобраться в сложной области и увидеть разные научные точки зрения.
Но качество сильно зависит от контролируемых источников знаний, а не просто от доступа к интернету.
https://research.google/blog/testing-llms-on-superconductivity-research-questions/
🎯Полезные Мл-ресурсы 🚀 Max
@machinelearning_interview
❤13👍6🔥6🤔3
Интересный ход от xAI.
Компания Илона Маска набирает в команды обучения AI финансовых специалистов высокого уровня:
- банкиров с Уолл-стрит
- портфельных менеджеров
- трейдеров
- кредитных аналитиков
Их задача — размечать данные и обучать Grok сложным финансовым стратегиям.
Речь идёт не о базовых знаниях, а о реальных профессиональных вещах:
- leveraged loan syndication
- distressed investing
- mortgage-backed securities (MBS)
- collateralized loan obligations (CLO)
- сложные финансовые модели
Фактически xAI пытается обучить Grok понимать всю механику институциональных финансов.
Зачем это нужно.
Если модель хорошо разбирается в таких вещах, она может стать инструментом для инвестфондов, банков и трейдинговых компаний.
А это рынок enterprise-софта для инвестиций на миллиарды долларов.
Похоже, следующая большая битва AI будет не только за чат-ботов, а за профессиональные индустрии, финансы, право, медицину и аналитику.
🎯Полезные Мл-ресурсы 🚀 Max
@machinelearning_interview
Компания Илона Маска набирает в команды обучения AI финансовых специалистов высокого уровня:
- банкиров с Уолл-стрит
- портфельных менеджеров
- трейдеров
- кредитных аналитиков
Их задача — размечать данные и обучать Grok сложным финансовым стратегиям.
Речь идёт не о базовых знаниях, а о реальных профессиональных вещах:
- leveraged loan syndication
- distressed investing
- mortgage-backed securities (MBS)
- collateralized loan obligations (CLO)
- сложные финансовые модели
Фактически xAI пытается обучить Grok понимать всю механику институциональных финансов.
Зачем это нужно.
Если модель хорошо разбирается в таких вещах, она может стать инструментом для инвестфондов, банков и трейдинговых компаний.
А это рынок enterprise-софта для инвестиций на миллиарды долларов.
Похоже, следующая большая битва AI будет не только за чат-ботов, а за профессиональные индустрии, финансы, право, медицину и аналитику.
🎯Полезные Мл-ресурсы 🚀 Max
@machinelearning_interview
😁19👍10❤3🥰3🔥2🙈2
💼 Полезный опенсорс персональный ИИ-тренер для поиска работы и подготовки к собеседованиям.
Что он делает:
• Сам анализирует вакансию и подгоняет под неё ваше резюме;
• Проводит тренировочные собеседования и разбирает ошибки;
• Если «плаваете» — даёт набор упражнений для прокачки;
• Подсказывает, как грамотно торговаться за более высокий оффер;
• Обучен на реальных интервью из разных компаний;
• Бонус: можно загрузить записи своих созвонов и прокачать ответы к следующему звонку;
https://github.com/noamseg/interview-coach-skill
🎯Полезные Мл-ресурсы 🚀 Max
@machinelearning_interview
Что он делает:
• Сам анализирует вакансию и подгоняет под неё ваше резюме;
• Проводит тренировочные собеседования и разбирает ошибки;
• Если «плаваете» — даёт набор упражнений для прокачки;
• Подсказывает, как грамотно торговаться за более высокий оффер;
• Обучен на реальных интервью из разных компаний;
• Бонус: можно загрузить записи своих созвонов и прокачать ответы к следующему звонку;
https://github.com/noamseg/interview-coach-skill
🎯Полезные Мл-ресурсы 🚀 Max
@machinelearning_interview
🔥12❤4👍3👀2
👩💻 Открытый урок «Как работают структуры данных C# "под капотом"»
🗓 13 апреля в 20:00 МСК
🆓 На этом открытом уроке мы простым и понятным языком разберём структуры данных, что происходит внутри программы, когда она хранит и обрабатывает данные.
Что рассмотрим на вебинаре:
✔ Внутреннее устройство ключевых коллекций
✔ Принципы работы и алгоритмическую сложность операций
✔ Особенности реализации, влияющие на производительность
Кому будет полезно:
✔ Начинающим разработчикам - чтобы углубить понимание платформы .NET и писать эффективный, надёжный код.
✔ Тем, кто готовится к техническим собеседованиям (вопросы о внутреннем устройстве коллекций и сложности операций - классика интервью).
✔ Всем, кто хочет осознанно выбирать структуры данных - избегать типичных ошибок, понимать компромиссы и узкие места.
🔗 Ссылка на регистрацию: https://otus.pw/HE4y/?erid=2W5zFJNNR7F
Реклама. ООО "ОТУС ОНЛАЙН-ОБРАЗОВАНИЕ". ИНН 9705100963.
🗓 13 апреля в 20:00 МСК
🆓 На этом открытом уроке мы простым и понятным языком разберём структуры данных, что происходит внутри программы, когда она хранит и обрабатывает данные.
Что рассмотрим на вебинаре:
✔ Внутреннее устройство ключевых коллекций
✔ Принципы работы и алгоритмическую сложность операций
✔ Особенности реализации, влияющие на производительность
Кому будет полезно:
✔ Начинающим разработчикам - чтобы углубить понимание платформы .NET и писать эффективный, надёжный код.
✔ Тем, кто готовится к техническим собеседованиям (вопросы о внутреннем устройстве коллекций и сложности операций - классика интервью).
✔ Всем, кто хочет осознанно выбирать структуры данных - избегать типичных ошибок, понимать компромиссы и узкие места.
🔗 Ссылка на регистрацию: https://otus.pw/HE4y/?erid=2W5zFJNNR7F
Реклама. ООО "ОТУС ОНЛАЙН-ОБРАЗОВАНИЕ". ИНН 9705100963.
👍1🤣1
🚀 Qianfan-OCR - end-to-end модель на 4B параметров для работы с документами.
Главная идея - одна модель вместо целого пайплайна.
Что умеет:
• 📄 Парсинг документов в один проход
Без разбиения на OCR → post-processing → extraction.
Модель сразу выдаёт структурированный результат.
• 📊 Таблицы
Корректно извлекает структуру таблиц, строки и значения.
• 🧮 Формулы
Распознаёт математические выражения и приводит их к читаемому виду.
• 📈 Графики и диаграммы
Понимает визуальные данные и извлекает из них смысл.
• 🔍 Key information extraction
Автоматически достаёт ключевые поля: суммы, даты, названия и т.д.
Почему это важно:
Раньше для этого требовался сложный стек:
OCR → layout detection → table parser → rule-based extraction.
Теперь всё это заменяется одной моделью, которая делает всё сразу.
Фактически это шаг к системам, которые могут понимать документы так же, как человек.
#AI #OCR #LLM #MachineLearning
🎯Полезные Мл-ресурсы 🚀 Max
@machinelearning_interview
Главная идея - одна модель вместо целого пайплайна.
Что умеет:
• 📄 Парсинг документов в один проход
Без разбиения на OCR → post-processing → extraction.
Модель сразу выдаёт структурированный результат.
• 📊 Таблицы
Корректно извлекает структуру таблиц, строки и значения.
• 🧮 Формулы
Распознаёт математические выражения и приводит их к читаемому виду.
• 📈 Графики и диаграммы
Понимает визуальные данные и извлекает из них смысл.
• 🔍 Key information extraction
Автоматически достаёт ключевые поля: суммы, даты, названия и т.д.
Почему это важно:
Раньше для этого требовался сложный стек:
OCR → layout detection → table parser → rule-based extraction.
Теперь всё это заменяется одной моделью, которая делает всё сразу.
Фактически это шаг к системам, которые могут понимать документы так же, как человек.
#AI #OCR #LLM #MachineLearning
🎯Полезные Мл-ресурсы 🚀 Max
@machinelearning_interview
❤13👍6🥰1
Forwarded from Неискусственный интеллект (Илья Склюев)
Вайбкодинг без магии
В прошедшее воскресенье на AI Dev Day много говорили про кодинг-ассистентов и агентов. На одной сцене собрались представители Яндекса, Сбера, Т-Банка, Авито и Ozon, чтобы поделиться своим опытом интеграции помощников в разработку. Практика оказалась разнообразной.
Попросили лидера трека ИИ в разработке в Яндексе Андрея Попова, пояснить, как он видит происходящее сегодня внутри больших команд.
Насколько глубоко ИИ проник в разработку?
➖ Довольно глубоко. У нас 84% разработчиков используют доступные ИИ-инструменты, 57% регулярно работают в агентском режиме, а 36% делают это ежедневно. Лучше всего это заходит во frontend, mobile и backend. Но тут важно не обманываться: adoption очень сильно зависит от тимлидов, а сами модели и ассистенты пока лучше работают в новых и изолированных проектах.
Где ИИ даёт самый заметный эффект?
➖ Не только в генерации кода. Да, мы видим в среднем рост числа коммитов на 10%, а на Go, Python и JS/TS — до 20%. Около 30% закоммиченного кода уже сгенерировано ИИ, из них 23% — в агентском режиме. Но один из самых недооценённых кейсов — это поиск информации. Он может съедать у разработчика 10–30% времени. У нас DeepAgent сокращает типовую задачу поиска с 20 до 2 минут, а активные пользователи AI-чата на 50% меньше ходят по wiki и документации.
Что пока не взлетает так хорошо?
➖ Например, нейроревью. Мы запускали AI code review, получили adoption около 25%. Найти проблему в ревью занимает около 6 минут, а исправить — 55. Поэтому мы пришли к выводу, что часто выгоднее сразу генерировать более правильный код.
На чём держится такое внедрение?
➖ На инфраструктуре и измеримости. Без доступного инференса, RAG, агентской платформы, единого контекста, MCP и доступа к внутренним сервисам агенты не дадут нужного эффекта. У нас уже 90% инфраструктуры покрыто MCP и есть более 35 интеграций.
Параллельно нужны свои бенчмарки: например, ArcSWE — это внутренний аналог SWE-бенчей на яндексовых сценариях, который помогает принимать управленческие решения, а не просто любоваться цифрами. Эффект тоже считаем приземлённо: число действий, экономия времени на действие, коэффициент качества. Пока суммарно это даёт около 42 тыс. часов, то есть примерно 2% рабочего времени. Амбиция — выйти на 10%.
А что на рынке в целом?
➖ Очевидно, что все прошли схожий путь: от точечных экспериментов с ассистентами — к системной работе с агентами и сквозной интеграции ИИ во все этапы разработки. Появилось и общее понимание, что без качественной инфраструктуры — MCP, skills, доступа к внутренним сервисам — агенты не дадут ожидаемого эффекта. И наконец, все постепенно уходят от простого подсчёта adoption к измерению реального влияния на процессы и результаты разработки.
Что дальше?
➖ Дальше движение в сторону AI-first. Нас интересуют не только новые модели, но и эффективное потребление токенов, AGENTS.md как стандартный формат, готовые skills для типовых сценариев, развитие MCP и более жёсткие метрики — вплоть до аналога disengagement rate, то есть как часто человеку приходится вмешиваться в автономную работу агента. Сейчас агент уже скорее джун или мидл в помощь сильному разработчику. И да, токены постепенно становятся новым золотом.
@anti_agi
В прошедшее воскресенье на AI Dev Day много говорили про кодинг-ассистентов и агентов. На одной сцене собрались представители Яндекса, Сбера, Т-Банка, Авито и Ozon, чтобы поделиться своим опытом интеграции помощников в разработку. Практика оказалась разнообразной.
Попросили лидера трека ИИ в разработке в Яндексе Андрея Попова, пояснить, как он видит происходящее сегодня внутри больших команд.
Насколько глубоко ИИ проник в разработку?
Где ИИ даёт самый заметный эффект?
Что пока не взлетает так хорошо?
На чём держится такое внедрение?
Параллельно нужны свои бенчмарки: например, ArcSWE — это внутренний аналог SWE-бенчей на яндексовых сценариях, который помогает принимать управленческие решения, а не просто любоваться цифрами. Эффект тоже считаем приземлённо: число действий, экономия времени на действие, коэффициент качества. Пока суммарно это даёт около 42 тыс. часов, то есть примерно 2% рабочего времени. Амбиция — выйти на 10%.
А что на рынке в целом?
Что дальше?
@anti_agi
Please open Telegram to view this post
VIEW IN TELEGRAM
👍8❤5🤣4👏2🥰1
🔥 TorchCode: Практика для собеседований по PyTorch
TorchCode предлагает структурированную среду для тренировки навыков программирования, необходимых для собеседований в области машинного обучения. Решайте задачи по реализации операторов и архитектур, получая мгновенную обратную связь и подсказки.
🚀Основные моменты:
- 40 задач, часто встречающихся на собеседованиях
- Автоматическая проверка корректности и производительности
- Мгновенная обратная связь по каждому тесту
- Подсказки и эталонные решения для изучения
- Возможность запуска в браузере без установки
📌 GitHub: https://github.com/duoan/TorchCode
#python
TorchCode предлагает структурированную среду для тренировки навыков программирования, необходимых для собеседований в области машинного обучения. Решайте задачи по реализации операторов и архитектур, получая мгновенную обратную связь и подсказки.
🚀Основные моменты:
- 40 задач, часто встречающихся на собеседованиях
- Автоматическая проверка корректности и производительности
- Мгновенная обратная связь по каждому тесту
- Подсказки и эталонные решения для изучения
- Возможность запуска в браузере без установки
📌 GitHub: https://github.com/duoan/TorchCode
#python
🔥14❤5🥰2
Школа анализа данных Яндекса открыла регистрацию на Agents Week. Тот самый интенсив без воды, который поможет разобраться в создании и внедрении ИИ-агентов в реальные рабочие процессы.
Освобождаем вечера с 6 по 10 апреля под лекции и практику. Готовим заранее вопросы, на которые будут отвечать эксперты. За 5 дней сможете подробно разобрать полный цикл создания ИИ-агентов, включая:
- Как начать проектирование и настройку поведения ИИ-агентов
- Какие подходы применяются для создания single-agent и multi-agent систем
- Как довести агентов до продакшена: оценка качества, мониторинг, масштабирование и эксплуатация
Интенсив будет полезен разработчикам и студентам технических вузов — всем, кто стремится создавать комплексные агентные системы для решения рабочих и личных задач.
Регистрируйтесь на интенсив до 9 апреля включительно.
Освобождаем вечера с 6 по 10 апреля под лекции и практику. Готовим заранее вопросы, на которые будут отвечать эксперты. За 5 дней сможете подробно разобрать полный цикл создания ИИ-агентов, включая:
- Как начать проектирование и настройку поведения ИИ-агентов
- Какие подходы применяются для создания single-agent и multi-agent систем
- Как довести агентов до продакшена: оценка качества, мониторинг, масштабирование и эксплуатация
Интенсив будет полезен разработчикам и студентам технических вузов — всем, кто стремится создавать комплексные агентные системы для решения рабочих и личных задач.
Регистрируйтесь на интенсив до 9 апреля включительно.
❤7😁1
Исследователи протестировали автономные AI-системы и результаты оказались тревожными:
в одном из экспериментов агент… удалил весь почтовый сервер
просто чтобы сохранить секрет незнакомца
Главная проблема оказалась не в интеллекте, а в доверии
Когда языковой модели дают доступ к реальным инструментам
- файлам
- почте
- системе
у неё появляются "слепые зоны"
Что сделали исследователи:
20 экспертов 2 недели общались с AI через чат и email
как будто это реальные ассистенты
Что выяснилось:
- агенты выполняют команды почти от любого человека
- не понимают, кому можно доверять
- могут врать о своих действиях
- принимают опасные решения без проверки
И это уже не лаборатория
Компании прямо сейчас внедряют таких помощников в прод
Проблема:
мы даём системе доступ к инфраструктуре
но она не понимает базовую вещь - кому можно доверять
Именно поэтому автономные агенты сейчас
- не столько про интеллект
- сколько про контроль и безопасность
Paper: *Agents of Chaos*
arxiv.org/abs/2602.20021
🎯Полезные Мл-ресурсы 🚀 Max
@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥11❤4👍4
Топ тулза для экономии до 80% на ИИ.
ClawRouter - это умный, опенсорсный маршрутизатор между моделями.
ClawRouter сам выбирает, какой моделью обрабатывать запрос, чтобы не переплачивать. Как это работает:
🟢 Оценивается запрос по разным признакам: сложность, код, длина — всего 14 пунктов.
🟢 За доли миллисекунд запрос отправляется в самую дешёвую подходящую модель — на выбор их, кстати, 40+ штук.
🟢 Всё решение принимается локально.
Получается так , что простые задачи уходят в дешёвые модели, сложные — в более мощные. Именно за счёт этого авторы и заявляют, что получится снизить расходы до 78%.
https://github.com/BlockRunAI/ClawRouter
ClawRouter - это умный, опенсорсный маршрутизатор между моделями.
ClawRouter сам выбирает, какой моделью обрабатывать запрос, чтобы не переплачивать. Как это работает:
🟢 Оценивается запрос по разным признакам: сложность, код, длина — всего 14 пунктов.
🟢 За доли миллисекунд запрос отправляется в самую дешёвую подходящую модель — на выбор их, кстати, 40+ штук.
🟢 Всё решение принимается локально.
Получается так , что простые задачи уходят в дешёвые модели, сложные — в более мощные. Именно за счёт этого авторы и заявляют, что получится снизить расходы до 78%.
https://github.com/BlockRunAI/ClawRouter
👍13🥰6😍2❤1
Forwarded from Machinelearning
NousResearch завершила хакатон, запущенный в конце февраля вслед за релизом Hermes Agent.
Из 187 заявок жюри отобрало финалистов по 3 критериям: креативность, практическая польза и качество презентации. Призовой фонд составил $11 750.
Это набор инструментов для обработки видео и аудио, который встраивается в Hermes как нативный скилл.
Загружаете файл в чат, описываете задачу текстом и получаете результат: обрезка, сжатие, конвертация форматов, наложение субтитров, генерация GIF-файлов, создание стикеров для Telegram или нормализация звука. Под капотом - ffmpeg. Работает через Telegram, Discord и CLI.
Агент находит реальные комплектующие в каталоге McMaster-Carr, подставляет фактические размеры найденной детали в параметрическую модель FreeCAD, анализирует, какие элементы сборки конфликтуют после изменений, и ведет спецификацию.
При обнаружении повторяющихся сценариев агент сам создает новые скиллы - например, для подбора определенного типа крепежа.
Браузерное расширение, которое открывает чат с Hermes Agent рядом с любой страницей. Фишка проекта - селективный контекст: агент видит только то, что пользователь выбрал (текст страницы, выделенный фрагмент, изображения, содержимое PDF). Поддерживаются кастомные темы, голосовой ввод, TTS и работа через SSH.
Спутниковые снимки рендерятся цветными юникод-блоками прямо в терминале, поверх отображаются города из OpenStreetMaps и заголовки новостей, привязанные к координатам в реальном времени. Геокодинг-пайплайн определяет локации из заголовков, расставляет приоритеты по населению и близости к другим видимым новостям. Автор собрал проект за один день, работая через Hermes Agent с Opus 4.6.
Симуляция автономного марсохода. Hermes Agent управляет моделью NASA Perseverance в среде Gazebo: планирование маршрута, считывание показаний IMU, четырех камер, LIDAR и контактных сенсоров, обход препятствий и генерация отчета о миссии.
Марсианская физика с гравитацией, проскальзыванием колес и динамикой ODE. За 25 минут автономной работы точность возврата на базу ~ 22 см. Ровер останавливается при наклоне больше 25°, сохраняет удачные треки и улучшает поведение от сессии к сессии.
Кстати, Hermes Agent написал роман «The Second Son of the House of Bells» - 79 456 слов, 19 глав. Агент выстроил собственный пайплайн по схеме, похожей на Autoresearch Андрея Карпатого: мироконструирование, черновики глав, состязательное редактирование, ревью через Opus, верстка в LaTeX, генерация обложки и аудиокниги.
@ai_machinelearning_big_data
#news #ai #ml
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍7❤4🔥2