Forwarded from Machinelearning
Парижский стартап H Company выпустил семейство мультимодальных моделей Holo3, предназначенных для управления графическими интерфейсами.
H Company (ранее Holistic AI) публично вышла на рынок в начале 2024 года. Основатели: Шарль Кантор, бывший исследователь Стэнфорда, и Лоран Сифр, ветеран Google DeepMind и один из ключевых участников проекта AlphaGo.
Посевной раунд составил $220 млн - один из крупнейших в истории европейского венчура. Среди инвесторов: Эрик Шмидт, Юрий Мильнер, Бернар Арно, Ксавье Ньель, а также Amazon, Samsung и UiPath.
Старшая Holo3-122B-A10B доступна только на платформе H Company по цене 40 центов за миллион входящих и 3 доллара за миллион выходных токенов.
Младшая версия Holo3-35B-A3B выложена на Hugging Face под лицензией Apache 2.0 и также доступна бесплатно через Inference API с ограничением в 10 PRM. В платном режиме - 0,25/1.8 доллара за миллион входных/выходных токенов.
Сначала по заданным сценариям генерируются синтетические примеры навигации по интерфейсам.
Затем данные расширяются за пределы исходных условий, чтобы модель учитывала нестандартные ситуации.
На финальном этапе все примеры проходят курируемый отбор и обучение с подкреплением.
Для тренировки H Company построила генератор синтетических корпоративных сред, в котором агенты создают веб-приложения по спецификациям сценариев, формируя верифицируемые задачи разной сложности.
На базе этих сред разработан H Corporate Benchmarks - набор из 486 многошаговых задач в 4 категориях: электронная коммерция, бизнес-ПО, инструменты совместной работы и межприложенческие сценарии.
Последние требуют координации между несколькими системами одновременно (скажем, извлечь цены из PDF, сопоставить их с бюджетами сотрудников и автоматически разослать персонализированные письма с одобрением или отказом).
Флагманская Holo3-122B-A10B набрала 78,85% на бенчмарке OSWorld-Verified - это лучший результат на ведущем тесте взаимодействия с рабочим столом.
@ai_machinelearning_big_data
#AI #ML #MMLM #Holo3 #HCompany
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
❤6👍4🔥2
This media is not supported in your browser
VIEW IN TELEGRAM
⚡️ GLM-5V-Turbo — модель, которая СМОТРИТ на экран и сразу ПИШЕТ код
Главное:
• Нативный мультимодальный кодинг
Понимает изображения, видео, макеты, интерфейсы и документы без костылей
• Видит → генерирует код
Распознаёт дизайн, скриншоты и UI и превращает их в готовый, запускаемый код
• Сильный баланс: визуал + программирование
Топовые результаты в:
- генерации кода по макетам
- мультимодальном поиске и QA
- работе с GUI-агентами
• Не проседает в обычном кодинге
Стабильно проходит бенчмарки Backend, Frontend и Repo Exploration
Визуал не ломает текстовую логику
• Оптимизирован под агентов
Работает в связке с Claude Code и OpenClaw
Подходит для полного цикла задач: от восприятия до действия
Почему он сильный:
• Глубокая связка текста и зрения с самого обучения
• RL-тренировка сразу на 30+ типах задач
• Специальные Agent-данные (меньше галлюцинаций)
• Поддержка мультимодальных инструментов: поиск, браузинг, работа с интерфейсами
Попробовать: http://chat.z.ai
API: http://docs.z.ai/guides/vlm/glm-5v-turbo
Coding Plan trial applications: http://docs.google.com/forms/d/e/1FAIpQLSdEg9C_7FRQWRbnJt--BJXSoacQZbbnB1A4hXGjWP59_1Pugg/viewform?usp=publish-editor
🐍 полезные ресурсы 🚀Max
@data_analysis_ml
Главное:
• Нативный мультимодальный кодинг
Понимает изображения, видео, макеты, интерфейсы и документы без костылей
• Видит → генерирует код
Распознаёт дизайн, скриншоты и UI и превращает их в готовый, запускаемый код
• Сильный баланс: визуал + программирование
Топовые результаты в:
- генерации кода по макетам
- мультимодальном поиске и QA
- работе с GUI-агентами
• Не проседает в обычном кодинге
Стабильно проходит бенчмарки Backend, Frontend и Repo Exploration
Визуал не ломает текстовую логику
• Оптимизирован под агентов
Работает в связке с Claude Code и OpenClaw
Подходит для полного цикла задач: от восприятия до действия
Почему он сильный:
• Глубокая связка текста и зрения с самого обучения
• RL-тренировка сразу на 30+ типах задач
• Специальные Agent-данные (меньше галлюцинаций)
• Поддержка мультимодальных инструментов: поиск, браузинг, работа с интерфейсами
Попробовать: http://chat.z.ai
API: http://docs.z.ai/guides/vlm/glm-5v-turbo
Coding Plan trial applications: http://docs.google.com/forms/d/e/1FAIpQLSdEg9C_7FRQWRbnJt--BJXSoacQZbbnB1A4hXGjWP59_1Pugg/viewform?usp=publish-editor
🐍 полезные ресурсы 🚀Max
@data_analysis_ml
❤6👍4🔥2🙏2
This media is not supported in your browser
VIEW IN TELEGRAM
⚡️ Code 2.1.90 - добавили новую команду /powerup.
Запускаешь её - и прямо внутри инструмента получаешь интерактивные уроки по работе с Claude Code.
Выглядит полезно: можно учиться прямо в терминале, без переключений и гайдов на стороне.
Интересно, как это реализуют в VSCode и в десктопной версии Claude Code.
Еще полезное - Когда Claude накосячил - запусти /rewind, чтобы откатить изменения в коде
Пойду дальше копаться в новом релизе👀
Релиз: https://x.com/ClaudeCodeLog/status/2039493041979847023
🐍 полезные ресурсы 🚀Max
@data_analysis_ml
Запускаешь её - и прямо внутри инструмента получаешь интерактивные уроки по работе с Claude Code.
Выглядит полезно: можно учиться прямо в терминале, без переключений и гайдов на стороне.
Интересно, как это реализуют в VSCode и в десктопной версии Claude Code.
Еще полезное - Когда Claude накосячил - запусти /rewind, чтобы откатить изменения в коде
Пойду дальше копаться в новом релизе
Релиз: https://x.com/ClaudeCodeLog/status/2039493041979847023
🐍 полезные ресурсы 🚀Max
@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
👍12❤6🔥5🍌1
Пока все обсуждают искусственный интеллект сам по себе, промышленность тихо движется в сторону связки ИИ + роботы.
В «Норникеле» рассказывают, что машинное обучение у них уже несколько лет работает в реальном производстве и приносит около 10 млрд рублей в год — за счёт более точных прогнозов, оптимизации процессов и дополнительного извлечения металлов.
Но, по их мнению, самое интересное впереди. Следующий этап — роботизация. Рудники на глубине до двух километров, риски, сложные условия, и там алгоритмы и роботы часто справляются точнее, чем человек.
В итоге ставка делается не на ИИ, а на вполне практичную вещь — автоматизированные производства, где решения принимают алгоритмы, а делают роботы. И похоже, именно туда и будет двигаться промышленность ближайшие годы.
В «Норникеле» рассказывают, что машинное обучение у них уже несколько лет работает в реальном производстве и приносит около 10 млрд рублей в год — за счёт более точных прогнозов, оптимизации процессов и дополнительного извлечения металлов.
Но, по их мнению, самое интересное впереди. Следующий этап — роботизация. Рудники на глубине до двух километров, риски, сложные условия, и там алгоритмы и роботы часто справляются точнее, чем человек.
В итоге ставка делается не на ИИ, а на вполне практичную вещь — автоматизированные производства, где решения принимают алгоритмы, а делают роботы. И похоже, именно туда и будет двигаться промышленность ближайшие годы.
Telegram
Норникель
Наш путь — комбинация ИИ и робототехники
🖥 Комбинация искусственного интеллекта и робототехники — не сценарий из будущего, а практический путь развития современной промышленности. Именно эту мысль директор департамента технологических инноваций «Норникеля»…
🖥 Комбинация искусственного интеллекта и робототехники — не сценарий из будущего, а практический путь развития современной промышленности. Именно эту мысль директор департамента технологических инноваций «Норникеля»…
🔥5❤3👍2
🚀 Qwen3.6-Plus- новый мультимодальный агент от Alibaba
Ключевые особенности:
💻 Agentic Coding - умнее и быстрее в написании кода
👁️ Улучшенное мультимодальное зрение - точнее воспринимает и анализирует визуальный контент
🏆 Топовые общие способности - сохраняет лидерские позиции
📄 Контекстное окно 1M токенов - доступно через API по умолчанию
Модель создана на основе обратной связи от сообщества Qwen3.5. Доступна уже сейчас через chat.qwen.ai и API. Обещают открыть исходный код других моделей серии Qwen3.6.
Chat: https://chat.qwen.ai
API: https://modelstudio.console.alibabacloud.com/ap-southeast-1?tab=doc#/doc/?type=model&url=2840914_2&modelId=qwen3.6-plus
Blog: https://qwen.ai/blog?id=qwen3.6
#Qwen #AI #AgenticCoding #VibeCoding #Agents
🐍 полезные ресурсы 🚀Max
@data_analysis_ml
Ключевые особенности:
💻 Agentic Coding - умнее и быстрее в написании кода
👁️ Улучшенное мультимодальное зрение - точнее воспринимает и анализирует визуальный контент
🏆 Топовые общие способности - сохраняет лидерские позиции
📄 Контекстное окно 1M токенов - доступно через API по умолчанию
Модель создана на основе обратной связи от сообщества Qwen3.5. Доступна уже сейчас через chat.qwen.ai и API. Обещают открыть исходный код других моделей серии Qwen3.6.
Chat: https://chat.qwen.ai
API: https://modelstudio.console.alibabacloud.com/ap-southeast-1?tab=doc#/doc/?type=model&url=2840914_2&modelId=qwen3.6-plus
Blog: https://qwen.ai/blog?id=qwen3.6
#Qwen #AI #AgenticCoding #VibeCoding #Agents
🐍 полезные ресурсы 🚀Max
@data_analysis_ml
👍18🔥14❤6
ИИ всё активнее становится «вторым аналитиком» в BI. По свежей статистике, каждый 5-й корпоративный пользователь уже обращается к ИИ-агенту Нейроаналитику, чтобы быстрее попасть на бизнес-инсайты.
Какие задачи чаще всего отдают ИИ:
73% — просят написать формулы
50% — объяснить графики
Кто внедряет активнее всего (топ‑5 отраслей): ИТ (40%) , ритейл (25%) , финтех (10%) , логистика (5%) , здравоохранение (4%) .
Главное использование — скорость: ИИ за минуту делает десять срезов и обнаруживает нарушения. В ритейле задержка в поисках падения на 5 дней может стоить 15–20 миллионов , а с ИИ это вкладывается на пару часов.
Источник: https://ko.ru/news/kazhdyy-pyatyy-korporativnyy-polzovatel-prosit-ii-agenta-nayti-biznes-insayty/?ysclid=mneiwo7f1j748287914
Какие задачи чаще всего отдают ИИ:
73% — просят написать формулы
50% — объяснить графики
Кто внедряет активнее всего (топ‑5 отраслей): ИТ (40%) , ритейл (25%) , финтех (10%) , логистика (5%) , здравоохранение (4%) .
Главное использование — скорость: ИИ за минуту делает десять срезов и обнаруживает нарушения. В ритейле задержка в поисках падения на 5 дней может стоить 15–20 миллионов , а с ИИ это вкладывается на пару часов.
Источник: https://ko.ru/news/kazhdyy-pyatyy-korporativnyy-polzovatel-prosit-ii-agenta-nayti-biznes-insayty/?ysclid=mneiwo7f1j748287914
ko.ru
Каждый пятый корпоративный пользователь просит ИИ-агента найти бизнес-инсайты
Быстрее всего ИИ-аналитику осваивают технологические компании — они составляют 40% аудитории
👍5🥰4🔥3❤1
🚀 Google DeepMind представила Gemma 4
Новое семейство открытых моделей, которые можно запускать на собственном железе.
Четыре размера:
31B Dense & 26B MoE - топовые результаты для сложных локальных задач: кастомные ассистенты, анализ научных данных
E4B & E2B (Edge) — для мобильных устройств, поддержка текста, зрения и аудио в реальном времени
Ключевые особенности:
Заточены под продвинутый reasoning и агентные задачи (автономные агенты, планирование, многошаговые workflows)
По Arena Elo Score: Gemma 4 31B (1452) и 26B (1441) обгоняют Qwen 3.5 (1450), Kimi k2.5 (1454) и DeepSeek v3.2 (1425)
Где попробовать: Google AI Studio, Hugging Face, Kaggle, Ollama
Почему это важно: Apache 2.0 + open weights = можно файн-тюнить и деплоить без ограничений и зависимости от API. Именно это отделяет настоящий open-source релиз от «контролируемого» research drop'а.
https://blog.google/innovation-and-ai/technology/developers-tools/gemma-4/
Лицензия Apache 2.0 - полностью коммерчески свободная.
#Gemma
Новое семейство открытых моделей, которые можно запускать на собственном железе.
Четыре размера:
31B Dense & 26B MoE - топовые результаты для сложных локальных задач: кастомные ассистенты, анализ научных данных
E4B & E2B (Edge) — для мобильных устройств, поддержка текста, зрения и аудио в реальном времени
Ключевые особенности:
Заточены под продвинутый reasoning и агентные задачи (автономные агенты, планирование, многошаговые workflows)
По Arena Elo Score: Gemma 4 31B (1452) и 26B (1441) обгоняют Qwen 3.5 (1450), Kimi k2.5 (1454) и DeepSeek v3.2 (1425)
Где попробовать: Google AI Studio, Hugging Face, Kaggle, Ollama
Почему это важно: Apache 2.0 + open weights = можно файн-тюнить и деплоить без ограничений и зависимости от API. Именно это отделяет настоящий open-source релиз от «контролируемого» research drop'а.
https://blog.google/innovation-and-ai/technology/developers-tools/gemma-4/
Лицензия Apache 2.0 - полностью коммерчески свободная.
#Gemma
🔥14❤10👍7
Media is too big
VIEW IN TELEGRAM
Cursor окончательно сменил роль: теперь это не инструмент для кодинга, а оркестратор агентов.
Что поменялось по факту:
• запускаешь сколько угодно агентов - локально, по SSH или в облаке
• работаешь сразу с несколькими репозиториями и окружениями
• облачные агенты сами делают демки и скриншоты своих действий
• при этом редактор никуда не делся - можно кодить вручную, когда нужно
https://cursor.com/blog/cursor-3
Please open Telegram to view this post
VIEW IN TELEGRAM
👍16❤7😐3🔥2
Как превратить данные из 1С в реальные бизнес-инсайты за считанные дни
7 апреля в 12:00 Yandex DataLens и BI.Qube покажут, как выжать максимум из ваших данных без сложной разработки.
На реальном кейсе разберём, как работать с 290 млн чеков из 1С: связывать их со справочниками, обновлять и превращать в понятную аналитику. И главное - как получать ответы на вопросы бизнеса через Нейроаналитика, который работает как ИИ-агент.
Покажем весь путь без воды: от старта за 1 день до первых результатов уже через 1–2 месяца, с возможностью спокойно масштабировать аналитику дальше.
Подойдёт тем, кто хочет быстро выстроить связку 1С → BI и начать принимать решения на основе данных, а не догадок.
7 апреля в 12:00 Yandex DataLens и BI.Qube покажут, как выжать максимум из ваших данных без сложной разработки.
На реальном кейсе разберём, как работать с 290 млн чеков из 1С: связывать их со справочниками, обновлять и превращать в понятную аналитику. И главное - как получать ответы на вопросы бизнеса через Нейроаналитика, который работает как ИИ-агент.
Покажем весь путь без воды: от старта за 1 день до первых результатов уже через 1–2 месяца, с возможностью спокойно масштабировать аналитику дальше.
Подойдёт тем, кто хочет быстро выстроить связку 1С → BI и начать принимать решения на основе данных, а не догадок.
❤3
This media is not supported in your browser
VIEW IN TELEGRAM
Так я вижу работу ИИ-агента со стороны:
❤30😁16👍10🔥4🤣3
Gemma 4 от GoogleDeepMind дебютировала на 3 и 6 местах в open source leaderboard, став моделью №1 среди open source моделей из США.
При этом по числу параметров Gemma 4 (31B) в 24 раза меньше, чем GLM-5, и в 34 раза меньше, чем Kimi-K2.5-Thinking — при сопоставимой производительности и значительно меньших ресурсах.
При этом по числу параметров Gemma 4 (31B) в 24 раза меньше, чем GLM-5, и в 34 раза меньше, чем Kimi-K2.5-Thinking — при сопоставимой производительности и значительно меньших ресурсах.
🔥23👍9🤣5
🎧 Fish Audio S2 Pro - мощная open-source модель для синтеза речи.
Это 4B + 400M параметровая TTS-модель с необычной архитектурой Dual-AR, обученная на 10+ миллионах часов аудио и поддерживающая 80+ языков.
Что делает её интересной.
🏗 Dual-AR архитектура
Модель разделена на две части:
• 4B Slow AR отвечает за семантику и структуру речи
• 400M Fast AR генерирует 9 residual codebooks для акустики
Такой подход позволяет сохранить высокое качество звука без сильной нагрузки на инференс.
🎭 Свободное управление эмоциями и интонацией
Можно прямо в тексте задавать стиль речи:
Поддерживается 15 000+ тегов, которые работают на уровне отдельных слов.
🌐 80+ языков
Основные языки высокого качества:
• английский
• китайский
• японский
⚡ Оптимизация для LLM-инфраструктуры
Модель нативно работает со стеком SGLang, поэтому поддерживает:
• continuous batching
• paged KV cache
• RadixAttention prefix caching
📊 Производительность
• RTF: 0.195 на Nvidia H200
• ~100 мс до первого аудио
• более 3000 акустических токенов/сек
Также разработчики выложили:
• веса модели
• код для fine-tuning
• движок для streaming inference
Модель: https://modelscope.ai/models/fishaudio/s2-pro
GitHub: https://github.com/fishaudio/fish-speech
#ai #tts #opensourсe
🎯Полезные Мл-ресурсы 🚀 Max
@data_analysis_ml
Это 4B + 400M параметровая TTS-модель с необычной архитектурой Dual-AR, обученная на 10+ миллионах часов аудио и поддерживающая 80+ языков.
Что делает её интересной.
🏗 Dual-AR архитектура
Модель разделена на две части:
• 4B Slow AR отвечает за семантику и структуру речи
• 400M Fast AR генерирует 9 residual codebooks для акустики
Такой подход позволяет сохранить высокое качество звука без сильной нагрузки на инференс.
🎭 Свободное управление эмоциями и интонацией
Можно прямо в тексте задавать стиль речи:
[whisper] [laughing] [professional broadcast tone]Поддерживается 15 000+ тегов, которые работают на уровне отдельных слов.
🌐 80+ языков
Основные языки высокого качества:
• английский
• китайский
• японский
⚡ Оптимизация для LLM-инфраструктуры
Модель нативно работает со стеком SGLang, поэтому поддерживает:
• continuous batching
• paged KV cache
• RadixAttention prefix caching
📊 Производительность
• RTF: 0.195 на Nvidia H200
• ~100 мс до первого аудио
• более 3000 акустических токенов/сек
Также разработчики выложили:
• веса модели
• код для fine-tuning
• движок для streaming inference
Модель: https://modelscope.ai/models/fishaudio/s2-pro
GitHub: https://github.com/fishaudio/fish-speech
#ai #tts #opensourсe
🎯Полезные Мл-ресурсы 🚀 Max
@data_analysis_ml
👍6❤5🔥5
🚨 NVIDIA выложила на Hugging Face квантизированную Gemma 4 31B
- NVFP4 сжимает веса в ~4 раза без заметной потери качества
- 99.7% от baseline на GPQA (75.46% vs 75.71%)
- Контекст до 256K
- Мультимодальность: текст, изображения, видео
- vLLM-ready + оптимизация под Blackwell
По железу:
- веса: ~16–21 GB VRAM
- нормальный запуск: от 24 GB
- полный 256K контекст: комфортно от 32 GB
31B-модель уровня frontier, которую наконец можно гонять локально на топовом consumer GPU, а не только в облаке
Попробовать: https://huggingface.co/nvidia/Gemma-4-31B-IT-NVFP4
🎯Полезные Мл-ресурсы 🚀 Max
@data_analysis_ml
- NVFP4 сжимает веса в ~4 раза без заметной потери качества
- 99.7% от baseline на GPQA (75.46% vs 75.71%)
- Контекст до 256K
- Мультимодальность: текст, изображения, видео
- vLLM-ready + оптимизация под Blackwell
По железу:
- веса: ~16–21 GB VRAM
- нормальный запуск: от 24 GB
- полный 256K контекст: комфортно от 32 GB
31B-модель уровня frontier, которую наконец можно гонять локально на топовом consumer GPU, а не только в облаке
Попробовать: https://huggingface.co/nvidia/Gemma-4-31B-IT-NVFP4
🎯Полезные Мл-ресурсы 🚀 Max
@data_analysis_ml
🔥24👍6❤5
Доминик Кундель из OpenAI попросил Codex встроить самого себя внутрь DOOM.
Не оверлей, не окошко сбоку, а настоящий терминал прямо в игровом движке. Подходишь к стене, открываешь терминал и даешь задачи реальному Codex-агенту: хоть игровые, хоть свой код на доработку.
Все построено на Codex app server.
Это JSON-RPC сервер, который стоит за приложением Codex, расширениями для IDE, интеграциями с Xcode и JetBrains. По сути API, через который агента можно воткнуть куда угодно. Кундель решил доказать это буквально.
Codex собрал все сам: от плана до рабочей реализации за ~6:40 часов, потратив 205 млн токенов.
Кундель в это время занимался домашними делами и в какой-то момент подпрыгнул от звуков стрельбы - это Codex тестировал сборку, запуская игру через Playwright. Он же сам нарисовал текстуру с логотипом на игровой стене, проверил рендер с разных ракурсов, нашел баг, исправил и перепроверил.
Без явных инструкций на тестирование.
DOOM, конечно, не лучший интерфейс для кода. Но демо четко показывает: Codex app server позволяет встроить агента в любую среду. Исходники открыты.
Github: https://github.com/openai/codex/tree/main/codex-rs/app-server
Post: https://x.com/dkundel/status/2040130396747407437
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
❤13🔥9👍5