💰 OpenAI ищет новые способы монетизации - не только подписки ChatGPT
Финдир OpenAI Сара Фрайер намекнула, что компания будет менять модели заработка - на фоне растущих затрат компании.
Планы компании:
- Лицензирование моделей
OpenAI может брать долю с дохода клиентов, если продукт их“выстрелит”.
Пример: если с помощью моделей OpenAI нашли лекарство, компания получит процент от продаж.
- Больше тарифных планов
Помимо обычной подписки - развитие:
- enterprise SaaS-цен
- usage / credit-based модели (платишь за использование)
- Тестирование рекламы в ChatGPT
OpenAI готовится пробовать рекламу, но заявляет, что:
- ответы модель должны оставаться “оптимальными”, а не рекламными
- останется ad-free тариф без рекламы
OpenAI планирует будет зарабатывать не только на подписке, но и на успехе клиентов + гибких тарифах.
Наш чат / Полезные ИИ-ресурсы
#openai #ChatGPT
Финдир OpenAI Сара Фрайер намекнула, что компания будет менять модели заработка - на фоне растущих затрат компании.
Планы компании:
- Лицензирование моделей
OpenAI может брать долю с дохода клиентов, если продукт их“выстрелит”.
Пример: если с помощью моделей OpenAI нашли лекарство, компания получит процент от продаж.
- Больше тарифных планов
Помимо обычной подписки - развитие:
- enterprise SaaS-цен
- usage / credit-based модели (платишь за использование)
- Тестирование рекламы в ChatGPT
OpenAI готовится пробовать рекламу, но заявляет, что:
- ответы модель должны оставаться “оптимальными”, а не рекламными
- останется ad-free тариф без рекламы
OpenAI планирует будет зарабатывать не только на подписке, но и на успехе клиентов + гибких тарифах.
Наш чат / Полезные ИИ-ресурсы
#openai #ChatGPT
💊25😁10👍4😭2🔥1🌭1
🚀 Крупный IT-стартап на 1200 сотрудников сегодня выглядит так: стойка из десятков Mac mini, на которых круглосуточно крутится тот самый хайповый Clawdbot, про который уже отлично писали коллеги 😊
И это не шутка.
В Кремниевой долине сейчас настоящий мини-бум: разработчики, стартапы и даже целые команды массово скупают Mac mini, чтобы поднимать на них этого «опенсорсного Джарвиса».
Доходит до абсурда — в ряде магазинов «миники» начали уходить в дефицит именно из-за AI-инфраструктуры под локальные агенты.
Почему так происходит?
Потому что это уже не просто бот.
Clawdbot — это по сути цифровой сотрудник:
- пишет код
- помогает с инфраструктурой
- отвечает в рабочих чатах
- автоматизирует рутину
- подключён к инструментам
И всё это - self-hosted, под полным контролем команды.
Так что теперь штат в стартапах выглядит примерно так:
Слева направо:
Clawdbot, Clawdbot и ещё немного Clawdbot.
Людей меньше не стало.
Просто теперь каждый человек работает в паре с агентом, а производительность команды умножается, а не складывается.
Это уже не «AI как инструмент».
Это AI как часть команды.
Код Clawdbot в опенсорсе: https://github.com/clawdbot/clawdbot
@machinelearning_interview
И это не шутка.
В Кремниевой долине сейчас настоящий мини-бум: разработчики, стартапы и даже целые команды массово скупают Mac mini, чтобы поднимать на них этого «опенсорсного Джарвиса».
Доходит до абсурда — в ряде магазинов «миники» начали уходить в дефицит именно из-за AI-инфраструктуры под локальные агенты.
Почему так происходит?
Потому что это уже не просто бот.
Clawdbot — это по сути цифровой сотрудник:
- пишет код
- помогает с инфраструктурой
- отвечает в рабочих чатах
- автоматизирует рутину
- подключён к инструментам
И всё это - self-hosted, под полным контролем команды.
Так что теперь штат в стартапах выглядит примерно так:
Слева направо:
Clawdbot, Clawdbot и ещё немного Clawdbot.
Людей меньше не стало.
Просто теперь каждый человек работает в паре с агентом, а производительность команды умножается, а не складывается.
Это уже не «AI как инструмент».
Это AI как часть команды.
Код Clawdbot в опенсорсе: https://github.com/clawdbot/clawdbot
@machinelearning_interview
❤9🔥5👍3😱2💊1
🚀 PageIndex - умный индекс документов для reasoning-RAG (без векторов)
PageIndex от VectifyAI - open-source система, которая помогает работать с длинными документами (PDF, тексты, правила и т.д.) так, как это сделал бы эксперт-человек, а не обычный поисковик.
В отличие от традиционных RAG-систем, которые разбивают текст на куски и используют vector search (векторное сопоставление), PageIndex создаёт иерархическое дерево структуры документа и позволяет моделям ИИ логически искать ответы через reasoning и tree search.
📄 Основная идея
- Длинные документы индексируются как семантическое дерево — похожее на умный «оглавление»
- Структура сохраняет контекст и древовидную иерархию секций
- При запросе модель обходит дерево через reasoning-поиск, как человек, который листает книгу по разделам, а не просто ищет по похожести текста
- Не нужны: векторная база данных, chunking и top-K-селекция, что снижает потери контекста и повышает точность поиска
🧠 Почему это важно
✔️ Лучше для сложных и больших документов (финансовые отчёты, юридические тексты, технические мануалы)
✔️ Сохранение структуры означает, что ИИ может понимать, где именно в документе находится нужная информация
✔️ В отличие от vector-RAG, здесь решение не основано на похожести, а на пошаговом анализе структуры документа
🔧 Что внутри
- Скрипты и Jupyter-ноутбуки для генерации дерева из PDF или Markdown
- Возможность делать reasoning-RAG напрямую без внешних Vector DB
- Примеры использования и cookbooks для практических сценариев
PageIndex - это не просто индекс, а иерархический, reasoning-ориентированный RAG-фреймворк. Он позволяет ИИ читать и анализировать документы, как эксперт, обходя ограничения простого векторного поиска в больших текстах.
▪ Github: https://github.com/VectifyAI/PageIndex
▪ Blog post: https://vectify.ai/blog/Mafin2.5
PageIndex от VectifyAI - open-source система, которая помогает работать с длинными документами (PDF, тексты, правила и т.д.) так, как это сделал бы эксперт-человек, а не обычный поисковик.
В отличие от традиционных RAG-систем, которые разбивают текст на куски и используют vector search (векторное сопоставление), PageIndex создаёт иерархическое дерево структуры документа и позволяет моделям ИИ логически искать ответы через reasoning и tree search.
📄 Основная идея
- Длинные документы индексируются как семантическое дерево — похожее на умный «оглавление»
- Структура сохраняет контекст и древовидную иерархию секций
- При запросе модель обходит дерево через reasoning-поиск, как человек, который листает книгу по разделам, а не просто ищет по похожести текста
- Не нужны: векторная база данных, chunking и top-K-селекция, что снижает потери контекста и повышает точность поиска
🧠 Почему это важно
✔️ Лучше для сложных и больших документов (финансовые отчёты, юридические тексты, технические мануалы)
✔️ Сохранение структуры означает, что ИИ может понимать, где именно в документе находится нужная информация
✔️ В отличие от vector-RAG, здесь решение не основано на похожести, а на пошаговом анализе структуры документа
🔧 Что внутри
- Скрипты и Jupyter-ноутбуки для генерации дерева из PDF или Markdown
- Возможность делать reasoning-RAG напрямую без внешних Vector DB
- Примеры использования и cookbooks для практических сценариев
PageIndex - это не просто индекс, а иерархический, reasoning-ориентированный RAG-фреймворк. Он позволяет ИИ читать и анализировать документы, как эксперт, обходя ограничения простого векторного поиска в больших текстах.
▪ Github: https://github.com/VectifyAI/PageIndex
▪ Blog post: https://vectify.ai/blog/Mafin2.5
👍13🔥7🥰2
🚀 Kimi K2.5 - Open-Source Visual Agentic Intelligence
Moonshot представили Kimi K2.5 - это полноценный визуальный агент, заточенный под сложные задачи, код и мультимодальность.
Что по бенчмаркам
🔹 Глобальный SOTA на агентных тестах
- HLE full set - 50.2%
- BrowseComp - 74.9%
🔹 Open-source лидер по зрению и коду
- MMMU Pro - 78.5%
- VideoMMMU - 86.6%
- SWE-bench Verified - 76.8%
Фишка, которая выделяет K2.5
🎨 Code with Taste — модель превращает чаты, изображения и видео в эстетичные сайты с анимацией и выразительным движением, а не просто сухой HTML.
🤖 Agent Swarm (Beta)
Самонаправленные агенты, работающие параллельно:
- До 100 суб-агентов
- До 1 500 вызовов инструментов
- До 4.5x быстрее по сравнению с одиночным агентом
Это уже ближе к распределённой системе ИИ-исполнителей, чем к одному «умному боту».
Где попробовать
🥝 K2.5 доступен на http://kimi.com
- Chat mode
- Agent mode
🥝 Agent Swarm — бета для пользователей высокого уровня
🧑💻 Для продакшн-разработки можно связать с Kimi Code
https://kimi.com/code
Для разработчиков
🔗 API - https://platform.moonshot.ai
🔗 Тех-блог - http://kimi.com/blogs/kimi-k2-5.html
🔗 Веса и код - https://huggingface.co/moonshotai/Kimi-K2.5/tree/main
K2.5 - это шаг к мультиагентным ИИ-системам, где модель не просто отвечает, а организует работу, использует инструменты и действует в визуальной среде.
Moonshot представили Kimi K2.5 - это полноценный визуальный агент, заточенный под сложные задачи, код и мультимодальность.
Что по бенчмаркам
🔹 Глобальный SOTA на агентных тестах
- HLE full set - 50.2%
- BrowseComp - 74.9%
🔹 Open-source лидер по зрению и коду
- MMMU Pro - 78.5%
- VideoMMMU - 86.6%
- SWE-bench Verified - 76.8%
Фишка, которая выделяет K2.5
🎨 Code with Taste — модель превращает чаты, изображения и видео в эстетичные сайты с анимацией и выразительным движением, а не просто сухой HTML.
🤖 Agent Swarm (Beta)
Самонаправленные агенты, работающие параллельно:
- До 100 суб-агентов
- До 1 500 вызовов инструментов
- До 4.5x быстрее по сравнению с одиночным агентом
Это уже ближе к распределённой системе ИИ-исполнителей, чем к одному «умному боту».
Где попробовать
🥝 K2.5 доступен на http://kimi.com
- Chat mode
- Agent mode
🥝 Agent Swarm — бета для пользователей высокого уровня
🧑💻 Для продакшн-разработки можно связать с Kimi Code
https://kimi.com/code
Для разработчиков
🔗 API - https://platform.moonshot.ai
🔗 Тех-блог - http://kimi.com/blogs/kimi-k2-5.html
🔗 Веса и код - https://huggingface.co/moonshotai/Kimi-K2.5/tree/main
K2.5 - это шаг к мультиагентным ИИ-системам, где модель не просто отвечает, а организует работу, использует инструменты и действует в визуальной среде.
🔥6👍5❤4
🚀🚀🚀 Tencent открыли HPC-Ops — продакшн-библиотеку операторов для LLM-инференса, выжимающую максимум из GPU
HPC-Ops — это библиотека операторов от Tencent HY, созданная для достижения пиковых показателей производительности на массовых inference-картах. Решает главную боль продакшена: стандартные библиотеки часто не доходят до реального потолка железа.
Главные плюсы
🔹 +30% к пропускной способности
- До +30% QPM для моделей Tencent HY
- +17% для DeepSeek в реальных продакшн-сценариях
🔹 Оптимизация под железо
С нуля написано на CUDA + CuTe, чтобы максимально загрузить GPU и убрать узкие места типичных стеков.
🔹 SOTA по ядрам
- Attention — до 2.22× быстрее, чем FlashInfer / FlashAttention
- GroupGEMM — до 1.88× быстрее, чем DeepGEMM
- FusedMoE — до 1.49× быстрее, чем TensorRT-LLM
🔹 Готово к продакшену
- Поддержка ключевых операторов: FusedMoE, GroupGEMM
- Многонодовая коммуникация
- Чистая абстракция для кастомизации под свои пайплайны
Библиотека уже используется в крупномасштабных инференс-сервисах Tencent.
Если вы крутите LLM в проде и упёрлись в пределы производительности — это как раз тот слой, где можно вытащить дополнительные десятки процентов без смены железа.
🔗 GitHub: https://github.com/Tencent/hpc-ops
HPC-Ops — это библиотека операторов от Tencent HY, созданная для достижения пиковых показателей производительности на массовых inference-картах. Решает главную боль продакшена: стандартные библиотеки часто не доходят до реального потолка железа.
Главные плюсы
🔹 +30% к пропускной способности
- До +30% QPM для моделей Tencent HY
- +17% для DeepSeek в реальных продакшн-сценариях
🔹 Оптимизация под железо
С нуля написано на CUDA + CuTe, чтобы максимально загрузить GPU и убрать узкие места типичных стеков.
🔹 SOTA по ядрам
- Attention — до 2.22× быстрее, чем FlashInfer / FlashAttention
- GroupGEMM — до 1.88× быстрее, чем DeepGEMM
- FusedMoE — до 1.49× быстрее, чем TensorRT-LLM
🔹 Готово к продакшену
- Поддержка ключевых операторов: FusedMoE, GroupGEMM
- Многонодовая коммуникация
- Чистая абстракция для кастомизации под свои пайплайны
Библиотека уже используется в крупномасштабных инференс-сервисах Tencent.
Если вы крутите LLM в проде и упёрлись в пределы производительности — это как раз тот слой, где можно вытащить дополнительные десятки процентов без смены железа.
🔗 GitHub: https://github.com/Tencent/hpc-ops
❤10👍5🔥3👏2
Google Research представили ATLAS — Practical scaling laws for multilingual models 🌍📈
Это практическая методика масштабирования многоязычных моделей, которая помогает понять, как правильно сочетать размер модели, объём данных и набор языков при обучении — не только для английского, а для сотен языков сразу.
Что сделали исследователи
• Провели 774 тренировки моделей от 10M до 8B параметров
• Охватили 400+ языков
• Тестировали качество на 48 языках
ATLAS вводит адаптивные scaling laws, которые учитывают не только размер модели и данные, но и количество языков в обучении. Это важно, потому что в мультилингвистических моделях появляется эффект «curse of multilinguality» — когда слишком много языков начинают конкурировать за ограниченную ёмкость модели.
Чем это ценно на практике
— Помогает понять, когда добавление языков даёт положительный трансфер, а когда начинает вредить
— Показывает, как распределять данные между языками для лучшего качества на целевых
— Дает ориентиры, когда выгоднее обучать модель с нуля, а когда дообучать уже существующую
Также вводится кросс-языковая матрица трансфера, показывающая, какие языки усиливают друг друга, а какие — конфликтуют при совместном обучении.
По сути ATLAS — это data-driven фундамент для проектирования многоязычных LLM:
сколько параметров нужно, сколько данных давать и какие языки смешивать, чтобы получить максимум качества без лишних затрат.
Шаг в сторону более эффективного и менее англоцентричного AI.
https://research.google/blog/atlas-practical-scaling-laws-for-multilingual-models/
Это практическая методика масштабирования многоязычных моделей, которая помогает понять, как правильно сочетать размер модели, объём данных и набор языков при обучении — не только для английского, а для сотен языков сразу.
Что сделали исследователи
• Провели 774 тренировки моделей от 10M до 8B параметров
• Охватили 400+ языков
• Тестировали качество на 48 языках
ATLAS вводит адаптивные scaling laws, которые учитывают не только размер модели и данные, но и количество языков в обучении. Это важно, потому что в мультилингвистических моделях появляется эффект «curse of multilinguality» — когда слишком много языков начинают конкурировать за ограниченную ёмкость модели.
Чем это ценно на практике
— Помогает понять, когда добавление языков даёт положительный трансфер, а когда начинает вредить
— Показывает, как распределять данные между языками для лучшего качества на целевых
— Дает ориентиры, когда выгоднее обучать модель с нуля, а когда дообучать уже существующую
Также вводится кросс-языковая матрица трансфера, показывающая, какие языки усиливают друг друга, а какие — конфликтуют при совместном обучении.
По сути ATLAS — это data-driven фундамент для проектирования многоязычных LLM:
сколько параметров нужно, сколько данных давать и какие языки смешивать, чтобы получить максимум качества без лишних затрат.
Шаг в сторону более эффективного и менее англоцентричного AI.
https://research.google/blog/atlas-practical-scaling-laws-for-multilingual-models/
👍9❤5👏2🔥1
🚀 Масштабируем эмбеддинги, а не только экспертов - новый путь к более эффективным LLM
Главная идея: в режимах высокой разреженности (sparsity) использование N-граммных эмбеддингов дает более выгодный Pareto-баланс, чем простое наращивание числа MoE-экспертов.
На этом инсайте построена LongCat-Flash-Lite - первая open-source модель такого типа.
⚙️ 68.5B параметров всего (из них 37.13B не эмбеддинги)
Активно на токен: ~2.9B–4.5B
📊 Бенчмарки:
SWE-Bench - 54.4
τ²-Bench - 72.8
TerminalBench - 33.75
📃 Контекстное окно - 256K (на базе YARN)
✨ Оптимизирована под агентные задачи и кодинг, сильна и в общем рассуждении
⚡ Пиковая скорость инференса - около 700 токенов/с
Итог - модель достигает конкурентного качества в своем классе при заметно меньших затратах и задержках.
▪Hugging Face: huggingface.co/meituan-longcat/LongCat-Flash-Lite
▪Технический отчёт: huggingface.co/meituan-longcat/LongCat-Flash-Lite/blob/main/tech_report.pdf
Главная идея: в режимах высокой разреженности (sparsity) использование N-граммных эмбеддингов дает более выгодный Pareto-баланс, чем простое наращивание числа MoE-экспертов.
На этом инсайте построена LongCat-Flash-Lite - первая open-source модель такого типа.
⚙️ 68.5B параметров всего (из них 37.13B не эмбеддинги)
Активно на токен: ~2.9B–4.5B
📊 Бенчмарки:
SWE-Bench - 54.4
τ²-Bench - 72.8
TerminalBench - 33.75
📃 Контекстное окно - 256K (на базе YARN)
✨ Оптимизирована под агентные задачи и кодинг, сильна и в общем рассуждении
⚡ Пиковая скорость инференса - около 700 токенов/с
Итог - модель достигает конкурентного качества в своем классе при заметно меньших затратах и задержках.
▪Hugging Face: huggingface.co/meituan-longcat/LongCat-Flash-Lite
▪Технический отчёт: huggingface.co/meituan-longcat/LongCat-Flash-Lite/blob/main/tech_report.pdf
🔥5🤔3❤2
Forwarded from ML Underhood
Назад в 2016: ты помнишь, как всё начиналось…
Судя по соцсетям, 2016-й был золотым годом. ML активно набирал обороты: TensorFlow в опенсорсе, Jupyter-ноутбуки, scikit-learn и матч AlphaGo — Ли Седоль (свело олдскулы?). Присоединяемся к тренду и вспоминаем ML-проекты Яндекса десятилетней выдержки.
Поисковый алгоритм «Палех»
Раньше поисковые системы работали по большей части как инвертированный индекс: запрос сопоставлялся со страницами, где встречались те же слова. Со временем в поиск начали добавлять клики, поведение пользователей и ссылочные факторы — всё это объединили в алгоритме ранжирования MatrixNet. А «Палех» стал следующим шагом: в поиске использовали нейросеть на базе DSSM, чтобы учитывать смысл запроса, а не только совпадение слов. Подробнее о том, как всё работало, можно почитать на Хабре.
Перевод текста с изображения в Переводчике
Яндекс Переводчик научился распознавать текст прямо на картинках. Можно было загрузить изображение — комикс, график с подписями или скан документа — и сразу получить перевод. Функция работала даже в неидеальных условиях: если текст был под углом, растянут или снят «на бегу». Распознавание поддерживало 12 языков, а перевод — любой из 74 языков, доступных на тот момент. В основе лежали технологии компьютерного зрения Яндекса — те же, что использовались в поиске похожих картинок и определении марки автомобиля по фото. А о том, как в Яндексе в 2016 году решали задачу машинного перевода для редких языков, — тут.
Первая нейросеть для прогноза осадков с точностью до минут
В Яндекс Погоду добавили нейросетевой «наукастинг» осадков — краткосрочный прогноз дождя и снега с высокой точностью. Модель использовала данные метеорадаров и свёрточные нейросети, чтобы предсказывать движение осадков на ближайшие пару часов с детализацией до отдельных районов. На коротких интервалах подход оказался точнее классических методов и улучшил прогноз «здесь и сейчас». О том, как далеко шагнуло прогнозирование погоды с помощью нейросетей в 2026-м — писали здесь, а вспомнить, что было в 2016-м, можно тут.
Определение фишинга в Браузере с помощью ML
Традиционная защита браузеров от фишинга была основана на чёрных списках опасных сайтов. Но с автоматизированными атаками, где фишинг-страницы появляются быстрее, чем их вносят в списки, в 2016-м она уже не справлялась.
Стали прямо на устройстве пользователя анализировать самые разные признаки страницы — от технических параметров до визуального оформления — и оценивать её подозрительность. А компьютерное зрение использовали, чтобы сравнивать внешний вид сайтов с известными сервисами — так подделки находились даже без обращения к внешним спискам. Подробнее рассказали в хабростатье.
Вот такие технологии из дохайповых времён. Делитесь в комментариях своими воспоминаниями об ML в 2016 году.
ML Underhood
Судя по соцсетям, 2016-й был золотым годом. ML активно набирал обороты: TensorFlow в опенсорсе, Jupyter-ноутбуки, scikit-learn и матч AlphaGo — Ли Седоль (свело олдскулы?). Присоединяемся к тренду и вспоминаем ML-проекты Яндекса десятилетней выдержки.
Поисковый алгоритм «Палех»
Раньше поисковые системы работали по большей части как инвертированный индекс: запрос сопоставлялся со страницами, где встречались те же слова. Со временем в поиск начали добавлять клики, поведение пользователей и ссылочные факторы — всё это объединили в алгоритме ранжирования MatrixNet. А «Палех» стал следующим шагом: в поиске использовали нейросеть на базе DSSM, чтобы учитывать смысл запроса, а не только совпадение слов. Подробнее о том, как всё работало, можно почитать на Хабре.
Перевод текста с изображения в Переводчике
Яндекс Переводчик научился распознавать текст прямо на картинках. Можно было загрузить изображение — комикс, график с подписями или скан документа — и сразу получить перевод. Функция работала даже в неидеальных условиях: если текст был под углом, растянут или снят «на бегу». Распознавание поддерживало 12 языков, а перевод — любой из 74 языков, доступных на тот момент. В основе лежали технологии компьютерного зрения Яндекса — те же, что использовались в поиске похожих картинок и определении марки автомобиля по фото. А о том, как в Яндексе в 2016 году решали задачу машинного перевода для редких языков, — тут.
Первая нейросеть для прогноза осадков с точностью до минут
В Яндекс Погоду добавили нейросетевой «наукастинг» осадков — краткосрочный прогноз дождя и снега с высокой точностью. Модель использовала данные метеорадаров и свёрточные нейросети, чтобы предсказывать движение осадков на ближайшие пару часов с детализацией до отдельных районов. На коротких интервалах подход оказался точнее классических методов и улучшил прогноз «здесь и сейчас». О том, как далеко шагнуло прогнозирование погоды с помощью нейросетей в 2026-м — писали здесь, а вспомнить, что было в 2016-м, можно тут.
Определение фишинга в Браузере с помощью ML
Традиционная защита браузеров от фишинга была основана на чёрных списках опасных сайтов. Но с автоматизированными атаками, где фишинг-страницы появляются быстрее, чем их вносят в списки, в 2016-м она уже не справлялась.
Стали прямо на устройстве пользователя анализировать самые разные признаки страницы — от технических параметров до визуального оформления — и оценивать её подозрительность. А компьютерное зрение использовали, чтобы сравнивать внешний вид сайтов с известными сервисами — так подделки находились даже без обращения к внешним спискам. Подробнее рассказали в хабростатье.
Вот такие технологии из дохайповых времён. Делитесь в комментариях своими воспоминаниями об ML в 2016 году.
ML Underhood
❤8🔥3👏3😐2🤔1
Tencent YouTu Research открыли Youtu-VL-4B-Instruct*- компактную VLM, которая серьёзно прокачивает визуальное понимание через подход VLUAS 👁️⚡
Это не просто “ещё одна vision-модель”, а попытка объединить кучу задач в одной архитектуре без зоопарка отдельных голов.
🌟 Что здесь особенно выделяется
✅ All-in-One Vision
SOTA-уровень в детекции объектов, сегментации, оценке глубины и поз — без task-specific голов под каждую задачу.
✅ OCR и мультимодальное рассуждение
Сильная в сложном разборе документов и задачах, где нужно одновременно видеть и “думать” (например, математика по изображениям).
✅ Готовность к GUI-агентам
Оптимизирована под понимание окружающей среды и навигацию по интерфейсам — важная часть будущих AI-агентов.
✅ Эффективность
Всего 4B параметров — хорошо подходит для edge-деплоя и быстрого инференса.
🔧 По результатам
Модель обгоняет многие более крупные системы на OmniDocBench и vision-centric задачах, оставаясь при этом компактной.
Это интересный шаг к универсальным vision-моделям, которые могут стать базой для агентов, работающих с экранами, документами и реальным миром.
🔗 Модель
https://modelscope.cn/models/Tencent-YouTu-Research/Youtu-VL-4B-Instruct
https://modelscope.cn/models/Tencent-YouTu-Research/Youtu-VL-4B-Instruct-GGUF
📄 Статья
https://modelscope.cn/papers/2601.19798
Это не просто “ещё одна vision-модель”, а попытка объединить кучу задач в одной архитектуре без зоопарка отдельных голов.
🌟 Что здесь особенно выделяется
✅ All-in-One Vision
SOTA-уровень в детекции объектов, сегментации, оценке глубины и поз — без task-specific голов под каждую задачу.
✅ OCR и мультимодальное рассуждение
Сильная в сложном разборе документов и задачах, где нужно одновременно видеть и “думать” (например, математика по изображениям).
✅ Готовность к GUI-агентам
Оптимизирована под понимание окружающей среды и навигацию по интерфейсам — важная часть будущих AI-агентов.
✅ Эффективность
Всего 4B параметров — хорошо подходит для edge-деплоя и быстрого инференса.
🔧 По результатам
Модель обгоняет многие более крупные системы на OmniDocBench и vision-centric задачах, оставаясь при этом компактной.
Это интересный шаг к универсальным vision-моделям, которые могут стать базой для агентов, работающих с экранами, документами и реальным миром.
🔗 Модель
https://modelscope.cn/models/Tencent-YouTu-Research/Youtu-VL-4B-Instruct
https://modelscope.cn/models/Tencent-YouTu-Research/Youtu-VL-4B-Instruct-GGUF
📄 Статья
https://modelscope.cn/papers/2601.19798
👍5🔥5❤3
🧠 Бесплатные курсы по нейросетям собрали в одном месте - на удобном сайте с подборкой материалов от OpenAI, Microsoft и других топовых компаний.
Проект Learn AI Go Where - это десятки проверенных курсов, гайдов и полезных ссылок по ИИ, которые реально стоит пройти. Без мусора и бесконечного поиска по всему интернету.
https://www.learnaigowhere.com/
Проект Learn AI Go Where - это десятки проверенных курсов, гайдов и полезных ссылок по ИИ, которые реально стоит пройти. Без мусора и бесконечного поиска по всему интернету.
https://www.learnaigowhere.com/
❤7🔥2🥰1
Ты научишься делать те, которые живут в проде.
Это не про BeautifulSoup ради галочки.
Это про системы сбора данных, которые:
• не падают от мелких правок на сайте
• собирают данные в разы быстрее
• обновляют всё сами по расписанию
• обходят ограничения и баны
• выглядят как сервис, а не хаос из файлов
Ты начнёшь видеть сайты не как страницы, а как источники данных, к которым можно подключиться.
В итоге ты сможешь:
• забирать данные для своих проектов
• автоматизировать чужую рутину
• делать инструменты для аналитики
• брать коммерческие заказы на сбор данных
Это навык, который напрямую превращается в деньги.
Не “знаю Python”, а умею добывать данные из интернета профессионально.
🎁 48 часов скидка 50% на Stepik: https://stepik.org/a/269942/
Please open Telegram to view this post
VIEW IN TELEGRAM
😁6👍3❤2🥰2
🧬 AlphaGenome от Google DeepMind - ИИ, который читает код жизни
Это один из тех релизов, которые реально двигают медицину, а не просто "ещё одна модель".
Что делает AlphaGenome?
Модель анализирует, как изменения в ДНК влияют на регуляцию генов - ключевой механизм за множеством наследственных болезней и рака.
Вот где магия:
- читает до 1 миллиона букв ДНК за раз
- замечает изменение в одной букве
- видит дальнодействующие эффекты, когда мутация находится далеко от гена, но всё равно на него влияет
Раньше инструменты обычно умели либо анализировать длинные участки ДНК, либо делать очень точные предсказания.
AlphaGenome делает и то и другое одновременно.
Он обрабатывает до 1 мегабазы (1 Mb) ДНК за один проход и выдаёт предсказания на уровне отдельной буквы ДНК по тысячам биологических сигналов.
Почему это big deal
Сегодня учёные перебирают миллионы различий в ДНК, чтобы найти несколько реально важных.
С такой моделью:
- изменения можно оценивать за минуты, а не месяцы
- лабораторное время уходит только на самые перспективные варианты
Это означает:
- ускорение диагностики редких заболеваний - особенно когда проблема вне самих генов
- более точные исследования рака - модель помогает понять, какие "скрытые переключатели" включают гены
- помощь в разработке лекарств - связывает изменения в ДНК с активностью генов в нужных тканях
Команда выложила код и веса для некоммерческого использования, плюс доступен API, чтобы больницы и лаборатории могли тестировать модель в исследованиях.
ИИ всё глубже заходит на уровень биологии, где одна буква может решать судьбу человека - и теперь у нас есть инструмент, который это реально видит.
https://github.com/google-deepmind/alphagenome_research
Это один из тех релизов, которые реально двигают медицину, а не просто "ещё одна модель".
Что делает AlphaGenome?
Модель анализирует, как изменения в ДНК влияют на регуляцию генов - ключевой механизм за множеством наследственных болезней и рака.
Вот где магия:
- читает до 1 миллиона букв ДНК за раз
- замечает изменение в одной букве
- видит дальнодействующие эффекты, когда мутация находится далеко от гена, но всё равно на него влияет
Раньше инструменты обычно умели либо анализировать длинные участки ДНК, либо делать очень точные предсказания.
AlphaGenome делает и то и другое одновременно.
Он обрабатывает до 1 мегабазы (1 Mb) ДНК за один проход и выдаёт предсказания на уровне отдельной буквы ДНК по тысячам биологических сигналов.
Почему это big deal
Сегодня учёные перебирают миллионы различий в ДНК, чтобы найти несколько реально важных.
С такой моделью:
- изменения можно оценивать за минуты, а не месяцы
- лабораторное время уходит только на самые перспективные варианты
Это означает:
- ускорение диагностики редких заболеваний - особенно когда проблема вне самих генов
- более точные исследования рака - модель помогает понять, какие "скрытые переключатели" включают гены
- помощь в разработке лекарств - связывает изменения в ДНК с активностью генов в нужных тканях
Команда выложила код и веса для некоммерческого использования, плюс доступен API, чтобы больницы и лаборатории могли тестировать модель в исследованиях.
ИИ всё глубже заходит на уровень биологии, где одна буква может решать судьбу человека - и теперь у нас есть инструмент, который это реально видит.
https://github.com/google-deepmind/alphagenome_research
👍16❤3🔥2