🚀 GELab-Zero - первый полноценный open-source стек “Model + Infra” для GUI-агентов.
Это открытая альтернатива закрытым системам уровня GUI Agent MCP: готовая модель, готовая инфраструктура и новый бенчмарк, собранный под реальные задачи.
Что внутри:
• SOTA-модель 4B - лёгкая, быстрая, запускается локально.
• One-Click инфраструктура - без ADB и сложных зависимостей.
• AndroidDaily - новый бенчмарк, основанный на рабочих пользовательских сценариях.
Производительность:
• Лучшие результаты на открытых тестах - модель обходит гораздо более крупные системы вроде GUI-Owl-32B на ScreenSpot, AndroidWorld и OSWorld.
• 73.4% точности на AndroidDaily - существенно выше, чем UI-TARS-1.5 (47%), Gemini-2.5-pro-thinking (36.6%) и GPT-4o (19.6%).
Идея простая: скачивайте, запускайте локально, ломайте, улучшайте.
Открытый стек для GUI-агентов наконец доступен.
🟠 HuggingFace: https://huggingface.co/stepfun-ai/GELab-Zero-4B-preview
🟠 GitHub: https://github.com/stepfun-ai/gelab-zero
🟠 Blog: https://opengelab.github.io/index.html
@ai_machinelearning_big_data
#AI, #Agents, #GUIAgents, #GELabZero, #OpenSource, #MachineLearning, #DeepLearning
Это открытая альтернатива закрытым системам уровня GUI Agent MCP: готовая модель, готовая инфраструктура и новый бенчмарк, собранный под реальные задачи.
Что внутри:
• SOTA-модель 4B - лёгкая, быстрая, запускается локально.
• One-Click инфраструктура - без ADB и сложных зависимостей.
• AndroidDaily - новый бенчмарк, основанный на рабочих пользовательских сценариях.
Производительность:
• Лучшие результаты на открытых тестах - модель обходит гораздо более крупные системы вроде GUI-Owl-32B на ScreenSpot, AndroidWorld и OSWorld.
• 73.4% точности на AndroidDaily - существенно выше, чем UI-TARS-1.5 (47%), Gemini-2.5-pro-thinking (36.6%) и GPT-4o (19.6%).
Идея простая: скачивайте, запускайте локально, ломайте, улучшайте.
Открытый стек для GUI-агентов наконец доступен.
@ai_machinelearning_big_data
#AI, #Agents, #GUIAgents, #GELabZero, #OpenSource, #MachineLearning, #DeepLearning
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
❤39👍19🔥11🥱3🦄1
Ключевые характеристики:
- MoE-архитектура: 30B параметров всего, ~3.5B активных
- Контекст до 1 миллиона токенов
- Гибридная архитектура:
- 23 слоя Mamba-2 + MoE
- 6 attention-слоёв
- Баланс между скоростью и качеством рассуждений
Требования:
- необходимо около 24 ГБ видеопамяти для локального запуска
Модель хорошо подходит для длинных диалогов, анализа документов и reasoning-задач
Интересный пример того, как MoE и Mamba начинают реально снижать требования к железу, сохраняя масштаб контекста и качество.
Для обучения Super и Ultra используется NVFP4 и новая архитектура Latent Mixture of Experts. Она позволяет задействовать в четыре раза больше экспертов при той же стоимости инференса. По сути, модель становится «умнее» за счёт более гибкого выбора экспертов, а не за счёт постоянной активации всех параметров.
Дополнительно применяется Multi-Token Prediction, что ускоряет обучение и улучшает качество рассуждений на длинных последовательностях. Это особенно важно для agentic и multi-agent сценариев, где модели работают с длинным контекстом и сложными цепочками решений.
NVIDIA публикует не только веса, но и данные для предобучения и постобучения, а также технические детали, которые объясняют, почему эти модели одновременно быстрые и сильные.
Такой уровень открытости - редкость для моделей этого масштаба и хороший сигнал для индустрии.@ai_machinelearning_big_data
#AI #LLM #NVIDIA #Nemotron3 #OpenSource #MachineLearning
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥60❤26👍21🦄3👌2
⚡ Gemini 3 Flash - быстрый ИИ нового поколения от Google
Gemini 3 Flash:
- это очень быстрая модель с минимальной задержкой
- при этом она сохраняет сильные способности к рассуждению
- Frontier-уровень на GPQA Diamond - рассуждения уровня PhD
- Хорошие результаты на Humanity’s Last Exam
- State-of-the-art на MMMU Pro - хорошо работает с видео и мультимодальными данными
- В целом, качество сопоставимо с Gemini 3 Pro
Стоит в четыре раза дешевле, чем Gemini 3.0 Pro, при этом показывает сопоставимые результаты почти во всех бенчмарках, включая HLE и ARC-AGI 2. На некоторых бенчмарках модель обходит GPT-5.2.
Более того, в ряде тестов модель даже превосходит более мощную версию Pro, оставаясь при этом значительно дешевле.
По сути, Flash - это попытка Google сбалансировать три вещи одновременно: скорость + интеллект + стоимость.
Цены:
- Text input: $0.30 per 1M tokens
- Text output: $2.50 per 1M tokens
- Cache read: $0.075 per 1M tokens
- Input audio: $0.999 per 1M tokens
- Input audio (cached): $0.249 per 1M tokens
- Web search: $0.035 per request
- Cache storage: $1 per hour per 1M tokens
https://blog.google/products/gemini/gemini-3-flash/
@ai_machinelearning_big_data
#AI #Gemini #Google #LLM #Multimodal #AIModels #MachineLearning
Gemini 3 Flash:
- это очень быстрая модель с минимальной задержкой
- при этом она сохраняет сильные способности к рассуждению
- Frontier-уровень на GPQA Diamond - рассуждения уровня PhD
- Хорошие результаты на Humanity’s Last Exam
- State-of-the-art на MMMU Pro - хорошо работает с видео и мультимодальными данными
- В целом, качество сопоставимо с Gemini 3 Pro
Стоит в четыре раза дешевле, чем Gemini 3.0 Pro, при этом показывает сопоставимые результаты почти во всех бенчмарках, включая HLE и ARC-AGI 2. На некоторых бенчмарках модель обходит GPT-5.2.
Более того, в ряде тестов модель даже превосходит более мощную версию Pro, оставаясь при этом значительно дешевле.
По сути, Flash - это попытка Google сбалансировать три вещи одновременно: скорость + интеллект + стоимость.
Цены:
- Text input: $0.30 per 1M tokens
- Text output: $2.50 per 1M tokens
- Cache read: $0.075 per 1M tokens
- Input audio: $0.999 per 1M tokens
- Input audio (cached): $0.249 per 1M tokens
- Web search: $0.035 per request
- Cache storage: $1 per hour per 1M tokens
https://blog.google/products/gemini/gemini-3-flash/
@ai_machinelearning_big_data
#AI #Gemini #Google #LLM #Multimodal #AIModels #MachineLearning
👍90❤25🔥21😍5😁2🦄1