Forwarded from Machinelearning
⚡️ Magma-8B – это экспериментальная модель от Microsoft, которая объединяет обработку текста и изображений в одном агентском решении.
Чем полезен инструмент:
- Мультимодальность: Возможность работать с изображениями, видео и текстом позволяет строить комплексные системы – от навигации по пользовательским интерфейсам до управления робототехникой.
Агентские возможности: Модель не просто описывает содержимое картинки, а умеет генерировать план действий, что особенно ценно для интерактивных приложений.
- ИспользованиеSet-of-Mark и Trace-of-Mark, помогает связать визуальные элементы с текстовыми командами, обеспечивая более точное понимание и планирование.
Magma-8B специально разработан для сценариев работы с агентами – акцент не только на генерации текста, но и на взаимодействии с реальными объектами (например, интерфейсами).
Модель обучалась на разнообразных источниках, включая неразмеченные видео, в результате этого удалось добиться понимания динамики и пространственных отношений в видео.
Современные технические решения и масштабируемость, что позволяет адаптировать модель под разные задачи.
Минусы:
- На данном этапе модель ориентирована на исследовательские проекты, поэтому может требовать доработки перед использованием в боевых условиях.
- Ограничения по языкам: основной фокус сделан на английском, что может усложнить работу с другими языками.
Возможны нестабильные результаты - в некоторых сценариях, особенно если задача выходит за рамки обучающих данных, что требует осторожности при внедрении в реальные приложения.
В целом, Magma-8B – это интересный экспериментальный инструмент, который может стать отправной точкой для создания новых, более «умных» агентных систем, объединяющих восприятие и действие в одном флаконе.
https://huggingface.co/microsoft/Magma-8B
#microsoft #magma #multimodal
Чем полезен инструмент:
- Мультимодальность: Возможность работать с изображениями, видео и текстом позволяет строить комплексные системы – от навигации по пользовательским интерфейсам до управления робототехникой.
Агентские возможности: Модель не просто описывает содержимое картинки, а умеет генерировать план действий, что особенно ценно для интерактивных приложений.
- ИспользованиеSet-of-Mark и Trace-of-Mark, помогает связать визуальные элементы с текстовыми командами, обеспечивая более точное понимание и планирование.
Magma-8B специально разработан для сценариев работы с агентами – акцент не только на генерации текста, но и на взаимодействии с реальными объектами (например, интерфейсами).
Модель обучалась на разнообразных источниках, включая неразмеченные видео, в результате этого удалось добиться понимания динамики и пространственных отношений в видео.
Современные технические решения и масштабируемость, что позволяет адаптировать модель под разные задачи.
Минусы:
- На данном этапе модель ориентирована на исследовательские проекты, поэтому может требовать доработки перед использованием в боевых условиях.
- Ограничения по языкам: основной фокус сделан на английском, что может усложнить работу с другими языками.
Возможны нестабильные результаты - в некоторых сценариях, особенно если задача выходит за рамки обучающих данных, что требует осторожности при внедрении в реальные приложения.
В целом, Magma-8B – это интересный экспериментальный инструмент, который может стать отправной точкой для создания новых, более «умных» агентных систем, объединяющих восприятие и действие в одном флаконе.
pip install torchvision Pillow open_clip_torchhttps://huggingface.co/microsoft/Magma-8B
#microsoft #magma #multimodal
This media is not supported in your browser
VIEW IN TELEGRAM
🚨 Одним выстрелом сгенерировал эмулятор Nintendo с (очень вероятно что это Gemini 3.0 Pro.)
Если так, то Gemini 3.0 разнесёт всех конкурентов.
Попросили модель сделать ретро Nintendo-сим с играми, *без внешних ассетов*.
Результат?
Через 1 минуту — готовая полноценная сцена.
Ни одна другая модель пока не показывает такого уровня стабильности и точности при генерации.
Автор выложил промпт и пруф *one-shot-генерации* в треде — и это даже не лучший результат, готовится ещё более сильная версия с чуть изменённым промптом.
Пост: https://x.com/chetaslua/status/1978438353918779461
#Gemini #GoogleAI #AIGeneration #AIModels #Multimodal #TextToGame
Если так, то Gemini 3.0 разнесёт всех конкурентов.
Попросили модель сделать ретро Nintendo-сим с играми, *без внешних ассетов*.
Результат?
Через 1 минуту — готовая полноценная сцена.
Ни одна другая модель пока не показывает такого уровня стабильности и точности при генерации.
Автор выложил промпт и пруф *one-shot-генерации* в треде — и это даже не лучший результат, готовится ещё более сильная версия с чуть изменённым промптом.
Пост: https://x.com/chetaslua/status/1978438353918779461
#Gemini #GoogleAI #AIGeneration #AIModels #Multimodal #TextToGame
❤5👍1🔥1