Forwarded from Machinelearning
Apollo - набор MMLM, которые умеют решать разные задачи с видеоконтентом. Они могут понимать длинные видео, рассуждать о событиях во времени и поддерживать многосторонние видео-диалоги.
Модели показывают высокую производительность даже при относительно небольшом размере в 3 млрд. параметров, превосходя по эффективности конкурентов с моделями в 7В-30В параметров.
Этого удалось достичь благодаря тщательному проектированию и комбинированию SigLIP-SO400M (для изображений) и InternVideo2 (для видео). Их синергия дает более устойчивое представление на задачах временных рассуждений.
⚠️ Код для тонкой настройки, применение LoRA в Apollo и документацию разработчики обещают опубликовать позднее. Пока в репозитории проекта размещен только пример инференса на Transformers.
@ai_machinelearning_big_data
#AI #ML #MMLM #Apollo
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍12❤4🔥3
Forwarded from Machinelearning
This media is not supported in your browser
VIEW IN TELEGRAM
🌍 WebRover – это автономный ИИ-агент , предназначенный для взаимодействия с элементами веб-страниц и выполнения пользовательских запросов.
Агент построен на базе LangChain и LangGraph и в первую очередь создан, чтобы освободить пользователей от рутины, связанной с поиском и сбором информации.
Благодаря глубокому пониманию контекста и способности автоматически определять нужные элементы, WebRover эффективно справляется даже со сложными задачами.
Основные возможности WebRover включают:
- самостоятельную навигацию по сайтам, управление состоянием через LangGraph и автоматизированное взаимодействие с браузером посредством Playwright.
- агент способен анализировать содержимое страниц, делать скриншоты и формировать структурированные ответы и парить информацию.
Особенности
🤖 Навигация на основе GPT-4 для понимания контекста и интеллектуальной навигации по веб-сайтам
🎯 Интеллектуальное обнаружение элементов: Автоматически идентифицирует и взаимодействует с любыми элементами сайтов
📸 Визуальная обратная связь: Визуализация процесса навигации в реальном времени
🔄 Автономная работа: Самокорректирующаяся навигация со стратегиями обратного хода
▪ Github
@ai_machinelearning_big_data
#aiagents #ai #ml #opensource
Агент построен на базе LangChain и LangGraph и в первую очередь создан, чтобы освободить пользователей от рутины, связанной с поиском и сбором информации.
Благодаря глубокому пониманию контекста и способности автоматически определять нужные элементы, WebRover эффективно справляется даже со сложными задачами.
Основные возможности WebRover включают:
- самостоятельную навигацию по сайтам, управление состоянием через LangGraph и автоматизированное взаимодействие с браузером посредством Playwright.
- агент способен анализировать содержимое страниц, делать скриншоты и формировать структурированные ответы и парить информацию.
Особенности
🤖 Навигация на основе GPT-4 для понимания контекста и интеллектуальной навигации по веб-сайтам
🎯 Интеллектуальное обнаружение элементов: Автоматически идентифицирует и взаимодействует с любыми элементами сайтов
📸 Визуальная обратная связь: Визуализация процесса навигации в реальном времени
🔄 Автономная работа: Самокорректирующаяся навигация со стратегиями обратного хода
git clone https://github.com/hrithikkoduri18/webrover.git
cd webrover
cd backend▪ Github
@ai_machinelearning_big_data
#aiagents #ai #ml #opensource
❤12👍4🔥3