Forwarded from Анализ данных (Data analysis)
🎓 1) Andrej Karpathy
Глубокие, но доступные лекции по глубокому обучению, языковым моделям и введению в нейронные сети.
Ссылка: https://www.youtube.com/c/AndrejKarpathy
📊 2) 3Blue1Brown
Потрясающие визуализации, которые делают абстрактные математические концепции понятными и интуитивными.
Ссылка: https://www.youtube.com/c/3blue1brown
🎙️ 3) Lex Fridman
Глубокие беседы с лидерами индустрии ИИ, позволяющие получить широкий взгляд на современные тенденции.
Ссылка: https://www.youtube.com/c/LexFridman
🤖 4) Machine Learning Street Talk
Технические погружения и обсуждения с ведущими исследователями в области ИИ и машинного обучения.
Ссылка: https://www.youtube.com/c/MachineLearningStreetTalk
📚 5) StatQuest with Joshua Starmer PhD
Доступные и понятные объяснения основ машинного обучения и статистики для начинающих.
Ссылка: https://www.youtube.com/c/statquest
🍉 6) Serrano Academy (Luis Serrano)
Ясный и доступный контент о машинном обучении, глубоких нейронных сетях и последних достижениях в ИИ.
Ссылка: https://www.youtube.com/c/LuisSerrano
💻 7) Jeremy Howard
Практические курсы по глубокому обучению и обучающие видео по созданию AI-приложений, основанные на опыте Fast.ai.
Ссылка: https://www.youtube.com/c/Fastai
🛠️ 8) Hamel Husain
Практические уроки по работе с языковыми моделями (LLMs), RAG, тонкой настройке моделей и оценке ИИ.
Ссылка: https://www.youtube.com/c/HamelHusain
🚀 9) Jason Liu
Экспертные лекции по RAG и советы по фрилансу в области ИИ для специалистов по машинному обучению.
Ссылка: https://www.youtube.com/c/JasonLiu
⚙️ 10) Dave Ebbelaar
Практические руководства по созданию ИИ-систем и применению технологий в реальных проектах.
Ссылка: https://www.youtube.com/c/DaveEbbelaar
Эти каналы предлагают разнообразный и качественный контент для всех, кто хочет углубиться в изучение искусственного интеллекта. Независимо от вашего уровня подготовки, здесь каждый найдёт что-то полезное для себя!
@data_analysis_ml
Глубокие, но доступные лекции по глубокому обучению, языковым моделям и введению в нейронные сети.
Ссылка: https://www.youtube.com/c/AndrejKarpathy
📊 2) 3Blue1Brown
Потрясающие визуализации, которые делают абстрактные математические концепции понятными и интуитивными.
Ссылка: https://www.youtube.com/c/3blue1brown
🎙️ 3) Lex Fridman
Глубокие беседы с лидерами индустрии ИИ, позволяющие получить широкий взгляд на современные тенденции.
Ссылка: https://www.youtube.com/c/LexFridman
🤖 4) Machine Learning Street Talk
Технические погружения и обсуждения с ведущими исследователями в области ИИ и машинного обучения.
Ссылка: https://www.youtube.com/c/MachineLearningStreetTalk
📚 5) StatQuest with Joshua Starmer PhD
Доступные и понятные объяснения основ машинного обучения и статистики для начинающих.
Ссылка: https://www.youtube.com/c/statquest
🍉 6) Serrano Academy (Luis Serrano)
Ясный и доступный контент о машинном обучении, глубоких нейронных сетях и последних достижениях в ИИ.
Ссылка: https://www.youtube.com/c/LuisSerrano
💻 7) Jeremy Howard
Практические курсы по глубокому обучению и обучающие видео по созданию AI-приложений, основанные на опыте Fast.ai.
Ссылка: https://www.youtube.com/c/Fastai
🛠️ 8) Hamel Husain
Практические уроки по работе с языковыми моделями (LLMs), RAG, тонкой настройке моделей и оценке ИИ.
Ссылка: https://www.youtube.com/c/HamelHusain
🚀 9) Jason Liu
Экспертные лекции по RAG и советы по фрилансу в области ИИ для специалистов по машинному обучению.
Ссылка: https://www.youtube.com/c/JasonLiu
⚙️ 10) Dave Ebbelaar
Практические руководства по созданию ИИ-систем и применению технологий в реальных проектах.
Ссылка: https://www.youtube.com/c/DaveEbbelaar
Эти каналы предлагают разнообразный и качественный контент для всех, кто хочет углубиться в изучение искусственного интеллекта. Независимо от вашего уровня подготовки, здесь каждый найдёт что-то полезное для себя!
@data_analysis_ml
✍12👨💻3⚡2🔥2
Интересно Manus.im уже разобрали на запчасти.
Это Клод Соннет с 29ю тулами. не мультиагент, но с браузером.
Даже исходники свои отдал, какой дружелюбный ассистент.
#Manus #promptinjection
———
@tsingular
Это Клод Соннет с 29ю тулами. не мультиагент, но с браузером.
Даже исходники свои отдал, какой дружелюбный ассистент.
#Manus #promptinjection
———
@tsingular
😁16👍3🫡1
This media is not supported in your browser
VIEW IN TELEGRAM
🤖 Перезагрузка софтверной индустрии: AI не просто ест приложения, он их заменяет
Похоже, мы на порогебольшого шухера большой перемены в том, как вообще работает софт.
Если коротко: AI не просто "съедает" приложения, а полностью меняет правила игры.
Ключевые цифры и факты:
• Gartner прогнозирует падение использования мобильных приложений на 25% к 2027 году из-за AI-ассистентов 📉
• При этом рынок AI-приложений в 2024 достиг $3.3 млрд и вырос на 51% за год 📈
• Уже сейчас пользователи потратили более $1 млрд на AI-приложения
Суть перемен, которые на подходе:
Представьте: вместо открытия 10 разных приложений для бронирования билетов, проверки погоды и оплаты счетов - вы просто говорите с AI-ассистентом, который всё делает в одном месте. Без скачивания, без переключения между приложениями.
Что это значит технически:
1. От монолитных приложений к микросервисам - функциональность будет "вызываться" AI по требованию
2. Приложения становятся модульными и динамическими вместо статичных программ
3. Разработчики будут создавать "навыки" или "агенты" вместо отдельных приложений
Неизбежные последствия для бизнеса:
• App Store'ы теряют 30%-ную комиссию - экономика платформ рушится 💸
• Контроль над дистрибуцией ослабевает - AI работает в облаке и меньше зависит от платформы
• Вертикальные AI-решения (для юристов, финансистов и т.д.) станут ценнее, чем общие LLM
При этом сейчас происходит обратный процесс - AI-приложения бурно растут внутри существующих магазинов приложений (тот же ChatGPT набрал 100 млн пользователей за 30 дней), но параллельно подрывают саму модель этих магазинов.
Похоже на то, как вода отходит от берега перед цунами.
Выводы:
• Если ваш бизнес завязан на традиционные приложения - пора задуматься о стратегии перехода
• Компании с низким уровнем удержания пользователей в приложениях рискуют больше всех
• Новая золотая жила: создание вертикальных AI-решений для конкретных индустрий
В общем, мы наблюдаем не просто эволюцию, а настоящий переворот.
От парадигмы приложений и магазинов приложений переходим к ассистентам с ассортиментом навыков с монетизацией.
Вопрос только в том, кто оседлает эту волну, а кого она смоет? 🏄♂️🌊
#futurology #agents #transformation
———
@tsingular
Похоже, мы на пороге
Если коротко: AI не просто "съедает" приложения, а полностью меняет правила игры.
Ключевые цифры и факты:
• Gartner прогнозирует падение использования мобильных приложений на 25% к 2027 году из-за AI-ассистентов 📉
• При этом рынок AI-приложений в 2024 достиг $3.3 млрд и вырос на 51% за год 📈
• Уже сейчас пользователи потратили более $1 млрд на AI-приложения
Суть перемен, которые на подходе:
Представьте: вместо открытия 10 разных приложений для бронирования билетов, проверки погоды и оплаты счетов - вы просто говорите с AI-ассистентом, который всё делает в одном месте. Без скачивания, без переключения между приложениями.
Что это значит технически:
1. От монолитных приложений к микросервисам - функциональность будет "вызываться" AI по требованию
2. Приложения становятся модульными и динамическими вместо статичных программ
3. Разработчики будут создавать "навыки" или "агенты" вместо отдельных приложений
Неизбежные последствия для бизнеса:
• App Store'ы теряют 30%-ную комиссию - экономика платформ рушится 💸
• Контроль над дистрибуцией ослабевает - AI работает в облаке и меньше зависит от платформы
• Вертикальные AI-решения (для юристов, финансистов и т.д.) станут ценнее, чем общие LLM
При этом сейчас происходит обратный процесс - AI-приложения бурно растут внутри существующих магазинов приложений (тот же ChatGPT набрал 100 млн пользователей за 30 дней), но параллельно подрывают саму модель этих магазинов.
Похоже на то, как вода отходит от берега перед цунами.
Выводы:
• Если ваш бизнес завязан на традиционные приложения - пора задуматься о стратегии перехода
• Компании с низким уровнем удержания пользователей в приложениях рискуют больше всех
• Новая золотая жила: создание вертикальных AI-решений для конкретных индустрий
В общем, мы наблюдаем не просто эволюцию, а настоящий переворот.
От парадигмы приложений и магазинов приложений переходим к ассистентам с ассортиментом навыков с монетизацией.
Вопрос только в том, кто оседлает эту волну, а кого она смоет? 🏄♂️🌊
#futurology #agents #transformation
———
@tsingular
✍11⚡3👍2👀2🔥1
Media is too big
VIEW IN TELEGRAM
👍15🤯9🔥7✍2👻1🆒1👾1
This media is not supported in your browser
VIEW IN TELEGRAM
🛠 Агент, создающий сам себя: эксперимент с Claude 3.5 Sonnet
Интересный эксперимент компании Riza, показывающий, как ИИ-агент может самостоятельно писать инструменты для решения бизнес-задач без предварительной настройки API.
Ключевая идея:
Реализация:
Агент работает с тремя базовыми инструментами:
-
-
-
(В уроке приведены все промпты - можно взять себе в оборот!)
Агент использовал модель Claude 3.5 Sonnet и писал весь код на TypeScript. (пример декабря 2024)
Что особенно круто в реализации:
1. Самостоятельное создание интерфейсов: агент сам пишет код для взаимодействия со Stripe API
2. Схемы JSON валидации: автоматически создаёт JSON Schema для новых инструментов
3. Типизация: код генерируется с правильными TypeScript-типами
4. Прогрессивное обучение: начав с нуля, агент создал 4 рабочих инструмента:
-
-
-
-
Пример кода, сгенерированного агентом:
Бизнес-применение
1. Быстрая интеграция: компаниям не нужно создавать специфичные для LLM обёртки API
2. Снижение времени разработки: вместо написания обвязки для каждого API, агент сам справляется
3. Гибкость: можно сохранять "слепок" агента с нужными инструментами для повторного использования
4. Универсальность: подход работает с любыми API, не только Stripe
🤔 Потенциальные проблемы: безопасность выполнения кода, контроль качества генерируемых инструментов и возможные ошибки в логике. Но как прототип решения — очень впечатляюще.
Отличная демонстрация, как в будущем могут работать агенты, способные программировать себя под конкретные задачи, а не заранее запрограммированными на все возможные сценарии.
#агенты #selflearning #tools #обучение
———
@tsingular
Интересный эксперимент компании Riza, показывающий, как ИИ-агент может самостоятельно писать инструменты для решения бизнес-задач без предварительной настройки API.
Ключевая идея:
"Что если дать агенту возможность создавать собственные инструменты, написав код и безопасно выполнив его на Riza с помощью нового API Tools, и избежать создания ИИ-специфических инструментов вообще?"
Реализация:
Агент работает с тремя базовыми инструментами:
-
request_user_input — для запроса ввода от пользователя-
show_options — для отображения вариантов выбора-
create_tool — ключевая функция! позволяет создавать новые инструменты(В уроке приведены все промпты - можно взять себе в оборот!)
Агент использовал модель Claude 3.5 Sonnet и писал весь код на TypeScript. (пример декабря 2024)
Что особенно круто в реализации:
1. Самостоятельное создание интерфейсов: агент сам пишет код для взаимодействия со Stripe API
2. Схемы JSON валидации: автоматически создаёт JSON Schema для новых инструментов
3. Типизация: код генерируется с правильными TypeScript-типами
4. Прогрессивное обучение: начав с нуля, агент создал 4 рабочих инструмента:
-
list_stripe_customers_by_email-
update_stripe_customer_email-
add_card_to_stripe_customer -
charge_stripe_customerПример кода, сгенерированного агентом:
async function execute(input: { email: string }): Promise {
const apiUrl = 'https://api.stripe.com/v1/customers';
const params = new URLSearchParams({
email: input.email,
limit: '100'
});
try {
const response = await fetch(`${apiUrl}?${params.toString()}`, {
method: 'GET',
headers: {
'Content-Type': 'application/x-www-form-urlencoded'
}
});
// ...
}
}Бизнес-применение
1. Быстрая интеграция: компаниям не нужно создавать специфичные для LLM обёртки API
2. Снижение времени разработки: вместо написания обвязки для каждого API, агент сам справляется
3. Гибкость: можно сохранять "слепок" агента с нужными инструментами для повторного использования
4. Универсальность: подход работает с любыми API, не только Stripe
🤔 Потенциальные проблемы: безопасность выполнения кода, контроль качества генерируемых инструментов и возможные ошибки в логике. Но как прототип решения — очень впечатляюще.
Отличная демонстрация, как в будущем могут работать агенты, способные программировать себя под конкретные задачи, а не заранее запрограммированными на все возможные сценарии.
#агенты #selflearning #tools #обучение
———
@tsingular
👍11⚡2✍2🤔1
Kimi — новый ИИ-чат от китайского стартапа Moonshot AI
Китайский стартап Moonshot AI выпустил своего нового ИИ-помощника Kimi. Он умеет рассуждать, анализировать информацию и вести размышления и искать в интернете.
Есть веб версия, мобильная, настольная и версия в виде плагина к браузеру, но требуется регистрация через WeChat.
Хотя, если вам не нужны цепочки размышлений, а просто ИИ с поиском, то можно не регистрироваться, - работает в вебе прям так, - бесплатно (норм для студентов :) ).
#Китай #Moonshot #Kimi
———
@tsingular
Китайский стартап Moonshot AI выпустил своего нового ИИ-помощника Kimi. Он умеет рассуждать, анализировать информацию и вести размышления и искать в интернете.
Есть веб версия, мобильная, настольная и версия в виде плагина к браузеру, но требуется регистрация через WeChat.
Хотя, если вам не нужны цепочки размышлений, а просто ИИ с поиском, то можно не регистрироваться, - работает в вебе прям так, - бесплатно (норм для студентов :) ).
#Китай #Moonshot #Kimi
———
@tsingular
⚡3👍1
Роботы_на_работе.gif
20.4 MB
🚀 AWS создаёт Agentic AI Group
AWS объявила о создании новой группы, целиком посвящённой агентным AI-технологиям.
4 марта 2025 CEO AWS Мэтт Гарман разослал внутреннее письмо, где анонсировал создание выделенной группы Agentic AI, которую возглавит вице-президент Свами Сивасубраманиан. В письме Гарман пишет, что "AI-агенты — ядро следующей волны инноваций", и прогнозирует, что агентный AI может стать многомиллиардным бизнесом для AWS.
Технические изменения:
- Bedrock и SageMaker теперь объединены под одной крышей в рамках подразделения AWS Compute
- Команда чатбота Q также переведена в новую группу
- Подразделение по AI-инструментам было реорганизовано с фокусом на агентные технологии
Что уже запущено:
- Alexa+ — обновлённая версия голосового помощника с агентными функциями, которая может проактивно выполнять действия без команд пользователя (бесплатно для Prime-подписчиков, $19.99/месяц для остальных)
- InlineAgents — новая фича для Bedrock, позволяющая динамически создавать агентов "на лету" через API вместо предварительной настройки
- Amazon Nova — новое семейство моделей AWS (ранее Titan) с вариантами от лёгких Nova Micro (32K контекст) до мощных Nova Pro (300K контекст)
Бизнес-стратегия:
AWS выбрала модельно-агностичный подход — клиенты могут использовать как собственные модели Amazon Nova, так и сторонние (Claude, Stability AI и др.). Это отличает их от Microsoft (ставка на OpenAI) и Google (свои модели PaLM/Gemini).
Интересно, что AWS не пошла по пути готовых встроенных решений типа Microsoft Copilot, а сосредоточилась на предоставлении гибкой платформы для создания кастомных агентов.
Влияние на рынок:
Аналитики считают, что AWS имеет шансы стать лидером в создании enterprise-grade агентных систем за счёт:
1. Интеграции с облачной инфраструктурой (Lambda, Step Functions)
2. Строгой безопасности через IAM-роли и детальный контроль доступа
3. Масштабируемой архитектуры с управляемой оркестрацией
4. Экономических оптимизаций (кэширование токенов, которое снижает стоимость до 90%)
Почему это важно:
AWS явно переходит от "поддержки" агентов к агрессивной стратегии доминирования в этой области. Microsoft и Google с их интеграцией агентов в офисные приложения борются за пользовательский сегмент, а AWS готовится захватить enterprise-рынок кастомных агентных решений.
#AWS #agentis #enterprise
———
@tsingular
AWS объявила о создании новой группы, целиком посвящённой агентным AI-технологиям.
4 марта 2025 CEO AWS Мэтт Гарман разослал внутреннее письмо, где анонсировал создание выделенной группы Agentic AI, которую возглавит вице-президент Свами Сивасубраманиан. В письме Гарман пишет, что "AI-агенты — ядро следующей волны инноваций", и прогнозирует, что агентный AI может стать многомиллиардным бизнесом для AWS.
Технические изменения:
- Bedrock и SageMaker теперь объединены под одной крышей в рамках подразделения AWS Compute
- Команда чатбота Q также переведена в новую группу
- Подразделение по AI-инструментам было реорганизовано с фокусом на агентные технологии
Что уже запущено:
- Alexa+ — обновлённая версия голосового помощника с агентными функциями, которая может проактивно выполнять действия без команд пользователя (бесплатно для Prime-подписчиков, $19.99/месяц для остальных)
- InlineAgents — новая фича для Bedrock, позволяющая динамически создавать агентов "на лету" через API вместо предварительной настройки
- Amazon Nova — новое семейство моделей AWS (ранее Titan) с вариантами от лёгких Nova Micro (32K контекст) до мощных Nova Pro (300K контекст)
Бизнес-стратегия:
AWS выбрала модельно-агностичный подход — клиенты могут использовать как собственные модели Amazon Nova, так и сторонние (Claude, Stability AI и др.). Это отличает их от Microsoft (ставка на OpenAI) и Google (свои модели PaLM/Gemini).
Интересно, что AWS не пошла по пути готовых встроенных решений типа Microsoft Copilot, а сосредоточилась на предоставлении гибкой платформы для создания кастомных агентов.
Влияние на рынок:
Аналитики считают, что AWS имеет шансы стать лидером в создании enterprise-grade агентных систем за счёт:
1. Интеграции с облачной инфраструктурой (Lambda, Step Functions)
2. Строгой безопасности через IAM-роли и детальный контроль доступа
3. Масштабируемой архитектуры с управляемой оркестрацией
4. Экономических оптимизаций (кэширование токенов, которое снижает стоимость до 90%)
Почему это важно:
AWS явно переходит от "поддержки" агентов к агрессивной стратегии доминирования в этой области. Microsoft и Google с их интеграцией агентов в офисные приложения борются за пользовательский сегмент, а AWS готовится захватить enterprise-рынок кастомных агентных решений.
#AWS #agentis #enterprise
———
@tsingular
✍4👍1
Forwarded from Метаверсище и ИИще (Sergey Tsyptsyn ️️)
This media is not supported in your browser
VIEW IN TELEGRAM
Нейрорендер без костылей.
Мои любимые DeemosTech бахнули вот такую демку.
Это те, которые Rodin, image-to-3D и вот это вот все.
Обратите внимание, что это не просто генерация каждого кадра с помощью Stable Diffusion или Flux. Это консистентный нейрорендер? тут ничего не бурлит. По сути - video2video генератор.
В принципе сейчас можно собирать что-подобное в несколько шагов. Черновой рендер, стилизация первого кадра и пропускание этого через Runway Style Reference.
Вопрос в том, будет ли у Rodin\Deemos своя видеомодель или они будут перепродавать АПИ.
Пока есть только приглашение в бету и обещания сделать что-то в этом году.
@cgevent
Мои любимые DeemosTech бахнули вот такую демку.
Это те, которые Rodin, image-to-3D и вот это вот все.
Обратите внимание, что это не просто генерация каждого кадра с помощью Stable Diffusion или Flux. Это консистентный нейрорендер? тут ничего не бурлит. По сути - video2video генератор.
В принципе сейчас можно собирать что-подобное в несколько шагов. Черновой рендер, стилизация первого кадра и пропускание этого через Runway Style Reference.
Вопрос в том, будет ли у Rodin\Deemos своя видеомодель или они будут перепродавать АПИ.
Пока есть только приглашение в бету и обещания сделать что-то в этом году.
@cgevent
🔥8
Forwarded from Агенты ИИ | AGI_and_RL
This media is not supported in your browser
VIEW IN TELEGRAM
ЛЛМам пора на завод. Там сделали енвайронмент-бенч для ллмок из игры Factorio.
Я не специалист по факторио, но в целом всегда казалось что тут можно тестить и учить рл. Вот ллмки тестят
https://jackhopkins.github.io/factorio-learning-environment/
Factorio Learning Environment
https://jackhopkins.github.io/factorio-learning-environment/assets/documents/paper.pdf
https://github.com/JackHopkins/factorio-learning-environment
2 режима
Lab-play где 24 задачи и фиксированными ресурсами
Open-play на процедурной карте нужно построить самый большой завод
Есть лидерборд (Factory-Bench Leaderboard) - https://jackhopkins.github.io/factorio-learning-environment/leaderboard/
Авторы тестили: Claude 3.5-Sonnet, GPT-4o, GPT-4o-Mini, Deepseek-v3, Gemini-2-Flash и Llama-3.3-70B-Instruct
Sonnet из протестированных лучше всех себя показывает
Выводы авторов:
Это просто бенч и тут просто потестили текущие ллмы. Результатам не сильно удивился.
Ждем пока специально пообучают ллмки, RL LLM накинут.
PS собираемся и собираем все крутое по нейронкам здесь: https://xn--r1a.website/researchim
Я не специалист по факторио, но в целом всегда казалось что тут можно тестить и учить рл. Вот ллмки тестят
https://jackhopkins.github.io/factorio-learning-environment/
Factorio Learning Environment
https://jackhopkins.github.io/factorio-learning-environment/assets/documents/paper.pdf
https://github.com/JackHopkins/factorio-learning-environment
2 режима
Lab-play где 24 задачи и фиксированными ресурсами
Open-play на процедурной карте нужно построить самый большой завод
Есть лидерборд (Factory-Bench Leaderboard) - https://jackhopkins.github.io/factorio-learning-environment/leaderboard/
Авторы тестили: Claude 3.5-Sonnet, GPT-4o, GPT-4o-Mini, Deepseek-v3, Gemini-2-Flash и Llama-3.3-70B-Instruct
Sonnet из протестированных лучше всех себя показывает
Выводы авторов:
1. Навыки в кодинге имеют значение
Модели с более высокими способностями программирования (Claude 3.5-Sonnet, GPT-4o) достигли более высоких Production Scores и выполнили больше лабораторных задач. Claude превзошёл остальных, заработав PS равный 293 206 и достигнув 28 вех, продвинувшись за рамки добычи ресурсов на ранних этапах.
2. Инвестиции в технологии стимулируют рост
Только Claude стабильно инвестировал ресурсы в исследования новых технологий, несмотря на их важность для долгосрочного прогресса. После внедрения электрических буровых установок на шаге 3 000, PS Claude вырос на 50% (с 200 000 до 300 000), что демонстрирует ценность стратегических инвестиций.
3. Планирование является ключевым фактором в режиме открытой игры
В режиме открытой игры агенты часто преследуют краткосрочные цели — например, Gemini-2.0 вручную изготовил более 300 деревянных сундуков за 100 шагов — вместо того чтобы инвестировать в исследования или масштабировать существующее производство. Это выявляет существенное расхождение: хотя Gemini-2 и Deepseek демонстрируют возможности автоматизации на ранних этапах в структурированном лабораторном режиме, они редко пытаются создать согласованную фабричную систему во время открытых исследований, что приводит к ухудшению общей производительности.
4. Способности к пространственному мышление пока недостаточны
Все модели продемонстрировали ограничения в пространственном планировании при создании много-секционных фабрик. Распространённые ошибки включали размещение объектов слишком близко друг к другу, недостаточное выделение пространства для соединений или неправильное расположение инсертеров — проблемы, которые существенно влияют на производительность в сложных заданиях, требующих координации нескольких производственных линий.
5. Сейчас ллмкам сложно исправлять ошибки
Модели часто оказываются в повторяющихся циклах ошибок, повторяя одни и те же неверные операции вместо того чтобы искать альтернативные решения. Например, GPT-4o неверно повторял один и тот же метод API на протяжении 78 последовательных шагов, несмотря на идентичные сообщения об ошибке.
6. Стили программирования существенно различаются
Модели демонстрировали различные подходы к программированию: Claude предпочитал стиль REPL с большим количеством операторов вывода (43,3% строк кода), но с малым числом утверждений (2,0%), в то время как GPT-4o использовал оборонительный стиль с большим числом проверок валидации (12,8% утверждений) и меньшим количеством операторов вывода (10,3%).
Это просто бенч и тут просто потестили текущие ллмы. Результатам не сильно удивился.
Ждем пока специально пообучают ллмки, RL LLM накинут.
PS собираемся и собираем все крутое по нейронкам здесь: https://xn--r1a.website/researchim
👍4🔥2🤔1
Forwarded from Искусственный интеллект. Высокие технологии
⚡️ OpenAI представили новые инструменты для разработки агентов:
● Web Search — любой агент, созданный через OpenAI, теперь может искать и использовать информацию из интернета.
● File Search — реализован функционал поиска по локальным файлам.
● Multi-agent framework — Swarm переименован в Agents SDK, позволяющий передавать диалоги между агентами с сохранением контекста.
● Computer Use — возможность создать агента, который автономно управляет вашим пк
Стрим: https://www.youtube.com/live/hciNKcLwSes
@vistehno
● Web Search — любой агент, созданный через OpenAI, теперь может искать и использовать информацию из интернета.
● File Search — реализован функционал поиска по локальным файлам.
● Multi-agent framework — Swarm переименован в Agents SDK, позволяющий передавать диалоги между агентами с сохранением контекста.
● Computer Use — возможность создать агента, который автономно управляет вашим пк
Стрим: https://www.youtube.com/live/hciNKcLwSes
@vistehno
YouTube
New tools for building agents with the API
We’re evolving the API platform to make it faster and easier for developers to build agents. Kevin Weil, Nikunj Handa, Steve Coffey, and Ilan Bigio introduce and demo these new tools.
✍5🔥3🆒1
This media is not supported in your browser
VIEW IN TELEGRAM
Про ИИ в разработке
Reddit:
1: Я дал Sonnet 3.7 инструкции о том, какую функцию реализовать вместе с файлами, которые необходимо изменить, и он создал достаточно перегруженное решение со множеством недостатков.
Мне пришлось подсказывать ему 3 раза предложениями о том, как можно упростить реализацию и сделать ее более производительной.
Он соглашался каждый раз и в конце концов сделал все правильно.
Эти модели ИИ оставят после себя огромный беспорядок, который придется убирать.
2: Извините, просто для уточнения — вы взаимодействовали с искусственным интеллектом, как человек, давали ему обратную связь на понятном языке, и он в конечном итоге справился с задачей?
Звучит ужасно похоже на работу с другим сотрудником...
3: И он понял, что именно нужно сделать и исправился всего с 3го уточнения? Удивительно!
——
Получается, что ИИ разработчик уже действует на уровне среднего сотрудника, а то и лучше, так как понятливее и не спорит :)
И при этом CEO Anthropic заявляет, что в следующие пол-года ИИ будет писать до 90% всего кода, а через год, - 100%
#юмор
———
@tsingular
Reddit:
1: Я дал Sonnet 3.7 инструкции о том, какую функцию реализовать вместе с файлами, которые необходимо изменить, и он создал достаточно перегруженное решение со множеством недостатков.
Мне пришлось подсказывать ему 3 раза предложениями о том, как можно упростить реализацию и сделать ее более производительной.
Он соглашался каждый раз и в конце концов сделал все правильно.
Эти модели ИИ оставят после себя огромный беспорядок, который придется убирать.
2: Извините, просто для уточнения — вы взаимодействовали с искусственным интеллектом, как человек, давали ему обратную связь на понятном языке, и он в конечном итоге справился с задачей?
Звучит ужасно похоже на работу с другим сотрудником...
3: И он понял, что именно нужно сделать и исправился всего с 3го уточнения? Удивительно!
——
Получается, что ИИ разработчик уже действует на уровне среднего сотрудника, а то и лучше, так как понятливее и не спорит :)
И при этом CEO Anthropic заявляет, что в следующие пол-года ИИ будет писать до 90% всего кода, а через год, - 100%
#юмор
———
@tsingular
👍13😁3❤1🔥1
This media is not supported in your browser
VIEW IN TELEGRAM
🚀 Gemma Developer Day
Уже через пару часов, в 12:30 по CET, Google DeepMind откроет конференцию Gemma Developer Day in Paris.
Очень ждём Gemma 3, конечно, судя по тому что есть в программе:
1. Архитектурные изменения - Alek Andreev и команда расскажут о дизайн-решениях, которые легли в основу новой модели. Судя по докладу "Understanding Gemma architecture choices", Google серьезно переработал внутренности.
2. Многоязычность - Adi Mayrav Gilady поделится стратегиями обучения, которые делают Gemma многоязычной. Отличная новость для интернациональных проектов и локализации! (В Gemma2 до сих пор русский лучше всего работает)
3. PaliGemma - Модель получила "глаза" через SigLIP-энкодер. Особенно круто, что она предобучена на задачах распознавания объектов и сегментации, а не только на подписях к картинкам.
4. Мобильность и десктоп - Модель будет работать на Mac и Windows через Ollama. А раздел "Gemma on mobile and web" обещает интеграцию через MediaPipe и LiteRT.
5. Безопасность - ShieldGemma на базе Gemma 2 будет выявлять потенциально вредоносный контент, а SynthID добавит водяные знаки для идентификации ИИ-сгенерированного текста. (это она получается и генерить картинки что-ли будет? )
- Доклад про "Building intelligent agents with Gemma" расскажет о function calling, планировании ответов и рассуждениях.
- Поддержка на Jetson устройствах от NVIDIA (доклад Asier Arranz) открывает возможности для edge-вычислений в промышленности и роботах.
Так же расскажут про файнтюнинг и дистилляцию.
#gemma #google #ollama
———
@tsingular
Уже через пару часов, в 12:30 по CET, Google DeepMind откроет конференцию Gemma Developer Day in Paris.
Очень ждём Gemma 3, конечно, судя по тому что есть в программе:
1. Архитектурные изменения - Alek Andreev и команда расскажут о дизайн-решениях, которые легли в основу новой модели. Судя по докладу "Understanding Gemma architecture choices", Google серьезно переработал внутренности.
2. Многоязычность - Adi Mayrav Gilady поделится стратегиями обучения, которые делают Gemma многоязычной. Отличная новость для интернациональных проектов и локализации! (В Gemma2 до сих пор русский лучше всего работает)
3. PaliGemma - Модель получила "глаза" через SigLIP-энкодер. Особенно круто, что она предобучена на задачах распознавания объектов и сегментации, а не только на подписях к картинкам.
4. Мобильность и десктоп - Модель будет работать на Mac и Windows через Ollama. А раздел "Gemma on mobile and web" обещает интеграцию через MediaPipe и LiteRT.
5. Безопасность - ShieldGemma на базе Gemma 2 будет выявлять потенциально вредоносный контент, а SynthID добавит водяные знаки для идентификации ИИ-сгенерированного текста. (это она получается и генерить картинки что-ли будет? )
- Доклад про "Building intelligent agents with Gemma" расскажет о function calling, планировании ответов и рассуждениях.
- Поддержка на Jetson устройствах от NVIDIA (доклад Asier Arranz) открывает возможности для edge-вычислений в промышленности и роботах.
Так же расскажут про файнтюнинг и дистилляцию.
#gemma #google #ollama
———
@tsingular
👍7
🤖 ИИ в правительстве: от чат бота GSAi до ИИ - премьера?
Департамент Илона Маска (DOGE) запустил GSAi. Это первая серьезная попытка заменить часть госаппарата искусственным интеллектом.
Что происходит:
- GSAi уже работает с 1500 госслужащими, заменяя некоторые функции уволенных сотрудников
- Параллельно DOGE сократил 1000+ сотрудников GSA, включая 90 специалистов из технологического отдела
- Система использует модели Claude 3.5 (Haiku и Sonnet) и LLaMa 3.2 для разных типов задач.
Технические возможности:
GSAi пока выполняет базовые фукнции. Сотрудники описывают его как "примерно на уровне стажера" — генерирует шаблонные и предсказуемые ответы:
- Драфты писем и документов (с человеческой доработкой)
- Суммаризация текстов (но без загрузки файлов, надо копипастить)
- Создание тезисов для выступлений (очень общие)
- Простой код (но требует отладки человеком)
Ключевое ограничение — нельзя скармливать ему непубличную федеральную информацию и персональные данные. То есть почти всё, с чем реально работают чиновники.
При этом направление изменений следующее:
1. Сначала увольняют людей
2. Потом заставляют оставшихся использовать ИИ для покрытия возросшей нагрузки
3. Это повышает производительность оставшихся сотрудников
4. Создается централизованная инфраструктура (AI.gov), которую планируют масштабировать на всё правительство
Прагматика в том, что не обязательно иметь сверхчеловеческий ИИ! Даже "стажёр-уровня" бот + мотивированный страхом увольнения сотрудник = значительная оптимизация госаппарата.
😅
В планах:
1. Мультимодальность — работа с изображениями и таблицами, автоматический анализ форм
2. Интеграция с внутренними базами данных — возможность получать фактическую информацию
3. Специализация под ведомства — версии для минюста, минздрава и т.д.
4. Доступ к чувствительным данным — через специальные безопасные каналы
Система уже анализирует отчеты о проделанной работе (письма серии - "что вы сделали за последнюю неделю") и помогает решать, кого уволить.
Технически нет преград для создания рекомендательных систем для исполнительной власти высшего уровня.
Следующий шаг — принятие решений на базе многофакторного анализа, где человек только утверждает (а потом и вовсе визирует) предложение от ИИ.
В текущих реалиях это пока не президент, а скорее "ИИ-премьер" — система оперативного управления, где президентство остается политической ролью.
#AIGov #GSAi #DOGE
———
@tsingular
Департамент Илона Маска (DOGE) запустил GSAi. Это первая серьезная попытка заменить часть госаппарата искусственным интеллектом.
Что происходит:
- GSAi уже работает с 1500 госслужащими, заменяя некоторые функции уволенных сотрудников
- Параллельно DOGE сократил 1000+ сотрудников GSA, включая 90 специалистов из технологического отдела
- Система использует модели Claude 3.5 (Haiku и Sonnet) и LLaMa 3.2 для разных типов задач.
Технические возможности:
GSAi пока выполняет базовые фукнции. Сотрудники описывают его как "примерно на уровне стажера" — генерирует шаблонные и предсказуемые ответы:
- Драфты писем и документов (с человеческой доработкой)
- Суммаризация текстов (но без загрузки файлов, надо копипастить)
- Создание тезисов для выступлений (очень общие)
- Простой код (но требует отладки человеком)
Ключевое ограничение — нельзя скармливать ему непубличную федеральную информацию и персональные данные. То есть почти всё, с чем реально работают чиновники.
При этом направление изменений следующее:
1. Сначала увольняют людей
2. Потом заставляют оставшихся использовать ИИ для покрытия возросшей нагрузки
3. Это повышает производительность оставшихся сотрудников
4. Создается централизованная инфраструктура (AI.gov), которую планируют масштабировать на всё правительство
Прагматика в том, что не обязательно иметь сверхчеловеческий ИИ! Даже "стажёр-уровня" бот + мотивированный страхом увольнения сотрудник = значительная оптимизация госаппарата.
😅
В планах:
1. Мультимодальность — работа с изображениями и таблицами, автоматический анализ форм
2. Интеграция с внутренними базами данных — возможность получать фактическую информацию
3. Специализация под ведомства — версии для минюста, минздрава и т.д.
4. Доступ к чувствительным данным — через специальные безопасные каналы
Система уже анализирует отчеты о проделанной работе (письма серии - "что вы сделали за последнюю неделю") и помогает решать, кого уволить.
Технически нет преград для создания рекомендательных систем для исполнительной власти высшего уровня.
Следующий шаг — принятие решений на базе многофакторного анализа, где человек только утверждает (а потом и вовсе визирует) предложение от ИИ.
В текущих реалиях это пока не президент, а скорее "ИИ-премьер" — система оперативного управления, где президентство остается политической ролью.
#AIGov #GSAi #DOGE
———
@tsingular
👨💻2✍1👍1
Media is too big
VIEW IN TELEGRAM
Gemma3 уже на HuggingFace
Только что на Hugging Face появились модели Gemma 3
Впервые Gemma стала полноценно мультимодальной - теперь работает и с текстом, и с изображениями, и представлена в четырех размерах:
- 1B (обучена на 2 трлн токенов) 2 гига полная версия
- 4B (обучена на 4 трлн токенов) 9 гигов полная версия
- 12B (обучена на 12 трлн токенов) 25 гигов полная версия
- 27B (обучена на 14 трлн токенов) 60 гигов полная версия
Наконец-то - контекстное окно в 128К токенов для всех моделей, кроме 1B (у нее 32К). Это в 8 раз больше, чем у Gemma 2!
👁 Мультимодальность
теперь достаточно пары строк:
Изображения нормализуются до 896x896 и кодируются в 256 токенов каждое.
🌐 Многоязычность и эффективность
Заявлена поддержка 140+ языков.
По бенчмаркам показывает отличные результаты в мультиязычных тестах - например, в Global-MMLU-Lite даже 1B модель выдает 24.9%, а 27B - уже 75.7%.
На LMSYS - 1338 ELO, это больше, чем o1-mini, o3-mini и o3-mini high. Среди опенсорса уступает только R1
🛡 ShieldGemma 2 - фильтрация на входе/выходе
Вместе с Gemma 3 выпустили ShieldGemma 2 (4B) для фильтрации потенциально опасного контента. Работает как классификатор для изображений по трем категориям:
- Сексуально откровенный контент
- Опасный контент
- Насилие/жестокость
Реально полезная штука для продакшена - можно фильтровать и входящие изображения от пользователей, и исходящие от генеративных моделей.
Обучение проходило на TPUv4p, TPUv5p и TPUv5e - новейших тензорных процессорах Google.
Го тестировать?!
В ollama тоже появилась (только её сначала нужно обновить):
https://ollama.com/library/gemma3:27b
#google #gemma3
———
@tsingular
Только что на Hugging Face появились модели Gemma 3
Впервые Gemma стала полноценно мультимодальной - теперь работает и с текстом, и с изображениями, и представлена в четырех размерах:
- 1B (обучена на 2 трлн токенов) 2 гига полная версия
- 4B (обучена на 4 трлн токенов) 9 гигов полная версия
- 12B (обучена на 12 трлн токенов) 25 гигов полная версия
- 27B (обучена на 14 трлн токенов) 60 гигов полная версия
Наконец-то - контекстное окно в 128К токенов для всех моделей, кроме 1B (у нее 32К). Это в 8 раз больше, чем у Gemma 2!
👁 Мультимодальность
теперь достаточно пары строк:
pipe = pipeline(
"image-text-to-text",
model="google/gemma-3-4b-it",
device="cuda"
)
messages = [
{"role": "system", "content": [{"type": "text", "text": "Ты полезный ассистент"}]},
{"role": "user", "content": [
{"type": "image", "url": "https://example.com/image.jpg"},
{"type": "text", "text": "Что на этой картинке?"}
]}
]
output = pipe(text=messages, max_new_tokens=200)
Изображения нормализуются до 896x896 и кодируются в 256 токенов каждое.
🌐 Многоязычность и эффективность
Заявлена поддержка 140+ языков.
По бенчмаркам показывает отличные результаты в мультиязычных тестах - например, в Global-MMLU-Lite даже 1B модель выдает 24.9%, а 27B - уже 75.7%.
На LMSYS - 1338 ELO, это больше, чем o1-mini, o3-mini и o3-mini high. Среди опенсорса уступает только R1
🛡 ShieldGemma 2 - фильтрация на входе/выходе
Вместе с Gemma 3 выпустили ShieldGemma 2 (4B) для фильтрации потенциально опасного контента. Работает как классификатор для изображений по трем категориям:
- Сексуально откровенный контент
- Опасный контент
- Насилие/жестокость
Реально полезная штука для продакшена - можно фильтровать и входящие изображения от пользователей, и исходящие от генеративных моделей.
Обучение проходило на TPUv4p, TPUv5p и TPUv5e - новейших тензорных процессорах Google.
Го тестировать?!
В ollama тоже появилась (только её сначала нужно обновить):
https://ollama.com/library/gemma3:27b
#google #gemma3
———
@tsingular
🔥9 2👍1
В Google AI Studio можно попробовать классную штуку - редактирование картинки промптом.
Заходим сюда:
https://aistudio.google.com/prompts/new_chat
выбираем Gemini 2.0 Flash Experimental
у неё есть Output Format: Images and text
заливаем картинку и даём инструкции.
Умеет подделывать почерк.
#gemini #google
———
@tsingular
Заходим сюда:
https://aistudio.google.com/prompts/new_chat
выбираем Gemini 2.0 Flash Experimental
у неё есть Output Format: Images and text
заливаем картинку и даём инструкции.
Умеет подделывать почерк.
#gemini #google
———
@tsingular
🔥12
Forwarded from GigaChat
Встречайте GigaChat 2.0 — сильнейшую нейросетевую модель для бизнеса 🤖
По тестам MERA на русском языке, GigaChat 2 MAX занял первое место, а результаты бенчмарков формата MMLU показали, что модель в ряде задач превосходит DeepSeek-V3, Qwen2.5-75b, GPT4o и LlaMA 70B
🖥 Переходите по ссылке, чтобы узнать больше подробностей от разработчиков
Обновлённые модели дают MAXимум AI-возможностей для бизнеса
Бизнес-клиенты сохраняют доступ к моделям первого поколения и могут протестировать GigaChat 2 MAX, GigaChat 2 Pro и GigaChat 2 Lite через API, прежде чем перейти на новый модельный ряд
😎 Попробовать новый GigaChat 2.0 для бизнеса
По тестам MERA на русском языке, GigaChat 2 MAX занял первое место, а результаты бенчмарков формата MMLU показали, что модель в ряде задач превосходит DeepSeek-V3, Qwen2.5-75b, GPT4o и LlaMA 70B
Обновлённые модели дают MAXимум AI-возможностей для бизнеса
⭕️ Обрабатывают в четыре раза больше информации в одном запросе — до 200 страниц⭕️ В два раза эффективнее решают рабочие задачи⭕️ На 25% лучше отвечают на вопросы⭕️ На базе GigaChat 2.0 можно создавать более продуктивных AI-агентов
Бизнес-клиенты сохраняют доступ к моделям первого поколения и могут протестировать GigaChat 2 MAX, GigaChat 2 Pro и GigaChat 2 Lite через API, прежде чем перейти на новый модельный ряд
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥2👀2👍1
This media is not supported in your browser
VIEW IN TELEGRAM
Google DeepMind выпустил Gemini Robotics
Google DeepMind представил два новых решения на базе Gemini 2.0 для управления роботами.
Gemini Robotics - модель vision-language-action (VLA), умеющая напрямую управлять механизмами через естественные команды.
Gemini Robotics-ER - вариант с улучшенным пространственным пониманием для ИИ моделей в роботах с рассуждениями.
Ключевые качества: универсальность (адаптация к неизвестным ситуациям), интерактивность (понимание человеческой речи) и ловкость (манипуляция предметами).
Технология уже применяется в партнерстве с Apptronik, Agility Robotics и Boston Dynamics для создания следующего поколения машин.
Особое внимание уделено безопасности - разработан набор данных ASIMOV на основе обобщения законов Азимова.
С учётом как мало ресурсов нужно Gemma3:27b получается, что эти электронные сограждане могут быть достаточно умными даже без подключения к интернету.
#Google #DeepMind #Robotics
———
@tsingular
Google DeepMind представил два новых решения на базе Gemini 2.0 для управления роботами.
Gemini Robotics - модель vision-language-action (VLA), умеющая напрямую управлять механизмами через естественные команды.
Gemini Robotics-ER - вариант с улучшенным пространственным пониманием для ИИ моделей в роботах с рассуждениями.
Ключевые качества: универсальность (адаптация к неизвестным ситуациям), интерактивность (понимание человеческой речи) и ловкость (манипуляция предметами).
Технология уже применяется в партнерстве с Apptronik, Agility Robotics и Boston Dynamics для создания следующего поколения машин.
Особое внимание уделено безопасности - разработан набор данных ASIMOV на основе обобщения законов Азимова.
С учётом как мало ресурсов нужно Gemma3:27b получается, что эти электронные сограждане могут быть достаточно умными даже без подключения к интернету.
#Google #DeepMind #Robotics
———
@tsingular
⚡2
обновился AGI счётчик.
теперь 92%.
+2% только за половину марта!!!
до этого за весь февраль было +2%
Собственно, даже если мы по 2% в месяц будем дальше шагать, - 4 месяца до 100% AGI - к концу лета.
Ну, дадим на разгильдяйство ещё пару месяцев, туда-сюда, но к новому году точно 100% AGI нас всех накроет.
#AGI
———
@tsingular
теперь 92%.
+2% только за половину марта!!!
до этого за весь февраль было +2%
Собственно, даже если мы по 2% в месяц будем дальше шагать, - 4 месяца до 100% AGI - к концу лета.
Ну, дадим на разгильдяйство ещё пару месяцев, туда-сюда, но к новому году точно 100% AGI нас всех накроет.
#AGI
———
@tsingular
💯4🤣2👍1👾1
Media is too big
VIEW IN TELEGRAM
🧠 Битва "думающих" моделей: Gemini Deep Research
Рынок моделей с расширенными возможностями рассуждения становится всё более насыщенным,- добавилась Gemini 2.0 Flash Thinking Experimental.
У нас теперь целый арсенал "размышляющих" инструментов:
- DeepSeek R1
- Qwen Thinking
- OpenAI O3-mini-high с Deep Research
- Grok3 с DeepSearch и Think
- Claude 3.7 с Extended Thinking
- Minimax Search
- Cohere A
- Поисковые агрегаторы Perplexity и You.com
Наверное есть ещё, но это то, что у меня под рукой буквально ежедневно.
В свежем апдейте Gemini интересны три вещи:
- Увеличение контекстного окна до 1М токенов для модели с "размышлениями"
- Интеграция с Google-сервисами (Search, Calendar, Tasks, Photos)
- Показ "хода мыслей" при веб-поиске
Deep Research теперь доступен всем, хотя и с ограничениями для бесплатных аккаунтов.
Главное техническое отличие Gemini — это более тесная интеграция с другими сервисами Google.
В том числе ответы модели теперь будут учитывать историю ваших запросов :)
В целом, рассуждающие модели, - новый стандарт де факто.
На меньшее пользователи будут не согласны.
Учитываем при планировании разработки сервисов.
#DeepResearch #Google #BusinessIntelligence
———
@tsingular
Рынок моделей с расширенными возможностями рассуждения становится всё более насыщенным,- добавилась Gemini 2.0 Flash Thinking Experimental.
У нас теперь целый арсенал "размышляющих" инструментов:
- DeepSeek R1
- Qwen Thinking
- OpenAI O3-mini-high с Deep Research
- Grok3 с DeepSearch и Think
- Claude 3.7 с Extended Thinking
- Minimax Search
- Cohere A
- Поисковые агрегаторы Perplexity и You.com
Наверное есть ещё, но это то, что у меня под рукой буквально ежедневно.
В свежем апдейте Gemini интересны три вещи:
- Увеличение контекстного окна до 1М токенов для модели с "размышлениями"
- Интеграция с Google-сервисами (Search, Calendar, Tasks, Photos)
- Показ "хода мыслей" при веб-поиске
Deep Research теперь доступен всем, хотя и с ограничениями для бесплатных аккаунтов.
Главное техническое отличие Gemini — это более тесная интеграция с другими сервисами Google.
В том числе ответы модели теперь будут учитывать историю ваших запросов :)
В целом, рассуждающие модели, - новый стандарт де факто.
На меньшее пользователи будут не согласны.
Учитываем при планировании разработки сервисов.
#DeepResearch #Google #BusinessIntelligence
———
@tsingular
⚡5👍3✍2
This media is not supported in your browser
VIEW IN TELEGRAM
🎬 Open-Sora 2.0: революция в видеопроизводстве теперь доступна каждому
📊 Ключевые моменты:
11B модель по качеству сравнима с 11B HunyuanVideo и 30B Step-Video (!) по метрикам VBench и выбору зрителей.
Полностью открытый исходный код — в отличие от других "открытых" моделей
Обучение обошлось "всего" в $200K
Поддерживает форматы: 256px и 768px видео, T2V и I2V в одной модели
Гибкий контроль: аспекты от 16:9 до 9:16, длительность до 129 кадров
🔧 Технические возможности:
Параллелизм: поддержка multi-GPU через ColossalAI для скорости и работы с большими разрешениями
Контроль движения: параметр motion-score от 1 до 7 для тонкой настройки динамики камеры
Улучшение промптов: интеграция с ChatGPT для автоматического расширения описаний
Оптимизация памяти: режим offload для экономии GPU-памяти (52.5GB → 44.3GB)
Разные рабочие процессы: прямая T2V или двухэтапная T2I2V (через Flux)
⚡️ Производительность:
256x256 на одном H100: ~60 секунд, 52.5GB памяти
768x768 на восьми H100: ~276 секунд, 44.3GB памяти
Интересно, что модель сократила разрыв с OpenAI Sora с 4.52% до всего 0.69% по VBench!
Учитывая стоимость коммерческих API для видео и растущее значение видеоконтента, Open-Sora может стать тем решением, которое имеет смысл разворачивать локально для продакшена.
Особенно интересен пайплайн I2V — можно взять статичное изображение товара и автоматизировать создание рекламных роликов под разные платформы.
#OpenSora #нейрорендер
———
@tsingular
📊 Ключевые моменты:
11B модель по качеству сравнима с 11B HunyuanVideo и 30B Step-Video (!) по метрикам VBench и выбору зрителей.
Полностью открытый исходный код — в отличие от других "открытых" моделей
Обучение обошлось "всего" в $200K
Поддерживает форматы: 256px и 768px видео, T2V и I2V в одной модели
Гибкий контроль: аспекты от 16:9 до 9:16, длительность до 129 кадров
🔧 Технические возможности:
Параллелизм: поддержка multi-GPU через ColossalAI для скорости и работы с большими разрешениями
Контроль движения: параметр motion-score от 1 до 7 для тонкой настройки динамики камеры
Улучшение промптов: интеграция с ChatGPT для автоматического расширения описаний
Оптимизация памяти: режим offload для экономии GPU-памяти (52.5GB → 44.3GB)
Разные рабочие процессы: прямая T2V или двухэтапная T2I2V (через Flux)
⚡️ Производительность:
256x256 на одном H100: ~60 секунд, 52.5GB памяти
768x768 на восьми H100: ~276 секунд, 44.3GB памяти
Интересно, что модель сократила разрыв с OpenAI Sora с 4.52% до всего 0.69% по VBench!
Учитывая стоимость коммерческих API для видео и растущее значение видеоконтента, Open-Sora может стать тем решением, которое имеет смысл разворачивать локально для продакшена.
Особенно интересен пайплайн I2V — можно взять статичное изображение товара и автоматизировать создание рекламных роликов под разные платформы.
#OpenSora #нейрорендер
———
@tsingular
🔥5👍1