В рубрике #КриповаяСуббота сегодня 2 части комедийной мокументалки Castle Mates, созданные Jer.
Использованные технологии:
Сергей Булаев AI 🤖 - об AI и не только
Использованные технологии:
- Midjourney & Freepik - генерация картинок
- RunwayML Act One, KaiberAI для генерации видео
- Липсинк - Runway + Hedra
- Звук - Suno 4Сергей Булаев AI 🤖 - об AI и не только
This media is not supported in your browser
VIEW IN TELEGRAM
Как думаете, генерация?
Нет. Просто в моём родном Ульяновске, на улице Минаева, сегодня проходит сельскохозяйственная ярмарка.
#КриповаяСуббота@sergiobulaev
Сергей Булаев AI 🤖 - об AI и не только
#КриповаяСуббота@sergiobulaev
Сергей Булаев AI 🤖 - об AI и не только
Как работает мультимодальный RAG?
Мультимодальный RAG - это система, которая умеет работать с реальными документами - теми, где текст перемешан с картинками, таблицами и графиками.
В центре него - мультимодальная языковая модель, способная одновременно понимать текст и изображения. Она работает в связке с двумя типами эмбеддинг-моделей: одна превращает текст в вектора, вторая (обычно CLIP от OpenAI) работает с картинками. Получается что-то вроде двух параллельных потоков обработки данных.
Все эти вектора попадают в специальную базу данных - обычно используют что то вроде Qdrant. Эта база умеет хранить и искать похожие элементы обоих типов, что критически важно для работы всей системы.
При получении вопроса система ищет релевантную информацию сразу во всех форматах. Например, если спросить про график продаж, она найдет и текстовое описание, и сам график, и может даже таблицу с конкретными цифрами. Всё это собирается в единый контекст и передаётся в LLM через специально составленный промпт.
На этапе генерации ответа модель не только цитирует найденный текст - она анализирует графики, старается понимать схемы, сравнивает данные из таблиц. Она может увидеть тренд на графике и связать его с текстовым описанием, заметить важную деталь на технической схеме или сопоставить числа из разных источников.
Такой подход особенно эффективен при работе с технической документацией, где важная информация часто разбросана между текстом и иллюстрациями, или с презентациями, где без понимания графиков теряется половина смысла. По сути, мы получаем систему, которая воспринимает информацию примерно как человек - целостно, связывая визуальные и текстовые данные в единое целое.
Написано на основе поста, который мне прислал Макс, вместе с которым мы много исследуем различные RAG системы.
Сергей Булаев AI 🤖 - об AI и не только
Мультимодальный RAG - это система, которая умеет работать с реальными документами - теми, где текст перемешан с картинками, таблицами и графиками.
В центре него - мультимодальная языковая модель, способная одновременно понимать текст и изображения. Она работает в связке с двумя типами эмбеддинг-моделей: одна превращает текст в вектора, вторая (обычно CLIP от OpenAI) работает с картинками. Получается что-то вроде двух параллельных потоков обработки данных.
Все эти вектора попадают в специальную базу данных - обычно используют что то вроде Qdrant. Эта база умеет хранить и искать похожие элементы обоих типов, что критически важно для работы всей системы.
При получении вопроса система ищет релевантную информацию сразу во всех форматах. Например, если спросить про график продаж, она найдет и текстовое описание, и сам график, и может даже таблицу с конкретными цифрами. Всё это собирается в единый контекст и передаётся в LLM через специально составленный промпт.
На этапе генерации ответа модель не только цитирует найденный текст - она анализирует графики, старается понимать схемы, сравнивает данные из таблиц. Она может увидеть тренд на графике и связать его с текстовым описанием, заметить важную деталь на технической схеме или сопоставить числа из разных источников.
Такой подход особенно эффективен при работе с технической документацией, где важная информация часто разбросана между текстом и иллюстрациями, или с презентациями, где без понимания графиков теряется половина смысла. По сути, мы получаем систему, которая воспринимает информацию примерно как человек - целостно, связывая визуальные и текстовые данные в единое целое.
Написано на основе поста, который мне прислал Макс, вместе с которым мы много исследуем различные RAG системы.
Сергей Булаев AI 🤖 - об AI и не только
DeepMind выкатили интереснейший пейпер про то, как ИИ может учиться самостоятельно, без постоянного участия человека. Называют это "Сократическим обучением" - в честь древнегреческого философа, который учил через диалоги и дискуссии.
Команда во главе с Томом Шаулем описала три ключевых условия для успешного самообучения ИИ:
Главная идея в том, что ИИ может становиться умнее даже в закрытой среде, без притока новых данных извне. Это как если бы вы заперли философа в библиотеке - он продолжит развиваться, перечитывая и переосмысливая уже известные книги.
Исследователи предлагают использовать "языковые игры" - специальные форматы взаимодействия, где ИИ-системы могут спорить, обсуждать и учиться друг у друга. Самое интересное - системы смогут не только играть в существующие игры, но и придумывать новые, постоянно расширяя свои возможности.
В работе особое внимание уделяется самомодификации - способности ИИ перестраивать свою внутреннюю архитектуру. Это может помочь преодолеть ограничения, заложенные при начальном обучении. Уже сейчас современные языковые модели вроде GPT-4 показывают зачатки такого поведения через самопроверку и метапромптинг.
Яркий пример - недавнее достижение DeepMind в решении задач Математической Олимпиады на уровне серебряной медали. Модель не просто решала задачи - она демонстрировала способность к сложным рассуждениям, которые улучшались со временем.
Если всё получится, мы можем увидеть системы ИИ, которые учатся как научные сообщества - через постоянные дискуссии и обмен идеями. Только в тысячи раз быстрее человека. Звучит немного пугающе, но и очень захватывающе одновременно.
Сергей Булаев AI 🤖 - об AI и не только
Команда во главе с Томом Шаулем описала три ключевых условия для успешного самообучения ИИ:
- Качественная обратная связь, соответствующая целям обучения
- Широкий охват данных в рамках закрытой среды
- Достаточные вычислительные ресурсыГлавная идея в том, что ИИ может становиться умнее даже в закрытой среде, без притока новых данных извне. Это как если бы вы заперли философа в библиотеке - он продолжит развиваться, перечитывая и переосмысливая уже известные книги.
Исследователи предлагают использовать "языковые игры" - специальные форматы взаимодействия, где ИИ-системы могут спорить, обсуждать и учиться друг у друга. Самое интересное - системы смогут не только играть в существующие игры, но и придумывать новые, постоянно расширяя свои возможности.
В работе особое внимание уделяется самомодификации - способности ИИ перестраивать свою внутреннюю архитектуру. Это может помочь преодолеть ограничения, заложенные при начальном обучении. Уже сейчас современные языковые модели вроде GPT-4 показывают зачатки такого поведения через самопроверку и метапромптинг.
Яркий пример - недавнее достижение DeepMind в решении задач Математической Олимпиады на уровне серебряной медали. Модель не просто решала задачи - она демонстрировала способность к сложным рассуждениям, которые улучшались со временем.
Если всё получится, мы можем увидеть системы ИИ, которые учатся как научные сообщества - через постоянные дискуссии и обмен идеями. Только в тысячи раз быстрее человека. Звучит немного пугающе, но и очень захватывающе одновременно.
Сергей Булаев AI 🤖 - об AI и не только
This media is not supported in your browser
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
Подборка демок и туториалов по новой функции видео генератора Kling AI - Virtual Try On. Думаю, по названию понятно, в чём суть (а если не понятно - смотрите видосики). Выглядит очень достойно!
Сергей Булаев AI 🤖 - об AI и не только
Сергей Булаев AI 🤖 - об AI и не только
очередной разлекательный промт для работы с памятью ChatGPT:
рисует вас как игрушку для Happy Meal из Мака.
Так же вам вариант, что бы постить промт в другие сервисы генерации картинок:
постите в комменты ваши генерации!
Сергей Булаев AI 🤖 - об AI и не только
draw me as a cute happy meal toy
рисует вас как игрушку для Happy Meal из Мака.
Так же вам вариант, что бы постить промт в другие сервисы генерации картинок:
create a prompt as instruction to draw me as a cute happy meal toy
постите в комменты ваши генерации!
Сергей Булаев AI 🤖 - об AI и не только
Эмоциональный RAG: когда ИИ запоминает как человек
Увидел интересную технологию, которая делает RAG системы более похожими на человеческую память. Если обычный RAG просто ищет похожие по смыслу куски текста, то эмоциональный RAG учитывает эмоциональный контекст - как наш мозг, который лучше запоминает эмоционально окрашенные события.
Система кодирует не только смысл текста, но и его эмоциональную окраску. Каждое воспоминание получает два вектора - семантический (о чём текст) и эмоциональный (какие чувства он содержит). При поиске учитываются оба фактора, что делает ответы более естественными и последовательными.
Этот подход серьезно улучшает способность ИИ поддерживать стабильную личность. Модель лучше справляется с тестами на типы личности вроде MBTI, а её ответы становятся более человечными. На некоторых открытых моделях (ChatGLM-6B, Qwen-72B) результаты даже лучше, чем на GPT-3.5.
Подобные исследования - важный шаг к созданию по-настоящему эмпатичных ИИ-систем.
Сергей Булаев AI 🤖 - об AI и не только
Увидел интересную технологию, которая делает RAG системы более похожими на человеческую память. Если обычный RAG просто ищет похожие по смыслу куски текста, то эмоциональный RAG учитывает эмоциональный контекст - как наш мозг, который лучше запоминает эмоционально окрашенные события.
Система кодирует не только смысл текста, но и его эмоциональную окраску. Каждое воспоминание получает два вектора - семантический (о чём текст) и эмоциональный (какие чувства он содержит). При поиске учитываются оба фактора, что делает ответы более естественными и последовательными.
Этот подход серьезно улучшает способность ИИ поддерживать стабильную личность. Модель лучше справляется с тестами на типы личности вроде MBTI, а её ответы становятся более человечными. На некоторых открытых моделях (ChatGLM-6B, Qwen-72B) результаты даже лучше, чем на GPT-3.5.
Подобные исследования - важный шаг к созданию по-настоящему эмпатичных ИИ-систем.
Сергей Булаев AI 🤖 - об AI и не только
Forwarded from we all design 👑
This media is not supported in your browser
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
Недавно услышала термин “human augmentation”. В контексте AI он о том, как, проектируя интерфейсы, помочь человеку раскрыться в соавторстве с технологиями.
А тут Runway представили ранний и довольно смелый прототип работы с видео.
Напомнил мне рабочий процесс с артбордами Figma со множеством экспериментов.
В основе прототипа лежит графовая структура: изображения превращаются в узлы, выступающие ориентирами в скрытом пространстве модели. Узлы соединяются ребрами, которые представляют собой переходы от одного кадра к другому через пространство и время. (Да-да).
Когда погружаешься в творческий процесс, хочется исследовать разные пути и пробовать что-то новое. Графовая структура кажется хорошим решением: можно свободно разветвляться, фиксировать эксперименты и создавать альтернативные сценарии.
Еще интересно, что они задумались о том, что точный контроль иногда сдерживает творчество, а «счастливые случайности» его ускоряют. Поэтому в процессе можно будет сохранять композицию некоторых кадров, но менять стиль по текстовым подсказкам. Или наоборот, оставлять стиль, но варьировать композицию.
Вообще, интересные идеи, здорово, что не боятся экспериментировать, и задумываются о human augmentation.
@wealldesigners
А тут Runway представили ранний и довольно смелый прототип работы с видео.
Напомнил мне рабочий процесс с артбордами Figma со множеством экспериментов.
В основе прототипа лежит графовая структура: изображения превращаются в узлы, выступающие ориентирами в скрытом пространстве модели. Узлы соединяются ребрами, которые представляют собой переходы от одного кадра к другому через пространство и время. (Да-да).
Когда погружаешься в творческий процесс, хочется исследовать разные пути и пробовать что-то новое. Графовая структура кажется хорошим решением: можно свободно разветвляться, фиксировать эксперименты и создавать альтернативные сценарии.
Еще интересно, что они задумались о том, что точный контроль иногда сдерживает творчество, а «счастливые случайности» его ускоряют. Поэтому в процессе можно будет сохранять композицию некоторых кадров, но менять стиль по текстовым подсказкам. Или наоборот, оставлять стиль, но варьировать композицию.
Вообще, интересные идеи, здорово, что не боятся экспериментировать, и задумываются о human augmentation.
@wealldesigners