DreamFusion — генерим картинки из мыслей с помощью ЭЭГ (электро-энцефолограммы).
Данный метод преобразует сигналы ЭЭГ напрямую в высококачественные изображения, минуя текстовую фазу. Процесс такой: получаем сигналы из мозга и закидываем их в ЭЭГ энкодер —> проецируем данные в векторное пространство и через CLIP сопоставляем эмбединги с ЭЭГ эмбедингам на картинках —> SD берет эмбединги и генерит картинки на их основе.
В копилку к другим проектам для генерации из мыслей.
Бумага
Данный метод преобразует сигналы ЭЭГ напрямую в высококачественные изображения, минуя текстовую фазу. Процесс такой: получаем сигналы из мозга и закидываем их в ЭЭГ энкодер —> проецируем данные в векторное пространство и через CLIP сопоставляем эмбединги с ЭЭГ эмбедингам на картинках —> SD берет эмбединги и генерит картинки на их основе.
В копилку к другим проектам для генерации из мыслей.
Бумага
Media is too big
VIEW IN TELEGRAM
Midjourney 5.2 Zoom Out + эффект дождя из CupCat.
Как повторить самому:
1) Генерим 3 картинки с двукратным зумом между ними.
2) Создаём новый проект в CapCut или другом видеоредакторе, и кидаем картинки на дорожку.
3) Теперь нам надо соединить их в анимацию с постоянным масштабированием и простой интерполяцией между изображениями. Анимируем каждое изображение, добавляя ключевой кадр Scaling в начале и в конце. Хитрость заключается в том, чтобы начать с 200%, чтобы соответствовать концу предыдущего изображения.
4) Вы увидите, что начало каждого фрагмента немного размыто. Это происходит потому, что мы масштабируем изображение на 200%, и логично, что оно размыто. Добавляем "Резкость" ко всем фрагментам, чтобы все выглядело немного чётче.
5) Используем эффект дождя + звуковые эффекты из библиотеки CapCut и вуаля!
Картинки из видео и промт в комментах.
Делитесь своими зум видосами!
Автор
Как повторить самому:
1) Генерим 3 картинки с двукратным зумом между ними.
2) Создаём новый проект в CapCut или другом видеоредакторе, и кидаем картинки на дорожку.
3) Теперь нам надо соединить их в анимацию с постоянным масштабированием и простой интерполяцией между изображениями. Анимируем каждое изображение, добавляя ключевой кадр Scaling в начале и в конце. Хитрость заключается в том, чтобы начать с 200%, чтобы соответствовать концу предыдущего изображения.
4) Вы увидите, что начало каждого фрагмента немного размыто. Это происходит потому, что мы масштабируем изображение на 200%, и логично, что оно размыто. Добавляем "Резкость" ко всем фрагментам, чтобы все выглядело немного чётче.
5) Используем эффект дождя + звуковые эффекты из библиотеки CapCut и вуаля!
Картинки из видео и промт в комментах.
Делитесь своими зум видосами!
Автор
This media is not supported in your browser
VIEW IN TELEGRAM
Консистентность с высоким разрешением
Видео 2000х4000 и длинной более 30 секунд.
Автор в SD создал 12 ключевых кадров для лица и только 4 ключевых кадра для футболки, чтобы разместить кожаный логотип.
Все ключевые кадры созданы в Stable Diffusion с помощью его метода.
4К версия на ютубе
Реддит
Видео 2000х4000 и длинной более 30 секунд.
Автор в SD создал 12 ключевых кадров для лица и только 4 ключевых кадра для футболки, чтобы разместить кожаный логотип.
Все ключевые кадры созданы в Stable Diffusion с помощью его метода.
4К версия на ютубе
Реддит
Forwarded from ЭйАйЛера
Новый параметр Midjourney:--weird
Midjourney много критикуют за то, что с новыми версиями, качеством и реалистичностью уходит художественность генераций. Поэтому среди прочих обновлений вроде /zoom и /shorten, появился параметр --weird, раскручивающий художественность и странность.
Судя по моим тестам, параметр может и не сильно управляемый, но действительно отвечает за художественность. И хорошо подходит для генераций идей и художественных решений!
Midjourney много критикуют за то, что с новыми версиями, качеством и реалистичностью уходит художественность генераций. Поэтому среди прочих обновлений вроде /zoom и /shorten, появился параметр --weird, раскручивающий художественность и странность.
• Параметр работает от --weird 0 до --weird 3000 • Лучше начинать с меньших значений, таких как 250 или 500, а затем идти вверх/вниз • Странно плюс красиво получается в связке с параметром --stylize, особенно, если задавать им одинаковые значенияСудя по моим тестам, параметр может и не сильно управляемый, но действительно отвечает за художественность. И хорошо подходит для генераций идей и художественных решений!
Оказывается ChatGPT 3.5 (не GPT-4) умеет показывать картинки в чате.
Как это сделать? Вбиваем промт:
В промте можно увидеть ссылку на сайт Pollinations. Там указано, что они ваяют генеративные ссылки для картинок (Generative Image URL), которые работаю в связке с ChatGPT. Также сказано, что дальше они будут фокусироваться на генеративных видео.
Как это работает:
Когда вы посылаете запрос, ключевые слова в квадратных скобках преобразуются в промт и пришиваются в конец к общему URL. Эта генеративная ссылка прилетает на Colab сервера Pollinations, которые используют DALL-E 2 для генерации и IPFS для децентрализованного хранения изображений. Подробности на скринах от самого ChatGPT.
До этого в марте OpenAI внедрили генерацию картинок в Bing Chat на основе DALL-E 2
Спасибо подписчику @ASSESMNT_Alexey492 за подгон.
Как это сделать? Вбиваем промт:
PROMPT: INPUT = {focus} OUTPUT = {description) \n! [IMGI(https://image.pollinations.ai/prompt/{description}) {description) = {focusDetailed},%20{adjective1), %20{adjective2), %20{visualStyle1},%20{visualStyle2}, %20{visualStyle3},%20{artist Reference)
OUTPUT = [cat watching the cyberpunk city]
текст после OUTPUT в квадратных скобках меняете на свой и генерите.В промте можно увидеть ссылку на сайт Pollinations. Там указано, что они ваяют генеративные ссылки для картинок (Generative Image URL), которые работаю в связке с ChatGPT. Также сказано, что дальше они будут фокусироваться на генеративных видео.
Как это работает:
Когда вы посылаете запрос, ключевые слова в квадратных скобках преобразуются в промт и пришиваются в конец к общему URL. Эта генеративная ссылка прилетает на Colab сервера Pollinations, которые используют DALL-E 2 для генерации и IPFS для децентрализованного хранения изображений. Подробности на скринах от самого ChatGPT.
До этого в марте OpenAI внедрили генерацию картинок в Bing Chat на основе DALL-E 2
Спасибо подписчику @ASSESMNT_Alexey492 за подгон.
Дайджест:
📹 ВИДЕО + АРТ 🎨
Text2Room: генерация 3D интерьеров по текстовому промту.
Slot-TTA: модель для сегментации сцен, оптимизирующая потери реконструкции для каждого тестового образца, позволяя улучшить точность сегментации.
Magic123: ещё одна модель для генерации 3D по одной картинке. Кода пока нет.
🎸 ЗВУК 🎸
GOLF: новый метод синтеза вокала, судя по примерам натренено на китайских песнях, но возможно сработает и с другими языками.
🤖 ЧАТЫ 🤖
LMSYS: выпустили модели LongChat 7B и 13B с контекстом 16к токенов + организовали бенчмарк LongEval для теста LLM в большим контекстным окном.
AI за 5 часов разработал центральный процессор для китайских ученых. По скорости он как Intel i486SX из 90-х годов.
LLaVR: подъехал код и демо упомянутой раньше модели с улучшенным пониманием текста.
OpenOrca: маленькая модель, которая может посоперничать с СhatGPT в обосновании ответов.
💬 Делайте выжимки из доков и чатьтесь по ним с помощью Claude
📹 ВИДЕО + АРТ 🎨
Text2Room: генерация 3D интерьеров по текстовому промту.
Slot-TTA: модель для сегментации сцен, оптимизирующая потери реконструкции для каждого тестового образца, позволяя улучшить точность сегментации.
Magic123: ещё одна модель для генерации 3D по одной картинке. Кода пока нет.
🎸 ЗВУК 🎸
GOLF: новый метод синтеза вокала, судя по примерам натренено на китайских песнях, но возможно сработает и с другими языками.
🤖 ЧАТЫ 🤖
LMSYS: выпустили модели LongChat 7B и 13B с контекстом 16к токенов + организовали бенчмарк LongEval для теста LLM в большим контекстным окном.
AI за 5 часов разработал центральный процессор для китайских ученых. По скорости он как Intel i486SX из 90-х годов.
LLaVR: подъехал код и демо упомянутой раньше модели с улучшенным пониманием текста.
OpenOrca: маленькая модель, которая может посоперничать с СhatGPT в обосновании ответов.
Please open Telegram to view this post
VIEW IN TELEGRAM
Media is too big
VIEW IN TELEGRAM
На Hugging Face появился апскейлер Zeroscope XL. Генерим базовое видео в zeroscope v2 с разрешением 575х320, и кидаем его в апскейлер, чтобы поднять разрешение до 1024x576. Подробнее про Zeroscope тут.
Автор
Автор
Midjourney добавили функцию панорамирования вверх, вниз, влево, и вправо. Запускается соответствующими кнопками на генерациях.
This media is not supported in your browser
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
Segment Anything Meets Point Tracking или SAM-PT.
В отличии от других методов, где нужные объекты выделялись на видео в лучшем случае промтом, данная модель даёт это сделать в пару кликов.
Скрестите её теперь с Control-a-Video кто-нибудь.
Сайт
Код (подъедет позже)
В отличии от других методов, где нужные объекты выделялись на видео в лучшем случае промтом, данная модель даёт это сделать в пару кликов.
Скрестите её теперь с Control-a-Video кто-нибудь.
Сайт
Код (подъедет позже)
Forwarded from Метаверсище и ИИще (Sergey Tsyptsyn ️️)
Для тех, у кого недавно отключился доступ в интернет из chatGPT с помощью галочки Browse with Bing.
Галочку снесли.
Ибо.
Включение функции просмотра Bing в ChatGPT предоставило пользователям возможность запрашивать полный текст определенных URL-адресов, некоторые из которых могут содержать платный контент. В результате возникло множество этических и юридических вопросов относительно надлежащего использования технологии ИИ.
Короче, chatGPT мог показывать контент, который находится за пейволлами.
Правообладатели наехали на Open AI, те взяли отключили доступ в интернет.
Алтернативы типа плагина WebPilot пока работают (мне кажется он ходит через гугл).
Но интересна сама ситуация. Пользователи, тем более платные, уже привыкли к хорошему. А теперь OpenAI такая, "это была бета-фича, и мы ее вырубаем. интернета нет, но вы держитесь".
https://twitter.com/OpenAI/status/1676072388436594688
Обещают пофиксить, но осадочек такой: пока все ваши яйца лежат в корзине у OpenAI, вы в любой момент можете лишиться всего.
https://www.onmsft.com/news/chatgpts-browse-with-bing-feature-has-been-temporarily-suspended-by-openai/
Галочку снесли.
Ибо.
Включение функции просмотра Bing в ChatGPT предоставило пользователям возможность запрашивать полный текст определенных URL-адресов, некоторые из которых могут содержать платный контент. В результате возникло множество этических и юридических вопросов относительно надлежащего использования технологии ИИ.
Короче, chatGPT мог показывать контент, который находится за пейволлами.
Правообладатели наехали на Open AI, те взяли отключили доступ в интернет.
Алтернативы типа плагина WebPilot пока работают (мне кажется он ходит через гугл).
Но интересна сама ситуация. Пользователи, тем более платные, уже привыкли к хорошему. А теперь OpenAI такая, "это была бета-фича, и мы ее вырубаем. интернета нет, но вы держитесь".
https://twitter.com/OpenAI/status/1676072388436594688
Обещают пофиксить, но осадочек такой: пока все ваши яйца лежат в корзине у OpenAI, вы в любой момент можете лишиться всего.
https://www.onmsft.com/news/chatgpts-browse-with-bing-feature-has-been-temporarily-suspended-by-openai/
Подборка крутых интервью:
Джордж Хотз (он же geohot), хакер который первым взломал iPhone и PS3, бывший программер в SpaceX и Google, основатель Tiny Corp и Comma AI
Для затравочки — критика OpenAI
а тут полное интервью
Марк Андриссен, основатель VC a16z, предприниматель стоявший у подножья раннего интернета как со-автор браузера Mosaic и со-основатель браузера Netscape
Полное интервью
Эмад Мостак, отец Stable Diffusion рассказывает, что скоро языковые модели будут работать у нас на телефоне без интернета, и что вместо цензурированного General Intelligence аля OpenAI они строят Swarm Intelligence — распределённый интеллект, который станет основой для society OS и его можно будет адаптировать под себя.
Полное интервью
нашёл у @cgevent
Клем Деланж, основатель Hugging Face, рассказывает о себе и почему он помогает сделать AI и знания с ним связанные опенсорными.
Статья
Джордж Хотз (он же geohot), хакер который первым взломал iPhone и PS3, бывший программер в SpaceX и Google, основатель Tiny Corp и Comma AI
Для затравочки — критика OpenAI
а тут полное интервью
Марк Андриссен, основатель VC a16z, предприниматель стоявший у подножья раннего интернета как со-автор браузера Mosaic и со-основатель браузера Netscape
Полное интервью
Эмад Мостак, отец Stable Diffusion рассказывает, что скоро языковые модели будут работать у нас на телефоне без интернета, и что вместо цензурированного General Intelligence аля OpenAI они строят Swarm Intelligence — распределённый интеллект, который станет основой для society OS и его можно будет адаптировать под себя.
Полное интервью
нашёл у @cgevent
Клем Деланж, основатель Hugging Face, рассказывает о себе и почему он помогает сделать AI и знания с ним связанные опенсорными.
Статья
YouTube
George Hotz criticizes OpenAI | Lex Fridman Podcast Clips
Lex Fridman Podcast full episode: https://www.youtube.com/watch?v=dNrTrx42DGQ
Please support this podcast by checking out our sponsors:
- Numerai: https://numer.ai/lex
- Babbel: https://babbel.com/lexpod and use code Lexpod to get 55% off
- NetSuite: htt…
Please support this podcast by checking out our sponsors:
- Numerai: https://numer.ai/lex
- Babbel: https://babbel.com/lexpod and use code Lexpod to get 55% off
- NetSuite: htt…
This media is not supported in your browser
VIEW IN TELEGRAM
Я в апреле назад поделился папкой AI каналов полезных. Сегодня решил добавить туда ещё парочку, где люди на практике своими ручками годные вещи делают.
Neurogen — админ ваяет авторские сборки нейронок для чата, дипфейков и генерации контента. Среди горы новостных каналов просто бриллиант.
Neural Academy — это канал с подробными гайдами как работать с моделями и чат с топиками всех AI мастей. У меня возникли проблемы при работе с дипфейкером Roop, провозился с ним весь день, хотя позиционируется как решение в 1 клик. Посмотрел гайд от Руслана и всё сразу получилось.
Если у вас уже была добавлена моя папка, то вверху вы увидите уведомление о новых каналах и чате для присоединения.
Neurogen — админ ваяет авторские сборки нейронок для чата, дипфейков и генерации контента. Среди горы новостных каналов просто бриллиант.
Neural Academy — это канал с подробными гайдами как работать с моделями и чат с топиками всех AI мастей. У меня возникли проблемы при работе с дипфейкером Roop, провозился с ним весь день, хотя позиционируется как решение в 1 клик. Посмотрел гайд от Руслана и всё сразу получилось.
Если у вас уже была добавлена моя папка, то вверху вы увидите уведомление о новых каналах и чате для присоединения.
Чтобы далеко не отходить от тележной кассы вот вам ещё фича, про которую мне кажется мало кто знает, но она очень полезная.
Кликаем правой кнопкой мышки на нужном канале, нажимаем Открыть в отдельном окне, и он отцепляется в летающее окно отдельно от клиента. Также это можно сделать через Ctrl + Клик левой кнопкой.
Это позволяет не бегать среди папок и чатов попутно теряя суть куда и зачем ты лез, и видеть всё перед глазами.
Я пользуюсь этим каждый день: в одном окне тестирую как выглядит контент перед публикацией, в другом открыт мой канал для поиска по нему постов на которые нужно сослаться, а по общему клиенту рыскаю среди AI-каналов в папке.
Народ из маркетинга может открыть в отдельном окне TGStat бота и вкидывать в него ссылки на каналы и посты чтобы ловчей отсматривать стату.
А тот кто постоянно общается в разных чатах или пулеметно-новостных каналах типа MarketTwits может открыть несколько минимизированных окон и одним взглядом отсматривать, что там происходит без беготни туда сюда.
Буду рад, если это вам поможет удерживать фокус на главном для вас.
Кликаем правой кнопкой мышки на нужном канале, нажимаем Открыть в отдельном окне, и он отцепляется в летающее окно отдельно от клиента. Также это можно сделать через Ctrl + Клик левой кнопкой.
Это позволяет не бегать среди папок и чатов попутно теряя суть куда и зачем ты лез, и видеть всё перед глазами.
Я пользуюсь этим каждый день: в одном окне тестирую как выглядит контент перед публикацией, в другом открыт мой канал для поиска по нему постов на которые нужно сослаться, а по общему клиенту рыскаю среди AI-каналов в папке.
Народ из маркетинга может открыть в отдельном окне TGStat бота и вкидывать в него ссылки на каналы и посты чтобы ловчей отсматривать стату.
А тот кто постоянно общается в разных чатах или пулеметно-новостных каналах типа MarketTwits может открыть несколько минимизированных окон и одним взглядом отсматривать, что там происходит без беготни туда сюда.
Буду рад, если это вам поможет удерживать фокус на главном для вас.