А вот в Bard завезли Imagen 2.
В интернетике полная неразбериха, журналисты пишут про ImageFX в Барде:
https://www.theverge.com/2024/2/1/24057438/bard-gemini-imagen-google-ai-image-generation
Это совершенно разные модели. И да, в Барде именно Imagen 2.
Он забавный, я с ним поговорил немного.
Это уже конкурент DALL·E 3 из chatGPT, который впрочем сильно в роли догоняющего.
Он уже понимает в смыслы типа "крипто-зима".
Жестко цензурирован, не умеет в людей, даже close up of a lady приводит его в ужас.
Но.
Если заставить его самого предложить что-то взамен, то он начинает генерить моделей на пляже, с какими-то ластами вместо рук и ацкими пальцами.
Персонажей типа Марио генерить отказывается.
Бард все знает про Apple Vision Pro, но на просьбу сделать картинку, несет полную дичь.
Системный промпт не отдает, но говорит, что можно задавать разрешения и аспекты картинки прямо в промпте.
Терминатора генерить отказывается со странной формулировкой - я всего лишь языковая модель
Часто сваливается в отказ типа "I'm a text-based AI, and that is outside of my capabilities.", хотя я прошу явно сгенерить картинку. Особенно если промпт длинный.
Иногда его прямо клинит - я дал ему точный промпт с Лексики и сказал сгенери картинку вот по такому промпту - видно что Бард сначала полез в интернет, нашел этот промпт на Krea.ai(!), начал нести странную дичь, вместо генерации и давать ссылки на креа и выдавать вариации промпта через ||
Вот промпт
Либо я еще не привык к общению, либо у Барда разрывает мозги из-за того, что он пытается и в интернете поискать, и промпт проанализировать и расширить и картинку с генерить.
В общем у меня ощущение, что я пообщался с недообученным chatGPT и DALL·E 3, который иногда выдает приличный результат, но в основном неуправляем и непредсказуем именно из-за того, что пытается и в интернетик ходить и картинки генерить.
Пишите, что у вас.
https://bard.google.com/
В интернетике полная неразбериха, журналисты пишут про ImageFX в Барде:
https://www.theverge.com/2024/2/1/24057438/bard-gemini-imagen-google-ai-image-generation
Это совершенно разные модели. И да, в Барде именно Imagen 2.
Он забавный, я с ним поговорил немного.
Это уже конкурент DALL·E 3 из chatGPT, который впрочем сильно в роли догоняющего.
Он уже понимает в смыслы типа "крипто-зима".
Жестко цензурирован, не умеет в людей, даже close up of a lady приводит его в ужас.
Но.
Если заставить его самого предложить что-то взамен, то он начинает генерить моделей на пляже, с какими-то ластами вместо рук и ацкими пальцами.
Персонажей типа Марио генерить отказывается.
Бард все знает про Apple Vision Pro, но на просьбу сделать картинку, несет полную дичь.
Системный промпт не отдает, но говорит, что можно задавать разрешения и аспекты картинки прямо в промпте.
Терминатора генерить отказывается со странной формулировкой - я всего лишь языковая модель
Часто сваливается в отказ типа "I'm a text-based AI, and that is outside of my capabilities.", хотя я прошу явно сгенерить картинку. Особенно если промпт длинный.
Иногда его прямо клинит - я дал ему точный промпт с Лексики и сказал сгенери картинку вот по такому промпту - видно что Бард сначала полез в интернет, нашел этот промпт на Krea.ai(!), начал нести странную дичь, вместо генерации и давать ссылки на креа и выдавать вариации промпта через ||
Вот промпт
Либо я еще не привык к общению, либо у Барда разрывает мозги из-за того, что он пытается и в интернете поискать, и промпт проанализировать и расширить и картинку с генерить.
В общем у меня ощущение, что я пообщался с недообученным chatGPT и DALL·E 3, который иногда выдает приличный результат, но в основном неуправляем и непредсказуем именно из-за того, что пытается и в интернетик ходить и картинки генерить.
Пишите, что у вас.
https://bard.google.com/
🔥12👍9
This media is not supported in your browser
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
Пришло приглашение в Stable Video Diffusion 1.1 - доступ к сайту.
На день дается 150 кредитов, одна генерация с дефолтным качеством забирает 10 кредитов и длится около минуты или меньше. Можно запрашивать больше кредитов, денег не просят.
Два режима - генерация из текста или из картинки. Смешивать нельзя.
При генерации из текста сначала генерится картинка с помощью Stable Diffusion, а потом она подается на вход режима "Видео из картинки". Проще дать свою картинку, которую можно сгенерить с контролем качества.
Загрузил картинки созданные Бардом, попробовал оживить.
Пока впечатления не очень - на статичной камере очень мало что происходит, из картинки движение не вытаскивается - в основном шевелится бекграунд.
Движение можно задавать параметром Motion Strength
Качество - параметром Steps
Есть Стили.
Больше параметров нет. Длина видео 4 сек.
На сайте есть галерея из видео и социальная механика.
При генерации спрашивают, что можно улучшить.
Пока больше похоже на шевеляж камеры. Хотя когда я выкрутил движение на макс, то мой заяц зашевелился.
Основная фишка - хорошее качество картинки.
Ну и надо провести на сайте некоторое время, чтобы привыкнуть.
Мне было интересно погенерить всякие симуляции дыма, я скептичен к неконтролируемой анимации объектов.
Нагенерил дымков. Скоро можно будет делать футажи всяких спец-эффектов(если бы еще альфа была).
В общем быстро, относительно бесплатно, удобно экспериментировать.
Но контроля практически нет.
Это скорее для сборки смешных арт-хаусных трейлеров и кринжовых видео-клипов.
Но, погодите, я два года назад разглядывал мутные пятна в Disco Diffusion, а сейчас ворчу, типа контроля в генерации видео маловато.
Зажрался.
На день дается 150 кредитов, одна генерация с дефолтным качеством забирает 10 кредитов и длится около минуты или меньше. Можно запрашивать больше кредитов, денег не просят.
Два режима - генерация из текста или из картинки. Смешивать нельзя.
При генерации из текста сначала генерится картинка с помощью Stable Diffusion, а потом она подается на вход режима "Видео из картинки". Проще дать свою картинку, которую можно сгенерить с контролем качества.
Загрузил картинки созданные Бардом, попробовал оживить.
Пока впечатления не очень - на статичной камере очень мало что происходит, из картинки движение не вытаскивается - в основном шевелится бекграунд.
Движение можно задавать параметром Motion Strength
Качество - параметром Steps
Есть Стили.
Больше параметров нет. Длина видео 4 сек.
На сайте есть галерея из видео и социальная механика.
При генерации спрашивают, что можно улучшить.
Пока больше похоже на шевеляж камеры. Хотя когда я выкрутил движение на макс, то мой заяц зашевелился.
Основная фишка - хорошее качество картинки.
Ну и надо провести на сайте некоторое время, чтобы привыкнуть.
Мне было интересно погенерить всякие симуляции дыма, я скептичен к неконтролируемой анимации объектов.
Нагенерил дымков. Скоро можно будет делать футажи всяких спец-эффектов(если бы еще альфа была).
В общем быстро, относительно бесплатно, удобно экспериментировать.
Но контроля практически нет.
Это скорее для сборки смешных арт-хаусных трейлеров и кринжовых видео-клипов.
Но, погодите, я два года назад разглядывал мутные пятна в Disco Diffusion, а сейчас ворчу, типа контроля в генерации видео маловато.
Зажрался.
👍22🔥8
This media is not supported in your browser
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
Вот вам еще немного генераций с бета-сайта Stable Video Diffusion 1.1: https://www.stablevideo.com/
👍29🔥7
This media is not supported in your browser
VIEW IN TELEGRAM
Для тех, кто следит за 3Д, поглядите сюда
Это Triplane Gaussian Transformers, поддерживаемые в ComfyUI через ComfyUI-3D-Pack
Облако точек 3DGS, полученное непосредственно из одной картинки, преобразованное в мешь с помощью ноды Deep Marching Tetrahedrons ( mtl+obj)
https://twitter.com/ZHOZHO672070/status/1753268252636000272
Это Triplane Gaussian Transformers, поддерживаемые в ComfyUI через ComfyUI-3D-Pack
Облако точек 3DGS, полученное непосредственно из одной картинки, преобразованное в мешь с помощью ноды Deep Marching Tetrahedrons ( mtl+obj)
https://twitter.com/ZHOZHO672070/status/1753268252636000272
👍37🔥19👎3
Forwarded from Квест Теория Каст и Ролей (Alexey Krol)
Наконец руки дошли до elevenlabs.io - не зря они менее, чем за год стали единорогом и в месяц у них 15 млн. посещений. Что они делают:
1. На входе текст, на выходе озвучка.
2. Поддерживают 15 языков, включая русский.
3. Поддерживают более 50 встроенных голосов, но самое главное, вы можете загрузить туда свой голос, и они далее все говорят вашим голосом.
4. Есть тонкие настроки, что позволяет менять настроение.
5. Хорошо читают знает препинания, делают паузы, если ставить многоточие.
6. Преобразование фрагмента из 400 символов заняло примерно 15-сек.
7. На выходе получается образец, который можно прослушать и скачать в MP3.
8. Есть инструменты.
цена:
- тариф 1$/месяц - вы можете сконвертировать 30 тыс. знаков. Это примерно 6000 слов - примерно 4-5 больших статьи. Можно использовать до 10 кастомных голосов - по сути полностью озвучить аудио спектакль.
- тариф 11$/месяц - 100 тыс. знаков. Это примерно 6000 слов - примерно 4-5 больших статьи. До 30 кастомных голосов. К примеру, мои Записки Мясника - примерно 30 эпизодов в месяц. Средний эпизод 500 слов или 2500 знаков, это примерно 75 тыс. знаков в месяц. Квест будет примерно 130 тыс. знаков/ месяц.
Доп. 1000 знаков - 30 центов. Т.е. если я хочу дополнить свой текстовый проект аудио и видео версией и мне нужен аудиофайл с озвучкой, мне это будет стоить в месяц примерно 43$.
43$, Карл. Если бы я это сам озвучивал, это взяло бы нереально времени, а если бы нанимал, то думаю, что примерно в 50-100 раз дороже.
А если я захочу и на русском и на английском, то это мне будет стоит еще + 40$. Т.е. каждый новый язык всего + 40$.
Да, живой артист озвучивает пока лучше, но практика показывает, что объем, частота и регулярность дают больший и надежный эффект, чем очень-очень редкая качественная озвучка. Ну мой голос - ничего особенного.😂
У вас есть что сказать? Вы не знали, как построить эффективный процесс создания аудио-видео контента на любом языке? Не знаете английского? Теперь препятствий нет.
ОПРАВДАНИЙ НЕТ (кроме трусливой и ленивой жопы).
Как построен мой процесс?
1. На входе текст, разумеется, отредактированный, с знаками препинания и т.п.
2. Если на русском, то сразу вставляю в elevenlabs.io Если нужно английски, то сначала переводу с помощью chatGPT.
3. Делаю настройки, генерация.
4. Скачиваю трек.
5. Профит.
6. Если это аудио подкаст, то Adobe Audition, если видео CupCut. Кстати, в CupCut для английского языка он сразу генерит аудио трек, но, кажется, elevenlabs.io - дает лучшее качество. Для видео используем чуть Midjourney, или футажи из RenderForest.🤣 Раньше пользовались ДаВинчи, но CupCut как-то для таких задач прямо бодрей.
Но есть проблема. Какая? Нужны тексты. Если у вас текстов нет, то и толку нет. Вы же все умеете писать крутые тексты? Да? В следующем посте пример озвучки.
1. На входе текст, на выходе озвучка.
2. Поддерживают 15 языков, включая русский.
3. Поддерживают более 50 встроенных голосов, но самое главное, вы можете загрузить туда свой голос, и они далее все говорят вашим голосом.
4. Есть тонкие настроки, что позволяет менять настроение.
5. Хорошо читают знает препинания, делают паузы, если ставить многоточие.
6. Преобразование фрагмента из 400 символов заняло примерно 15-сек.
7. На выходе получается образец, который можно прослушать и скачать в MP3.
8. Есть инструменты.
цена:
- тариф 1$/месяц - вы можете сконвертировать 30 тыс. знаков. Это примерно 6000 слов - примерно 4-5 больших статьи. Можно использовать до 10 кастомных голосов - по сути полностью озвучить аудио спектакль.
- тариф 11$/месяц - 100 тыс. знаков. Это примерно 6000 слов - примерно 4-5 больших статьи. До 30 кастомных голосов. К примеру, мои Записки Мясника - примерно 30 эпизодов в месяц. Средний эпизод 500 слов или 2500 знаков, это примерно 75 тыс. знаков в месяц. Квест будет примерно 130 тыс. знаков/ месяц.
Доп. 1000 знаков - 30 центов. Т.е. если я хочу дополнить свой текстовый проект аудио и видео версией и мне нужен аудиофайл с озвучкой, мне это будет стоить в месяц примерно 43$.
43$, Карл. Если бы я это сам озвучивал, это взяло бы нереально времени, а если бы нанимал, то думаю, что примерно в 50-100 раз дороже.
А если я захочу и на русском и на английском, то это мне будет стоит еще + 40$. Т.е. каждый новый язык всего + 40$.
Да, живой артист озвучивает пока лучше, но практика показывает, что объем, частота и регулярность дают больший и надежный эффект, чем очень-очень редкая качественная озвучка. Ну мой голос - ничего особенного.😂
У вас есть что сказать? Вы не знали, как построить эффективный процесс создания аудио-видео контента на любом языке? Не знаете английского? Теперь препятствий нет.
ОПРАВДАНИЙ НЕТ (кроме трусливой и ленивой жопы).
Как построен мой процесс?
1. На входе текст, разумеется, отредактированный, с знаками препинания и т.п.
2. Если на русском, то сразу вставляю в elevenlabs.io Если нужно английски, то сначала переводу с помощью chatGPT.
3. Делаю настройки, генерация.
4. Скачиваю трек.
5. Профит.
6. Если это аудио подкаст, то Adobe Audition, если видео CupCut. Кстати, в CupCut для английского языка он сразу генерит аудио трек, но, кажется, elevenlabs.io - дает лучшее качество. Для видео используем чуть Midjourney, или футажи из RenderForest.🤣 Раньше пользовались ДаВинчи, но CupCut как-то для таких задач прямо бодрей.
Но есть проблема. Какая? Нужны тексты. Если у вас текстов нет, то и толку нет. Вы же все умеете писать крутые тексты? Да? В следующем посте пример озвучки.
🔥48👍25
This media is not supported in your browser
VIEW IN TELEGRAM
Эппле: Apple Vision Pro should never be used on or near roads, streets, or any other area where moving objects present a collision risk.
Пользователи: чо?
Тесла: осторожно, на дороге эплбой.
Забрал в канале у Жени, бомба просто.
Пользователи: чо?
Тесла: осторожно, на дороге эплбой.
Забрал в канале у Жени, бомба просто.
👍30🔥6👎3
This media is not supported in your browser
VIEW IN TELEGRAM
Киберпанк с метаверсом наперевес уже здесь.
Все равно за рулём делать нечего.
Не на дорогу же смотреть...
Ну и руки есть чем занять...
Все равно за рулём делать нечего.
Не на дорогу же смотреть...
Ну и руки есть чем занять...
🔥41👎13👍5