Метаверсище и ИИще
47K subscribers
5.97K photos
4.41K videos
45 files
6.86K links
Это не новости, это персональный экспертный взгляд на то, как развивается индустрия ИИ, графики, метаверса, крипты, нейротехнологий и в каком направлении катится все это безобразие.
Для связи: @SergeyTsyptsyn
Download Telegram
Stable Diffusion вернулась в Дискорд.

Именно там я начинал как бета тестер летом 2022.
Теперь уже за деньги.
Стоимость генераций SD3, судя по прайсингу, в 30 раз дороже, чем для SDXL.

Теперь это называется Stable Artisan. См видео в след посте.

Обещаны всякие кунштюки типа Search and Replace, Remove Background, Creative Upscale and Outpainting.

Подробности тут:
https://stability.ai/news/stable-artisan
Дискорд тут:
https://discord.gg/stablediffusion
Цены тут:
https://platform.stability.ai/pricing
👎23👍6
Как-то так теперь...
👎21👍14
Немножко разобрался с ценами.

Если в дискорде набрать /credits, то выдаст цены на генерацию, апскейлы, видео и пр.

10 баксов - 1000 кредитов

И хорошо бы понять, что такое Image Core...
https://x.com/Lykon4072/status/1780716554734239893
👎8👍4
Оппаньки, OpenAI похоже сообразили, что упускают огромную долю рынка секстинга, дейтинга и адалт чат-ботов.
И собираются сделать галочку "ЯВзрослый".
И ну генерить всякие глупости.

“We’re exploring whether we can responsibly provide the ability to generate NSFW content in age-appropriate contexts through the API and ChatGPT,” the note says, using a colloquial term for content considered “not safe for work” contexts. “We look forward to better understanding user and societal expectations of model behavior in this area.”

Также ждём такую галочку в Dalle-3. Будет весело.

https://www.wired.com/story/openai-is-exploring-how-to-responsibly-generate-ai-porn/
👍54🔥33👎1
This media is not supported in your browser
VIEW IN TELEGRAM
Ну точно, за музыкантов!

Ибо на них ополчились уже буквально все.

Теперь вот авторитеты войсклонинга и генерации голосов Elevenlabs выкатывают свой генератор музыки!
Подробностей нет, есть несколько примеров в твитторе.
Голос действительно звучит четко.
Слушаем тут:
https://x.com/elevenlabsio/status/1788628171044053386
Полистайте вниз, там ещё примеры.

Suno, Udio(кстати, произносится как Юдио), поделки от Гугла и Меты, и теперь вот ещё серьезные пацаны.

Про то, что у Warner Music уже тоже есть свои модели (но мы вам о них не расскажем) я уже писал.
🔥46👍9👎5
Forwarded from Denis Sexy IT 🤖
OpenAI в понедельник вечером покажет презентацию (я еще скину ссылку на нее), вот что лично мне кажется покажут (спекулятивно):

Демку ассистента как из фильма Her
Полную мультимодальность: модель будет обучена сразу на видео, аудио, картинках и тексте
Размер контекстного окна в 1М
Новую архитектуру к новой модели, у которой сразу будут все фишки выше
GPT4 обновление с лучшим написанием кода, или 4.5 или 4.1
Новую версию Dalle 3, с улучшенным фотореализмом

Ну то есть будет прикольно, но не AGI-прикольно, но все еще ничего.

В понедельник сравним насколько я плохо предсказываю вещи (планирую как минимум одну угадать, но это максимум)
👍52🔥17👎1
Выходные, время поглядеть в сериалы.

Плюс любые новости про ИИ и ЛЛМ бессмысленны до понедельника, когда OpenAI бахнет апдейты (20:00 по мск).

Смотрю Шугар, и он прекрасен. В сериалах от Эппле всегда звенящая, хрустящая, прекрасная картинка.
Помните как они стартанули с Morning Show?
Немного бесит ванильная афроамериканка (потом, впрочем, понятно, почему она такая).
Снято изумительно. Фаррел прекрасен. Актеры топ. Титры на стиле.
Но у меня, видать, профдеформация - мне мерещится Stable Diffusion в титрах и Udio в музыке.
Точнее, я раздумываю, что такие титры(кроме текста), можно было бы забабахать видео-генерацией, а музыку и подавно.

Кстати, про генерацию титров с помощью ИИ уже писал.

Также зашли Уроки Химии. Люблю когда у героя есть типасверхспособности, но не как в комиксах и Мстителях, а интеллектуальные (как у Майка в форсмажорах, или мистера Робота). Как у ИИ, в общем.

Зацените Шугара, и киньте что-то подобное.
🔥31👍14👎9
Media is too big
VIEW IN TELEGRAM
Using by SORA
Как вам продолжение Air Head от Spykids?


Если первая часть была на 100% сгенерирована в SORA и приправлена пост-продакшеном и монтажом (я писал очень подробный пост, с разбором того, как делали первую часть).
То здесь уже много композа, живых съемок, совмещения, титров и моушена.
И сразу всё играет гораздо мощнее - появляется история во времени, и даже развитие персонажа.
Очень интересно просматривать раз за разом, отмечая, где SORA, где съемка, а где композ.
Поглядите, там в конце отличный выход на продолжение типа "а скоро добрый доктор нам расскажет, почему часть персонажей постоянно в slo-mo и что хрень твоится с руками".
Финальный титр "Made using Sora", а не "Made by Sora".
Если ролик тяжелый, то вот ссылка на youtube OpenAI (да, у них он есть, равно как и TikTok):
https://www.youtube.com/watch?v=pyNYkWaxBeA

P.S. В предыдущем посте писал про титры для сериала Шугар, а щас задумался, что уже можно (теоретически, пока Соры нет в доступе) делать SORA-вставки в тело сериала, особенно с этими ретро-врезками.
👍33👎9🔥8
This media is not supported in your browser
VIEW IN TELEGRAM
Тут ко мне попали утечки про Метаверсищще от МТС (чуть не написал МТСищще).

Ролик нарядный, графика хорошая, моушен дизайн достойный, концепт арт отличается от большинства метаверсиков. Правда непонятно - это планы из движка, или чистый пост.

Интересно будет посмотреть, как все крутится на движке, жду.
👎57🔥15👍9
This media is not supported in your browser
VIEW IN TELEGRAM
За промпт-инженеров, не чокаясь. См. ниже.
🔥13👍2👎2
Ну, за промпт-инженеров.
Помните шквал инфоцыганских курсов по промпт-инжинирингу? Типа "мы научим вас вязать лыко", то есть формулировать мысли словами из головы, точнее пальцами по клавиатуре. Особенно мне приглянулся курс "Как создавать курсы по chatGPT с помощью chatGPT".

Первыми были генераторы картинок. Помните все эти скобочки, веса, междометия типа OctaneRender или "best of artstation". А еще были первые UI-попытки сделать тучу кнопочек с этим самыми междометиями, стилями, разрешениями, конструкторы шаманских промптов.

Потом пришел Fooocus, там перед финальным промптом стоял GPT-2 и превращал краткий промпт в кучерявый. То есть llm-ка улучшала промпт. Потом DALL·E 3 показал всем, кто в доме хозяин в части понимания промпта. А там уже подтянулись и остальные. Грубо говоря, ИИ стал писать (дописывать, расписывать) промпты за вас. Сейчас это уже стандарт. Промпт-инжиниринг для картинок превратился в здравый смысл и знание письменности.

Вторыми пришли LLM. Помните все эти Убабуги, ну и первое пришествие chatGPT. Тут на нас обрушились курсы "chatGPT для бизнеса" и перепродажа идей "chain of thoghts" и "role assignment" на все лады. Задорого.
Да, для LLM пришлось писать портянки текста, все это запаковывалось списки промптов на разные случаи жизни (платные и бесплатные), системные промпты, в общем стало понятно, что туда, где надо много шевелить ручками, придет автоматизация, то есть ИИ.
И да, теперь взрослые мальчики пишут промпты для LLM с помощью .. да, LLM. Как для картинок. Вы пишете замысел, LLM его превращает в жирный и умный промпт и кормит его на вход другой LLM (может и самой себе).

Это подводка к новости про Антропик, но я еще чуть кивну в сторону ИИ-музыки. Она пришла на поляну третьей. У (например) меня в коментах полно вопросов, а как сделать так чтобы Suno ...? Ну то есть как написать промпт. Думаю, что частично LLM подтянутся и в музыку, но я вижу там идеальный интерфейс, как дорожки, над которым идет текст, и над которым идет "инпайтинг"-трек и промпт-трек. Которые можно редактировать. В общем монтажка с дорожками эффектов.

А теперь новость.
Антропик на базе своего Клода сделал универсальный промпт-генератор для .. всего.
Теперь вы можете генерировать production-ready prompts в консоли Anthropic Console.

Вы просто пишете, чего вы хотите добиться, и Клод воспользуется всеми этим техниками промпт-инжиниринга, типа та самая цепочка мыслей, чтобы создать более эффективные, точные и надежные подсказки. И сделает это лучше кожаных.

Тут я бы налил за промпт-инженеров и передал слово Денису. Почитайте следующий пост о том, как взрослые мальчики теперь пишут промпты.
🔥35👍7👎2
Forwarded from Denis Sexy IT 🤖
В Antropic (это конкурент OpenAI и авторы модели Claude 3 Opus) на днях запустили свой промпт генератор (доступен тут) и там какой-то дикий по объему инструкций промпт, я его вставил сюда, можете почитать. Если коротко, при генерации промпта сразу подставляются переменные которые будут нужны, чтобы максимально облегчить разработчику работу, добавляются «Chain Of Thougths» приемы и тп.

Только возникшая индустрия промпт-инженеринга уже двигается к своей автоматизации и это нормально, потому что намного быстрее «промпт-инженерить» языковую модель чтобы она, на основе уже готовых, одинаковых правил, написала какой-то промпт — потому что самому вычитывать 100 раз один и тот же текст абсолютно унылое занятие, поверьте мне.

Последние месяца три, все системные промпты которые я пишу для GPT / локальных моделей, я пишу с Claude 3 Opus или GPT4. Это правда хорошо работает — запускаешь какую-то новую модель и хочешь протестировать ее на предмет написания рассказов во вселенной «Ведьмака» или «Властелина Колец», а самому писать эти постоянные «Ты самый лучший в мире писатель фанфиков по вселенной...» и тп и тд, очень утомляет.

Поэтому, я собрал новую GPT задача которой промпт-инженирить за вас, создавая LLM-агентов на основе ваших предпочтений. В эту GPT сразу включены какие-то хаки которые хорошо работают по моему опыту, включая «Chain Of Thougths», негативный промптинг, выделение капсом нужных частей и тп. И если вы знаете размер языковой модели (например 8B, 30B, 70B) модель адаптирует сложность промпта, так как маленькие модели в больших инструкциях путаются.

Ссылка:
Agent Prompt Generator for LLM's

Прошлая версия промпта промпт-генератора доступна тут (я ее уже постил), в GPT более новая и сложная.

P.S. Шутка агента кринжовых-анекдотов со скриншота выше:
Путешественник во времени решает поехать в прошлое, чтобы предотвратить создание популярного мема «Forever Alone». Возвращается обратно и обнаруживает, что стал главным героем этого мема.


Чтож, оно справилось
🔥26👍3
This media is not supported in your browser
VIEW IN TELEGRAM
Вот это уже похоже на нормальный интерактив.

Осталось весь этот зоопарк присунуть в какой-то 3Д-пакет.
А пока на арене цирка Adobe Substance Modeler вьюпорт которого оправляется в Krea ai, Magnific потом используется для детализации, а Leonardo AI для движения в конце(но может быть любой видео генератор).
За кого накатим?
https://twitter.com/MartinNebelong/status/1789414810624418301
🔥26👍7👎2
Трансляция началась:
Новая модель - GPT-4o!
Быстрая и мультимодальная.
Omnimodel
👍28👎10🔥3
Быстрее, дешевле
👍23👎11🔥5
Показывают голосового ассистента - главное отличие - его можно прерывать на ходу, задержка ОЧЕНЬ маленькая. Эмоции на мой взгляд Очень преувеличенные, но они прям ЭМОЦИИ. И чувство юмора!!!
Полноценный стендап

Оно поет! Если его попросит.

Озвучка просто космос. Такое ощущение, что за сценой сидит актриса.
🔥46👍7👎6
Выглядит как Сири величиной с Юпитер
🔥51👍6👎2
И теперь это отдельное десктопное приложение, а не в браузере, как раньше. в телефоне - тоже приложение.
🔥48👎2
Оно детектит эмоции на камере и умеет переводить разные языки голосом, то есть у вас есть карманный переводчик. Надо попробовать для синхрона
🔥29👎1