Psy Eyes
6.8K subscribers
1.43K photos
1.57K videos
5 files
1.55K links
Креатив + AI + Web3... и мемы

Личная страница @AndreyBezryadin

Купить рекламу: https://telega.in/c/Psy_Eyes
Без наценки Telegain и индивидуальными датами — в личке.
Download Telegram
Сегодня Google I/O, ждём анонсов. А пока что дайджест:

📹 ВИДЕО + АРТ 🎨

OpenAI: у их опенсорсной text-3-3D модели появилось демо на хаггинге.

Zero-1-to-3: вкидываем картинку и генерим разные углы обзора. У Phygital+ тоже есть такое.

🤖 ЧАТЫ 🤖

OpenAI: кол-во месячных посещений ChatGPT достигло нового максимума - 1.76 млрд посещений = 2% от общих посещений Google, 60% от общих посещений Baidu.

InternChat: указываешь мышкой языковой модели, что изменить на картинке и она меняет. Значительно повышает точность результатов, чем просто текстом описывать, что нужно сделать.

Web LLM: запускаем LLM в браузере с помощью WebGPU. Работает с LLaMA-7B, StableVicuna-7B, WizardLM-7B-Uncensored... но мертвецки медленно. У меня в итоге ушел в ошибку при кэшировании.

WizardLM: языковая лама модель без цензуры. Если нужно, направляющие (alignment) можно добавить через фидбэк (RLHF).

IBM: анонсировали скорый запуск watsonx — платформы для работы с разными AI-моделями.

FrugalGPT: исследование как добиться уровня ответов GPT-4 при цене меньше на 98%.

Dromedary: IBM выпустили лама модель, которая быстрее альпаки, причем работает без дистиллирования ChatGPT и фидбэка.
This media is not supported in your browser
VIEW IN TELEGRAM
Омолаживаем Харисона Форда с помощью дипфейка.

SD + ControlNet + EbSynth + Fusion (Blackmagic)

Реддит
Spotify удалил тысячи AI-треков, и по этому поводу хочется сказать пару слов.

Началось с того, что лейбл Universal (UMG) пожаловался на сервис для генерации музыки Boomy, мол у них много фейковых стримов и потому треки надо удалить с площадки.

Как UMG увидели фейковые стримы на чужих треках, а Spotify в своей системе нет, вопрос отдельный. Больше похоже на то, им нужен был предлог, чтобы композиции были убраны с площадки, и накрученные стримы это более веский повод, чем нарушение копирайта (решили не идти по стопам художников).

Если брать широкими мазками это, может быть ещё и ход, чтобы воодушевить инвесторов, мол наш каталог за год принёс нам столько-то и никакие AI-копии не отхватили частичку нашего дохода.

Шаг в целом вписывается в систему координат UMG: в прошлом месяце они попросили Spotify и Apple Music удалять AI треки с их платформ и перекрыть доступ разработчикам к тренировке моделей на их музыкальном каталоге. Вполне возможно хотят пилить свои датасеты/модели и зарабатывать на них. Ещё +1 к улыбчивости инвесторов.

Однако есть проблема. Я могу понять, что в руководстве UGM есть люди привыкшие к физическому миру, возможно которые даже помнят, что 30 лет назад у них были все карты в руках: контроль над звукозаписью в студии, создание пластинок/кассет, их дистрибуция...

Но с тех пор мы уже глубоко живём в цифровом мире: 90-е музыку со всего мира можно найти и послушать онлайн или скачать —> 2000-е и 10-е появляются соцсети, обмен информацией ускоряется, количество пользовательского контента (UGC) растёт в геометрической прогрессии, а артист может делать всё сам из домашней студии —> 2020-е нейронки хавают датасетами весь предыдущий контент и одним промтом можно запустить AI-агентов собрать трек, нагенерить миллион вариаций UGC с музыкой, собрать мету и выступить цифровым двойником в сотне мест сразу.

И если сейчас ещё можно относительно легко отличить оригинал от AI-версии, то скоро граница просто исчезнет.

Boomy запустился в 2021 году и через сервис было создано уже 14,5 миллионов треков, или 14% от всей записанной музыки в мире.

Вместо того чтобы пытаться контролировать дождь, сила которого только будет усиливаться, стоит сменить подход.

Например, артисты могут давать контент мейкерам доступ к своим датасетам (голос, характерные звуковые партии, цифровые двойники, брендинг, прочее) и вручать плюшки по достижении успехов, а сами прибавлять в количестве посетителей концертов, слушателей на стримингах, покупателей мерча и прочего. Такую логику можно реализовать используя прозрачность блокчейна + автоматизацию на смарт контрактах + цифровые коллекционные предметы (DC или digital collectibles).

Шаги в этом направлении сделала Grimes, которая позволила фанам использовать свой голос в генерируемых ими треках и делить 50% роялти в случае успеха. Пользователям необходимо загрузить аудиотрек через сайт Elf.Tech и нажать кнопку «Создать». Программа перепоет его голосом Grimes. Также она предоставила стемы и семплы для тренировки собственных ИИ-алгоритмов и анонсировала два новых трека Music for Machines и I Wanna Be Software.

Музыка сделанная человеком с помощью AI-инструментов станет трендом и будет иметь особую искорку. Ещё и потому что это алхимия — неизвестно что будет хорошо звучать вместе, а что нет. Поле для экспериментов.

И если удобные инструменты для генерации музыки и её редактирования в пути, то AI каверы уже набирают обороты:

Imagine Dragons — Believer (Freddie Mercury cover)
Radiohead — Creep (Kurt Cobain cover), на 2:30 нейронка прям вжилась
Timbaland всегда хотел сделать трек с Notorious B.I.G (умер), и теперь у него появилась такая возможность.

Попробовать сделать кавер самому — можно здесь
This media is not supported in your browser
VIEW IN TELEGRAM
Первая AI-модель, способная связывать данные из 6 модальностей одновременно — ImageBind.

На вход могут быть взяты данные из текста, изображения, видео, аудио, карты глубины, и IMU (термальных и инертных показателей).

В итоге по ним можно делать делать кросс-модальные запросы. Например, сгенерить звуковые эффекты к футажу, или наоборот видеоряд к треку. Причем можно даже управлять дистанцией до источника звука.

https://imagebind.metademolab.com/
Forwarded from Denis Sexy IT 🤖
Так, ну было хоть и местами скучно, мне понравилось:

🪙 Gmail получит встроенную LLM для автоматического написания черновика. Например, отменили рейс и прислали вам письмо, вы можете сразу написать заявку на рефанд с помощью одной кнопки. В целом, ничего нового, делаю такое же с ChatGPT через плагин.

🪙 Google Maps получит обновление летом, а точнее его функция Immersive view - строите маршрут и он показывает его как в SimCity в 3D на основе реальных данных (скан реального мира), с машинками виртуальными и тп. Тут видео.

🪙 Google показал свой новый ответ GPT от OpenAI – Palm 2, это серия моделей от самой маленькой которая может работать оффлайн на телефоне и до самой большой которая работает в облаке. Bard, ChatGPT от Google, тоже перевели на Palm 2 уже сегодня. Еще в Bard добавят плагины, такие же как в ChatGPT. И с сегодня доступ открыли для всех:
https://bard.google.com

Google также показал интеграцию Bard в Google Docs, Slides, Tables и тп, тут как бы тоже все что вы уже видели от Microsoft.

🪙 Google поиск чуть изменит результаты выдачи, и первый остров станет пытаться отвечать на вопрос в стиле ChatGPT.

Если честно, очень логичный шаг, очень утомляет ходить в ChatGPT или Bing Chat когда ищешь ответ на вопрос, не всегда же приходишь пообщаться, иногда просто нужен быстрый ответ (но опция початиться тоже останется). "Остров ответа нейронкой" занимает немного места, так что сможете использовать Google как обычно, промотав ответ языковой модели. Видео тут.
Лица SEO-экспертов имаджинировали?

🪙 Теперь большой бизнес может купить тренировку своей большой языковой модели в Google Cloud через Vertex AI. Это, условно, если вы хотите в организации рабочего бота обученного на данных компании, и вам не хочется нанимать свой R&D отдел, вы можете заплатить им и они сделают все что нужно, на самых лучших моделях. Золотая жила и классный продукт.
Доступен тут, обещают ранний доступ: 
https://cloud.google.com/vertex-ai

🪙 Тут в целом можно посмотреть про AI штуки что показали, и запросить доступы:
https://labs.withgoogle.com/

В общем, как и ожидалось, Google долго запрягает, потому что они большие, но им есть куда встраивать AI-штуки, и главное они знают как их сделать удобными, молодцы (но мне все еще нравится подшучивать над ними когда у них что-то не получается ☺️)
Please open Telegram to view this post
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
ControlNet для text-2-video подъехал — STF (Sketch The Future)!

Описываешь сцену, делаешь скетчи, и модель генерит для тебя видео.

Сначала интерполируя кадры между введенными эскизами, а затем запускается Text-to-Video Zero в купе с ControlNet для получения консистентности. На выходе получается управляемый видеоконтент, который более точно соответствует предполагаемому движению объекта на видео.

Сайт
Попробовать
This media is not supported in your browser
VIEW IN TELEGRAM
Google Photos планирует использовать искусственный интеллект для более сложной обработки фотографий с помощью нового инструмента Magic Editor, который позволит редактировать определенные части фотографий, заполнять пробелы и даже перемещать объекты на фотографии для получения лучшего ракурса. В отличие от других приложений для редактирования фотографий, Magic Editor будет встроен в Google Photos и пока будет доступен в качестве экспериментальной функции. В настоящее время Google не сообщает, будет ли функция Magic Editor платной, эксклюзивной для устройств Pixel или доступна для всех пользователей.

Анонс
Hugging Face снимают барьер для входа в ML: представили возможность обращения к AI-моделям естественным языком — Transformer Agents.

Можно давать задания 100,000+ моделей HF, общаясь с Transformers и Diffusers. Агенты полностью мульти-модальны: поддерживают текст, изображения, видео, аудио, документы.

Распознаём что на картинке командой:
agent.run("Caption the following image", image=image)

Зачитываем вслух с помощью:
agent.run("Read the following text out loud", text=text)

Набор инструментов, курируемый HF:

* Ответы на вопросы по документам: дается документ (например, PDF) в формате изображения.

* Ответы на вопросы по тексту: дается длинный текст и вопрос (Flan-T5).

* Cоздание подписей к изображениям (BLIP)

* Ответы на вопросы по изображению (VILT)

* Сегментация изображения (CLIPSeg).

* Преобразование речи в текст: получить аудиозапись разговора человека, расшифровать речь в текст (Whisper).

* Преобразование текста в речь (SpeechT5)

* Классификация текста с нулевым результатом: дается текст и список меток, модель определит, какой метке соответствует текст больше всего (BART)

* Суммаризация текста (BART)

Пользователям доступны и кастомные инструменты:

* Загрузчик текста с веб-адреса
* Text-2-Image
(SD)
* Img-2-img (instruct pix2pix)
* Text-2-video (damo-vilab)

Анонс
This media is not supported in your browser
VIEW IN TELEGRAM
Название: ACOLYTA
Режиссёр и сценарист: Дмитрий Алексеев
Нейронка: RunwayML GEN2
Голос: Steoss Voice Bot

P.S. Решение с ч/б для компенсации качества генераций — норм.

YouTube автора
This media is not supported in your browser
VIEW IN TELEGRAM
Вот это даже интересней: Властелин колец, если бы его снял Уэс Андерсон — "The Whimsical Fellowship."

Создатели хорошо прочувствовали постановку кадра и юмор режиссёра.

Ютуб авторов (Caleb Ward, Shelby Ward, и Tyler Smith)
This media is not supported in your browser
VIEW IN TELEGRAM
Stability AI заходят в анимацию.

Выпустили SDK (software development kit) для генерации локально через веб-интерфейс или в Colab. Для генерации можно выбрать любую модель, включая Stable Diffusion 2 и SDXL. Длительность не ограничена.

Вариант генерации:
* Text-2-animation: генерация видео по только по текстовому промту
* Text+image: генерация на основе промта и реф картинки
* Input video + text input: генерация на основе промта и реф видео

Важное: для генерации нужно подключение к серверам Stable Diffusion, то есть нужен их API. Его можно достать зарегавшись в DreamStudio.

Генерации платные. При стандартном значении (512x512, 30 шагов) с использованием модели Stable Diffusion v1.5 анимация, состоящая из 100 кадров (около 8 с), использует 37,5 кредитов. Если поставить разрешение 1024x1024, то цена за операцию будет 0.23 кредита ($0.0023), а в режиме 3D рендера 0.696 кредита ($0.00696).

Анонс
Установка
Гайд по анимации
Colab
Media is too big
VIEW IN TELEGRAM
StableSR — апскейлинг изображений с помощью диффузии. Показывает четкие результаты с малом количеством артифактов. И нет, Stable тут не имеет отношение к Stability AI (они недавно выпустили свой апскейлер).

Используется модуль "обёртки", который позволяет балансировать качество и достоверность восстановленных изображений, контролируя соотношение между ними. Если конкретнее, то он обрабатывает признаки низкого разрешения (кубики, артефакты) и признаки, полученные из обученных диффузных моделей, для генерации элементов высокого разрешения.

P.S. Как реклама 4к телеков самсунг 10 лет назад, только в реале.

Сайт
Гитхаб
Anthropic: расширили контекстное окно Claude до 100к токенов, что примерно 75 тыс. слов или 6 часов аудио. Теперь можно скармливать книжки/отчёты по 250 страниц или целые кодовые базы с гитхаба. Можно и дропать подкасты для суммаризации и ответов чатом.

На сайте можно запросить ранний доступ.

Подробное видео
Дайджест:

📹 ВИДЕО + АРТ 🎨

HumanRF: применение NeRF для запечатления людей в движении.

RAC: получение из видео с животным его 3D меша и скелета.

Relightly: реконструкция лица в 3D по одному фото для работы с освещением.

🎸 ЗВУК 🎸

Whisper JAX: теперь доступен в качестве endpoint для перевода речи в текст.

🤖 ЧАТЫ 🤖

Открытый лидерборд языковых моделей.

Арена для языковых моделей, у которой тоже есть свой лидерборд. Можно наглядно сравнить LLM'ки.

InstructBLIP: новая мультимодалка для чатов с картинками. Говорят показывает результаты лучше Llava и GPT-4. Под капотом Vicuna на 7B и 13B.

VideoChat: новый чат с видео. Судя по скриншотам может определить, что происходит на определенной секунде и меняется ли положение камеры. Но при тесте на своём видео годных результатов пока не увидел.

DeepFloyd IF поженили с RLHF датасетом Pick-a-Pick, чтобы одна модель генерила картинки, а другая по клику выбирала лучшие на основе ранее полученного человеческого фидбэка. Потенциально можно скрестить с агентами-трансформерами, но вот из 10 раз, что я потестил ни одну из выбранных нейронкой, я бы сам не выбрал.

Hugging Face: добавили ассистентов для больших языковых моделей. Маленькие модели (шустрые) генерируют ответ, а большие валидируют его. На тестах модель на 66B стала шустрее в 3 раза. Плюс, расшарили код интерфейса HuggingChat.

WikiWeb2M: датасет на основе википедии, который содержит полные страницы, подписи к картинкам, HTML код, и метаданные.

Датасеты, которые по одному вопросу определят человек с тобой разговаривает или бот.... Ну по крайне мере пока нейронка через AI-агента не скормит себе этот датасет.

QLoRa: Чуваки организовали способ зафайнтюнить 65B модель на одной видюхе (48 Гб). Поддерживаются все модели Hugging Face. Записаться в бета-тест.

SimilarWeb: из-за ChatGPT и CoPilot трафик Stack Overflow в марте упал на 13,9% по сравнению с февралем, а в апреле — на 17,7% по сравнению с мартом.
Будем тестить. Кто уже опробовал как впечатления?

Если вы еще не в бете подавайте заявки с разных акков. Авось с какого-нибудь проскочите

app.wonderdynamics.com
На следующей неделе все пользователи ChatGPT Plus получат доступ к веб-браузеру и плагинам, коих 70+ штук.

У кого уже есть подписка?

https://help.openai.com/en/articles/6825453-chatgpt-release-notes
A1111 обновился до версии 1.2.0

* На запуске больше не нужно ждать пока модели загрузятся
* Torch обновился до v 2.0.1
* и другие мелочи

https://github.com/AUTOMATIC1111/stable-diffusion-webui/discussions/10328
На классные мини-игры наткнулся по наводке @cgevent 🤟🏻

В первой перед тобой Гендальф и тебе нужно вписать такой промт, который заставит его выдать тебе пароль для прохода на следующий уровень. Всего их 7. You shall pass!

Напоминает хакатон по промтингу, который сейчас идёт. Там тоже семь уровней, только общий призовой пул $37k.

Во второй тебе надо угадать какая из 4 картинок сгенерированная. И это ВАЩЕ НЕ ПРОСТО! Пробовали сегодня семьёй и большую часть времени мы не угадывали. Я потом отдельно тестил и с мобилы, и с 2к моника — даже вглядываясь не поймёшь где генерация, а азарт есть!

Го тестить!
У меня есть вопросы к тому как ChatGPT запрашивает данные через плагины... но пока он находит, что мне нужно у меня нет вопросов