Psy Eyes
6.8K subscribers
1.43K photos
1.57K videos
5 files
1.55K links
Креатив + AI + Web3... и мемы

Личная страница @AndreyBezryadin

Купить рекламу: https://telega.in/c/Psy_Eyes
Без наценки Telegain и индивидуальными датами — в личке.
Download Telegram
This media is not supported in your browser
VIEW IN TELEGRAM
Веселье в самом разгаре: Screenshot-2-code

Посылаете ссыль или скриншот сайта/приложения, который нужно скопировать и тебе для него генерится HTML/Tailwind CSS.

GPT-4 Vision понимает содержимое и генерит код, а DALLE 3 ваяет схожие изображения. Последний можно отключить, если планируется использовать SDXL или что ещё.

Править код можно самому там же в редакторе и превью результатов наблюдать в реальном времени. Также можно дать AI инструкцию по генерации, чтобы он сразу менял код под твой проект.

Для работы нужен API ключ OpenAI. Можете зарегать там аккаунт и вам дадут $5 кредитов на халяву. Потестите на сколько этого хватит. А там глядишь кто и выпустит халявную версию на ламе или чём ещё.

Я год назад говорил, что такое будет через пару лет. Однако мы уже здесь. Как говорится "Ни у кого нет преимущества".

Демо
Гитхаб
This media is not supported in your browser
VIEW IN TELEGRAM
Рекламщики: чатгпт как повысить конверсию наружной рекламы, чтобы люди на неё обращали внимание?

ChatGPT: повесь её вверх ногами.
This media is not supported in your browser
VIEW IN TELEGRAM
Pika Labs выходит из тестовой беты в крупный релиз 1.0!

Теперь генерить видео можно у них на сайте, а не только в дискорде. Помимо улучшенного качества картинки, которое тизерили ранее, появились опции контроля визуала через сайт в стиле Runway.

Что имеем:
* Видео в 1920х1080
* Выделение объектов и их замена в кадре
* Расширение границ
* Генерация на основе картинки
* Смена стиля видео

Доступ уже открыт для всех, но пускают по очереди, когда появляется свободное место.

Анонс
Media is too big
VIEW IN TELEGRAM
Luma улучшили гауссианы до v1.2 в своей апе: повысилось качество конвертации видео в 3D (особенно при работе с облаками и фоном в экстерьерных сценах).

Сайт
This media is not supported in your browser
VIEW IN TELEGRAM
Stability выпустили SDXL Turbo, для быстрой генерации картинок в 1 шаг. Суть такая же как LCM, где тоже генерация идёт в реальном времени пока ты пишешь или двигаешь мышкой, только быстрее и, по заверениям Stability, качественнее.

Демо (ClipDrop)
Демо (Fal.ai)

Демо (HF)
Колаб
Локальная установка (Pinokio)
Хаггинг
Анонс
Media is too big
VIEW IN TELEGRAM
Meimu: переводим векторные SVG файлы в 3D, которые можно крутить в отличном качестве. На удивление работает замечательно и очень шустро.

* Можно изменять освещение, материал, итд
* выделять конкретные элементы и менять их
* Есть экспорт в GLB
* Поддержка вывода в любом разрешении

Сайт
Дайджест:

📹 ВИДЕО + АРТ 🎨

SVD теперь работает через ComfyUI и влезает в 8 ГБ VRAM.

LucidDreamer: появилось демо 3D генератора на основе гауссианов.

Cross Image Attention: смешиваем объекты разных стилей на фото, чтобы получить новый вид.

DreamGaussian Mini: легковесная версия гауссианов для быстрой генерации в 3D.

MagnificAI: апскейлер, который повышает разрешение и добавляет детали. Чтобы два раза не вставать вот ещё апскейлер на эту тему - SISR.

Sketch Video Synthesis: конвертируем объекты на видео в скетчи.

Используем LCM для реалтайм покраски арта.

Animagine XL 2: генерим аниме на основе SDXL, теперь в Fooocus интерфейсе и с поддержкой LCM + апскейлеров.

Улучшаем качество гауссианов с помощью Mip-Splatting.

Neurogen: обновлённый локальный чат NeuroGPT 2, и дипфейкер Rope Portable v 1.4.1 (AMD).

Google: теперь в Maps можно через вид с камеры получить рейтинг ресторана, отеля,... а там и человека.

Microsoft: добавили AI-фичи в Designer и отныне в нём можно легко выделять/заменять объекты на картинках, генерить арт через DALLE 3, и не только. Как Adobe Firefly только бесплатный.

Сбер: выкатили Kandinsky 3 с улучшенной генерацией изображений, а также возможностью выдавать видео.

ChatAnything: анимируем любые объекты на фото для чата с ними.

Nvidia: представили Makani, модель для быстрого предсказания погоды с фокусом на параллелизме, шустрой тренировке, асинхронной загрузке данных итд.

ConceptSliders: редактируем изображение текстом, сохраняя его структуру. Вот ещё ZipLoRA на эту тему.

🤖 ЧАТЫ 🤖

Андрей Карпаты выпустил часовую вводную лекцию в мир больших языковых моделей (LLM). До этого он давал лекцию как натренировать свою LLM с нуля.

Amazon: запускают Q, как конкурента ChatGPT с фокусом на бизнес сегменте.

Higgsfield: фреймворк для файнтюна LLM без необходимости в управлении Kubernetes.

CogVLM: появилось демо этого чата по картинкам (VLM).

LEO: AI-агент для взаимодействия и чата по объектам в 3D пространстве.

💬 Делайте выжимки из доков и чатьтесь по ним с помощью Claude
Please open Telegram to view this post
VIEW IN TELEGRAM
Ускоряем разработку с помощью Make Real от tldraw.

Следом за релизом GPT-4V появился проект Make Real на основе доски для скетчей tldraw. Он работает как через сайт makereal.tldraw.com, так и локально. Можно даже гонять в коопе с коллегами через Yjs в P2P режиме.

Суть: делаешь набросок прототипа с текстовым описанием --> выделяешь мышкой и жмёшь в углу Make Real --> GPT-4V сгенерит в новом фрейме прототип, который по двойному нажатию становится интерактивным. В углу этого фрейма есть кнопка для копирования кода и ссылки, чтобы потестить в новом окне или поделиться с кем. Нужно внести правки? Прерисовываешь/пишешь что нужно изменить + выделяешь ранее сгенерённый фрейм = по нажатию Make Real получишь новую версию с правками. По факту можно быстро собрать MVP и легко делиться им.

Например, вот вам кликабельный iPod, а здесь доска на которой он рисовался (можно форкнуть).

Есть вариант ещё проще: на Excalidraw описать текстом, что ты хочешь получить и тебе сгенерится схема, которую можно заскриншотить --> вбросить в tldraw --> получить рабочий прототип.

Полученный код можно дропнуть ChatGPT или скажем нейронке натренированной на коде, чтобы она переписала его нужным образом если что. Однако для упрощения кто-то уже запилил плагин для VS Code: рисуешь прототип и тебе генерится код в нужном языке.

Так как код Tldraw открыт сообщество уже прицепило модель LCM для генерации в реальном времени, и это открыло интересные возможности. Эта версия называется Drawfast и доступна на drawfast.tldraw.com, а также на гитхабе. Для дополнительного ускорения генерации используется API от Fal.ai. Теперь с релизом SDXL Turbo быть может генерации будут ещё шустрее.

Можно собрать и простенькие игры, datavis приколюхи, своё пианино, генератор иконок, и не только.

Сейчас нужен ключ OpenAI для доступа к GPT-4V. Но так как проект опенсорсный, и открытых альтернатив становится всё больше, возможно скоро и без ключа запашет.

Я сам уже который день из Make Real не вылезаю и дико кайфую.

Больше примеров и деталей в посте на DTF
This media is not supported in your browser
VIEW IN TELEGRAM
4K полнит. Теперь ты знаешь.
This media is not supported in your browser
VIEW IN TELEGRAM
Похоже Looking Glass, разрабатывающие голографические дисплеи, готовятся выйти на рынок с чем-то мобильным или проекционным. В имейле пишут, что будущее, которое нам всем обещали (или рисовали в поп-культуре) ближе, чем мы думаем. И готовят что-то "магическое".

Надпись на японском ミライはあなたの手のひらに переводится как "Mirai у вас на ладони". Что вероятно является отсылкой к серии концертов "Magical Mirai" виртуальной исполнительницы Hatsune Miku, где задействована голографическая проекция.

Анонс запланирован на 5 декабря.
Media is too big
VIEW IN TELEGRAM
Анонсирован Looking Glass Go — портативный голографический дисплей с поддержкой AI.

* Не занимает много места на столе и помещается даже в карман
* Конвертирует любые фото в голограммы — нейронка предугадывает как должен выглядеть кадр с множества перспектив и показывает его человеку
* Есть поддержка гаусианов и нерфов, которые ближе к 3D
* Предыдущие дисплеи нужно было привязывать к компу для рендеринга голограмм и передачи их на экран. В Go версии всё делается через облако по WiFi.
* Можно сделать голографического аватара для ChatGPT и общаться с ним голосом. На видео пример такого общения с аниме-девочкой на японском.
* Плагины для Unity, Blender, и UE также поддерживаются. Можно и свои 3D проекты показывать, и в разработке игр использовать.

Ценник $199 сегодня и дальше по $300 за минимальный комплект, который придёт не раньше июня 2024. Как по мне это дороговато, учитывая что у них есть портретная версия за $399 если смотреть без скидок, и в ней все те же ништяки с аватарами и плагинами, только экран больше. Правда она привязана к компу, который должен делать рендеринг.
This media is not supported in your browser
VIEW IN TELEGRAM
Google представила нейронку Gemini.

* Говорят на бенчах показывает себя лучше GPT-4.
* Модель может работать текстом, кодом, аудио, изображениями и видео.
* Код генерирует через новую AlphaCode 2, которая может справляться с более серьёзными задачами, затрагивающими математику и информатику.

Будет три версии:
* Nano — заточена под мобилки, и имеет размеры 1.8B и 3.25B.
* Pro — ляжет в основу поиска, рекламы, и других продуктов. Обновлённый Bard с Pro под капотом уже доступен в определённых регионах (нужен VPN).
* Ultra — самая мощная модель в линейке, будет внедрена в Bard Advanced с начала следующего года.

Gemini Pro выкатят в открытый доступ 13 декабря через API.

Анонс
Дайджест:

📹 ВИДЕО + АРТ 🎨

StyleCrafter: меняем стиль видео одной реф картинкой.

LooseControl: контроль генерации 2D изображений с помощью 3D коробок.

DeepCache: улучшаем скорость и качество генерации диффузионных моделей без тренировки и дистилляции — за счёт кэширования. Вот ещё Cache Me if You Can на эту тему от запрещёнки вышло.

Получаем OpenPose из любого видео. Погонять локально.

MagicAnimate: анимируем картинки используя видео реф, который можно получить с помощью Video2DensePose (ещё колаб). Код здесь.

AnimateDiff + IPadapter для анимации по одному изображению.

Neurogen
: появилась текстовые модели и генерация изображений через DALLE 3 в NeuroGPT, а также дипфейкер Rope обновился до V1.5.

LucidDreamer: ещё одно демо генератора 3D на основе гауссианов.

Marigold: диффузионная модель и протокол для получения монокулярной карты глубины изображения.

PatchFusion: тоже на тему получения карты глубины, только с улучшением разрешения и повышением детализации.

InstaFlow: появилось демо модели для генерации картинок в 1 шаг. Правда за это время уже успели выйти SDXL Turbo и LCM.

VMC: меняем стиль видео с сохранением движения в кадре.

AnimateZero: ещё одна модель для анимации картинок. SVD или AnimateDiff выглядят по-качественнее.

DynamiCrafter: тоже модель для анимации изображений.

Генерация картинок с переложением стиля на основе рефа.

Учёным удалось с 75% точностью получить картинки из мыслей пациентов.

EfficientSAM: улучшенная версия SAM для выделения объектов на картинках.

Получение гауссианов из небольшого количества кадров.

ALIGN: API для разработчиков игр и приложений, чтобы фильтровать контент, который генерят пользователи и не быть удалённым с App Store / Google Play.

Я заметил, что часто помимо ссылок на демо на Gradio стали появляться варики для запуска на своём железе через Docker. Кому интересно погоняйте на Fooocus, Seamless или LaVie скажите как оно.

Google: показали модель FACTOR для генерации видео с контролем кадра через рисование как объекты должны двигаться. Кода нет.

🎸 ЗВУК 🎸

Stable Audio: теперь можно подавать на вход ранее сгенерированное аудио, скачивать к себе генерацию в формате видео, появилось больше контроля на уровне промтов.

Музыкант Vinay сделал хип-хоп альбом с помощью MusicGen за 24 часа. Деньги с продаж пойдут на благотворительность.

Запрещёнка выпустила серию моделей для работы с голосом. Seamless M4T V2 стала основой для SeamlessExpressive (переводит нюансы речи), SeamlessStreaming (перевод голоса и и текста а реальном времени). Колаб тут.

Rask AI: липсинк перевод голоса на видео с не одним спикером.

🤖 ЧАТЫ 🤖

Сформирован альянс "The AI Alliance", нацеленный помочь развить опенсорсные проекты в сфере нейронок, потому что AI не должен контролироваться какой-то одной компанией.

Perplexity: выпустили две новые модели на 7B и 70B, которые всегда онлайн и владеют актуальными данными, плюс API перешел на оплату по мере использования.

Gitbook: внедрил нейронки для генерации выжимок из публикаций, переписки в Slack, а также указаний в VS Code. AI также работает в поиске и чате, давая ответы на вопросы пользователей.

StabilityAI: выпустили ещё один маленький чат-бот StableLM Zephyr 3B с фокусом на мобилы. Говорят на тестах не хуже 7B моделей, хоть она и в половину меньше.

HuggingFace: курс по разработке игр с помощью AI на Unity и UE.

Датасет с википедией/викимедией в тренде на HF. Как запихнуть в колаб.

Nous: обновили чат-бота до v2.5 и внедрили возможность общения по картинкам (VLM).

Optium-Nvdia: изменение в одной строчке кода дало х28 к производительности.

💬 Делайте выжимки из доков и чатьтесь по ним с помощью Claude
Please open Telegram to view this post
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
EnhanceThis: повышаем разрешение изображений и генерим детали, которых изначально не было.

Похоже на MagnificAI, а также SISR с прошлой недели.

Код и колаб здесь.
Vchitect — фреймворк состоящий из двух моделей для генерации видео.

LaVie — генерим видео по тексту с максимальным разрешением 1280х2048 и длиной в 61 кадр. Есть команда для интерполяции (повышения кадров в секунду) и команда для апскейлинга (повышения разрешения).
Код
Демо

SEINE — генерим видео на основе картинки
Демо
Код

Под капотом SD 1.4 так что примеры на видео сильно отобранные. Посмотрим как будет развиваться.