Psy Eyes – Telegram

Psy Eyes

6.8K subscribers

1.43K photos

1.57K videos

5 files

1.55K links

Креатив + AI + Web3... и мемы

Личная страница @AndreyBezryadin

Купить рекламу: https://telega.in/c/Psy_Eyes
Без наценки Telegain и индивидуальными датами — в личке.

Download Telegram

About

Blog

Apps

Platform

6.8K subscribers

This media is not supported in your browser

VIEW IN TELEGRAM

Morph Studio обновили бота в дискорде и теперь он может генерить видео на основе наброска.

Также улучшилось качество генерации и увеличилась скорость.

Дискорд

1.67K viewsAndrey Bezryadin, edited 15:09

This media is not supported in your browser

VIEW IN TELEGRAM

Новый генератор голоса по тексту: HierSpeech++

Работает без обучения (zero-shot). Просто даёшь модели короткий пример с целевым голосом и она озвучит нужный текст в заданном стиле. Помимо этого ещё и будет улучшено качество звука встроенным апскейлером с 16 до 48 kHz.

XTTS стоит призадуматься.

Гитхаб
Демо

2.33K viewsAndrey Bezryadin, edited 16:57

1.42K viewsAndrey Bezryadin, 20:20

Дайджест:

📹 ВИДЕО + АРТ 🎨

Phygital+: добавили к себе тренировку нейронки в пару кликов, автосохранения, лимиты для генерации сбрасываются теперь раз в неделю, и другие ништяки. Голосани за них на Product Hunt.

Уже появился колаб на SVD.

В LCM теперь можно генерить реалтайм расшаривая экран, например в Figma или Photoshop, как источника для скетчей.

Enfugue: альтернативный webui для генерации картинок и видео, для тех кто не фанат нод.

Neurogen: генерим дипфейки обновлёнными портативными Roop v 1.7 и Rope v 1.4.1, ваяем арт реалтайм в LCM + Fooocus, чатимся в NeuroGPT v 1.6

Колаб для генерации 360 градусных панорам.

Flowty: реалтайм генерация из набросков через LCM.

RunwayTV: можно попасть в генеративное 24/7 тв.

Luma: добавили в 3D генератор Genie сиды и негативные промты. Скоро можно будет юзать на своём дискорд сервере.

Запрещёнка выкатила редактор изображений текстом Emu Edit, который неплохо вписывает предметы в контекст (даже учитывает накладывающиеся слои). Похоже на Rich Text на основе SDXL. Также выпустили генератор видео Emu Video, выдающий 512x512 в 16 к/с длиной 4 сек.

LucidDreamer: ещё один генератор 3D по тексту.

WonderStudio: сделали аддон для Maya и Blender, чтобы выгружать из них своих персонажей.

PhysGaussian: гауссианам прицепили физику для интерактивного взаимодействия. Кода пока нет.

🎸 ЗВУК 🎸

Suno: теперь работают на сайте. Это и две новости ниже найдены у @cgevent

Mustango: генерация на основе длинных детальных промтов. Правда качество не особо.

Google: выпустит модель Lyria для генерации музыки на основе напева/инструментала и промта. А через DreamTrack можно будет создавать 30-сек вертикальные видео с клонированным голосом известных музыкантов.

OWSM: Опенсорсная версия Whisper для перевода голоса в текст.

StyleTTS 2: демо модельки для генерации голоса по тексту и его клонирования.

🤖 ЧАТЫ 🤖

Исследователи представили метод FastBERT, который используя 0,3% нейронов работает на уровне оригинального BERT, и позволяет достигнуть экспоненциального роста производительности языковых моделей. На тестах получили x78 на CPU и x40 в PyTorch.

Brave: приватный браузер добавил языковую модель Leo в боковую панель, которая бесплатно работает на основе ламы 2 и не собирает твои данные.

OpenAI: Сэм Альтман и Грэг Брокман вернулись в OpenAI. Будут перестановки в совете директоров. Тем временем сайт ChatGPT периодически лежит. В мобильной версии голосовое общение стало доступно всем пользователям.

Microsoft: выпустили фреймворк Synapse для распределённой работы с LLM и прицелом на масштабировании. Также зарелизили LLM Orca 2 с 13B параметрами, хорошо показывающую себя в пошаговом размышлении.

Данные соревнования по взлому промтами языковых моделей Hack a Promt выложены в сеть и найдена новая уязвимость.

Lmsys: ускоряем инференс LLM через параллельное декодирование Lookahead. Герганов уже внедряет в llama.cpp

Anthropic: выкатили Claude 2.1 с контекстом в 200к (500 страниц или 150 000 слов), уменьшением галлюцинаций, и расширенной поддержкой API.

Голосовой чат с Zephyr и Mistral.

LanguageBind: мультимодальный чат по видео, картинкам и не только. Сюда же Video-LLaVA.

Intel: выпустили фреймворк для упрощения запуска 4-bit LLM на CPU пользователей.

Доки:
* MoWE: архитектура взаимодействия LLM-экспертов, с упором на малое требование к ресурсам, а сами LLM выступают в роли хранилища данных.
* MultiLoRA: лора с мультизадачностью и горизонтальным масштабированием.

💬 Делайте выжимки из доков и чатьтесь по ним с помощью Claude

Please open Telegram to view this post

VIEW IN TELEGRAM

1.87K viewsAndrey Bezryadin, edited 20:20

This media is not supported in your browser

VIEW IN TELEGRAM

Веселье в самом разгаре: Screenshot-2-code

Посылаете ссыль или скриншот сайта/приложения, который нужно скопировать и тебе для него генерится HTML/Tailwind CSS.

GPT-4 Vision понимает содержимое и генерит код, а DALLE 3 ваяет схожие изображения. Последний можно отключить, если планируется использовать SDXL или что ещё.

Править код можно самому там же в редакторе и превью результатов наблюдать в реальном времени. Также можно дать AI инструкцию по генерации, чтобы он сразу менял код под твой проект.

Для работы нужен API ключ OpenAI. Можете зарегать там аккаунт и вам дадут $5 кредитов на халяву. Потестите на сколько этого хватит. А там глядишь кто и выпустит халявную версию на ламе или чём ещё.

Я год назад говорил, что такое будет через пару лет. Однако мы уже здесь. Как говорится "Ни у кого нет преимущества".

Демо
Гитхаб

4.01K viewsAndrey Bezryadin, edited 07:03

This media is not supported in your browser

VIEW IN TELEGRAM

Рекламщики: чатгпт как повысить конверсию наружной рекламы, чтобы люди на неё обращали внимание?

ChatGPT: повесь её вверх ногами.

1.49K viewsAndrey Bezryadin, 11:24

This media is not supported in your browser

VIEW IN TELEGRAM

Pika Labs выходит из тестовой беты в крупный релиз 1.0!

Теперь генерить видео можно у них на сайте, а не только в дискорде. Помимо улучшенного качества картинки, которое тизерили ранее, появились опции контроля визуала через сайт в стиле Runway.

Что имеем:
* Видео в 1920х1080
* Выделение объектов и их замена в кадре
* Расширение границ
* Генерация на основе картинки
* Смена стиля видео

Доступ уже открыт для всех, но пускают по очереди, когда появляется свободное место.

Анонс

2.53K viewsAndrey Bezryadin, edited 16:27

Media is too big

VIEW IN TELEGRAM

Luma улучшили гауссианы до v1.2 в своей апе: повысилось качество конвертации видео в 3D (особенно при работе с облаками и фоном в экстерьерных сценах).

Сайт

1.86K viewsAndrey Bezryadin, 09:42

This media is not supported in your browser

VIEW IN TELEGRAM

Stability выпустили SDXL Turbo, для быстрой генерации картинок в 1 шаг. Суть такая же как LCM, где тоже генерация идёт в реальном времени пока ты пишешь или двигаешь мышкой, только быстрее и, по заверениям Stability, качественнее.

Демо (ClipDrop)
Демо (Fal.ai)
Демо (HF)
Колаб
Локальная установка (Pinokio)
Хаггинг
Анонс

2.05K viewsAndrey Bezryadin, 10:32

Media is too big

VIEW IN TELEGRAM

Meimu: переводим векторные SVG файлы в 3D, которые можно крутить в отличном качестве. На удивление работает замечательно и очень шустро.

* Можно изменять освещение, материал, итд
* выделять конкретные элементы и менять их
* Есть экспорт в GLB
* Поддержка вывода в любом разрешении

Сайт

3.7K viewsAndrey Bezryadin, 11:44

Дайджест:

📹 ВИДЕО + АРТ 🎨

SVD теперь работает через ComfyUI и влезает в 8 ГБ VRAM.

LucidDreamer: появилось демо 3D генератора на основе гауссианов.

Cross Image Attention: смешиваем объекты разных стилей на фото, чтобы получить новый вид.

DreamGaussian Mini: легковесная версия гауссианов для быстрой генерации в 3D.

MagnificAI: апскейлер, который повышает разрешение и добавляет детали. Чтобы два раза не вставать вот ещё апскейлер на эту тему - SISR.

Sketch Video Synthesis: конвертируем объекты на видео в скетчи.

Используем LCM для реалтайм покраски арта.

Animagine XL 2: генерим аниме на основе SDXL, теперь в Fooocus интерфейсе и с поддержкой LCM + апскейлеров.

Улучшаем качество гауссианов с помощью Mip-Splatting.

Neurogen: обновлённый локальный чат NeuroGPT 2, и дипфейкер Rope Portable v 1.4.1 (AMD).

Google: теперь в Maps можно через вид с камеры получить рейтинг ресторана, отеля,... а там и человека.

Microsoft: добавили AI-фичи в Designer и отныне в нём можно легко выделять/заменять объекты на картинках, генерить арт через DALLE 3, и не только. Как Adobe Firefly только бесплатный.

Сбер: выкатили Kandinsky 3 с улучшенной генерацией изображений, а также возможностью выдавать видео.

ChatAnything: анимируем любые объекты на фото для чата с ними.

Nvidia: представили Makani, модель для быстрого предсказания погоды с фокусом на параллелизме, шустрой тренировке, асинхронной загрузке данных итд.

ConceptSliders: редактируем изображение текстом, сохраняя его структуру. Вот ещё ZipLoRA на эту тему.

🤖 ЧАТЫ 🤖

Андрей Карпаты выпустил часовую вводную лекцию в мир больших языковых моделей (LLM). До этого он давал лекцию как натренировать свою LLM с нуля.

Amazon: запускают Q, как конкурента ChatGPT с фокусом на бизнес сегменте.

Higgsfield: фреймворк для файнтюна LLM без необходимости в управлении Kubernetes.

CogVLM: появилось демо этого чата по картинкам (VLM).

LEO: AI-агент для взаимодействия и чата по объектам в 3D пространстве.

💬 Делайте выжимки из доков и чатьтесь по ним с помощью Claude

Please open Telegram to view this post

VIEW IN TELEGRAM

1.82K viewsAndrey Bezryadin, 12:58

This media is not supported in your browser

VIEW IN TELEGRAM

This media is not supported in your browser

VIEW IN TELEGRAM

This media is not supported in your browser

VIEW IN TELEGRAM

This media is not supported in your browser

VIEW IN TELEGRAM

Ускоряем разработку с помощью Make Real от tldraw.

Следом за релизом GPT-4V появился проект Make Real на основе доски для скетчей tldraw. Он работает как через сайт makereal.tldraw.com, так и локально. Можно даже гонять в коопе с коллегами через Yjs в P2P режиме.

Суть: делаешь набросок прототипа с текстовым описанием --> выделяешь мышкой и жмёшь в углу Make Real --> GPT-4V сгенерит в новом фрейме прототип, который по двойному нажатию становится интерактивным. В углу этого фрейма есть кнопка для копирования кода и ссылки, чтобы потестить в новом окне или поделиться с кем. Нужно внести правки? Прерисовываешь/пишешь что нужно изменить + выделяешь ранее сгенерённый фрейм = по нажатию Make Real получишь новую версию с правками. По факту можно быстро собрать MVP и легко делиться им.

Например, вот вам кликабельный iPod, а здесь доска на которой он рисовался (можно форкнуть).

Есть вариант ещё проще: на Excalidraw описать текстом, что ты хочешь получить и тебе сгенерится схема, которую можно заскриншотить --> вбросить в tldraw --> получить рабочий прототип.

Полученный код можно дропнуть ChatGPT или скажем нейронке натренированной на коде, чтобы она переписала его нужным образом если что. Однако для упрощения кто-то уже запилил плагин для VS Code: рисуешь прототип и тебе генерится код в нужном языке.

Так как код Tldraw открыт сообщество уже прицепило модель LCM для генерации в реальном времени, и это открыло интересные возможности. Эта версия называется Drawfast и доступна на drawfast.tldraw.com, а также на гитхабе. Для дополнительного ускорения генерации используется API от Fal.ai. Теперь с релизом SDXL Turbo быть может генерации будут ещё шустрее.

Можно собрать и простенькие игры, datavis приколюхи, своё пианино, генератор иконок, и не только.

Сейчас нужен ключ OpenAI для доступа к GPT-4V. Но так как проект опенсорсный, и открытых альтернатив становится всё больше, возможно скоро и без ключа запашет.

Я сам уже который день из Make Real не вылезаю и дико кайфую.

Больше примеров и деталей в посте на DTF

3.62K viewsAndrey Bezryadin, 17:37

1.82K viewsAndrey Bezryadin, 18:44

This media is not supported in your browser

VIEW IN TELEGRAM

4K полнит. Теперь ты знаешь.

1.92K viewsAndrey Bezryadin, 07:15

This media is not supported in your browser

VIEW IN TELEGRAM

Похоже Looking Glass, разрабатывающие голографические дисплеи, готовятся выйти на рынок с чем-то мобильным или проекционным. В имейле пишут, что будущее, которое нам всем обещали (или рисовали в поп-культуре) ближе, чем мы думаем. И готовят что-то "магическое".

Надпись на японском ミライはあなたの手のひらに переводится как "Mirai у вас на ладони". Что вероятно является отсылкой к серии концертов "Magical Mirai" виртуальной исполнительницы Hatsune Miku, где задействована голографическая проекция.

Анонс запланирован на 5 декабря.

2.14K viewsAndrey Bezryadin, edited 16:19

Media is too big

VIEW IN TELEGRAM

Анонсирован Looking Glass Go — портативный голографический дисплей с поддержкой AI.

* Не занимает много места на столе и помещается даже в карман
* Конвертирует любые фото в голограммы — нейронка предугадывает как должен выглядеть кадр с множества перспектив и показывает его человеку
* Есть поддержка гаусианов и нерфов, которые ближе к 3D
* Предыдущие дисплеи нужно было привязывать к компу для рендеринга голограмм и передачи их на экран. В Go версии всё делается через облако по WiFi.
* Можно сделать голографического аватара для ChatGPT и общаться с ним голосом. На видео пример такого общения с аниме-девочкой на японском.
* Плагины для Unity, Blender, и UE также поддерживаются. Можно и свои 3D проекты показывать, и в разработке игр использовать.

Ценник $199 сегодня и дальше по $300 за минимальный комплект, который придёт не раньше июня 2024. Как по мне это дороговато, учитывая что у них есть портретная версия за $399 если смотреть без скидок, и в ней все те же ништяки с аватарами и плагинами, только экран больше. Правда она привязана к компу, который должен делать рендеринг.

1.95K viewsAndrey Bezryadin, 08:44

This media is not supported in your browser

VIEW IN TELEGRAM

Google представила нейронку Gemini.

* Говорят на бенчах показывает себя лучше GPT-4.
* Модель может работать текстом, кодом, аудио, изображениями и видео.
* Код генерирует через новую AlphaCode 2, которая может справляться с более серьёзными задачами, затрагивающими математику и информатику.

Будет три версии:
* Nano — заточена под мобилки, и имеет размеры 1.8B и 3.25B.
* Pro — ляжет в основу поиска, рекламы, и других продуктов. Обновлённый Bard с Pro под капотом уже доступен в определённых регионах (нужен VPN).
* Ultra — самая мощная модель в линейке, будет внедрена в Bard Advanced с начала следующего года.

Gemini Pro выкатят в открытый доступ 13 декабря через API.

Анонс

1.59K viewsAndrey Bezryadin, 12:54

1.32K viewsAndrey Bezryadin, 12:50