Psy Eyes
6.8K subscribers
1.43K photos
1.57K videos
5 files
1.55K links
Креатив + AI + Web3... и мемы

Личная страница @AndreyBezryadin

Купить рекламу: https://telega.in/c/Psy_Eyes
Без наценки Telegain и индивидуальными датами — в личке.
Download Telegram
Дайджест:

📹 ВИДЕО + АРТ 🎨

Mix-of-Show: децентрализованный мердж LoRa моделей с сохранением идентичности каждой из них. Метод использует embedding-decomposed LoRA (ED-LoRA) для настройки отдельных лор и градиентное слияние для сохранения сущности каждой из них. Код будет на гитхабе в течение 2 недель.

TaleCrafter: генерация историй с множеством персонажей по текстовому промту и реф изображениям. На выходе получается озвученное видео, например сказка. Кода пока нет.

Photoswap: замена объектов на фотографиях по реф изображению. Модель учится на основе нескольких картинок нового объекта и заменяет его в целевом изображении, сохраняя оригинальную позу и композицию. Кода пока нет.

🤖 ЧАТЫ 🤖

Фреймворк для использования LLM в качестве чат-бот сервиса. Можно засабмитить свою модель.

DNA-GPT: новый подход к обнаружению текста, сгенерированного моделями GPT, без обучения. Метод заключается в N-gram анализе различий между оригинальной и новой частью текста. DNA-GPT показал отличные результаты на английских и немецких датасетах, превосходя классификатор OpenAI.

Chain-of-Thought Hub: платформа для оценки способности больших языковых моделей (LLM) решать сложные задачи. Сравнивает модели меньше 10B с GPT-3.5. Проект поддерживает такие задачи, как математика (GSM8K), наука (MATH, TheoremQA), символическое представление (BBH), знания (MMLU, C-Eval), кодирование (HumanEval)​.

BigTrans: это новый способ обучения моделей, которые могут работать сразу с несколькими языками. Сначала модель учится на языках, по которым есть много данных, а потом добавляются языки, по которым данных меньше. Это помогает модели постепенно учиться работать с новыми языками.

MeZO: файнтюнинг LLM, позволяющий обучить 30B модель на одной A100 80GB.

Исследование забывчивости языковых моделей и как её решить.

SwiftSage: фреймворк для создания AI-агентов, вдохновленный двухпроцессной теорией человеческого мышления.

Intel: анонсировали процессоры 14 поколения Meteor Lake с VPU (vision processing units) для ускорения задач AI.
RAPHAEL — новая text-2-image модель, создающая высокохудожественные изображения, точно следуя промтам (включая существительные, прилагательные и глаголы). При этом текст на генерациях хорошо читается.

RAPHAEL использует смесь экспертных слоев (mixture-of-experts или MoE) для создания миллиардов диффузионных каналов. Каждый такой канал можно представить как "художника", который рисует определенную часть изображения.

Модель RAPHAEL превосходит Stable Diffusion, ERNIE-ViLG 2.0, DeepFloyd и DALL-E 2 по качеству изображения и эстетической привлекательности. И может соперничать с Midjourney.

Кода пока нет.

P.S. как-то мало данных и шума вокруг проекта. Но будем держать руку на пульсе.
This media is not supported in your browser
VIEW IN TELEGRAM
Gen-L-Video: метод создания и редактирования длинных видео на основе множества текстовых промтов без дополнительного обучения и сохранения согласованности контента. Есть схожесть с NUWA-XL, и кода тоже пока нет.
Media is too big
VIEW IN TELEGRAM
Ghost in the Minecraft (GITM) - это новый подход к созданию AI-агентов в Minecraft. Он интегрирует большие языковые модели (LLM) с текстовыми знаниями и памятью для создания агентов, которые могут легко обрабатывать различные задачи. GITM похож на Voyager, номожет достигать 100% прохождения всех предметов в дереве технологий Minecraft Overworld и 67,5% успеха в задаче “ObtainDiamond”.

GITM также очень эффективен и требует только одного узла CPU с 32 ядрами для обучения, в то время как OpenAI’s VPT должен быть обучен в течение 6 480 дней GPU, а DreamerV3 DeepMind должен быть обучен в течение 17 дней GPU.
Media is too big
VIEW IN TELEGRAM
Потестил на своём видео, где скрестил Runway GEN2 + Wonder Dynamics бету нового Premiere Pro (v 23.5) есть функция перевода голоса в текст для поиска по нему нужного кадра, генерации субтитров, и редактирования видеоряда перестановкой слов. Последняя фича не сработала, будем надеяться скоро допилят.

Поставить новый Premiere можно через Creative Cloud как и фотошоп.
Дайджест:

📹 ВИДЕО + АРТ 🎨

MyHeritage: проект для создания семейного древа выпустил инструмент для восстановления и анимации старых фото. Есть похожий проект на основе SD + ControlNet.

RIVAL: инструмент для создания вариаций реальных изображений или восстановления фото с помощью диффузии. Кода пока нет.

StyleAvatar3D: создаём стилизованных 3D-аватаров, используя диффузию для генерации данных и генеративно-состязательные сети (GAN) для обучения. Кода пока нет.

AlteredAvatar: тоже про 3D аватаров, только с точки зрения их адаптации к любым стилям. Метод сочетает прямую оптимизацию и быстрое обучение, после которого модель легко применяет новый стиль, который может быть задан текстом, изображением-референсом или их комбинацией. Кода пока нет.

HiFA: ваяем 3D-объекты из текстовых промтов за счёт использования диффузии + NeRF. Метод обеспечивает высокий уровень фотореализма и согласованность между различными видами. Кода пока нет.

🎸 ЗВУК 🎸

LibriTTS-R: датасет для генерации голоса по тексту. Представляет собой англоязычный корпус с множеством дикторов, содержащий около 585 часов английской речи с частотой дискретизации 24 кГц.

Make-An-Audio 2: генерим аудио по промту. Используются большие языковые модели для преобразования текста в структурированные пары, улучшая захват временной информации. Кода нет.

🤖 ЧАТЫ 🤖

Учёные из MIT с помощью AI открыли антибиотик, который уничтожает смертоносную супербактерию Acinetobacter baumannii. Проанализировав 7000 лекарственных соединений, нейронка за два часа выявила 240 антибактериальных молекул, которые протестировали в лаборатории, и в результате учёные получили новое соединение — абауцин. Оно точечно убивает нужную бактерию, не влияя на другие, а также лечит устойчивые к лекарствам инфекции у мышей и людей.
This media is not supported in your browser
VIEW IN TELEGRAM
Чтобы вы представляли, где мы в плане дипфейков.

Реддит
Гитхаб
Гайд
This media is not supported in your browser
VIEW IN TELEGRAM
Я пару месяцев назад писал, что нейронки потенциально могут заменить объективы в камерах + ведутся работы над нейронными линзами для коррекции оптических искажений.

И тут появляется на горизонте Paragraphica. Камера есть в физическом и цифровом вариантах. Она берет гео-данные с информацией о погоде, времени суток и том на чём должен быть фокус, и конвертирует их в промт с описанием того, что должно быть запечатлено. Три регулятора сверху отвечают за: радиус обзора в метрах (аналог фокусного расстояния), количество начального шума для генерации (аналог зернистости), и guidance scale (чем выше значение, тем ближе фото к промту).

В начале года в твиттере наткнулся на приложения, которое берёт твои фото с друзьями на вечеринке и за счёт SD генерит их в другом контексте, типа в параллельной реальности. Так как о нём больше не слышно, видать далеко оно не ушло. В отличие от той апы, Paragraphica генерит результаты, которыми не зазорно поделиться.

Антенна в виде носа крота (которая у меня больше ассоциируется с пауком), выглядит по-своему интересно. Но это не практично с любой точки зрения.

Суть ведь не в том, чтобы купить себе ещё один обвес, а наоборот убрать из телефона камеру в принципе (и не было причин покупать новый телефон). Чтобы был вместо неё какой-то маленький сенсор, который не поцарапаешь и не разобьёшь, а ты на уровне софта мог подбирать нужную тебе линзу.
This media is not supported in your browser
VIEW IN TELEGRAM
До лета 1 час 25 минут. Время ещё есть!
Дайджест:

📹 ВИДЕО + АРТ 🎨

Обновлённый ControlNet версии 1.1.202 позволяет расширять изображения без промта, подобно Adobe Generative Fill.

4DHumans: отслеживание людей на видео и 3D моушен-трекинг. Работает с необычными позами и воссоздаёт их из одного изображения. Поддерживает работу с несколькими людьми и сохраняет идентичность при заслонении.

Исследование как генерировать результаты не похожие на те, на которых велась тренировка. Плюс ещё один фреймворк с кодом на эту тему: Ambient Diffusion.

🤖 ЧАТЫ 🤖

Tree-Ring Watermarks: метод для создания невидимых водяных знаков на генерациях диффузионных моделей. Сначала выбирается начальный шумовой массив так, чтобы его преобразование Фурье содержало тщательно сконструированный узор у своего центра. Этот узор называется ключом. Затем этот начальный шумовой вектор преобразуется в изображение с помощью стандартного диффузионного конвейера без модификаций. Чтобы обнаружить водяной знак на изображении, диффузионная модель инвертируется для извлечения исходного шумового массива, использованного для генерации. Затем проверяется, присутствует ли ключ в этом массиве.

Tab-CoT: подход цепочного рассуждения в табличном формате. Позволяет моделировать сложные процессы рассуждения в структурированной форме, работая сразу по нескольким измерениям (строкам и столбцам). Показывает сильные способности к нулевому и небольшому обучению на различных задачах рассуждения.

Efficient Diffusion Policies (EDP): метод для обучения оптимальных политик из оффлайн-датасетов в области обучения с подкреплением. Он сокращает время обучения с 5 дней до 5 часов на задачах gym-locomotion, совместим с различными алгоритмами оффлайн-обучения с подкреплением, и устанавливает новый рекорд на D4RL.

Blockwise Parallel Transformer (BPT): метод обучения трансформеров, позволяющий обрабатывать длинные последовательности данных с сохранением эффективности использования памяти. BPT может обучать последовательности до 32 раз длиннее, чем обычные трансформеры, и от 2 до 4 раз длиннее, чем предыдущие методы, экономящие память.

LaCLIP: улучшение обучения CLIP с помощью переписывания текстовых описаний, используя LLM.

ReWOO: отделение процесса рассуждения от внешних наблюдений. Это сокращает потребление токенов автономных агентов AutoPGT и Langchain, увеличивает точность и позволяет переносить способности к рассуждению из больших моделей в меньшие.

PlaSma: добавление языковым моделям процедурных знаний и способности к планированию.

Google: представила многоязычную (100 языков) мультимодалку PaLI-X 55B, через которую можно чатиться с изображениями и текстами. По заверениям разработчиков превосходит другие модели на разнообразных задачах: подписи к изображениям, вопросы-ответы, понимание документа, обнаружение объектов и видео. PaLI-X даёт хорошие результаты не только благодаря своему размеру, но и гибкому обучению. Она демонстрирует возникающие способности, такие как сложный подсчет объектов и многоязычное обнаружение объектов. Кода нет.

💬 Делайте выжимки из доков и чатьтесь по ним с помощью Claude.
Please open Telegram to view this post
VIEW IN TELEGRAM
Media is too big
VIEW IN TELEGRAM
Сравнение Adobe Generative Fill с опенсорсным Gyre.ai на основе Stable Diffusion.
This media is not supported in your browser
VIEW IN TELEGRAM
Ещё один дипфейк, на этот раз если бы вместо Брэда Питта в Бесславных Ублюдках снялся Леонардо Дикаприо.

Реддит
Гитхаб
Гайд
This media is not supported in your browser
VIEW IN TELEGRAM
Гемифицированный тест Тьюринга: "Человек или бот?"

Подключаешься, чатишься, и когда другая сторона покинула чат угадываешь был это человек или бот.

https://app.humanornot.ai/
Falcon-40B: модель с 40 миллиардами параметров, созданная TII и обученная на 1 триллионе токенов датасета RefinedWeb с дополнительными корпусами.

* Превосходит LLaMA, StableLM, RedPajama, MPT и другие опенсорсные модели.
* Имеет архитектуру, оптимизированную для инференса (вывода данных) с FlashAttention и multiquery.
* Лицензия Apache 2.0, допускает коммерческое использование без каких-либо отчислений или ограничений.

Помимо сырой модели есть оптимизированная для чата Falcon-40B-Instruct и маленькая Falcon-7B
OpenAI представило новый подход к решению математических задач с помощью моделей, обученных на основе процесса, а не только на основе итогового результата. Этот подход, названный "Process Supervision", позволяет модели следовать за "цепочкой мысли", одобренной человеком, на каждом шаге решения задачи. Это приводит к значительному улучшению производительности по сравнению с обучением на основе итогового результата и обеспечивает более высокий уровень согласованности с человеческими ожиданиями.

Пост
Датасет
Бумага
This media is not supported in your browser
VIEW IN TELEGRAM
Чувак с помощью нейронок сделал из себя 3D игрового персонажа.

1) Сначала сделал NeRF через Luma

2) Затем экспортировал 3D-меш в блендер для его очистки и оптимизации

3) Через Mixamo подключил авториг и анимацию для AR контроллера

4) Воспользовался AR библиотекой 8th Wall для создания игр с поддержкой джойстика, физики, датчиков приближения, и отражений из реальности.

Автор