Psy Eyes

Генератор оптических иллюзий обновился. Добавились новые шаблоны, разрешение стало выше, с большими деталями, и при этом генерится быстрее. Заодно прицепил другие иллюзии, что приглянулись в сети.

Представьте бесконечное полотно RE: FW FW FW RE RE FW FW FW RE RE FW FW FW RE RE FW FW FW RE RE FW FW FW RE RE FW FW FW RE RE FW FW FW RE RE FW FW FW RE RE FW FW FW RE RE FW FW FW RE RE FW FW FW RE RE FW FW FW RE RE FW FW FW RE RE FW FW FW RE RE FW FW FW, которое было бы нужно между художником и заказчиком, чтобы такое получить.

Попробовать
Твит

1.85K viewsAndrey Bezryadin, 12:40

This media is not supported in your browser

VIEW IN TELEGRAM

0:03

This media is not supported in your browser

VIEW IN TELEGRAM

Киберпанк здесь и имя ему Simulon. Чуваки продолжают радовать, показывая процесс работы прилы.

В этот раз нам показали меширование окружения в реальном времени, размещение объектов на нескольких поверхностях (причём как вертикальных так и горизонтальных) и стабильный AR, позволяющий сохранять и воспроизводить 3D-сцены в реальности.

Видос с котаном это шоукейс работы с глубиной и освещением.

Как просчитывается свет они показывали здесь.

В бету можно зайти тут.

2.4K viewsAndrey Bezryadin, 14:02

Psy Eyes

2:08

This media is not supported in your browser

VIEW IN TELEGRAM

FreeU — исследователи нашли способ улучшить качество генерации диффузионных моделей с U-net архитектурой за счёт добавления всего пары строк кода без каких-либо затрат. Не нужно ни тренировки, ни ввода новых параметров, и нет увеличения во времени семплинга или ещё больше VRAM. Работает с картинками и видео.

Сайт

1.88K viewsAndrey Bezryadin, 07:30

Psy Eyes

OpenAI анонсировали DALL-E 3

Модель следует простому текстовому описанию без детального промта. Слова на картинках тоже может генерить. Будет интеграция с ChatGPT.

OpenAI будет контролировать, что люди генерируют и не давать создать арт с публичными лицами, воспроизвести стили определённых художников, или делать то, что они посчитают не безопасным.

Релиз в октябре для Plus и Enterprise пользователей.

Анонс

1.8K viewsAndrey Bezryadin, 08:29

Psy Eyes

This media is not supported in your browser

VIEW IN TELEGRAM

Rich Text-2-Image вышли в релиз и добавили поддержку SDXL. Можно менять стиль картинки привычным форматированием текста, как в Word.

Сайт
Демо
Гитхаб

1.95K viewsAndrey Bezryadin, 09:32

Psy Eyes

This media is not supported in your browser

VIEW IN TELEGRAM

Модель для генерации оптических иллюзий перевертышей. Работает пока не так хорошо как спирали, но я думаю сообщество допилит.

Попробовать
Колаб

2.06K viewsAndrey Bezryadin, 10:31

Psy Eyes

0:21

This media is not supported in your browser

VIEW IN TELEGRAM

0:30

This media is not supported in your browser

VIEW IN TELEGRAM

Чуваки сделали гаусианный AR рендер для iOS устройств с Metal на борту.

Твит
Гитхаб

2.76K viewsAndrey Bezryadin, 11:32

Psy Eyes

будь бунтарём

2.04K viewsAndrey Bezryadin, 14:07

Psy Eyes

1.45K viewsAndrey Bezryadin, 15:04

Psy Eyes

Дайджест:

📹 ВИДЕО + АРТ 🎨

ProPainter обзавёлся колабом. Работает без веб-интерфейса... *воет по юзверьски*

DreamGaussian: гауссианная генерация 3D-модели занимает 1 минуту против 15 с нерфами. Однако опять нет интерфейса. * выступает дуэт Вой вдвоём*

GSGEN: тоже генерация 3D через гауссианы, и тоже без интерфейса. *группа Voi — переворот стола.mp3*

Простая замена фона через SDXL.

Выкатили демо для FreeU.

Microsoft: показала инструмент CCEdit для смены стиля видео с неплохой консистентностью. Вот только нет кода, и опенсорсный Render-a-Video намного лучше по качеству.

AnimeInBet: генерация промежуточных кадров между кейфреймами в аниме. Напоминает DragNUWA, только код открыт.

CarperAI, являющийся одним из проектов StabilityAI, представили DRLX (Diffusion Reinforcement learning), библиотеку для RLHF диффузионных моделей, которая может помочь с распределённой тренировкой и масштабирование инференса.

Phygital+: добавили легкую рестилизацию SDXL, цветокор, поддержку GPT-4, и другие ништяки.

CSM: добавили генерацию 3D моделей по тексту.

Scene Dreamer: появился код модели для генерации 3D миров по 2D изображению.

Демо InstFlow для быстрой генерации через SD в 1 шаг.

Модель для генерации видео на основе аудио и текстовой подсказки.

🎸 ЗВУК 🎸

Spotify: добавили переводы подкастов на другой язык с сохранением интонации. Работает через Whisper от OpenAI. Странно, что не сообразили своё решение.

🤖 ЧАТЫ 🤖

OpenAI: завезли в ChatGPT, а также GPT-4 возможность скармливать картинки и аудио. Нейронка может давать подсказки что делать и отвечать одним из нескольких голосов на выбор. Постепенно разворачивают это среди владельцев плюсов. Ещё ChatGPT теперь может искать информацию в интернете и его данные обновились до января 2022 года.

Open Interpreter: опенсорсная вариация Code Interpreter от OpenAI, которая работает локально с 100+ LLM.

DVLab: зафайнтюнили ламу-2 13В и 70В работать с 32К контекстом. Демо туть.

Тем временем запрещёнка сама презентовала ламу 2 с 32К контекстом, которая превосходит gpt-3.5-turbo-16k на тестах. Также анонсировала AI чат-бота интегрированного в их сервисы, языковую модель AnyMAL, которая может чатиться по картинкам, видео, аудио, итд. Плюс text-2-image модель Emu, которая может помимо картинок ваять стикеры.

Microsoft: выкатили обнову Windows 11 с AI-фичами, а также интегрировали Bing в упомянутого выше чат-бота запрещёнки.

Mistral: выпустили 7B модель, которая лучше ламы 2-13В на бенчмарках, хорошо умеет в код, обладает 8К контекстом и дружелюбной коммерческой лицензией. Сможешь поиграться на своей игровой видюхе.

Hugging Face Transformers теперь имеют поддержку Flash Attention 2, что значит можно файнтюнить и запускать модели вроде Falcon и ламы в 2 раза быстрее.

QA-LoRA: новый подход к созданию лор, с фокусом на балансе между свободной и квантизацией. Можно применить парой строчек кода.

Intel: выпустили библиотеку на питоне для эффективной квантизации моделей в формат FP8 после тренировки.

BlindChat: опенсорсная альтернатива ChatGPT с фокусом на приватности — работает локально в браузере, на первом запуске качается модель LaMini-Flan-T5-783M.

JAM: фреймворк для модульной совместной работы языковых и генеративных моделей.

DeepSpeed Ulysses: метод высокоэффективного и масштабируемого обучения LLM с чрезвычайно большим контекстом.

DeepSpeed-VisualChat: обучаем 70B языковые модели мультимодальности... нет оно не связано с проектом выше.

VideoDirectorGPT: модель делает подробные описания происходящего на видео. Кода пока нет.

Зато есть проект VidChapters-7M, в котором собран датасет из 817К свободных видео и 7М подписей к ним.

SCREWS: модульный фреймворк дающий LLM возможность вернуться к своему ответу, обдумать его и отвечать лучше в последствии.

ReConcile: круглый стол для LLM, где они могут обсудить шаг за шагом работу над тасками.

CodePlan: планируем и кодим репозитории с помощью LLM. Плюс исследование на тему кибербезопасности кода.

💬 Делайте выжимки из доков и чатьтесь по ним с помощью Claude

Please open Telegram to view this post

VIEW IN TELEGRAM

1.8K viewsAndrey Bezryadin, 15:04

About

Blog

Apps

Platform