Psy Eyes
6.8K subscribers
1.43K photos
1.57K videos
5 files
1.55K links
Креатив + AI + Web3... и мемы

Личная страница @AndreyBezryadin

Купить рекламу: https://telega.in/c/Psy_Eyes
Без наценки Telegain и индивидуальными датами — в личке.
Download Telegram
This media is not supported in your browser
VIEW IN TELEGRAM
Я пару месяцев назад писал, что нейронки потенциально могут заменить объективы в камерах + ведутся работы над нейронными линзами для коррекции оптических искажений.

И тут появляется на горизонте Paragraphica. Камера есть в физическом и цифровом вариантах. Она берет гео-данные с информацией о погоде, времени суток и том на чём должен быть фокус, и конвертирует их в промт с описанием того, что должно быть запечатлено. Три регулятора сверху отвечают за: радиус обзора в метрах (аналог фокусного расстояния), количество начального шума для генерации (аналог зернистости), и guidance scale (чем выше значение, тем ближе фото к промту).

В начале года в твиттере наткнулся на приложения, которое берёт твои фото с друзьями на вечеринке и за счёт SD генерит их в другом контексте, типа в параллельной реальности. Так как о нём больше не слышно, видать далеко оно не ушло. В отличие от той апы, Paragraphica генерит результаты, которыми не зазорно поделиться.

Антенна в виде носа крота (которая у меня больше ассоциируется с пауком), выглядит по-своему интересно. Но это не практично с любой точки зрения.

Суть ведь не в том, чтобы купить себе ещё один обвес, а наоборот убрать из телефона камеру в принципе (и не было причин покупать новый телефон). Чтобы был вместо неё какой-то маленький сенсор, который не поцарапаешь и не разобьёшь, а ты на уровне софта мог подбирать нужную тебе линзу.
This media is not supported in your browser
VIEW IN TELEGRAM
До лета 1 час 25 минут. Время ещё есть!
Дайджест:

📹 ВИДЕО + АРТ 🎨

Обновлённый ControlNet версии 1.1.202 позволяет расширять изображения без промта, подобно Adobe Generative Fill.

4DHumans: отслеживание людей на видео и 3D моушен-трекинг. Работает с необычными позами и воссоздаёт их из одного изображения. Поддерживает работу с несколькими людьми и сохраняет идентичность при заслонении.

Исследование как генерировать результаты не похожие на те, на которых велась тренировка. Плюс ещё один фреймворк с кодом на эту тему: Ambient Diffusion.

🤖 ЧАТЫ 🤖

Tree-Ring Watermarks: метод для создания невидимых водяных знаков на генерациях диффузионных моделей. Сначала выбирается начальный шумовой массив так, чтобы его преобразование Фурье содержало тщательно сконструированный узор у своего центра. Этот узор называется ключом. Затем этот начальный шумовой вектор преобразуется в изображение с помощью стандартного диффузионного конвейера без модификаций. Чтобы обнаружить водяной знак на изображении, диффузионная модель инвертируется для извлечения исходного шумового массива, использованного для генерации. Затем проверяется, присутствует ли ключ в этом массиве.

Tab-CoT: подход цепочного рассуждения в табличном формате. Позволяет моделировать сложные процессы рассуждения в структурированной форме, работая сразу по нескольким измерениям (строкам и столбцам). Показывает сильные способности к нулевому и небольшому обучению на различных задачах рассуждения.

Efficient Diffusion Policies (EDP): метод для обучения оптимальных политик из оффлайн-датасетов в области обучения с подкреплением. Он сокращает время обучения с 5 дней до 5 часов на задачах gym-locomotion, совместим с различными алгоритмами оффлайн-обучения с подкреплением, и устанавливает новый рекорд на D4RL.

Blockwise Parallel Transformer (BPT): метод обучения трансформеров, позволяющий обрабатывать длинные последовательности данных с сохранением эффективности использования памяти. BPT может обучать последовательности до 32 раз длиннее, чем обычные трансформеры, и от 2 до 4 раз длиннее, чем предыдущие методы, экономящие память.

LaCLIP: улучшение обучения CLIP с помощью переписывания текстовых описаний, используя LLM.

ReWOO: отделение процесса рассуждения от внешних наблюдений. Это сокращает потребление токенов автономных агентов AutoPGT и Langchain, увеличивает точность и позволяет переносить способности к рассуждению из больших моделей в меньшие.

PlaSma: добавление языковым моделям процедурных знаний и способности к планированию.

Google: представила многоязычную (100 языков) мультимодалку PaLI-X 55B, через которую можно чатиться с изображениями и текстами. По заверениям разработчиков превосходит другие модели на разнообразных задачах: подписи к изображениям, вопросы-ответы, понимание документа, обнаружение объектов и видео. PaLI-X даёт хорошие результаты не только благодаря своему размеру, но и гибкому обучению. Она демонстрирует возникающие способности, такие как сложный подсчет объектов и многоязычное обнаружение объектов. Кода нет.

💬 Делайте выжимки из доков и чатьтесь по ним с помощью Claude.
Please open Telegram to view this post
VIEW IN TELEGRAM
Media is too big
VIEW IN TELEGRAM
Сравнение Adobe Generative Fill с опенсорсным Gyre.ai на основе Stable Diffusion.
This media is not supported in your browser
VIEW IN TELEGRAM
Ещё один дипфейк, на этот раз если бы вместо Брэда Питта в Бесславных Ублюдках снялся Леонардо Дикаприо.

Реддит
Гитхаб
Гайд
This media is not supported in your browser
VIEW IN TELEGRAM
Гемифицированный тест Тьюринга: "Человек или бот?"

Подключаешься, чатишься, и когда другая сторона покинула чат угадываешь был это человек или бот.

https://app.humanornot.ai/
Falcon-40B: модель с 40 миллиардами параметров, созданная TII и обученная на 1 триллионе токенов датасета RefinedWeb с дополнительными корпусами.

* Превосходит LLaMA, StableLM, RedPajama, MPT и другие опенсорсные модели.
* Имеет архитектуру, оптимизированную для инференса (вывода данных) с FlashAttention и multiquery.
* Лицензия Apache 2.0, допускает коммерческое использование без каких-либо отчислений или ограничений.

Помимо сырой модели есть оптимизированная для чата Falcon-40B-Instruct и маленькая Falcon-7B
OpenAI представило новый подход к решению математических задач с помощью моделей, обученных на основе процесса, а не только на основе итогового результата. Этот подход, названный "Process Supervision", позволяет модели следовать за "цепочкой мысли", одобренной человеком, на каждом шаге решения задачи. Это приводит к значительному улучшению производительности по сравнению с обучением на основе итогового результата и обеспечивает более высокий уровень согласованности с человеческими ожиданиями.

Пост
Датасет
Бумага
This media is not supported in your browser
VIEW IN TELEGRAM
Чувак с помощью нейронок сделал из себя 3D игрового персонажа.

1) Сначала сделал NeRF через Luma

2) Затем экспортировал 3D-меш в блендер для его очистки и оптимизации

3) Через Mixamo подключил авториг и анимацию для AR контроллера

4) Воспользовался AR библиотекой 8th Wall для создания игр с поддержкой джойстика, физики, датчиков приближения, и отражений из реальности.

Автор
Дайджест:

📹 ВИДЕО + АРТ 🎨

Make-Your-Video: новая video-2-video модель, можно добиться нормальной консистентности. Напоминает GEN-1 от Runway. Код будет позже.

CelebBasis: ещё один метод как с помощью одного фото за 3 минуты сгенерировать с собой изображение, используя диффузионную модель. Код будет позже.

Google: показали text-2-image модель StyleDrop, которая генерирует изображения с хорошим следованием целевому стилю, учитывая нюансы вроде теней, цвета, и т.д. Кода нет.

Self-guidance: zero-shot метод, с помощью которого можно заменять/перемещать объекты в кадре не трогая контекст сцены. Кода нет.

Conceptor: улучшаем SD на лету следовать семантике через Generative Semantic Nursing (GSN). Кода пока нет.

Cones 2: используем контекст нескольких изображений, чтобы генерить на их основе новые. Напоминает Break-a-scene... и кода тоже нет.

GenMM: генерация движения персонажа без необходимости в тренировке. Кода пока нет.

Würstchen: ускоряем тренировку text-2-image модели вроде SD 1.4 с 150 тыс. GPU часов до 9,2 тыс.

🎸 ЗВУК 🎸

MERT: модель для понимания музыки без человеческого контроля (self-supervised). Модели-учителя RVQ-VAE и CQT направляют модель-студента BERT-style в сторону лучшего понимания и моделирования музыки.

🤖 ЧАТЫ 🤖

Вышла неотцензуренная Wizard Vicuna 30B Uncensored

Обсуждение как цензура влияет на производительность языковых моделей.

LLaMa-Adapter Multimodal: к ламе прикрутили ImageBind и теперь она может чатиться с текстом, изображениями, видео, и аудио.

LLM As Chatbot: чат с разными моделями обновился. Добавилась тёмная тема, возможность задать глобальный контекст, и ещё по-мелочи.

LLaVA-Med: чат помощник по медицинским данным. Работает с изображениями и текстом.

SafeDiffusion: исследование как сделать процесс диффузии более точным. Бумага тут.

💬 Делайте выжимки из доков и чатьтесь по ним с помощью Claude.
Please open Telegram to view this post
VIEW IN TELEGRAM
Media is too big
VIEW IN TELEGRAM
Text-2-image генерация локально на мобильных телефонах за несколько секунд —SnapFusion.

Достигнуто путем внедрения эффективной архитектуры UNet (с выявлением избыточности исходной модели) и сокращения вычислений декодера изображения за счет дистилляции данных. Далее, пошаговая дистилляция улучшается, исследуя стратегии обучения и вводя регуляризацию из руководства без классификатора.

Эксперименты на датасете MS-COCO показывают, что SnapFusion с 8 шагами денойза генерит лучше, чем модель Stable Diffusion v1.5 с 50 шагами.

Бумага
Кода пока нет
This media is not supported in your browser
VIEW IN TELEGRAM
Coctail — использование нескольких модальностей для генерации изображений по тексту.

В отличие от предыдущих подходов, для смешивания используется одна модель, которая не требует модификации, что значительно снижает уровень трат.

Под капотом ControlNet общего назначения (gControlNet), контролируемая нормализация (ControlNorm), и метод выборки пространственных ориентиров.

Сайт
Дайджест:

📹 ВИДЕО + АРТ 🎨

Phygital+: новые стили для тренировки, смена дня и ночи в кадре, Dreambooth 2.1 теперь не нужны карты глубины, промт-помощники внутри текстового поля.

TextDiffuser: модель для text-2-image генераций, смены стиля и инпейтинга.

Ещё один вариант редактирования изображения текстом. Теперь через DDPM инверсию.

Классификация изображений без словаря.

SAM3D: использование Segment Anything для zero-shot 3D обнаружения.

HeadSculpt: генерация 3D говорящих голов по тексту.

VisualGPTScore: модель для оценки связи между изображением и текстом. Кода пока нет.

Google: представили Video Adapter, метод адаптации больших предобученных текст-видео моделей к генерации узко-специализированного контента, которому их не учили. Кода нет.

Исследование от них же об эффективности диффузии для оценки оптического потока и монокулярной глубины.

🎸 ЗВУК 🎸

ByteDance: представили PolyVoice модель для speech-2-speech голосового перевода. Может сохранять акцент.

🤖 ЧАТЫ 🤖

GPT4ALL: интерфейс теперь поддерживает 100+ локальных LLM моделей. Также добавлены плагины, через которые можно общаться со своими данными (pdf и так далее).

LLM-Blender: модель, в которой можно объединять разные LLM и их преимущества. PairRanker выявляет различия между кандидатами, а GenFuser объединяет лучшие результаты. В комплекте идёт бенчмарк MixInstruct для оценки моделей.

Фреймворк для обнаружения уязвимостей в коде на этапе генерации и редактирования. Подход показывает улучшение выявления эксплоитов на 10% по сравнению с существующими моделями, в то время как применение фреймворка на коде с высокими рисками снижает количество уязвимостей на 90%.

Ламу на 7B параметров оптимизировали под запуск на Metal GPU Apple в M2 Max запустили со скоростью 40 токенов в секунду с 0% нагрузкой на процессор.

Viedo-LLaMA: новы чат с видео на основе ламы.

HuggingChat: теперь может выходить в интернет.

Falcon: появилось демо для модели 40B. Эта опенсорсная модель хорошо себя показывает на тестах и у неё есть коммерческая лицензия.

Gradio: представили возможность разворачивать со своего компа AI-приложения командой из двух слов (𝚐𝚛𝚊𝚍𝚒𝚘 𝚍𝚎𝚙𝚕𝚘𝚢)

Microsoft: исследование автоматизации процессов с помощью языковых моделей.

Fine-Grained RLHF: тренировка моделей на основе подробных функций вознаграждения для улучшения генерации текста и уменьшения недостатков языковых моделей.

GRES: обновлённый бенчмарк и датасет RES, который теперь берет на вход несколько объектов или никаких вовсе.

Orca-13B: бумага с обучением модели использованию сложных объяснительных следов от GPT-4. Orca превосходит другие модели на сложных тестах и экзаменах, обучаясь пошаговым объяснениям и показывая конкурентоспособную производительность.

InstructZero: оптимизация инструкций для black-box языковых моделей вроде ChatGPT. Осуществляется через low-dimensional soft prompt и методы Bayesian optimization.

OpenAI не хватает GPU, но в ближайших планах у них: снизить цены, сделать API для файнтюна моделей, увеличение контекстного окна, и другое.

Gorilla: модель для вызова естественным языком 1600+ сторонних API. Для связи с API ещё можно юзать ToolBench, который тоже на ламе.

💬 Делайте выжимки из доков и чатьтесь по ним с помощью Claude.
Please open Telegram to view this post
VIEW IN TELEGRAM
QR коды сделанные связкой ControlNet, StyleGAN и модели натренированной на QR кодах. На удивление они читаются.

Сайт
Реддит
Процесс тренировки