Psy Eyes

Чуваки сделали гаусианный AR рендер для iOS устройств с Metal на борту.

Твит
Гитхаб

2.76K viewsAndrey Bezryadin, 11:32

будь бунтарём

2.04K viewsAndrey Bezryadin, 14:07

1.45K viewsAndrey Bezryadin, 15:04

Дайджест:

📹 ВИДЕО + АРТ 🎨

ProPainter обзавёлся колабом. Работает без веб-интерфейса... *воет по юзверьски*

DreamGaussian: гауссианная генерация 3D-модели занимает 1 минуту против 15 с нерфами. Однако опять нет интерфейса. * выступает дуэт Вой вдвоём*

GSGEN: тоже генерация 3D через гауссианы, и тоже без интерфейса. *группа Voi — переворот стола.mp3*

Простая замена фона через SDXL.

Выкатили демо для FreeU.

Microsoft: показала инструмент CCEdit для смены стиля видео с неплохой консистентностью. Вот только нет кода, и опенсорсный Render-a-Video намного лучше по качеству.

AnimeInBet: генерация промежуточных кадров между кейфреймами в аниме. Напоминает DragNUWA, только код открыт.

CarperAI, являющийся одним из проектов StabilityAI, представили DRLX (Diffusion Reinforcement learning), библиотеку для RLHF диффузионных моделей, которая может помочь с распределённой тренировкой и масштабирование инференса.

Phygital+: добавили легкую рестилизацию SDXL, цветокор, поддержку GPT-4, и другие ништяки.

CSM: добавили генерацию 3D моделей по тексту.

Scene Dreamer: появился код модели для генерации 3D миров по 2D изображению.

Демо InstFlow для быстрой генерации через SD в 1 шаг.

Модель для генерации видео на основе аудио и текстовой подсказки.

🎸 ЗВУК 🎸

Spotify: добавили переводы подкастов на другой язык с сохранением интонации. Работает через Whisper от OpenAI. Странно, что не сообразили своё решение.

🤖 ЧАТЫ 🤖

OpenAI: завезли в ChatGPT, а также GPT-4 возможность скармливать картинки и аудио. Нейронка может давать подсказки что делать и отвечать одним из нескольких голосов на выбор. Постепенно разворачивают это среди владельцев плюсов. Ещё ChatGPT теперь может искать информацию в интернете и его данные обновились до января 2022 года.

Open Interpreter: опенсорсная вариация Code Interpreter от OpenAI, которая работает локально с 100+ LLM.

DVLab: зафайнтюнили ламу-2 13В и 70В работать с 32К контекстом. Демо туть.

Тем временем запрещёнка сама презентовала ламу 2 с 32К контекстом, которая превосходит gpt-3.5-turbo-16k на тестах. Также анонсировала AI чат-бота интегрированного в их сервисы, языковую модель AnyMAL, которая может чатиться по картинкам, видео, аудио, итд. Плюс text-2-image модель Emu, которая может помимо картинок ваять стикеры.

Microsoft: выкатили обнову Windows 11 с AI-фичами, а также интегрировали Bing в упомянутого выше чат-бота запрещёнки.

Mistral: выпустили 7B модель, которая лучше ламы 2-13В на бенчмарках, хорошо умеет в код, обладает 8К контекстом и дружелюбной коммерческой лицензией. Сможешь поиграться на своей игровой видюхе.

Hugging Face Transformers теперь имеют поддержку Flash Attention 2, что значит можно файнтюнить и запускать модели вроде Falcon и ламы в 2 раза быстрее.

QA-LoRA: новый подход к созданию лор, с фокусом на балансе между свободной и квантизацией. Можно применить парой строчек кода.

Intel: выпустили библиотеку на питоне для эффективной квантизации моделей в формат FP8 после тренировки.

BlindChat: опенсорсная альтернатива ChatGPT с фокусом на приватности — работает локально в браузере, на первом запуске качается модель LaMini-Flan-T5-783M.

JAM: фреймворк для модульной совместной работы языковых и генеративных моделей.

DeepSpeed Ulysses: метод высокоэффективного и масштабируемого обучения LLM с чрезвычайно большим контекстом.

DeepSpeed-VisualChat: обучаем 70B языковые модели мультимодальности... нет оно не связано с проектом выше.

VideoDirectorGPT: модель делает подробные описания происходящего на видео. Кода пока нет.

Зато есть проект VidChapters-7M, в котором собран датасет из 817К свободных видео и 7М подписей к ним.

SCREWS: модульный фреймворк дающий LLM возможность вернуться к своему ответу, обдумать его и отвечать лучше в последствии.

ReConcile: круглый стол для LLM, где они могут обсудить шаг за шагом работу над тасками.

CodePlan: планируем и кодим репозитории с помощью LLM. Плюс исследование на тему кибербезопасности кода.

💬 Делайте выжимки из доков и чатьтесь по ним с помощью Claude

Please open Telegram to view this post