Генератор оптических иллюзий обновился. Добавились новые шаблоны, разрешение стало выше, с большими деталями, и при этом генерится быстрее. Заодно прицепил другие иллюзии, что приглянулись в сети.
Представьте бесконечное полотно RE: FW FW FW RE RE FW FW FW RE RE FW FW FW RE RE FW FW FW RE RE FW FW FW RE RE FW FW FW RE RE FW FW FW RE RE FW FW FW RE RE FW FW FW RE RE FW FW FW RE RE FW FW FW RE RE FW FW FW RE RE FW FW FW RE RE FW FW FW RE RE FW FW FW, которое было бы нужно между художником и заказчиком, чтобы такое получить.
Попробовать
Твит
Представьте бесконечное полотно RE: FW FW FW RE RE FW FW FW RE RE FW FW FW RE RE FW FW FW RE RE FW FW FW RE RE FW FW FW RE RE FW FW FW RE RE FW FW FW RE RE FW FW FW RE RE FW FW FW RE RE FW FW FW RE RE FW FW FW RE RE FW FW FW RE RE FW FW FW RE RE FW FW FW, которое было бы нужно между художником и заказчиком, чтобы такое получить.
Попробовать
Твит
Киберпанк здесь и имя ему Simulon. Чуваки продолжают радовать, показывая процесс работы прилы.
В этот раз нам показали меширование окружения в реальном времени, размещение объектов на нескольких поверхностях (причём как вертикальных так и горизонтальных) и стабильный AR, позволяющий сохранять и воспроизводить 3D-сцены в реальности.
Видос с котаном это шоукейс работы с глубиной и освещением.
Как просчитывается свет они показывали здесь.
В бету можно зайти тут.
В этот раз нам показали меширование окружения в реальном времени, размещение объектов на нескольких поверхностях (причём как вертикальных так и горизонтальных) и стабильный AR, позволяющий сохранять и воспроизводить 3D-сцены в реальности.
Видос с котаном это шоукейс работы с глубиной и освещением.
Как просчитывается свет они показывали здесь.
В бету можно зайти тут.
This media is not supported in your browser
VIEW IN TELEGRAM
FreeU — исследователи нашли способ улучшить качество генерации диффузионных моделей с U-net архитектурой за счёт добавления всего пары строк кода без каких-либо затрат. Не нужно ни тренировки, ни ввода новых параметров, и нет увеличения во времени семплинга или ещё больше VRAM. Работает с картинками и видео.
Сайт
Сайт
OpenAI анонсировали DALL-E 3
Модель следует простому текстовому описанию без детального промта. Слова на картинках тоже может генерить. Будет интеграция с ChatGPT.
OpenAI будет контролировать, что люди генерируют и не давать создать арт с публичными лицами, воспроизвести стили определённых художников, или делать то, что они посчитают не безопасным.
Релиз в октябре для Plus и Enterprise пользователей.
Анонс
Модель следует простому текстовому описанию без детального промта. Слова на картинках тоже может генерить. Будет интеграция с ChatGPT.
OpenAI будет контролировать, что люди генерируют и не давать создать арт с публичными лицами, воспроизвести стили определённых художников, или делать то, что они посчитают не безопасным.
Релиз в октябре для Plus и Enterprise пользователей.
Анонс
This media is not supported in your browser
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
Модель для генерации оптических иллюзий перевертышей. Работает пока не так хорошо как спирали, но я думаю сообщество допилит.
Попробовать
Колаб
Попробовать
Колаб
Дайджест:
📹 ВИДЕО + АРТ 🎨
ProPainter обзавёлся колабом. Работает без веб-интерфейса... *воет по юзверьски*
DreamGaussian: гауссианная генерация 3D-модели занимает 1 минуту против 15 с нерфами. Однако опять нет интерфейса. * выступает дуэт Вой вдвоём*
GSGEN: тоже генерация 3D через гауссианы, и тоже без интерфейса. *группа Voi — переворот стола.mp3*
Простая замена фона через SDXL.
Выкатили демо для FreeU.
Microsoft: показала инструмент CCEdit для смены стиля видео с неплохой консистентностью. Вот только нет кода, и опенсорсный Render-a-Video намного лучше по качеству.
AnimeInBet: генерация промежуточных кадров между кейфреймами в аниме. Напоминает DragNUWA, только код открыт.
CarperAI, являющийся одним из проектов StabilityAI, представили DRLX (Diffusion Reinforcement learning), библиотеку для RLHF диффузионных моделей, которая может помочь с распределённой тренировкой и масштабирование инференса.
Phygital+: добавили легкую рестилизацию SDXL, цветокор, поддержку GPT-4, и другие ништяки.
CSM: добавили генерацию 3D моделей по тексту.
Scene Dreamer: появился код модели для генерации 3D миров по 2D изображению.
Демо InstFlow для быстрой генерации через SD в 1 шаг.
Модель для генерации видео на основе аудио и текстовой подсказки.
🎸 ЗВУК 🎸
Spotify: добавили переводы подкастов на другой язык с сохранением интонации. Работает через Whisper от OpenAI. Странно, что не сообразили своё решение.
🤖 ЧАТЫ 🤖
OpenAI: завезли в ChatGPT, а также GPT-4 возможность скармливать картинки и аудио. Нейронка может давать подсказки что делать и отвечать одним из нескольких голосов на выбор. Постепенно разворачивают это среди владельцев плюсов. Ещё ChatGPT теперь может искать информацию в интернете и его данные обновились до января 2022 года.
Open Interpreter: опенсорсная вариация Code Interpreter от OpenAI, которая работает локально с 100+ LLM.
DVLab: зафайнтюнили ламу-2 13В и 70В работать с 32К контекстом. Демо туть.
Тем временем запрещёнка сама презентовала ламу 2 с 32К контекстом, которая превосходит gpt-3.5-turbo-16k на тестах. Также анонсировала AI чат-бота интегрированного в их сервисы, языковую модель AnyMAL, которая может чатиться по картинкам, видео, аудио, итд. Плюс text-2-image модель Emu, которая может помимо картинок ваять стикеры.
Microsoft: выкатили обнову Windows 11 с AI-фичами, а также интегрировали Bing в упомянутого выше чат-бота запрещёнки.
Mistral: выпустили 7B модель, которая лучше ламы 2-13В на бенчмарках, хорошо умеет в код, обладает 8К контекстом и дружелюбной коммерческой лицензией. Сможешь поиграться на своей игровой видюхе.
Hugging Face Transformers теперь имеют поддержку Flash Attention 2, что значит можно файнтюнить и запускать модели вроде Falcon и ламы в 2 раза быстрее.
QA-LoRA: новый подход к созданию лор, с фокусом на балансе между свободной и квантизацией. Можно применить парой строчек кода.
Intel: выпустили библиотеку на питоне для эффективной квантизации моделей в формат FP8 после тренировки.
BlindChat: опенсорсная альтернатива ChatGPT с фокусом на приватности — работает локально в браузере, на первом запуске качается модель LaMini-Flan-T5-783M.
JAM: фреймворк для модульной совместной работы языковых и генеративных моделей.
DeepSpeed Ulysses: метод высокоэффективного и масштабируемого обучения LLM с чрезвычайно большим контекстом.
DeepSpeed-VisualChat: обучаем 70B языковые модели мультимодальности... нет оно не связано с проектом выше.
VideoDirectorGPT: модель делает подробные описания происходящего на видео. Кода пока нет.
Зато есть проект VidChapters-7M, в котором собран датасет из 817К свободных видео и 7М подписей к ним.
SCREWS: модульный фреймворк дающий LLM возможность вернуться к своему ответу, обдумать его и отвечать лучше в последствии.
ReConcile: круглый стол для LLM, где они могут обсудить шаг за шагом работу над тасками.
CodePlan: планируем и кодим репозитории с помощью LLM. Плюс исследование на тему кибербезопасности кода.
💬 Делайте выжимки из доков и чатьтесь по ним с помощью Claude
📹 ВИДЕО + АРТ 🎨
ProPainter обзавёлся колабом. Работает без веб-интерфейса... *воет по юзверьски*
DreamGaussian: гауссианная генерация 3D-модели занимает 1 минуту против 15 с нерфами. Однако опять нет интерфейса. * выступает дуэт Вой вдвоём*
GSGEN: тоже генерация 3D через гауссианы, и тоже без интерфейса. *группа Voi — переворот стола.mp3*
Простая замена фона через SDXL.
Выкатили демо для FreeU.
Microsoft: показала инструмент CCEdit для смены стиля видео с неплохой консистентностью. Вот только нет кода, и опенсорсный Render-a-Video намного лучше по качеству.
AnimeInBet: генерация промежуточных кадров между кейфреймами в аниме. Напоминает DragNUWA, только код открыт.
CarperAI, являющийся одним из проектов StabilityAI, представили DRLX (Diffusion Reinforcement learning), библиотеку для RLHF диффузионных моделей, которая может помочь с распределённой тренировкой и масштабирование инференса.
Phygital+: добавили легкую рестилизацию SDXL, цветокор, поддержку GPT-4, и другие ништяки.
CSM: добавили генерацию 3D моделей по тексту.
Scene Dreamer: появился код модели для генерации 3D миров по 2D изображению.
Демо InstFlow для быстрой генерации через SD в 1 шаг.
Модель для генерации видео на основе аудио и текстовой подсказки.
🎸 ЗВУК 🎸
Spotify: добавили переводы подкастов на другой язык с сохранением интонации. Работает через Whisper от OpenAI. Странно, что не сообразили своё решение.
🤖 ЧАТЫ 🤖
OpenAI: завезли в ChatGPT, а также GPT-4 возможность скармливать картинки и аудио. Нейронка может давать подсказки что делать и отвечать одним из нескольких голосов на выбор. Постепенно разворачивают это среди владельцев плюсов. Ещё ChatGPT теперь может искать информацию в интернете и его данные обновились до января 2022 года.
Open Interpreter: опенсорсная вариация Code Interpreter от OpenAI, которая работает локально с 100+ LLM.
DVLab: зафайнтюнили ламу-2 13В и 70В работать с 32К контекстом. Демо туть.
Тем временем запрещёнка сама презентовала ламу 2 с 32К контекстом, которая превосходит gpt-3.5-turbo-16k на тестах. Также анонсировала AI чат-бота интегрированного в их сервисы, языковую модель AnyMAL, которая может чатиться по картинкам, видео, аудио, итд. Плюс text-2-image модель Emu, которая может помимо картинок ваять стикеры.
Microsoft: выкатили обнову Windows 11 с AI-фичами, а также интегрировали Bing в упомянутого выше чат-бота запрещёнки.
Mistral: выпустили 7B модель, которая лучше ламы 2-13В на бенчмарках, хорошо умеет в код, обладает 8К контекстом и дружелюбной коммерческой лицензией. Сможешь поиграться на своей игровой видюхе.
Hugging Face Transformers теперь имеют поддержку Flash Attention 2, что значит можно файнтюнить и запускать модели вроде Falcon и ламы в 2 раза быстрее.
QA-LoRA: новый подход к созданию лор, с фокусом на балансе между свободной и квантизацией. Можно применить парой строчек кода.
Intel: выпустили библиотеку на питоне для эффективной квантизации моделей в формат FP8 после тренировки.
BlindChat: опенсорсная альтернатива ChatGPT с фокусом на приватности — работает локально в браузере, на первом запуске качается модель LaMini-Flan-T5-783M.
JAM: фреймворк для модульной совместной работы языковых и генеративных моделей.
DeepSpeed Ulysses: метод высокоэффективного и масштабируемого обучения LLM с чрезвычайно большим контекстом.
DeepSpeed-VisualChat: обучаем 70B языковые модели мультимодальности... нет оно не связано с проектом выше.
VideoDirectorGPT: модель делает подробные описания происходящего на видео. Кода пока нет.
Зато есть проект VidChapters-7M, в котором собран датасет из 817К свободных видео и 7М подписей к ним.
SCREWS: модульный фреймворк дающий LLM возможность вернуться к своему ответу, обдумать его и отвечать лучше в последствии.
ReConcile: круглый стол для LLM, где они могут обсудить шаг за шагом работу над тасками.
CodePlan: планируем и кодим репозитории с помощью LLM. Плюс исследование на тему кибербезопасности кода.
Please open Telegram to view this post
VIEW IN TELEGRAM