This media is not supported in your browser
VIEW IN TELEGRAM
Гемифицированный тест Тьюринга: "Человек или бот?"
Подключаешься, чатишься, и когда другая сторона покинула чат угадываешь был это человек или бот.
https://app.humanornot.ai/
Подключаешься, чатишься, и когда другая сторона покинула чат угадываешь был это человек или бот.
https://app.humanornot.ai/
Falcon-40B: модель с 40 миллиардами параметров, созданная TII и обученная на 1 триллионе токенов датасета RefinedWeb с дополнительными корпусами.
* Превосходит LLaMA, StableLM, RedPajama, MPT и другие опенсорсные модели.
* Имеет архитектуру, оптимизированную для инференса (вывода данных) с FlashAttention и multiquery.
* Лицензия Apache 2.0, допускает коммерческое использование без каких-либо отчислений или ограничений.
Помимо сырой модели есть оптимизированная для чата Falcon-40B-Instruct и маленькая Falcon-7B
* Превосходит LLaMA, StableLM, RedPajama, MPT и другие опенсорсные модели.
* Имеет архитектуру, оптимизированную для инференса (вывода данных) с FlashAttention и multiquery.
* Лицензия Apache 2.0, допускает коммерческое использование без каких-либо отчислений или ограничений.
Помимо сырой модели есть оптимизированная для чата Falcon-40B-Instruct и маленькая Falcon-7B
huggingface.co
tiiuae/falcon-40b-instruct · Hugging Face
We’re on a journey to advance and democratize artificial intelligence through open source and open science.
OpenAI представило новый подход к решению математических задач с помощью моделей, обученных на основе процесса, а не только на основе итогового результата. Этот подход, названный "Process Supervision", позволяет модели следовать за "цепочкой мысли", одобренной человеком, на каждом шаге решения задачи. Это приводит к значительному улучшению производительности по сравнению с обучением на основе итогового результата и обеспечивает более высокий уровень согласованности с человеческими ожиданиями.
Пост
Датасет
Бумага
Пост
Датасет
Бумага
This media is not supported in your browser
VIEW IN TELEGRAM
Чувак с помощью нейронок сделал из себя 3D игрового персонажа.
1) Сначала сделал NeRF через Luma
2) Затем экспортировал 3D-меш в блендер для его очистки и оптимизации
3) Через Mixamo подключил авториг и анимацию для AR контроллера
4) Воспользовался AR библиотекой 8th Wall для создания игр с поддержкой джойстика, физики, датчиков приближения, и отражений из реальности.
Автор
1) Сначала сделал NeRF через Luma
2) Затем экспортировал 3D-меш в блендер для его очистки и оптимизации
3) Через Mixamo подключил авториг и анимацию для AR контроллера
4) Воспользовался AR библиотекой 8th Wall для создания игр с поддержкой джойстика, физики, датчиков приближения, и отражений из реальности.
Автор
Дайджест:
📹 ВИДЕО + АРТ 🎨
Make-Your-Video: новая video-2-video модель, можно добиться нормальной консистентности. Напоминает GEN-1 от Runway. Код будет позже.
CelebBasis: ещё один метод как с помощью одного фото за 3 минуты сгенерировать с собой изображение, используя диффузионную модель. Код будет позже.
Google: показали text-2-image модель StyleDrop, которая генерирует изображения с хорошим следованием целевому стилю, учитывая нюансы вроде теней, цвета, и т.д. Кода нет.
Self-guidance: zero-shot метод, с помощью которого можно заменять/перемещать объекты в кадре не трогая контекст сцены. Кода нет.
Conceptor: улучшаем SD на лету следовать семантике через Generative Semantic Nursing (GSN). Кода пока нет.
Cones 2: используем контекст нескольких изображений, чтобы генерить на их основе новые. Напоминает Break-a-scene... и кода тоже нет.
GenMM: генерация движения персонажа без необходимости в тренировке. Кода пока нет.
Würstchen: ускоряем тренировку text-2-image модели вроде SD 1.4 с 150 тыс. GPU часов до 9,2 тыс.
🎸 ЗВУК 🎸
MERT: модель для понимания музыки без человеческого контроля (self-supervised). Модели-учителя RVQ-VAE и CQT направляют модель-студента BERT-style в сторону лучшего понимания и моделирования музыки.
🤖 ЧАТЫ 🤖
Вышла неотцензуренная Wizard Vicuna 30B Uncensored
Обсуждение как цензура влияет на производительность языковых моделей.
LLaMa-Adapter Multimodal: к ламе прикрутили ImageBind и теперь она может чатиться с текстом, изображениями, видео, и аудио.
LLM As Chatbot: чат с разными моделями обновился. Добавилась тёмная тема, возможность задать глобальный контекст, и ещё по-мелочи.
LLaVA-Med: чат помощник по медицинским данным. Работает с изображениями и текстом.
SafeDiffusion: исследование как сделать процесс диффузии более точным. Бумага тут.
💬 Делайте выжимки из доков и чатьтесь по ним с помощью Claude.
📹 ВИДЕО + АРТ 🎨
Make-Your-Video: новая video-2-video модель, можно добиться нормальной консистентности. Напоминает GEN-1 от Runway. Код будет позже.
CelebBasis: ещё один метод как с помощью одного фото за 3 минуты сгенерировать с собой изображение, используя диффузионную модель. Код будет позже.
Google: показали text-2-image модель StyleDrop, которая генерирует изображения с хорошим следованием целевому стилю, учитывая нюансы вроде теней, цвета, и т.д. Кода нет.
Self-guidance: zero-shot метод, с помощью которого можно заменять/перемещать объекты в кадре не трогая контекст сцены. Кода нет.
Conceptor: улучшаем SD на лету следовать семантике через Generative Semantic Nursing (GSN). Кода пока нет.
Cones 2: используем контекст нескольких изображений, чтобы генерить на их основе новые. Напоминает Break-a-scene... и кода тоже нет.
GenMM: генерация движения персонажа без необходимости в тренировке. Кода пока нет.
Würstchen: ускоряем тренировку text-2-image модели вроде SD 1.4 с 150 тыс. GPU часов до 9,2 тыс.
🎸 ЗВУК 🎸
MERT: модель для понимания музыки без человеческого контроля (self-supervised). Модели-учителя RVQ-VAE и CQT направляют модель-студента BERT-style в сторону лучшего понимания и моделирования музыки.
🤖 ЧАТЫ 🤖
Вышла неотцензуренная Wizard Vicuna 30B Uncensored
Обсуждение как цензура влияет на производительность языковых моделей.
LLaMa-Adapter Multimodal: к ламе прикрутили ImageBind и теперь она может чатиться с текстом, изображениями, видео, и аудио.
LLM As Chatbot: чат с разными моделями обновился. Добавилась тёмная тема, возможность задать глобальный контекст, и ещё по-мелочи.
LLaVA-Med: чат помощник по медицинским данным. Работает с изображениями и текстом.
SafeDiffusion: исследование как сделать процесс диффузии более точным. Бумага тут.
Please open Telegram to view this post
VIEW IN TELEGRAM
Media is too big
VIEW IN TELEGRAM
Text-2-image генерация локально на мобильных телефонах за несколько секунд —SnapFusion.
Достигнуто путем внедрения эффективной архитектуры UNet (с выявлением избыточности исходной модели) и сокращения вычислений декодера изображения за счет дистилляции данных. Далее, пошаговая дистилляция улучшается, исследуя стратегии обучения и вводя регуляризацию из руководства без классификатора.
Эксперименты на датасете MS-COCO показывают, что SnapFusion с 8 шагами денойза генерит лучше, чем модель Stable Diffusion v1.5 с 50 шагами.
Бумага
Кода пока нет
Достигнуто путем внедрения эффективной архитектуры UNet (с выявлением избыточности исходной модели) и сокращения вычислений декодера изображения за счет дистилляции данных. Далее, пошаговая дистилляция улучшается, исследуя стратегии обучения и вводя регуляризацию из руководства без классификатора.
Эксперименты на датасете MS-COCO показывают, что SnapFusion с 8 шагами денойза генерит лучше, чем модель Stable Diffusion v1.5 с 50 шагами.
Бумага
Кода пока нет
This media is not supported in your browser
VIEW IN TELEGRAM
Coctail — использование нескольких модальностей для генерации изображений по тексту.
В отличие от предыдущих подходов, для смешивания используется одна модель, которая не требует модификации, что значительно снижает уровень трат.
Под капотом ControlNet общего назначения (gControlNet), контролируемая нормализация (ControlNorm), и метод выборки пространственных ориентиров.
Сайт
В отличие от предыдущих подходов, для смешивания используется одна модель, которая не требует модификации, что значительно снижает уровень трат.
Под капотом ControlNet общего назначения (gControlNet), контролируемая нормализация (ControlNorm), и метод выборки пространственных ориентиров.
Сайт
Дайджест:
📹 ВИДЕО + АРТ 🎨
Phygital+: новые стили для тренировки, смена дня и ночи в кадре, Dreambooth 2.1 теперь не нужны карты глубины, промт-помощники внутри текстового поля.
TextDiffuser: модель для text-2-image генераций, смены стиля и инпейтинга.
Ещё один вариант редактирования изображения текстом. Теперь через DDPM инверсию.
Классификация изображений без словаря.
SAM3D: использование Segment Anything для zero-shot 3D обнаружения.
HeadSculpt: генерация 3D говорящих голов по тексту.
VisualGPTScore: модель для оценки связи между изображением и текстом. Кода пока нет.
Google: представили Video Adapter, метод адаптации больших предобученных текст-видео моделей к генерации узко-специализированного контента, которому их не учили. Кода нет.
Исследование от них же об эффективности диффузии для оценки оптического потока и монокулярной глубины.
🎸 ЗВУК 🎸
ByteDance: представили PolyVoice модель для speech-2-speech голосового перевода. Может сохранять акцент.
🤖 ЧАТЫ 🤖
GPT4ALL: интерфейс теперь поддерживает 100+ локальных LLM моделей. Также добавлены плагины, через которые можно общаться со своими данными (pdf и так далее).
LLM-Blender: модель, в которой можно объединять разные LLM и их преимущества. PairRanker выявляет различия между кандидатами, а GenFuser объединяет лучшие результаты. В комплекте идёт бенчмарк MixInstruct для оценки моделей.
Фреймворк для обнаружения уязвимостей в коде на этапе генерации и редактирования. Подход показывает улучшение выявления эксплоитов на 10% по сравнению с существующими моделями, в то время как применение фреймворка на коде с высокими рисками снижает количество уязвимостей на 90%.
Ламу на 7B параметров оптимизировали под запуск на Metal GPU Apple в M2 Max запустили со скоростью 40 токенов в секунду с 0% нагрузкой на процессор.
Viedo-LLaMA: новы чат с видео на основе ламы.
HuggingChat: теперь может выходить в интернет.
Falcon: появилось демо для модели 40B. Эта опенсорсная модель хорошо себя показывает на тестах и у неё есть коммерческая лицензия.
Gradio: представили возможность разворачивать со своего компа AI-приложения командой из двух слов (
Microsoft: исследование автоматизации процессов с помощью языковых моделей.
Fine-Grained RLHF: тренировка моделей на основе подробных функций вознаграждения для улучшения генерации текста и уменьшения недостатков языковых моделей.
GRES: обновлённый бенчмарк и датасет RES, который теперь берет на вход несколько объектов или никаких вовсе.
Orca-13B: бумага с обучением модели использованию сложных объяснительных следов от GPT-4. Orca превосходит другие модели на сложных тестах и экзаменах, обучаясь пошаговым объяснениям и показывая конкурентоспособную производительность.
InstructZero: оптимизация инструкций для black-box языковых моделей вроде ChatGPT. Осуществляется через low-dimensional soft prompt и методы Bayesian optimization.
OpenAI не хватает GPU, но в ближайших планах у них: снизить цены, сделать API для файнтюна моделей, увеличение контекстного окна, и другое.
Gorilla: модель для вызова естественным языком 1600+ сторонних API. Для связи с API ещё можно юзать ToolBench, который тоже на ламе.
💬 Делайте выжимки из доков и чатьтесь по ним с помощью Claude.
📹 ВИДЕО + АРТ 🎨
Phygital+: новые стили для тренировки, смена дня и ночи в кадре, Dreambooth 2.1 теперь не нужны карты глубины, промт-помощники внутри текстового поля.
TextDiffuser: модель для text-2-image генераций, смены стиля и инпейтинга.
Ещё один вариант редактирования изображения текстом. Теперь через DDPM инверсию.
Классификация изображений без словаря.
SAM3D: использование Segment Anything для zero-shot 3D обнаружения.
HeadSculpt: генерация 3D говорящих голов по тексту.
VisualGPTScore: модель для оценки связи между изображением и текстом. Кода пока нет.
Google: представили Video Adapter, метод адаптации больших предобученных текст-видео моделей к генерации узко-специализированного контента, которому их не учили. Кода нет.
Исследование от них же об эффективности диффузии для оценки оптического потока и монокулярной глубины.
🎸 ЗВУК 🎸
ByteDance: представили PolyVoice модель для speech-2-speech голосового перевода. Может сохранять акцент.
🤖 ЧАТЫ 🤖
GPT4ALL: интерфейс теперь поддерживает 100+ локальных LLM моделей. Также добавлены плагины, через которые можно общаться со своими данными (pdf и так далее).
LLM-Blender: модель, в которой можно объединять разные LLM и их преимущества. PairRanker выявляет различия между кандидатами, а GenFuser объединяет лучшие результаты. В комплекте идёт бенчмарк MixInstruct для оценки моделей.
Фреймворк для обнаружения уязвимостей в коде на этапе генерации и редактирования. Подход показывает улучшение выявления эксплоитов на 10% по сравнению с существующими моделями, в то время как применение фреймворка на коде с высокими рисками снижает количество уязвимостей на 90%.
Ламу на 7B параметров оптимизировали под запуск на Metal GPU Apple в M2 Max запустили со скоростью 40 токенов в секунду с 0% нагрузкой на процессор.
Viedo-LLaMA: новы чат с видео на основе ламы.
HuggingChat: теперь может выходить в интернет.
Falcon: появилось демо для модели 40B. Эта опенсорсная модель хорошо себя показывает на тестах и у неё есть коммерческая лицензия.
Gradio: представили возможность разворачивать со своего компа AI-приложения командой из двух слов (
𝚐𝚛𝚊𝚍𝚒𝚘 𝚍𝚎𝚙𝚕𝚘𝚢) Microsoft: исследование автоматизации процессов с помощью языковых моделей.
Fine-Grained RLHF: тренировка моделей на основе подробных функций вознаграждения для улучшения генерации текста и уменьшения недостатков языковых моделей.
GRES: обновлённый бенчмарк и датасет RES, который теперь берет на вход несколько объектов или никаких вовсе.
Orca-13B: бумага с обучением модели использованию сложных объяснительных следов от GPT-4. Orca превосходит другие модели на сложных тестах и экзаменах, обучаясь пошаговым объяснениям и показывая конкурентоспособную производительность.
InstructZero: оптимизация инструкций для black-box языковых моделей вроде ChatGPT. Осуществляется через low-dimensional soft prompt и методы Bayesian optimization.
OpenAI не хватает GPU, но в ближайших планах у них: снизить цены, сделать API для файнтюна моделей, увеличение контекстного окна, и другое.
Gorilla: модель для вызова естественным языком 1600+ сторонних API. Для связи с API ещё можно юзать ToolBench, который тоже на ламе.
Please open Telegram to view this post
VIEW IN TELEGRAM
QR коды сделанные связкой ControlNet, StyleGAN и модели натренированной на QR кодах. На удивление они читаются.
Сайт
Реддит
Процесс тренировки
Сайт
Реддит
Процесс тренировки
This media is not supported in your browser
VIEW IN TELEGRAM
Планировщик задач для A1111 или Vlad. Можно поставить как через расширение в web-ui так и с гитхаба.
* Повторяющиеся задачи можно добавлять в закладки
* менять промты и модели на лету
* менять местами таски, отменять их, и мониторить историю
* работать через API
* и не только
Установка:
- Открываем "Extensions"
- "Install from URL".
- Вставляем URL репозитория:
- Открываем вкладку "Installed"
- Нажимаем "Apply and restart UI".
Реддит
Гитхаб
* Повторяющиеся задачи можно добавлять в закладки
* менять промты и модели на лету
* менять местами таски, отменять их, и мониторить историю
* работать через API
* и не только
Установка:
- Открываем "Extensions"
- "Install from URL".
- Вставляем URL репозитория:
https://github.com/ArtVentureX/sd-webui-agent-scheduler.git
- Жмём "Install"- Открываем вкладку "Installed"
- Нажимаем "Apply and restart UI".
Реддит
Гитхаб
Media is too big
VIEW IN TELEGRAM
Alibaba Group выходит в свет со своей моделью для контролируемой генерации видео — VideoCompeser.
Работает в режимах:
* text-2-video
* style transfer (на основе картинки и карты глубины)
* video-2-video
Разработали STC-encoder через который можно достигать чёткого следования заданному стилю и хорошей консистентности.
Кода пока нет.
Работает в режимах:
* text-2-video
* style transfer (на основе картинки и карты глубины)
* video-2-video
Разработали STC-encoder через который можно достигать чёткого следования заданному стилю и хорошей консистентности.
Кода пока нет.
Дайджест:
🎸 ЗВУК 🎸
Mega-TTS: генерируем голос из текста с различными атрибутами речи (тембр, фаза, просодия, итд). Вместо использования аудиокодека для кодирования речи в латентное пространство, Mega-TTS использует спектрограмму, что позволяет лучше разделить фазу и другие атрибуты. Кода пока нет.
🤖 ЧАТЫ 🤖
SMEAR (Soft Merging of Experts with Adaptive Routing): новый метод градиентного обучения через слияние экспертных моделей. Он соответствует или превосходит по результатам предыдущие подходы без увеличения затрат или метаданных задачи.
TogetherCompute: выпустили модель RedPajama-INCITE-7B-Base, натренированную на 1Т (триллионе) токенов. Доступно 10 чекпоинтов, плюс скрипты для полного воспроизведения модели. Лицензия Apache 2.0
Исследование оценки моделей генерации кода, используя абстрактные синтаксические деревья.
Natural Program: улучшаем логическое рассуждение в LLM, разбивая сложные цепочки рассуждений на шаг за шагом, что увеличивает точность и интерпретируемость ответов. Код будет позже.
LEACE (LEAst-squares Concept Erasure): удаляем определенные характеристики из представления данных, улучшая справедливость и интерпретируемость моделей. LEACE эффективно препятствует обнаружению концепций всеми линейными классификаторами, минимизируя при этом ущерб для представления данных.
💬 Делайте выжимки из доков и чатьтесь по ним с помощью Claude.
🎸 ЗВУК 🎸
Mega-TTS: генерируем голос из текста с различными атрибутами речи (тембр, фаза, просодия, итд). Вместо использования аудиокодека для кодирования речи в латентное пространство, Mega-TTS использует спектрограмму, что позволяет лучше разделить фазу и другие атрибуты. Кода пока нет.
🤖 ЧАТЫ 🤖
SMEAR (Soft Merging of Experts with Adaptive Routing): новый метод градиентного обучения через слияние экспертных моделей. Он соответствует или превосходит по результатам предыдущие подходы без увеличения затрат или метаданных задачи.
TogetherCompute: выпустили модель RedPajama-INCITE-7B-Base, натренированную на 1Т (триллионе) токенов. Доступно 10 чекпоинтов, плюс скрипты для полного воспроизведения модели. Лицензия Apache 2.0
Исследование оценки моделей генерации кода, используя абстрактные синтаксические деревья.
Natural Program: улучшаем логическое рассуждение в LLM, разбивая сложные цепочки рассуждений на шаг за шагом, что увеличивает точность и интерпретируемость ответов. Код будет позже.
LEACE (LEAst-squares Concept Erasure): удаляем определенные характеристики из представления данных, улучшая справедливость и интерпретируемость моделей. LEACE эффективно препятствует обнаружению концепций всеми линейными классификаторами, минимизируя при этом ущерб для представления данных.
Please open Telegram to view this post
VIEW IN TELEGRAM