Hugging Face запустили опенсорсную версию GPT-store — Assistants.
Можно быстро собрать своего AI-ассистента на основе открытых языковых моделей из 6 на выбор: две Mixtral, CodeLama-70B, Mistral-7B, OpenChat, Лама 2). Просто жмём Create New Assistant, задаём аватарку + название + описание + модель, и указываем системный промт для настройки модели генерить ответы на определённый лад.
Созданные ассистенты будут доступны всем публично и народ их уже не мало наваял. Если нужно приватно, то код UI лежит на гитхабе. Модели тогда надо качать и пришивать отдельно, зато скорее всего выбор будет не ограничен 6 вариантами. Вызывать через API пока нельзя. Также ещё не подрубили веб-поиск и RAG, но за эту фичу народ голосует среди прочего здесь.
Можно быстро собрать своего AI-ассистента на основе открытых языковых моделей из 6 на выбор: две Mixtral, CodeLama-70B, Mistral-7B, OpenChat, Лама 2). Просто жмём Create New Assistant, задаём аватарку + название + описание + модель, и указываем системный промт для настройки модели генерить ответы на определённый лад.
Созданные ассистенты будут доступны всем публично и народ их уже не мало наваял. Если нужно приватно, то код UI лежит на гитхабе. Модели тогда надо качать и пришивать отдельно, зато скорее всего выбор будет не ограничен 6 вариантами. Вызывать через API пока нельзя. Также ещё не подрубили веб-поиск и RAG, но за эту фичу народ голосует среди прочего здесь.
Чтобы два раза не вставать вот ещё Coze как альтернатива GPT-store.
Тут тоже можно создавать своих AI-ассистентов, простыми кликами, но кастомизация очень глубокая и есть работа в приватном режиме. Фичи:
* Публикация ассистента в Telegram, Discord, Reddit, итд прямо из веб апы;
* Под капотом 3 модели на выбор: GPT-4V (8к), Turbo (128к), и ChatGPT (16к). При этом работает без API ключа, VPN и подписки (вероятно не на долго);
* Есть плагины, можно скармливать доки, подрубать веб поиск, генерацию видео/фото/кода;
* Шаблоны из комбинаций плагинов для автоматизации рабчих процессов;
* Долгосрочная память, планировщик задач;
* Режим множества агентов внутри одного бота для обработки сложной логики.
Тут тоже можно создавать своих AI-ассистентов, простыми кликами, но кастомизация очень глубокая и есть работа в приватном режиме. Фичи:
* Публикация ассистента в Telegram, Discord, Reddit, итд прямо из веб апы;
* Под капотом 3 модели на выбор: GPT-4V (8к), Turbo (128к), и ChatGPT (16к). При этом работает без API ключа, VPN и подписки (вероятно не на долго);
* Есть плагины, можно скармливать доки, подрубать веб поиск, генерацию видео/фото/кода;
* Шаблоны из комбинаций плагинов для автоматизации рабчих процессов;
* Долгосрочная память, планировщик задач;
* Режим множества агентов внутри одного бота для обработки сложной логики.
Forwarded from Neurogen
Stable-diffusion-webui-forge: Automatic1111 на спидах
Над stable-diffusion-webui-forge трудится разработчик Fooocus и ControlNet. Внешне, это все тот же привычный всем Automatic1111, но под капотом ряд серьёзных оптимизаций, нацеленных на бюджетный и средний сегмент видеокарт.
Разработчики пишут:
Что касаемо минимальных требований к GPU заявлено следующее: 4 Gb видеопамяти для SD XL и 2 Gb видеопамяти для моделей SD 1.5
В отличие от SD.Next, разработчики обещают не вносить никаких изменений в интерфейс, а работать только над тем, что под капотом.
По аналогии с Fooocus, есть автоматический портативный установщик, скачать его можно с GitHub.
Качаете, распаковываете архив и запускаете через run.bat
Над stable-diffusion-webui-forge трудится разработчик Fooocus и ControlNet. Внешне, это все тот же привычный всем Automatic1111, но под капотом ряд серьёзных оптимизаций, нацеленных на бюджетный и средний сегмент видеокарт.
Разработчики пишут:
Если вы используете распространенную видеокарту с 8 ГБ VRAM, можно ожидать прирост скорости генерации на 30–45% (итераций в секунду), пиковое использование GPU-памяти (в диспетчере задач) снизится примерно на 700 МБ до 1,3 ГБ, максимальное разрешение диффузии (которое не приведет к OOM) увеличится примерно в 2–3 раза, а максимальный размер партии диффузии (который не приведет к OOM) увеличится примерно в 4–6 раз.
Если вы используете менее мощную видеокарту с 6 ГБ VRAM, можно ожидать прирост скорости генерации на 60–75% (итераций в секунду), пиковое использование GPU-памяти (в диспетчере задач) снизится примерно на 800 МБ до 1,5 ГБ, максимальное разрешение диффузии (которое не приведет к OOM) увеличится примерно в 3 раза, а максимальный размер партии диффузии (который не приведет к OOM) увеличится примерно в 4 раза.
Если вы используете мощную видеокарту типа 4090 с 24 ГБ VRAM, можно ожидать прирост скорости генерации на 3–6% (итераций в секунду), пиковое использование GPU-памяти (в диспетчере задач) снизится примерно на 1 ГБ до 1,4 ГБ, максимальное разрешение диффузии (которое не приведет к OOM) увеличится примерно в 1,6 раза, а максимальный размер партии диффузии (который не приведет к OOM) увеличится примерно в 2 раза.
Если вы используете ControlNet для SDXL, максимальное количество ControlNet (которое не приведет к OOM) увеличится примерно в 2 раза, скорость работы с SDXL + ControlNet увеличится примерно на 30–45%.
Что касаемо минимальных требований к GPU заявлено следующее: 4 Gb видеопамяти для SD XL и 2 Gb видеопамяти для моделей SD 1.5
В отличие от SD.Next, разработчики обещают не вносить никаких изменений в интерфейс, а работать только над тем, что под капотом.
По аналогии с Fooocus, есть автоматический портативный установщик, скачать его можно с GitHub.
Качаете, распаковываете архив и запускаете через run.bat
GitHub
GitHub - lllyasviel/stable-diffusion-webui-forge
Contribute to lllyasviel/stable-diffusion-webui-forge development by creating an account on GitHub.
Glif: платформа на которой можно собирать свои AI-приложения, делая ремикс уже существующих, или комбинируя несколько нейронок с нуля как лего. Чтобы изменить чьё-то приложение зайдите в его меню и нажмите Remix, или ткните на иконку со спиралью. Дальше играйтесь с блоками и промтами.
Работает с текстом/картинками/видео, может подхватывать внешние ссылки и генерации из других глифов (так здесь называются опубликованные AI-приложения), есть поддержка Comfy и API.
Похоже на Gradio, но тут не трогаешь код — кастомизация на уровне промтов.
Работает с текстом/картинками/видео, может подхватывать внешние ссылки и генерации из других глифов (так здесь называются опубликованные AI-приложения), есть поддержка Comfy и API.
Похоже на Gradio, но тут не трогаешь код — кастомизация на уровне промтов.
This media is not supported in your browser
VIEW IN TELEGRAM
Wonder Studio добавили отслеживание камеры и облако точек.
С помощью этих инструментов можно синхронизовать игру актера и окружающую его обстановку с движением камеры в 3D-пространстве. Настройки поля зрения и фокусного расстояния тоже подбираются.
При скачивании экспортированной 3D-сцены ваш CG-персонаж будет двигаться в 3D-пространстве, а не только в 2D плоскости.
Также добавили отдельный FBX-файл для камеры, чтобы упростить интеграцию в рабочие процессы.
С помощью этих инструментов можно синхронизовать игру актера и окружающую его обстановку с движением камеры в 3D-пространстве. Настройки поля зрения и фокусного расстояния тоже подбираются.
При скачивании экспортированной 3D-сцены ваш CG-персонаж будет двигаться в 3D-пространстве, а не только в 2D плоскости.
Также добавили отдельный FBX-файл для камеры, чтобы упростить интеграцию в рабочие процессы.
Дайджест:
📹 ВИДЕО + АРТ 🎨
AnyText: замена текста на изображении с учётом стиля. Работает не идеально, но для черновиков или мемов может сгодиться.
GALA: преобразование фото человека в 3D с разбивкой одежды на слои, которые можно комбинировать.
Конкурс генерации интерьерного дизайна с призовым пулом в $15k.
DynamiCrafter: неплохой аниматор изображений, но требовательный к железу. Сравнение с SVD и Pika тут.
Meshy: выпустили версию V2 своего генератора 3D. Улучшилась детализация моделей, и стало больше стилей, включая low poly и voxel.
EscherNet: генерим 3D по одной картинке в нужных позициях камеры.
Phygital+: вернули ноду Blend и добавили подключение референса для Midjourney из любой ноды.
Neural.love: выпустили генератор логотипов.
Apple: редактируем изображение текстовыми указаниями через MGIE.
InteractiveVideo: анимация картинки и редактирование видео промтом.
Генерим анимации через AnimateLCM и меняем стиль видео через Diffutoon. Также на эти темы стоит посмотреть PIA и ещё StreamDiffusion.
Depth Anything добавили в библиотеку transformers.js, а генератор видео I2vGenXL в библиотеку diffusers.
Odyssey: нодовый интерфейс для локальной генерации изображений и текста на Mac. (спс @JohnDoe171)
Апскейлим фото через SUPIR и улучшаем видео через FMA-Net. Из других вариков на тему ещё можно попробовать PASD или Span или DiffBIR или StableSR.
OwlSAM: сегментатор картинок.
🎸 ЗВУК 🎸
CreateOS: открыли публичный доступ к Triniti, инструмента для генерации музыки, клонирования голоса, и воспроизведения вокала целевого артиста нужным образом.
MetaVoice-1B: небольшая моделька для клонирования голоса, натренированная на 100к часов аудио. XTTS и HierSpeech++ пока всё ещё звучат лучше.
Генератор звуковых эффектов для картинки. Три модели на выбор: MAGNet, AudioLDM-2, и AudioGen.
И генератор музыки из картинки.
🤖 ЧАТЫ 🤖
Gradio: обновился до V 4.17. Много мелких улучшений. Ещё можно модальные окна теперь выдавать.
AutoLLM: фреймворк для файнтюна языковых моделей (LLM) с поддержкой внешнего источника знаний (RAG).
Yandex: представили метод квантизации AQLM, позволяющий сжимать модели вплоть до 2 бит, и как следствие запускать Llama 2 70b на RTX 3090 или маленькие модели на мобилках.
Nuanced: выкатили детектор сгенерированных картинок.
Vikhr (Вихрь): серия русифицированных LLM. Разрабы адаптируют разные открытые модели на русский язык.
CogCoM: визуальная языковая модель (VLM), которая может изменять изображение (приближение, кадрирование, итд) для лучшего общения по нему.
MobileVLM: вышла версия V2 этой VLM, заточенной под работу на мобилках. Под капотом новая архитектура и повысившаяся производительность.
BlackMamba: языковая модель на новой архитектуре, сочетающей модели пространства состояний (SSM) и коллаб экспертов (MoE) как Mixtral. В качестве блока SSM в ней используется Mamba, а в качестве базы для блока MoE — переключающий трансформатор.
Qwen 1.5: чат с большой моделью в 72B.
Google: предлагают запускать нейронки, не используя GPU — только CPU и RAM с помощью localllm.... на их облачных рабочих станциях.
Nomic Embed: новая энкодер модель для получения эмбеддингов.
EVA: новая CLIP модель с 18B параметрами.
SynthCLIP: тренировка CLIP моделей на синтетических данных.
📹 ВИДЕО + АРТ 🎨
AnyText: замена текста на изображении с учётом стиля. Работает не идеально, но для черновиков или мемов может сгодиться.
GALA: преобразование фото человека в 3D с разбивкой одежды на слои, которые можно комбинировать.
Конкурс генерации интерьерного дизайна с призовым пулом в $15k.
DynamiCrafter: неплохой аниматор изображений, но требовательный к железу. Сравнение с SVD и Pika тут.
Meshy: выпустили версию V2 своего генератора 3D. Улучшилась детализация моделей, и стало больше стилей, включая low poly и voxel.
EscherNet: генерим 3D по одной картинке в нужных позициях камеры.
Phygital+: вернули ноду Blend и добавили подключение референса для Midjourney из любой ноды.
Neural.love: выпустили генератор логотипов.
Apple: редактируем изображение текстовыми указаниями через MGIE.
InteractiveVideo: анимация картинки и редактирование видео промтом.
Генерим анимации через AnimateLCM и меняем стиль видео через Diffutoon. Также на эти темы стоит посмотреть PIA и ещё StreamDiffusion.
Depth Anything добавили в библиотеку transformers.js, а генератор видео I2vGenXL в библиотеку diffusers.
Odyssey: нодовый интерфейс для локальной генерации изображений и текста на Mac. (спс @JohnDoe171)
Апскейлим фото через SUPIR и улучшаем видео через FMA-Net. Из других вариков на тему ещё можно попробовать PASD или Span или DiffBIR или StableSR.
OwlSAM: сегментатор картинок.
🎸 ЗВУК 🎸
CreateOS: открыли публичный доступ к Triniti, инструмента для генерации музыки, клонирования голоса, и воспроизведения вокала целевого артиста нужным образом.
MetaVoice-1B: небольшая моделька для клонирования голоса, натренированная на 100к часов аудио. XTTS и HierSpeech++ пока всё ещё звучат лучше.
Генератор звуковых эффектов для картинки. Три модели на выбор: MAGNet, AudioLDM-2, и AudioGen.
И генератор музыки из картинки.
🤖 ЧАТЫ 🤖
Gradio: обновился до V 4.17. Много мелких улучшений. Ещё можно модальные окна теперь выдавать.
AutoLLM: фреймворк для файнтюна языковых моделей (LLM) с поддержкой внешнего источника знаний (RAG).
Yandex: представили метод квантизации AQLM, позволяющий сжимать модели вплоть до 2 бит, и как следствие запускать Llama 2 70b на RTX 3090 или маленькие модели на мобилках.
Nuanced: выкатили детектор сгенерированных картинок.
Vikhr (Вихрь): серия русифицированных LLM. Разрабы адаптируют разные открытые модели на русский язык.
CogCoM: визуальная языковая модель (VLM), которая может изменять изображение (приближение, кадрирование, итд) для лучшего общения по нему.
MobileVLM: вышла версия V2 этой VLM, заточенной под работу на мобилках. Под капотом новая архитектура и повысившаяся производительность.
BlackMamba: языковая модель на новой архитектуре, сочетающей модели пространства состояний (SSM) и коллаб экспертов (MoE) как Mixtral. В качестве блока SSM в ней используется Mamba, а в качестве базы для блока MoE — переключающий трансформатор.
Qwen 1.5: чат с большой моделью в 72B.
Google: предлагают запускать нейронки, не используя GPU — только CPU и RAM с помощью localllm.... на их облачных рабочих станциях.
Nomic Embed: новая энкодер модель для получения эмбеддингов.
EVA: новая CLIP модель с 18B параметрами.
SynthCLIP: тренировка CLIP моделей на синтетических данных.
Forwarded from Метаверсище и ИИще (Sergey Tsyptsyn ️️)
Экспертный совет для картинок. Stable Diffusion Mixture of Experts
Помните недавно вышел Микстраль 8x7B, построенный на концепции Mixture of Experts. Там внутри как бы несколько LLM(экспертов) и раутер, которые решает, кому лучше отдать решение задачи-запроса, пришедшего от пользователя. Обычно промпт отдается двум экспертам, которых выбрал раутер, и они уже хлещутся друг с другом о том, как лучше ответить на входящий промпт.
А теперь представьте такое же, только для картинок!
Ну и встречайте: SegMoE: Segmind Mixture Of Diffusion Experts
Если кратко.
Модели SegMoE имеют ту же архитектуру, что и Stable Diffusion. Как и в Mixtral 8x7b, модель SegMoE представляет собой несколько моделей в одной. Это происходит за счет замены некоторых слоев Feed-Forward на разреженный слой MoE. Слой MoE содержит сеть маршрутизаторов для выбора экспертов, которые обрабатывают токены наиболее эффективно. Вы можете использовать пакет segmoe для создания собственных моделей MoE!
https://huggingface.co/blog/segmoe#what-is-segmoe
Господа Гупта, Вишну и Прабхала сотворили настоящую камасутру для генерации картинок - смотрите прмеры на сайте. И давайте погадаем, сколько видеопамяти понадобится для такой оргии диффузионных агентов.
Ну круто же. Даете промпт, а там под ковром начинается возня, кто и как сделает именно вашу картинку. Можете устраивать баттлы из чекпойнтов. Можно подгружать туда свои чекпойнты.
Код? Апажалста:
https://github.com/segmind/segmoe
Не верите, что это работает? Глядите сюда:
https://www.youtube.com/watch?v=6Q4BJOcvwGE
Не терпится попробовать без питонинга? Уже есть имплементейшен для ComfyUI:
https://github.com/ZHO-ZHO-ZHO/ComfyUI-SegMoE
Помните недавно вышел Микстраль 8x7B, построенный на концепции Mixture of Experts. Там внутри как бы несколько LLM(экспертов) и раутер, которые решает, кому лучше отдать решение задачи-запроса, пришедшего от пользователя. Обычно промпт отдается двум экспертам, которых выбрал раутер, и они уже хлещутся друг с другом о том, как лучше ответить на входящий промпт.
А теперь представьте такое же, только для картинок!
Ну и встречайте: SegMoE: Segmind Mixture Of Diffusion Experts
Если кратко.
Модели SegMoE имеют ту же архитектуру, что и Stable Diffusion. Как и в Mixtral 8x7b, модель SegMoE представляет собой несколько моделей в одной. Это происходит за счет замены некоторых слоев Feed-Forward на разреженный слой MoE. Слой MoE содержит сеть маршрутизаторов для выбора экспертов, которые обрабатывают токены наиболее эффективно. Вы можете использовать пакет segmoe для создания собственных моделей MoE!
https://huggingface.co/blog/segmoe#what-is-segmoe
Господа Гупта, Вишну и Прабхала сотворили настоящую камасутру для генерации картинок - смотрите прмеры на сайте. И давайте погадаем, сколько видеопамяти понадобится для такой оргии диффузионных агентов.
Ну круто же. Даете промпт, а там под ковром начинается возня, кто и как сделает именно вашу картинку. Можете устраивать баттлы из чекпойнтов. Можно подгружать туда свои чекпойнты.
Код? Апажалста:
https://github.com/segmind/segmoe
Не верите, что это работает? Глядите сюда:
https://www.youtube.com/watch?v=6Q4BJOcvwGE
Не терпится попробовать без питонинга? Уже есть имплементейшен для ComfyUI:
https://github.com/ZHO-ZHO-ZHO/ComfyUI-SegMoE
Forwarded from 42 секунды
TechCrunch: Google отказывается от Bard, заменяет Assistant на Gemini и запускает платную модель Gemini Ultra за $20
– Спустя год после запуска Google отказался от бренда Bard
– Новым название семейства базовых моделей будет Gemini
– Также Google выпустил самую мощную модель Gemini Ultra
– Gemini Ultra будет платной, она станет частью Google One
– Новый уровень подписки Google One будет стоить $20/мес.
– Он включает 2 ТБ хранилища и другие сервисы Google One
– Gemini будет доступна в Google Docs, Slides, Sheets и Meet
– При этом Google также закроет собственный бренд Duet AI
– Компания также запускает приложение Gemini для Android
– Теперь можно будет заменить Google Assistant на Gemini
– Скоро Google запустит API для новой модели Gemini Ultra
– Gemini Advanced на английском запустят для 150+ регионов
@ftsec
– Спустя год после запуска Google отказался от бренда Bard
– Новым название семейства базовых моделей будет Gemini
– Также Google выпустил самую мощную модель Gemini Ultra
– Gemini Ultra будет платной, она станет частью Google One
– Новый уровень подписки Google One будет стоить $20/мес.
– Он включает 2 ТБ хранилища и другие сервисы Google One
– Gemini будет доступна в Google Docs, Slides, Sheets и Meet
– При этом Google также закроет собственный бренд Duet AI
– Компания также запускает приложение Gemini для Android
– Теперь можно будет заменить Google Assistant на Gemini
– Скоро Google запустит API для новой модели Gemini Ultra
– Gemini Advanced на английском запустят для 150+ регионов
@ftsec
Короткометражка backflip, в которой цифровой двойник героя учится за него делать бэкфлип. Выглядит забавно, пусть и несколько затянуто.
Никита (автор) хотел научиться делать бэкфлип, но в процессе тренировки сломал палец на ноге, что даже запечатлено в making of. Затем он наткнулся на видео, как нейронки с нуля учатся ходить и решил, что пусть хотя бы его аватар будет уметь делать бэкфлип.
В качестве основы для воспроизведения движения он с командой использовал DeepMimic. Липсинк делали через Wav2Lip, голос тоже чем-то клонировали. Снято это было давно и с тех пор появилось много более совершенных инструментов.
В начале тренировки аватар также как и человек делает движения неуклюже и неуверенно, но сквозь ошибки, чем больше он пробует, тем лучше у него получается. Счастливое лицо аватара в конце бесценно.
Как говорится многое решается практикой — терпение и труд все перетрут. Так что не бойтесь пробовать, ошибатьсяи застревать в текстурах: всё пойдёт в опыт на Level UP.
Чем способнее будут цифровые двойники, тем больше разной работы на них будет перекладываться. В первой очередь рутинной: чтение входящей почты и уведомлений, выжимка сохранёнок и длинных видосов, итд.
Какие на ваш взгляд другие применения нам предстоит увидеть и какие вы видите здесь долгосрочные последствия?
Например, преодоление эмоционально барьера: AI анализирует профиль собеседника, тон общения и подсказывает варианты ответов. Можно этим пользоваться изредка, и мотать на ус принцип анализа, чтобы потом применять эти знания где-угодно даже оффлайн. А можно лениво бросать свои кости на стол, надеясь что в рулетке ответов всегда будет выпадать джекпот и так из-за него никогда и не встать.
Или если выкручивать автоматизацию на максимум: дать полностью вести свой профиль/аватар (настройка визуала + переписки + путешествие в мете) ради создания "улучшенной" версии себя. Можно смотреть, что он делает, что работает/не работает, и пробовать на практике, экономя время и наращивая толщину кожи... А можно вообще не следить и подходить к телефону только когда тебя позовут. Кто из вас двоих в этом случае живёт, а кто отбывает жизнь?
Даже, если вернуться к моменту с выжимкой информации/получению знаний: можно попросить научить себя новому или пытаться разобраться во всём самому, обращаясь к нейронке только по необходимости, и стараясь всю информацию установить локально в ваш мозг, делая её доступной оффлайн в любой момент. А можно ходить с головой в облаках, ожидая что сервис будет всегда онлайн, и шнур никто не выдернет.
Грубо говоря, если сейчас форматнуть диск С и вы никуда не глядя сможете быстрее, чем в прошлый раз установить софт и сгенерить контент (а может и промты набить ручками) — это шаг вперёд. Если знания/навыки с вами не остались — у вас их никогда и не было. Продлевайте подписку.
Технология это ложка: ей можно есть кашку, а можно тыльной стороной и глаз выколоть. Как ей пользоваться — зависит только от нас.
PS: Vimeo всё так же арт-галерея, а ютуб помойка.
Никита (автор) хотел научиться делать бэкфлип, но в процессе тренировки сломал палец на ноге, что даже запечатлено в making of. Затем он наткнулся на видео, как нейронки с нуля учатся ходить и решил, что пусть хотя бы его аватар будет уметь делать бэкфлип.
В качестве основы для воспроизведения движения он с командой использовал DeepMimic. Липсинк делали через Wav2Lip, голос тоже чем-то клонировали. Снято это было давно и с тех пор появилось много более совершенных инструментов.
В начале тренировки аватар также как и человек делает движения неуклюже и неуверенно, но сквозь ошибки, чем больше он пробует, тем лучше у него получается. Счастливое лицо аватара в конце бесценно.
Как говорится многое решается практикой — терпение и труд все перетрут. Так что не бойтесь пробовать, ошибаться
Чем способнее будут цифровые двойники, тем больше разной работы на них будет перекладываться. В первой очередь рутинной: чтение входящей почты и уведомлений, выжимка сохранёнок и длинных видосов, итд.
Какие на ваш взгляд другие применения нам предстоит увидеть и какие вы видите здесь долгосрочные последствия?
Например, преодоление эмоционально барьера: AI анализирует профиль собеседника, тон общения и подсказывает варианты ответов. Можно этим пользоваться изредка, и мотать на ус принцип анализа, чтобы потом применять эти знания где-угодно даже оффлайн. А можно лениво бросать свои кости на стол, надеясь что в рулетке ответов всегда будет выпадать джекпот и так из-за него никогда и не встать.
Или если выкручивать автоматизацию на максимум: дать полностью вести свой профиль/аватар (настройка визуала + переписки + путешествие в мете) ради создания "улучшенной" версии себя. Можно смотреть, что он делает, что работает/не работает, и пробовать на практике, экономя время и наращивая толщину кожи... А можно вообще не следить и подходить к телефону только когда тебя позовут. Кто из вас двоих в этом случае живёт, а кто отбывает жизнь?
Даже, если вернуться к моменту с выжимкой информации/получению знаний: можно попросить научить себя новому или пытаться разобраться во всём самому, обращаясь к нейронке только по необходимости, и стараясь всю информацию установить локально в ваш мозг, делая её доступной оффлайн в любой момент. А можно ходить с головой в облаках, ожидая что сервис будет всегда онлайн, и шнур никто не выдернет.
Грубо говоря, если сейчас форматнуть диск С и вы никуда не глядя сможете быстрее, чем в прошлый раз установить софт и сгенерить контент (а может и промты набить ручками) — это шаг вперёд. Если знания/навыки с вами не остались — у вас их никогда и не было. Продлевайте подписку.
Технология это ложка: ей можно есть кашку, а можно тыльной стороной и глаз выколоть. Как ей пользоваться — зависит только от нас.
PS: Vimeo всё так же арт-галерея, а ютуб помойка.
Vimeo
backflip
A fun film about a topic that scares me a lot. In 2019, I gave backflipping a shot, but it didn't go well. Fear and a broken toe killed my confidence, and…
Forwarded from Neurogen
NVIDIA представляет "Chat with RTX" — инновационное приложение, которое позволяет создавать персонализированные чат-боты непосредственно на вашем ПК с помощью видеокарт NVIDIA GeForce RTX 30 серии и выше.
Основная особенность "Chat with RTX" заключается в возможности использовать локальную обработку данных, что обеспечивает повышенную конфиденциальность и скорость ответов. Пользователи могут легко настроить чат-бота, используя свои собственные данные и файлы, хранящиеся на компьютере.
При помощи технологии retrieval-augmented generation (RAG), программного обеспечения NVIDIA TensorRT-LLM и ускорения RTX, "Chat with RTX" обеспечивает быстрые и контекстно релевантные ответы. Пользователи могут задавать вопросы, например, о рекомендациях ресторанов или получении инструкций, и чат-бот будет сканировать локальные файлы для предоставления ответа с учетом контекста.
Приложение поддерживает различные форматы файлов, включая .txt, .pdf, .doc/.docx и .xml, а также интегрирует информацию из видео на YouTube.
Для работы с приложением требуется видеокарта RTX 3000 или 4000 серии с минимум 8 Гб видеопамяти, а также 16 гигабайт оперативной памяти, а также Windows 11.
Скачать Chat with RTX можно с официального сайта Nvidia
Основная особенность "Chat with RTX" заключается в возможности использовать локальную обработку данных, что обеспечивает повышенную конфиденциальность и скорость ответов. Пользователи могут легко настроить чат-бота, используя свои собственные данные и файлы, хранящиеся на компьютере.
При помощи технологии retrieval-augmented generation (RAG), программного обеспечения NVIDIA TensorRT-LLM и ускорения RTX, "Chat with RTX" обеспечивает быстрые и контекстно релевантные ответы. Пользователи могут задавать вопросы, например, о рекомендациях ресторанов или получении инструкций, и чат-бот будет сканировать локальные файлы для предоставления ответа с учетом контекста.
Приложение поддерживает различные форматы файлов, включая .txt, .pdf, .doc/.docx и .xml, а также интегрирует информацию из видео на YouTube.
Для работы с приложением требуется видеокарта RTX 3000 или 4000 серии с минимум 8 Гб видеопамяти, а также 16 гигабайт оперативной памяти, а также Windows 11.
Скачать Chat with RTX можно с официального сайта Nvidia
NVIDIA
NVIDIA ChatRTX
A demo app that lets you personalize a GPT large language model (LLM) connected to your own content—docs, notes, videos, or other data.
Stability выпустили модель Cascade (она же Würstchen v3), которая быстро генерит в высоком разрешении и из коробки умеет в текст на изображении. Есть поддержка контролнета и лор.
Построена на архитектуре Würstchen. В латентном пространстве сжимает в 42 раза изображения размером 1024x1024 до 24x24, а на выходе разжимает без потери качества.
Гайд по установке в пару кликов через Pinokio.
Демо (хаггинг)
Демо (коллаб)
Анонс с деталями
Модель
Гитхаб
Построена на архитектуре Würstchen. В латентном пространстве сжимает в 42 раза изображения размером 1024x1024 до 24x24, а на выходе разжимает без потери качества.
Гайд по установке в пару кликов через Pinokio.
Демо (хаггинг)
Демо (коллаб)
Анонс с деталями
Модель
Гитхаб
Ещё от Stability: они на прошлой неделе по-тихому выпустили SVD v 1.1 для анимации изображений. Я ждал какого-то официального анонса, но видимо дальше ждать нет смысла.
Обновлённая версия зафайнтюнена генерить на скорости 25 к/с в разрешении 1024х576. Повысилась детализация видео, его консистентность и плавность движения камеры. На выходе получаются результаты в несколько секунд. Можно сделать упор на быстрый монтаж как в Шторме (твиттер автора), а можно на медитатив, как с Ёжиком в тумане.
Тут плотное сравнение v1 с обновлённой версией.
Можно гонять в ComfyUI, а можно в Forge, или ENFUGUE.
Модель на хаггинге
Подробнее про SVD
Обновлённая версия зафайнтюнена генерить на скорости 25 к/с в разрешении 1024х576. Повысилась детализация видео, его консистентность и плавность движения камеры. На выходе получаются результаты в несколько секунд. Можно сделать упор на быстрый монтаж как в Шторме (твиттер автора), а можно на медитатив, как с Ёжиком в тумане.
Тут плотное сравнение v1 с обновлённой версией.
Можно гонять в ComfyUI, а можно в Forge, или ENFUGUE.
Модель на хаггинге
Подробнее про SVD
Media is too big
VIEW IN TELEGRAM
Media is too big
VIEW IN TELEGRAM
Media is too big
VIEW IN TELEGRAM
Media is too big
VIEW IN TELEGRAM
Media is too big
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
Media is too big
VIEW IN TELEGRAM
Media is too big
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
OpenAI показали видео генератор Sora.
Качество картинки не сравнимо лучше, чем у Pika, Runway, и SVD. Про остальные варианты даже говорить нет смысла.
Модель умеет генерить из текста или изображения видео в высоком разрешении длинной в 1 минуту, может выдавать сложные сцены с несколькими персонажами, определенными типами движения и точной детализацией объекта и фона. Sora способна продолжать и уже существующие видосы. Также она понимает не только то, что пользователь запрашивает в подсказке, но и то, как эти вещи существуют в физическом мире.
Из примеров видно, что у Sora хорошее (пусть и не идеальное) понимание физики. Если в Runway на старте Gen-2 ты ощущал, что для модели все объекты в кадре словно вырезаны из бумаги и она просто двигает их по плоскости, не понимая пространство, то с Sora ты видишь, что она умеет в объём и осознаёт как объекты и их окружение должны перемещаться в кадре и взаимодействовать. Сюда же входит работа с освещением и отражениями.
Отдельно отмечу генерацию casual контента, типа съёмка с мобильной камеры вида из окна поезда. То, что у модели сходу реалистично получается такое выдавать это очень серьёзный показатель.
Когда релиз неизвестно.
Больше примеров на странице анонса и в твиттере Сэма, где он выборочно генерит промты, что люди ему пишут.
Качество картинки не сравнимо лучше, чем у Pika, Runway, и SVD. Про остальные варианты даже говорить нет смысла.
Модель умеет генерить из текста или изображения видео в высоком разрешении длинной в 1 минуту, может выдавать сложные сцены с несколькими персонажами, определенными типами движения и точной детализацией объекта и фона. Sora способна продолжать и уже существующие видосы. Также она понимает не только то, что пользователь запрашивает в подсказке, но и то, как эти вещи существуют в физическом мире.
Из примеров видно, что у Sora хорошее (пусть и не идеальное) понимание физики. Если в Runway на старте Gen-2 ты ощущал, что для модели все объекты в кадре словно вырезаны из бумаги и она просто двигает их по плоскости, не понимая пространство, то с Sora ты видишь, что она умеет в объём и осознаёт как объекты и их окружение должны перемещаться в кадре и взаимодействовать. Сюда же входит работа с освещением и отражениями.
Отдельно отмечу генерацию casual контента, типа съёмка с мобильной камеры вида из окна поезда. То, что у модели сходу реалистично получается такое выдавать это очень серьёзный показатель.
Когда релиз неизвестно.
Больше примеров на странице анонса и в твиттере Сэма, где он выборочно генерит промты, что люди ему пишут.