GEN2 + Wonder Dynamics + Uberduck
1) Сгенерил с помощью Runway GEN-2 базовый футаж с людьми (WD только их нормально распознаёт).
2) В Wonder Dynamics заменил людей на целевых персонажей (на 3 сек уходит полтора часа рендера)
3) В Runway убрал фон и добавил сабы
4) На основе сабов сгенерил озвучку в Uberduck
5) Вкинул в Runway и пустил на рендер.
Итоговое видео и behind the scenes прицепляю. Have fun!
1) Сгенерил с помощью Runway GEN-2 базовый футаж с людьми (WD только их нормально распознаёт).
2) В Wonder Dynamics заменил людей на целевых персонажей (на 3 сек уходит полтора часа рендера)
3) В Runway убрал фон и добавил сабы
4) На основе сабов сгенерил озвучку в Uberduck
5) Вкинул в Runway и пустил на рендер.
Итоговое видео и behind the scenes прицепляю. Have fun!
Bytadance, создатели TikTok, выпустили модель, которая может разбить аудио на сотни звуковых классов. Может пригодиться, например, если проект композиции потерян, а нужно вытащить семпл/стем.
Код открыт, но то, что вместо демонстрационного видео приложен ноториально-заверенный скриншот, не внушает. Тем не менее затестим.
Гитхаб
Код открыт, но то, что вместо демонстрационного видео приложен ноториально-заверенный скриншот, не внушает. Тем не менее затестим.
Гитхаб
Дайджест:
📹 ВИДЕО + АРТ 🎨
ControlNet + Segment Anything: модель генерирует арт на основе входного изображения с высоким соответствием.
Make-A-Protagonist: редактирование стиля видео на основе текстового промта и реф изображения.
Mayavee: изменение стиля видео по подходу похожее на Ebsynth, только через веб-интерфейс и с превью.
ULIP-2: улучшаем генерацию и классификацию 3D, используя на входе три модальности — тест, изображение, и облако точек.
AutoRecon: автономная генерация 3D объектов (с удалением фона) по фото с разных сторон. Пока без кода.
🎸 ЗВУК 🎸
Google: тизерят модель SoundStorm для генерации звука и диалогов с высоким качеством.
🤖 ЧАТЫ 🤖
Guidance: библиотека, дающая больше контроля при использовании промта с чат-ботами.
SaleForce: официальный релиз модели CodeT5+ для генерации кода (code-2-code не в режиме чата). Есть веса от 220М до 16B.
📹 ВИДЕО + АРТ 🎨
ControlNet + Segment Anything: модель генерирует арт на основе входного изображения с высоким соответствием.
Make-A-Protagonist: редактирование стиля видео на основе текстового промта и реф изображения.
Mayavee: изменение стиля видео по подходу похожее на Ebsynth, только через веб-интерфейс и с превью.
ULIP-2: улучшаем генерацию и классификацию 3D, используя на входе три модальности — тест, изображение, и облако точек.
AutoRecon: автономная генерация 3D объектов (с удалением фона) по фото с разных сторон. Пока без кода.
🎸 ЗВУК 🎸
Google: тизерят модель SoundStorm для генерации звука и диалогов с высоким качеством.
🤖 ЧАТЫ 🤖
Guidance: библиотека, дающая больше контроля при использовании промта с чат-ботами.
SaleForce: официальный релиз модели CodeT5+ для генерации кода (code-2-code не в режиме чата). Есть веса от 220М до 16B.
Выглядит отлично!
А, в целом, нас ждёт тренд на сюжеты, где люди воюют с AI.
https://www.youtube.com/watch?v=573GCxqkYEg&ab_channel=20thCenturyStudios
А, в целом, нас ждёт тренд на сюжеты, где люди воюют с AI.
https://www.youtube.com/watch?v=573GCxqkYEg&ab_channel=20thCenturyStudios
YouTube
The Creator | Teaser Trailer | 20th Century Studios
"This is a fight for our very existence."
The Creator arrives in theaters September 29.
The Creator arrives in theaters September 29.
Завтра выступаю на Positive Hack Days. Это форум, объединяющий этичных хакеров со всего мира, на котором, помимо кибербезопасности, в этом году, будут обсуждать AI, web3 и метавселенные.
Можно будет послушать о хаках ChatGPT с помощью социальной инженерии, квантово-устойчивых блокчейнах, анонимности случайных Telegram-номеров, и про другие ништяки. Даже соревнование по взлому городской инфраструктуры будет.
В прошлом году совокупно было 140 тыс. человек онлайн и оффлайн.
Я выступаю на сцене "Доверие к технологиям" в 18:30 — 19:00. Будете проходить мимо Парка Горького — залетайте, на мою панельку вход свободный. Захотите пересечься, пишите в личку.
Онлайн трансляция будет тут:
https://phdays.com/
Можно будет послушать о хаках ChatGPT с помощью социальной инженерии, квантово-устойчивых блокчейнах, анонимности случайных Telegram-номеров, и про другие ништяки. Даже соревнование по взлому городской инфраструктуры будет.
В прошлом году совокупно было 140 тыс. человек онлайн и оффлайн.
Я выступаю на сцене "Доверие к технологиям" в 18:30 — 19:00. Будете проходить мимо Парка Горького — залетайте, на мою панельку вход свободный. Захотите пересечься, пишите в личку.
Онлайн трансляция будет тут:
https://phdays.com/
Вчера закончился Positive Hack Days. Побывать на соревновании настоящих хакеров уже крутой опыт, да ещё и сама сцена Standoff где атакующие и защищающие сталкиваются в борьбе за инфраструктуру виртуального города F сделана впечатляюще! Помимо этого очень много интересной информации, а также мини-игр, которые могут помочь широкой аудитории понять основы кибербезопасности.
Сделал для вас подборочку трансляций:
1) Моё выступление: музыка в эпоху нейронок и Web3
2) Устройство больших языковых моделей
3) Prompt Injection: вытаскиваем максимум из AI-сервиса
4) 20 нестандартных применений ChatGPT в кибербезе
5) ChatGPT на темной и светлой стороне
6) Применение AI для обезличивания чувствительных данных
7) От ручного ML к автоматизации с помощью Python-библиотек
8) Использование Python для управления знаниями: инструменты, подходы, примеры
9) Мир на грани WEB3
10 Квантово-устойчивый блокчейн
11) Популярные нетривиальные уязвимости в смарт-контрактах Ethereum: обзор и устранение, 2022 год
P.S. Я недавно делал пост о языковых моделях, которые умеют генерить код. Возможно мы с Артёмом с 4-й презентации сделаем обзор на них
Сделал для вас подборочку трансляций:
1) Моё выступление: музыка в эпоху нейронок и Web3
2) Устройство больших языковых моделей
3) Prompt Injection: вытаскиваем максимум из AI-сервиса
4) 20 нестандартных применений ChatGPT в кибербезе
5) ChatGPT на темной и светлой стороне
6) Применение AI для обезличивания чувствительных данных
7) От ручного ML к автоматизации с помощью Python-библиотек
8) Использование Python для управления знаниями: инструменты, подходы, примеры
9) Мир на грани WEB3
10 Квантово-устойчивый блокчейн
11) Популярные нетривиальные уязвимости в смарт-контрактах Ethereum: обзор и устранение, 2022 год
P.S. Я недавно делал пост о языковых моделях, которые умеют генерить код. Возможно мы с Артёмом с 4-й презентации сделаем обзор на них
Дайджест пока я гонял на PHD фест:
📹 ВИДЕО + АРТ 🎨
Stability AI: выпустили DreamStudio в опенсорс под названием StableStudio. Будет поддержка ControlNet, локального инференса через A1111 или WebGPU, расширение через плагины, и другие ништяки. Позже туда подъедет чат. Я поставил потестил, пока это DS один-в-один. Тем более нужен API ключ Stability для работы, который можно взять в акке DS. Когда подъедет возможность использовать локальные мощности, или через плагин подцепить Stable Horde и другие ништяки, тогда будет о чем поговорить.
DragGAN: меняем композицию на фото, указывая мышкой точки как должно меняться движение объекта в кадре. Выглядит довольно интересно.
Phygital+: добавили DeepFloyd для генерации картинки с текстом, добавили Segment Anything (SAM) для аккуратного выделения объектов.
CoDi: модель, способная генерировать контент на связке модальностей текста, арта, видео и музыки. Пока без кода.
Nvidia: представили text-2-video модель PYoCo, которая является файнтюном eDiff-I, но с новым приором шума к видео. Похоже оно даже умеет в текст на видео а-ля DeepFloyd, но всё в стиле зелёных без кода.
Casablanca: нейронка на видеосозвонах автоматом направляет вашу голову и взгляд в камеру.
BlockadeLabs: добавили ControlNet в свой генератор 360-панорам. Глубину неплохо передаёт. На схожую тему вышла бумага LDM3D про генерацию 3D диффуизей.
Mesh Diffusion: генерация 3D преставлений не из вокселей или облака точек, а меша.
Upscayl: ещё один софт для апскейла фото, можно запустить локально.
Instruct pix2pix, который изначально использовался в A1111, устарел и вместо него лучше использовать контролнетовский pix2pix, который позволяет работать с хайрезом.
FastComposer: генерация изображений из текста или реф картинки без тонкой настройки.
🎸 ЗВУК 🎸
GETMusic: генерация музыки и нот любой длительности, в том числе и по рефу. Работают вместе две модели: GETScore генерирует ноты, а GETDiff генерирует музыку. Можно зафайнтюнить на любимой музыке. Похоже входит в набор инструментов Music от Microsoft.
Ecoute: транскрипция сказанного интервьюером и спикером в реальном времени в раздельные текстовые поля. Под капотом GPT-3.5 + маленькая версия Whisper для text2speech. Нужен API ключ OpenAI.
FunASR: тоже опенсорс инструмент для распознавания речи, но работает для конференций с большим количеством участников.
🤖 ЧАТЫ 🤖
OpenAI: ChatGPT вышел на iOS (Android позже подъедет) с поддержкой Whisper для перевода голоса в текст. Пока только для акков из США. Также накатили дефолтный WebBrowsing для владельцев плюсов, а не через плагин WebPilot который от третьих лиц и ему надо доверять. Очень ждём Code Interpreter вот это будет вообще разнос.
Запрещёнка анонсировала свой аналог Copilot для написания кода, а также показала свой чип MTIA v1 для ускорения DL с фокусом на рекламу.
Google: добавят в Colab возможность генерить код с помощью модели Codey, которая основана на PaLM 2. К слову выяснилось, что последняя обучалась на 3,6 трлн токенов, что в 5 раз больше, чем предыдущая модель. Посмотрим, что им это даст раз словам Сэма (OpenAI) и Эмада (Stability) гнаться за токенами нет смысла, а маленьких моделей показывающих годные результаты не мало.
Чувак с помощью социальной инженерии вытащил из GitHub Copilot системные промты.
Другой чел нашёл как с дать ChatGPT полный доступ над своей системой.
Microsoft: выкатили датасет TinyStories 2,5М со словарным запасом 5-летнего ребёнка, который написан GPT-3.5 и GPT-4 и подходит для тренировки и валидации новых LM размером до 10М параметров. Плюс опубликовали исследование на тему обмена данными между разными LLM.
Tascade: добавили генерацию с помощью GPT-4 списка задач, отслеживания его выполнения, создания майндмэпа и тд.
DreamGPT: усиливаем галлюцинации нейронок, для создания новых идей.
Dora: генерируем одностраничный сайт по текстовому промту.
Gradio: используем любую модель с Gradio по API через JavaScript.
TokenHawk: ещё один лама чат на WebGPU.
📹 ВИДЕО + АРТ 🎨
Stability AI: выпустили DreamStudio в опенсорс под названием StableStudio. Будет поддержка ControlNet, локального инференса через A1111 или WebGPU, расширение через плагины, и другие ништяки. Позже туда подъедет чат. Я поставил потестил, пока это DS один-в-один. Тем более нужен API ключ Stability для работы, который можно взять в акке DS. Когда подъедет возможность использовать локальные мощности, или через плагин подцепить Stable Horde и другие ништяки, тогда будет о чем поговорить.
DragGAN: меняем композицию на фото, указывая мышкой точки как должно меняться движение объекта в кадре. Выглядит довольно интересно.
Phygital+: добавили DeepFloyd для генерации картинки с текстом, добавили Segment Anything (SAM) для аккуратного выделения объектов.
CoDi: модель, способная генерировать контент на связке модальностей текста, арта, видео и музыки. Пока без кода.
Nvidia: представили text-2-video модель PYoCo, которая является файнтюном eDiff-I, но с новым приором шума к видео. Похоже оно даже умеет в текст на видео а-ля DeepFloyd, но всё в стиле зелёных без кода.
Casablanca: нейронка на видеосозвонах автоматом направляет вашу голову и взгляд в камеру.
BlockadeLabs: добавили ControlNet в свой генератор 360-панорам. Глубину неплохо передаёт. На схожую тему вышла бумага LDM3D про генерацию 3D диффуизей.
Mesh Diffusion: генерация 3D преставлений не из вокселей или облака точек, а меша.
Upscayl: ещё один софт для апскейла фото, можно запустить локально.
Instruct pix2pix, который изначально использовался в A1111, устарел и вместо него лучше использовать контролнетовский pix2pix, который позволяет работать с хайрезом.
FastComposer: генерация изображений из текста или реф картинки без тонкой настройки.
🎸 ЗВУК 🎸
GETMusic: генерация музыки и нот любой длительности, в том числе и по рефу. Работают вместе две модели: GETScore генерирует ноты, а GETDiff генерирует музыку. Можно зафайнтюнить на любимой музыке. Похоже входит в набор инструментов Music от Microsoft.
Ecoute: транскрипция сказанного интервьюером и спикером в реальном времени в раздельные текстовые поля. Под капотом GPT-3.5 + маленькая версия Whisper для text2speech. Нужен API ключ OpenAI.
FunASR: тоже опенсорс инструмент для распознавания речи, но работает для конференций с большим количеством участников.
🤖 ЧАТЫ 🤖
OpenAI: ChatGPT вышел на iOS (Android позже подъедет) с поддержкой Whisper для перевода голоса в текст. Пока только для акков из США. Также накатили дефолтный WebBrowsing для владельцев плюсов, а не через плагин WebPilot который от третьих лиц и ему надо доверять. Очень ждём Code Interpreter вот это будет вообще разнос.
Запрещёнка анонсировала свой аналог Copilot для написания кода, а также показала свой чип MTIA v1 для ускорения DL с фокусом на рекламу.
Google: добавят в Colab возможность генерить код с помощью модели Codey, которая основана на PaLM 2. К слову выяснилось, что последняя обучалась на 3,6 трлн токенов, что в 5 раз больше, чем предыдущая модель. Посмотрим, что им это даст раз словам Сэма (OpenAI) и Эмада (Stability) гнаться за токенами нет смысла, а маленьких моделей показывающих годные результаты не мало.
Чувак с помощью социальной инженерии вытащил из GitHub Copilot системные промты.
Другой чел нашёл как с дать ChatGPT полный доступ над своей системой.
Microsoft: выкатили датасет TinyStories 2,5М со словарным запасом 5-летнего ребёнка, который написан GPT-3.5 и GPT-4 и подходит для тренировки и валидации новых LM размером до 10М параметров. Плюс опубликовали исследование на тему обмена данными между разными LLM.
Tascade: добавили генерацию с помощью GPT-4 списка задач, отслеживания его выполнения, создания майндмэпа и тд.
DreamGPT: усиливаем галлюцинации нейронок, для создания новых идей.
Dora: генерируем одностраничный сайт по текстовому промту.
Gradio: используем любую модель с Gradio по API через JavaScript.
TokenHawk: ещё один лама чат на WebGPU.
Какие-то святые люди прикрутили Claude с его 100к контекстным окном для возможности суммаризации бумаг с Arxiv и дальнейшего чата. Я пару месяцев назад выл и страстно желал эту фичу и вот она.
Просто в Paper ID вбиваете номер бумаги (его видно и в открытом pdf), жмёте Load Paper, а дальше вперед с вопросами.
И....похоже оно умеет ваять код на основе ресерч бумаги. GPT-4 не смог просканить гитхаб, чтобы сравнить сгенерённый код тому, что в репозитории, а вот Stable Vicuna смогла. Ожидаемо говорит он поверхностный и напрямую не связан с бумагой, тем не менее он рабочий.
Штош, ждём заточенную arxiv-2-code модель.
https://huggingface.co/spaces/taesiri/ClaudeReadsArxiv
Просто в Paper ID вбиваете номер бумаги (его видно и в открытом pdf), жмёте Load Paper, а дальше вперед с вопросами.
И....похоже оно умеет ваять код на основе ресерч бумаги. GPT-4 не смог просканить гитхаб, чтобы сравнить сгенерённый код тому, что в репозитории, а вот Stable Vicuna смогла. Ожидаемо говорит он поверхностный и напрямую не связан с бумагой, тем не менее он рабочий.
Штош, ждём заточенную arxiv-2-code модель.
https://huggingface.co/spaces/taesiri/ClaudeReadsArxiv
Дайджест:
📹 ВИДЕО + АРТ 🎨
Epic Games: запустили серию гайдов по виртуальному продакшему. Будет полезно интересующимся видео, анимацией и геймдевом.
MaskFreeVIS: сегментация видео на основе SAM без масок у объектов, вместо них используются ограничивающие силуэты (bounding boxes). Говорят этот подход легко применить, не нужна тренировка и большие вычислительные мощности.
Diff-Pruning: новый эффективный метод прунинга (уменьшения сложности модели и удаления избыточных параметров / связей) для диффузионных моделей.
LLM-Pruner: модель прунинга для больших языковых моделей.
SeeTRUE: датасет и бенчмарк для text-2-image и image-2-text моделей, которые могут помочь улучшить результаты генераций.
🤖 ЧАТЫ 🤖
RecurrentGPT: генерация длинных текстов, например новелл, с возможностью организации интерактивного повествования для читателя. Демо
LIMA: файнтюн ламы 65B, обученный на 1к токенов без RLHF, и который показывает 43% ответов как GPT-4, 58% как Bard и 65% как DaVinci003.
Intel: анонсировали суперкомпьютеры Aurora с фокусом на AI, плюс генеративную модель genAI с 1Т (триллионом) параметров.
Выжимку архивных бумаг можете делать этой тулзой.
📹 ВИДЕО + АРТ 🎨
Epic Games: запустили серию гайдов по виртуальному продакшему. Будет полезно интересующимся видео, анимацией и геймдевом.
MaskFreeVIS: сегментация видео на основе SAM без масок у объектов, вместо них используются ограничивающие силуэты (bounding boxes). Говорят этот подход легко применить, не нужна тренировка и большие вычислительные мощности.
Diff-Pruning: новый эффективный метод прунинга (уменьшения сложности модели и удаления избыточных параметров / связей) для диффузионных моделей.
LLM-Pruner: модель прунинга для больших языковых моделей.
SeeTRUE: датасет и бенчмарк для text-2-image и image-2-text моделей, которые могут помочь улучшить результаты генераций.
🤖 ЧАТЫ 🤖
RecurrentGPT: генерация длинных текстов, например новелл, с возможностью организации интерактивного повествования для читателя. Демо
LIMA: файнтюн ламы 65B, обученный на 1к токенов без RLHF, и который показывает 43% ответов как GPT-4, 58% как Bard и 65% как DaVinci003.
Intel: анонсировали суперкомпьютеры Aurora с фокусом на AI, плюс генеративную модель genAI с 1Т (триллионом) параметров.
Выжимку архивных бумаг можете делать этой тулзой.
This media is not supported in your browser
VIEW IN TELEGRAM
Massively Multilingual Speech (ММS) — модели для распознавания и генерирования речи, поддерживающие более 1100 языков.
Это стало возможным благодаря использованию метода самообучения wav2vec 2.0 и нового датасета, представляющего собой подписанные данные с 1100 языков, плюс неразмеченные данные с почти 4000 языков. Некоторые из них, такие как язык татуё, имеют всего несколько сотен носителей, и для большинства случаев ранее не существовало технологии распознавания речи.
Для сбора датасета использовались религиозные тексты, в частности Библия, которая переведена на множество языков. Чтение Нового Завета на 1100+ языках дало 32 часа данных.
Проект MMS показал, что его модели превосходят существующие и покрывают в 10 раз больше языков, плюс делают в половину меньше ошибок, чем OpenAI Whisper.
P.S. Вы сколько языков знаете? Я русский, английский, и кошачий.
https://ai.facebook.com/blog/multilingual-model-speech-recognition/
Это стало возможным благодаря использованию метода самообучения wav2vec 2.0 и нового датасета, представляющего собой подписанные данные с 1100 языков, плюс неразмеченные данные с почти 4000 языков. Некоторые из них, такие как язык татуё, имеют всего несколько сотен носителей, и для большинства случаев ранее не существовало технологии распознавания речи.
Для сбора датасета использовались религиозные тексты, в частности Библия, которая переведена на множество языков. Чтение Нового Завета на 1100+ языках дало 32 часа данных.
Проект MMS показал, что его модели превосходят существующие и покрывают в 10 раз больше языков, плюс делают в половину меньше ошибок, чем OpenAI Whisper.
P.S. Вы сколько языков знаете? Я русский, английский, и кошачий.
https://ai.facebook.com/blog/multilingual-model-speech-recognition/
Adobe интегрировали в последнюю версию Photoshop возможность генерить text-2-image через свой сервис Firefly. Фича находится в бета стадии и называется Generative Fill.
Схема знакомая: выделяете место в котором надо что-то сгенерить, вбиваете промт, оно генерит на выбор 3 варианта искомого. Если не вбивать промт, нейронка попробует сама угадать контекст (например, может пригодиться на аутпейтинге). Для каждой генерации создаётся новый слой, что удобно.
Из любопытного: нейронка хорошо понимает, где нужны тени и отражения, что заметно на видео. Также весьма неплохо работает с текстурой — обратите внимание на солевые кромки озера. Да, освещение и масштаб сгенерённых объектов не идеальные, но это уже существенное ускорение рабочих процессов. И... вы же топите за то, чтобы вас не заменили, так?
Чтобы опробовать фичу нужно установить Creative Cloud и залогиниться в нём (может у вас даже поставилось автоматом с фотошопом). Затем, в разделе Beta-apps установить Photoshop (Beta) с версией 24.6 . Если после установки Generative Fill не будет как на видео, зайдите в раздел Обновления и накатите апдейт на установленную бету (я хз почему сразу не устанавливается самая пропатченная версия). Продукты из бета-категории ставятся параллельно в свои папки и никак не повредят вашим уже существующимпиратским установкам. Но без интернета Generative Fill не работает. У вас будет 7 дней на тест в триальном режиме. Альтернативно, если у вас есть доступ к веб-интерфейсу Firefly вы можете попробовать фичу там.
Причём в этом разделе на самом деле вагон приложений с приставкой Beta, что намекает на экспансию генеративных фич во все продукты Adobe. Хорошо подготовились!
Добавил за секунду компанию своему котану, сгенерённому на DeepFloyd IF.
Схема знакомая: выделяете место в котором надо что-то сгенерить, вбиваете промт, оно генерит на выбор 3 варианта искомого. Если не вбивать промт, нейронка попробует сама угадать контекст (например, может пригодиться на аутпейтинге). Для каждой генерации создаётся новый слой, что удобно.
Из любопытного: нейронка хорошо понимает, где нужны тени и отражения, что заметно на видео. Также весьма неплохо работает с текстурой — обратите внимание на солевые кромки озера. Да, освещение и масштаб сгенерённых объектов не идеальные, но это уже существенное ускорение рабочих процессов. И... вы же топите за то, чтобы вас не заменили, так?
Чтобы опробовать фичу нужно установить Creative Cloud и залогиниться в нём (может у вас даже поставилось автоматом с фотошопом). Затем, в разделе Beta-apps установить Photoshop (Beta) с версией 24.6 . Если после установки Generative Fill не будет как на видео, зайдите в раздел Обновления и накатите апдейт на установленную бету (я хз почему сразу не устанавливается самая пропатченная версия). Продукты из бета-категории ставятся параллельно в свои папки и никак не повредят вашим уже существующим
Причём в этом разделе на самом деле вагон приложений с приставкой Beta, что намекает на экспансию генеративных фич во все продукты Adobe. Хорошо подготовились!
Добавил за секунду компанию своему котану, сгенерённому на DeepFloyd IF.
Дайджест:
💻 Анонсы с конференции Microsoft Build: 💻
* В Windows 11 будет добавлен AI-ассистент Copilot на основе чата Bing. Через него можно будет решать широкий спектр задач: от смены темы винды, до взаимодействия с командой. Работает с документами для их суммаризации и перефразирования. Может запускать приложения и искать контент, например плейлист в Spotify с определённым настроением.
* Поддержка сторонних плагинов для Bing и ChatGPT. Также обновится Microsoft Store, где появится хаб для проектов с нейронками. Теги к ним и суммаризацию обзоров будет генерить AI
* Наличие GitHub Copilot X, который в отличие от обычного Copilot умеет писать код по текстовому запросу.
* Через ONNXMLTools можно сконвертировать AI-модель в аппаратно-независимый формат .onxm, а через Olive оптимизировать его для ускорения работы на целевом железе
Релиз новых фич для Windows 11 в июне
📹 ВИДЕО + АРТ 🎨
Nvidia выпустили драйвер 532.03, который в купе с DirectML и Olive показывает почти 2х (по версии Microsoft 6х) прирост производительности при генерации в SD 1.5 оптимизированной через Olive. Поддержка DirectML заявлена и в AMD, которые теперь получат оптимизацию SD на RX 7900 и Ryzen 7040, когда испекут драйвера
Video-ControlNet: генерация видео с ControlNet на борту, через карты глубины и краёв. Кода пока нет
Blizzard Diffusion: разработчик игр Activision Blizzard выпустит модель для генерации концепт-артов и косметиков для игровых предметов. Занятно, что недавно регуляторы разрешили Microsoft купить эту компанию
🎸 ЗВУК 🎸
AudioToken: генерация звука к видео или изображению на входе
EfficientSpeech: небольшая модель для генерирования голоса по тексту. Влезает даже на Raspberry Pi 4
🤖 ЧАТЫ 🤖
Andrej Karpathy: Как натренировать свою языковую модель с нуля
Goat: файнтюн ламы, который умеет в арифметику лучше GPT-4... По крайне мере без плагина Wolfram
Бумага с описанием фреймворка для приведения LLM в соответствие намерениям человека (alignment) через синтетический фидбэк (RLHF), минимизируя участие человека
💻 Анонсы с конференции Microsoft Build: 💻
* В Windows 11 будет добавлен AI-ассистент Copilot на основе чата Bing. Через него можно будет решать широкий спектр задач: от смены темы винды, до взаимодействия с командой. Работает с документами для их суммаризации и перефразирования. Может запускать приложения и искать контент, например плейлист в Spotify с определённым настроением.
* Поддержка сторонних плагинов для Bing и ChatGPT. Также обновится Microsoft Store, где появится хаб для проектов с нейронками. Теги к ним и суммаризацию обзоров будет генерить AI
* Наличие GitHub Copilot X, который в отличие от обычного Copilot умеет писать код по текстовому запросу.
* Через ONNXMLTools можно сконвертировать AI-модель в аппаратно-независимый формат .onxm, а через Olive оптимизировать его для ускорения работы на целевом железе
Релиз новых фич для Windows 11 в июне
📹 ВИДЕО + АРТ 🎨
Nvidia выпустили драйвер 532.03, который в купе с DirectML и Olive показывает почти 2х (по версии Microsoft 6х) прирост производительности при генерации в SD 1.5 оптимизированной через Olive. Поддержка DirectML заявлена и в AMD, которые теперь получат оптимизацию SD на RX 7900 и Ryzen 7040, когда испекут драйвера
Video-ControlNet: генерация видео с ControlNet на борту, через карты глубины и краёв. Кода пока нет
Blizzard Diffusion: разработчик игр Activision Blizzard выпустит модель для генерации концепт-артов и косметиков для игровых предметов. Занятно, что недавно регуляторы разрешили Microsoft купить эту компанию
🎸 ЗВУК 🎸
AudioToken: генерация звука к видео или изображению на входе
EfficientSpeech: небольшая модель для генерирования голоса по тексту. Влезает даже на Raspberry Pi 4
🤖 ЧАТЫ 🤖
Andrej Karpathy: Как натренировать свою языковую модель с нуля
Goat: файнтюн ламы, который умеет в арифметику лучше GPT-4... По крайне мере без плагина Wolfram
Бумага с описанием фреймворка для приведения LLM в соответствие намерениям человека (alignment) через синтетический фидбэк (RLHF), минимизируя участие человека