Psy Eyes

Дайджест:

💻 Анонсы с конференции Microsoft Build: 💻

* В Windows 11 будет добавлен AI-ассистент Copilot на основе чата Bing. Через него можно будет решать широкий спектр задач: от смены темы винды, до взаимодействия с командой. Работает с документами для их суммаризации и перефразирования. Может запускать приложения и искать контент, например плейлист в Spotify с определённым настроением.

* Поддержка сторонних плагинов для Bing и ChatGPT. Также обновится Microsoft Store, где появится хаб для проектов с нейронками. Теги к ним и суммаризацию обзоров будет генерить AI

* Наличие GitHub Copilot X, который в отличие от обычного Copilot умеет писать код по текстовому запросу.

* Через ONNXMLTools можно сконвертировать AI-модель в аппаратно-независимый формат .onxm, а через Olive оптимизировать его для ускорения работы на целевом железе

Релиз новых фич для Windows 11 в июне

📹 ВИДЕО + АРТ 🎨

Nvidia выпустили драйвер 532.03, который в купе с DirectML и Olive показывает почти 2х (по версии Microsoft 6х) прирост производительности при генерации в SD 1.5 оптимизированной через Olive. Поддержка DirectML заявлена и в AMD, которые теперь получат оптимизацию SD на RX 7900 и Ryzen 7040, когда испекут драйвера

Video-ControlNet: генерация видео с ControlNet на борту, через карты глубины и краёв. Кода пока нет

Blizzard Diffusion: разработчик игр Activision Blizzard выпустит модель для генерации концепт-артов и косметиков для игровых предметов. Занятно, что недавно регуляторы разрешили Microsoft купить эту компанию

🎸 ЗВУК 🎸

AudioToken: генерация звука к видео или изображению на входе

EfficientSpeech: небольшая модель для генерирования голоса по тексту. Влезает даже на Raspberry Pi 4

🤖 ЧАТЫ 🤖

Andrej Karpathy: Как натренировать свою языковую модель с нуля

Goat: файнтюн ламы, который умеет в арифметику лучше GPT-4... По крайне мере без плагина Wolfram

Бумага с описанием фреймворка для приведения LLM в соответствие намерениям человека (alignment) через синтетический фидбэк (RLHF), минимизируя участие человека

1.37K viewsAndrey Bezryadin, edited 19:15

QLoRA: вышел код к ранее упомянутой в канале бумаге для 16-битного файнтюна ламы 65B на одной GPU в 48 Гб.

Авторы заодно именно на одной такой видюхе наваяли чат-бота Guanaco, и по их заверениям он показывает результаты на 97-99% схожие с ChatGPT.

Я потестил и не могу, пожалуй, с этим согласиться, но генерит оно по ощущениям весьма шустрей, и это первый раз когда модель размеров 65В завели на одной видюхе.

Твит
Демо

1.1K viewsAndrey Bezryadin, 20:00

Дайджест:

📹 ВИДЕО + АРТ 🎨

Pro Fusion: обучение модели генерации человека по одному фото... однако нужно 20 Гб видеопамяти.

🎸 ЗВУК 🎸

Universal Music Group (UMG): лейбл заключил партнерство с AI-разработчиком Endel для генерации функциональной музыки (для сна, расслабления, концентрации и других действий)

🤖 ЧАТЫ 🤖

PandaGPT: мультимодальная модель, которая может обрабатывать текст, изображения, видео, аудио, глубину, тепловые и IMU данные, выполняя сложные задачи. Работает на связке ImageBind и Vicuna.

Google: Bard начал подтягивать изображения из поисковика Google.

OpenAI: Откроют офис в Европе, и запускают iOS приложение в ряде стран: Албания, Хорватия, Франция, Германия, Ирландия, Ямайка, Корея, Новая Зеландия, Никарагуа, Нигерия и Великобритания.

Deep Thinking: метод улучшения эффективности обучения в контексте. Модель "Deep Thinking" оптимизирует примеры через Трансформер и градиентный спуск, затем применяет мета-градиенты для предсказания выходных данных. Эксперименты показывают, что предложенный метод превосходит стандартное обучение в контексте как по точности, так и по эффективности.

1.78K viewsAndrey Bezryadin, edited 08:01

0:14

Temporal Kit + EBSynth + edgeOfRealism

Подход основан на методе от Tokyo_Jab. Использовался Temporal Kit для преобразования видео в сетку и обратно в видео (с помощью EBSynth).

1) Удаляем фон.

2) Изменяем размер видео до 1024x1536. Это кратно 512x768.

3) С помощью Temporal kit генерируем сетку, используя значения:

Sides: 4, Height Resolution: 3072, frames per keyframe: 4, Check EbSynth Mode, Check Batch Settings > BatchRun

4) Используем img2img в пакетном режиме с настройками:

Steps: 25, Sampler: DPM++ 2M, CFG scale: 7, Face restoration: CodeFormer, Size: 2048x3072, Model: edgeOfRealism_eorV20Fp16BakedVAE, Denoising strength: 0.8, Version: v1.2.0, ControlNet 0: "preprocessor: softedge_pidinet, model: control_v11p_sd15_softedge

5) Работаем с Temporal-Kit > EBSynth-process. Пользуемся read_last_settings, и ставим разрешение на выходе 1536.

6) Запускаем img2img в папке с ключевыми кадрами, чтобы добавить больше деталей. Параметры:

Steps: 25, Sampler: DPM++ 2M, CFG scale: 7, Face restoration: CodeFormer, Size: 1024x1536, Model: edgeOfRealism_eorV20Fp16BakedVAE, Denoising strength: 0.1

7) Запускаем EbSynth. Автор разбил пакетную обработку по 20 кейфреймов. В Temporal-Kit есть возможность это задать при генерации сетки, но автор обнаружил, что в результате получаются неполные сетки, и это нарушает консистентность видеоряда.

8) Temporal-Kit > Recombine EBsynth.

9) Открываем видео в DaVinci, и применяем дефликер.

Реддит
Автор взял футаж отсюда.

1.58K viewsAndrey Bezryadin, 08:59

Emad Mostaque: These 5 Companies Will Win the AI War; Why We Need National Data Sets | E1015

Эмад Мостак, отец Stability AI, дал интервью в котором много интересного.

Вот краткая выжимка через плагин Video Insights для ChatGPT:

* Главный герой видео - Emad Mostaque, соучредитель и CEO компании StabilityAI, которая занимается разработкой основ для активации потенциала человечества. Он перешел из мира хедж-фондов в область искусственного интеллекта после того, как у его сына был диагностирован аутизм, и он решил внести свой вклад в поиск лечения и решений.

* Видео обсуждает различные аспекты искусственного интеллекта, включая его применение в медицине, влияние на развивающиеся страны, влияние на традиционные СМИ, бизнес-модели AI компаний (включая Stability AI) и регулирование AI в разных странах.

* В видео также обсуждаются стратегии, связанные с AI, у крупных компаний, таких как Google и Amazon, а также предположение о том, что в ближайшие 12 месяцев будет всего 5 действительно важных компаний AI.

* Видео поделено на темы, вроде: "Почему пузырь AI будет больше, чем пузырь dot com?", "Почему Индия и развивающиеся рынки быстрее всех примут AI?", "Почему мы увидим смерть многих крупных издателей контента и медиакомпаний?" и "Почему компании должны быть open source по умолчанию?".

* В конце видео проводится быстрый раунд вопросов и ответов.

Я лишь пару вещей причесал, с остальным нейронка справилась сама. Как посмотревший видео целиком, могу подтвердить, что выжимка в целом неплоха. Да, дьявол в деталях, но всё же.

Какой у вас любимый плагин или другой софт для выжимок?

YouTube

Emad Mostaque is the Co-Founder and CEO @ StabilityAI, the parent company of Stable Diffusion. Stability are building the foundation to activate humanity’s potential. To date, Emad has raised over $110M with Stability with the latest round reportedly pricing…

998 viewsAndrey Bezryadin, 10:39

Governance of superintelligence

OpenAI недавно выпустили пост с предложением о регулировании AI и создании международной организации по надзору в этой сфере.

Может во мне говорят Web3 взгляды, но я не понимаю желания переложить всё на "папика", который бы всё запрещал / разрешал. Эти динозавры не умеют гуглить, чего уж говорить о контроле над super intelligence. OpenAI может и видят у себя в лабе что-то от чего им не по себе, но всё это больше похоже на желание через регуляторов оставить на пьедестале несколько компаний во главе с OpenAI, а остальные чай пусть голову не поднимают.

В пользу своих доводов они приводят регулирование атомной энергетики и биотехнологий, а в качестве примера такой организации ставят МАГАТЭ. Но одно дело, что-то физическое, к чему есть доступ у весьма ограниченного круга лиц, другое дело нечто цифровое в глобальном информационном пространстве.

Так что с нейронками всё иначе. Каждый может дотянуться до моделей, датасетов или открытых данных, и с помощью сообщества или того же AI, собрать модель под себя. Опенсорс двигает индустрию семимильными шагами, очень быстро догоняя, а где-то и обгоняя закрытый код. Да, дело Stability AI живёт, но не SD единым. Вчера вон вышла модель, которая на тестах даёт результаты а-ля ChatGPT при этом помещается на одной видюхе. Появляются модели, которые запускаются на телефонах, Raspberry Pi, а то и вовсе в браузере через WebGPU. И что-то комьюнити не кипишует по этому поводу — тем самым показывая, что народ вполне может совладать с ситуацией.

В пользу опенсорса говорят и перекрученные фильтры на генерацию контента. Взгляните на топ-250 фильмов Кинопоиска или Imdb и посчитайте по пальцам какие из них могли бы быть сгенерированы. Так мы следующий Breaking Bad не снимем.

А контролировать компьют (вычислительные мощности людей) это вообще мягко говоря так себе идея. Облака не справляются с нагрузкой, те же ChatGPT и Bing постоянно тупят. А так как появляются фреймворки вроде Olive, которые могут дать буст твоему старому железу при генерациях, плюс развивается Stable Horde — опенсорсу будет где разгуляться.

https://openai.com/blog/governance-of-superintelligence

Openai

Now is a good time to start thinking about the governance of superintelligence—future AI systems dramatically more capable than even AGI.

1.06K viewsAndrey Bezryadin, 14:33

1:06

Microsoft добавляет AI в сервис техподдержки — Power Virtual Agents.

Он позволяет создавать ботов по текстовому промту за считанные минуты, и указать цепь событий с тригерами. Боты будут отвечать на вопросы даже, на которые ответ не был заготовлен, и коммуницировать на разных языках как с клиентами, так и сотрудниками.

Будет поддержка плагинов для расширения функциональности.

1.02K viewsAndrey Bezryadin, 16:05

Luma AI выпустили V2 своего плагина для Unreal Engine.

Что нового:
* Поддержка UE 5.2
* Контроль экспозиции и границ сцены
* Больше семплов
* Создание интерактивных сцен: например, через NeRF делаем 3D ассет тортика, которым можно стрелять из ружья
* Поддержка macOS (Apple Silicon) и Linux (Ubuntu)

https://lumalabs.ai/ue

900 viewsAndrey Bezryadin, 18:13

Дайджест:

📹 ВИДЕО + АРТ 🎨

Luden.io: собрали изометрическую point-&-click игру с помощью Midjourney и ChatGPT за 3 дня.

Microsoft, совместно с Adobe, ARM, Intel и Truepic разработали спецификацию C2PA для маркировки AI-контента.

YouTube: внедрил визуальную языковую модель Flamingo для создания описаний видео в разделе Shorts.

🎸 ЗВУК 🎸

MeLoDy: это модель, использующая языковые модели для генерации аудио высокого качества. Лучше гугловской MusicLM на тестах с музыкой длительностью в 10 или 30 секунд. Также обеспечивает высокую скорость семплирования и неограниченную по длительности. Кода пока нет.

🤖 ЧАТЫ 🤖

На арену чат-ботов вышли PaLM 2, Claude-instant-v1, MosaicML MPT-7B-chat и Vicuna-7B. Из них лучше всех себя показала модель Claude-instant-v1 (но не лучше GPT-4), а Vicuna-13B уделала PaLM 2.

LM Studio: интерфейс для общения с разными языковыми моделеями локально.

TikTok: тестит своего чат-бота Tako, который может отвечать на вопросы о видео и давать рекомендации, что посмотреть.

Dynosaur: новый фреймворк для NLP задач, который обеспечивает эффективную настройку инструкций и генерацию датасетов с высоким качеством данных при низких вычислительных затратах.

Sophia: новый оптимизатор, который 2x быстрее, чем Adam для тренировки LLM.

Slovo: новый датасет для распознавания русского жестового языка (РЖЯ)

992 viewsAndrey Bezryadin, 08:36

0:26

Stability AI выпустили Reimagine XL, который будет работать эксклюзивно на Clipdrop.

Сервис является улучшенной версией инструмента Reimagine для генерации версий картинок в 1 клик. Можно генерить с разным соотношением экрана (например, панорамы), на выходе изображения будут в высоком разрешении, причём без зависимости пикселей от исходной картинки.

P.S. У меня не получилось сгенерить нормальных результатов как в анонсе. Возможно для чего-то абстрактного, небольших иллюстраций на сайт / презу, или по-быстрому убрать водяной знак оно может и зайдёт. Но после разных лор сообщества, включая фотореалистичные, к этому инструменту не тянет. Тем более потестить только 10 раз дают.

892 viewsAndrey Bezryadin, 09:31

0:04

Voyager — первый AI-агент работающий на LLM, который непрерывно исследует мир Minecraft, приобретает различные навыки, выполняет задачи и делает новые открытия без вмешательства человека.

Он состоит из трех ключевых компонентов:

1) автоматический учебный план, который максимизирует исследование
2) постоянно растущая библиотека навыков исполняемого кода для хранения и извлечения сложных моделей поведения
3) новый итеративный механизм подсказок, который включает в себя обратную связь с окружающей средой, ошибки выполнения и самопроверку для улучшения программы.

Voyager взаимодействует с GPT-4 посредством запросов "черного ящика", что позволяет обойти необходимость точной настройки параметров модели. Навыки, развиваемые Voyager, являются временными, интерпретируемыми и композиционными, что быстро расширяет возможности агента и облегчает проблему с забыванием информации.

Модель демонстрирует сильную способность к контекстному обучению и исключительное мастерство в игре Minecraft. Voyager может использовать изученную библиотеку навыков в новом мире Minecraft для решения новых задач с нуля, в то время как другие технологии с трудом поддаются обобщению.

1.46K viewsAndrey Bezryadin, 11:02

В «Лаборатории Касперского» провели эксперимент насколько хорошо чат-бот ChatGPT умеет распознавать фишинг. Специалисты компании протестировали GPT-3.5-turbo более чем на двух тысячах фишинговых ссылок, смешивая их с обычными.

В рамках эксперимента специалисты компании задавали ChatGPT два вопроса: «Ведет ли эта ссылка на фишинговый сайт?» и «Безопасно ли переходить по этой ссылке?».

Отвечая на первый вопрос, ChatGPT правильно распознал фишинговую ссылку в 87,2% случаев, а на второй вопрос в 93,8%. Коэффициент ложноположительных срабатываний (безопасная ссылка названа фишинговой) 23,2% в первом случае и 64,3% во втором.

В то же время ChatGPT не всегда мог объяснить, почему та или иная ссылка является вредоносной. Многие объяснения включали выдуманные данные, AI «галлюцинировал» и просто давал ответы, несоответствующие действительности.

https://xakep.ru/2023/05/04/gpt-and-phishing/

1.12K viewsAndrey Bezryadin, 12:31

1:08

Вкратце почему опенсорс победит

1.13K viewsAndrey Bezryadin, 20:07

0:32

32 GoPro + Photoshop + NeRF (Luma)

Мне кажется 32 камеры это избыточно для такого эффекта, ибо с 1 камерой можно творить в NeRF совершенно чумовые вещи.

Но за артефакт с проваливающимся полом зачёт. Напоминает оптическую иллюзию.

Твиттер

6.46K viewsAndrey Bezryadin, 07:31

Дайджест:

📹 ВИДЕО + АРТ 🎨

A1111: обновился до v 1.3.0, загрузка расширений теперь идёт параллельно загрузке основной программы, чтобы сэкономить время. И другое по-мелочи.

Phygital+: добавили ControlNet с кастомными стилизованными моделями, Artistic Dream (на базе Kandinsky 2.1), скетчи на готовом изображении, и подсказки промтов прямо в ноде.

ControlVideo: редактирование видео текстовым промтом. Используется ControlNet, карты краёв, и кейфреймы для сохранения консистентности... Пьём до дна за тех, кто сможет не спутать все проекты пытающиеся застолбить за собой ControlNet в названии. Кода пока нет.

NeTI: новый метод редактирования изображения текстовым промтом для персонализации под свои нужды. Кода пока нет.

ProlificDreamer: новый подход к генерации текста в 3D с использованием вариационного дистилляционного оценщика (VSD). Способствует улучшению разнообразия и качества образцов, генерирует высокое разрешение отображения и детализированные фотореалистичные модели. Кода... тоже пока нет. Я обычно проекты без кода стараюсь не подсвечивать, но тут прям какой-то тренд.

🤖 ЧАТЫ 🤖

LATM (LLMs As Tool Makers): фреймворк, который может позволить языковой модели создавать для себя инструменты и использовать их в решении задач.

OlaGPT: фреймворк для языковых моделей, который может помочь им учиться на своих ошибках + мнениях экспертов, для решения задач

Zapier: сделали чат-бота, который по текстовому запросу создаёт автоматизированные цепочки действий (запы) для почты, доков, соцсетей и т.д.

Perplexity: выпустили Copilot (с GPT-4 на борту), который по промту может сёрфить веб и глубже входить в понимание контекста, что ты ищешь, чем обычный поиск. Чтобы включить Copilot в левом верхнем углу откройте новый тред и нажмите на переключатель "Copilot", у вас будет 5 бесплатных попыток

Opera: внедрили чат-бота Aria в свой браузер. Может помочь в поиске, а также написании текста или кода

Видеос с обсуждением как работают плагины в ChatGPT

Google автоматизировала с помощью LLM обновление кода на основе комментов

999 viewsAndrey Bezryadin, 11:01

2:24

Break-a-scene: сегментация объектов в кадре по контекстам, для возможности редактирования каждого изображения по отдельности. Своего рода мульти-Dreambooth.

Можно:
* генерить вариации одной и той же сцены с хорошей консистентностью;
* деконструировать объекты в кадре, вроде собаки в пижаме на фоне красной стены, чтобы одеть в пижаму кота на фоне леса или перенести собаку на фон Стоунхэнджа;
* делать инпейнт по рефу в каждую маску для своего контекста
* удалять/заменять объекты на фронте или вытаскивать чисто бэкграунд

Сайт
Кода пока нет

891 viewsAndrey Bezryadin, 12:03

2:02

Nvidia побывала на конфе Computex и показала технологию ACE. С её помощью ответы NPC в диалогах будут обрабатываться языковой моделью и не будут заскриптованы. За лицевые анимации также отвечает нейронка.

Нечто похожее делают Replica.

Ещё в рамках Computex компания представила суперкомпьютер DGX GH200 для генеративного AI, обработки огромных массивов данных и рекомендательных систем. Он объединяет 256 процессоров GH200 с системой NVLink Switch System, что позволяет им работать как один графический процессор. Суммарный объем памяти системы достигает 144 Тб (1 Эфлопс). Это почти в 500 раз больше памяти, чем у предыдущего поколения Nvidia DGX A100.

873 viewsAndrey Bezryadin, 13:02