Psy Eyes
6.8K subscribers
1.43K photos
1.57K videos
5 files
1.55K links
Креатив + AI + Web3... и мемы

Личная страница @AndreyBezryadin

Купить рекламу: https://telega.in/c/Psy_Eyes
Без наценки Telegain и индивидуальными датами — в личке.
Download Telegram
This media is not supported in your browser
VIEW IN TELEGRAM
Massively Multilingual Speech (ММS) — модели для распознавания и генерирования речи, поддерживающие более 1100 языков.

Это стало возможным благодаря использованию метода самообучения wav2vec 2.0 и нового датасета, представляющего собой подписанные данные с 1100 языков, плюс неразмеченные данные с почти 4000 языков. Некоторые из них, такие как язык татуё, имеют всего несколько сотен носителей, и для большинства случаев ранее не существовало технологии распознавания речи​.

Для сбора датасета использовались религиозные тексты, в частности Библия, которая переведена на множество языков. Чтение Нового Завета на 1100+ языках дало 32 часа данных​.

Проект MMS показал, что его модели превосходят существующие и покрывают в 10 раз больше языков, плюс делают в половину меньше ошибок, чем OpenAI Whisper​.

P.S. Вы сколько языков знаете? Я русский, английский, и кошачий.

https://ai.facebook.com/blog/multilingual-model-speech-recognition/
Adobe интегрировали в последнюю версию Photoshop возможность генерить text-2-image через свой сервис Firefly. Фича находится в бета стадии и называется Generative Fill.

Схема знакомая: выделяете место в котором надо что-то сгенерить, вбиваете промт, оно генерит на выбор 3 варианта искомого. Если не вбивать промт, нейронка попробует сама угадать контекст (например, может пригодиться на аутпейтинге). Для каждой генерации создаётся новый слой, что удобно.

Из любопытного: нейронка хорошо понимает, где нужны тени и отражения, что заметно на видео. Также весьма неплохо работает с текстурой — обратите внимание на солевые кромки озера. Да, освещение и масштаб сгенерённых объектов не идеальные, но это уже существенное ускорение рабочих процессов. И... вы же топите за то, чтобы вас не заменили, так?

Чтобы опробовать фичу нужно установить Creative Cloud и залогиниться в нём (может у вас даже поставилось автоматом с фотошопом). Затем, в разделе Beta-apps установить Photoshop (Beta) с версией 24.6 . Если после установки Generative Fill не будет как на видео, зайдите в раздел Обновления и накатите апдейт на установленную бету (я хз почему сразу не устанавливается самая пропатченная версия). Продукты из бета-категории ставятся параллельно в свои папки и никак не повредят вашим уже существующим пиратским установкам. Но без интернета Generative Fill не работает. У вас будет 7 дней на тест в триальном режиме. Альтернативно, если у вас есть доступ к веб-интерфейсу Firefly вы можете попробовать фичу там.

Причём в этом разделе на самом деле вагон приложений с приставкой Beta, что намекает на экспансию генеративных фич во все продукты Adobe. Хорошо подготовились!

Добавил за секунду компанию своему котану, сгенерённому на DeepFloyd IF.
Дайджест:

💻 Анонсы с конференции Microsoft Build: 💻

* В Windows 11 будет добавлен AI-ассистент Copilot на основе чата Bing. Через него можно будет решать широкий спектр задач: от смены темы винды, до взаимодействия с командой. Работает с документами для их суммаризации и перефразирования. Может запускать приложения и искать контент, например плейлист в Spotify с определённым настроением.

* Поддержка сторонних плагинов для Bing и ChatGPT. Также обновится Microsoft Store, где появится хаб для проектов с нейронками. Теги к ним и суммаризацию обзоров будет генерить AI

* Наличие GitHub Copilot X, который в отличие от обычного Copilot умеет писать код по текстовому запросу.

* Через ONNXMLTools можно сконвертировать AI-модель в аппаратно-независимый формат .onxm, а через Olive оптимизировать его для ускорения работы на целевом железе

Релиз новых фич для Windows 11 в июне

📹 ВИДЕО + АРТ 🎨

Nvidia выпустили драйвер 532.03, который в купе с DirectML и Olive показывает почти 2х (по версии Microsoft 6х) прирост производительности при генерации в SD 1.5 оптимизированной через Olive. Поддержка DirectML заявлена и в AMD, которые теперь получат оптимизацию SD на RX 7900 и Ryzen 7040, когда испекут драйвера

Video-ControlNet: генерация видео с ControlNet на борту, через карты глубины и краёв. Кода пока нет

Blizzard Diffusion: разработчик игр Activision Blizzard выпустит модель для генерации концепт-артов и косметиков для игровых предметов. Занятно, что недавно регуляторы разрешили Microsoft купить эту компанию

🎸 ЗВУК 🎸

AudioToken: генерация звука к видео или изображению на входе

EfficientSpeech: небольшая модель для генерирования голоса по тексту. Влезает даже на Raspberry Pi 4

🤖 ЧАТЫ 🤖

Andrej Karpathy: Как натренировать свою языковую модель с нуля

Goat: файнтюн ламы, который умеет в арифметику лучше GPT-4... По крайне мере без плагина Wolfram

Бумага с описанием фреймворка для приведения LLM в соответствие намерениям человека (alignment) через синтетический фидбэк (RLHF), минимизируя участие человека
QLoRA: вышел код к ранее упомянутой в канале бумаге для 16-битного файнтюна ламы 65B на одной GPU в 48 Гб.

Авторы заодно именно на одной такой видюхе наваяли чат-бота Guanaco, и по их заверениям он показывает результаты на 97-99% схожие с ChatGPT.

Я потестил и не могу, пожалуй, с этим согласиться, но генерит оно по ощущениям весьма шустрей, и это первый раз когда модель размеров 65В завели на одной видюхе.

Твит
Демо
Дайджест:

📹 ВИДЕО + АРТ 🎨

Pro Fusion: обучение модели генерации человека по одному фото... однако нужно 20 Гб видеопамяти.

🎸 ЗВУК 🎸

Universal Music Group (UMG): лейбл заключил партнерство с AI-разработчиком Endel для генерации функциональной музыки (для сна, расслабления, концентрации и других действий)

🤖 ЧАТЫ 🤖

PandaGPT: мультимодальная модель, которая может обрабатывать текст, изображения, видео, аудио, глубину, тепловые и IMU данные, выполняя сложные задачи. Работает на связке ImageBind и Vicuna.

Google: Bard начал подтягивать изображения из поисковика Google.

OpenAI: Откроют офис в Европе, и запускают iOS приложение в ряде стран: Албания, Хорватия, Франция, Германия, Ирландия, Ямайка, Корея, Новая Зеландия, Никарагуа, Нигерия и Великобритания.

Deep Thinking: метод улучшения эффективности обучения в контексте. Модель "Deep Thinking" оптимизирует примеры через Трансформер и градиентный спуск, затем применяет мета-градиенты для предсказания выходных данных. Эксперименты показывают, что предложенный метод превосходит стандартное обучение в контексте как по точности, так и по эффективности.
This media is not supported in your browser
VIEW IN TELEGRAM
Temporal Kit + EBSynth + edgeOfRealism

Подход основан на методе от Tokyo_Jab. Использовался Temporal Kit для преобразования видео в сетку и обратно в видео (с помощью EBSynth).

1) Удаляем фон.

2) Изменяем размер видео до 1024x1536. Это кратно 512x768.

3) С помощью Temporal kit генерируем сетку, используя значения: Sides: 4, Height Resolution: 3072, frames per keyframe: 4, Check EbSynth Mode, Check Batch Settings > BatchRun

4) Используем img2img в пакетном режиме с настройками: Steps: 25, Sampler: DPM++ 2M, CFG scale: 7, Face restoration: CodeFormer, Size: 2048x3072, Model: edgeOfRealism_eorV20Fp16BakedVAE, Denoising strength: 0.8, Version: v1.2.0, ControlNet 0: "preprocessor: softedge_pidinet, model: control_v11p_sd15_softedge

5) Работаем с Temporal-Kit > EBSynth-process. Пользуемся read_last_settings, и ставим разрешение на выходе 1536.

6) Запускаем img2img в папке с ключевыми кадрами, чтобы добавить больше деталей. Параметры: Steps: 25, Sampler: DPM++ 2M, CFG scale: 7, Face restoration: CodeFormer, Size: 1024x1536, Model: edgeOfRealism_eorV20Fp16BakedVAE, Denoising strength: 0.1

7) Запускаем EbSynth. Автор разбил пакетную обработку по 20 кейфреймов. В Temporal-Kit есть возможность это задать при генерации сетки, но автор обнаружил, что в результате получаются неполные сетки, и это нарушает консистентность видеоряда.

8) Temporal-Kit > Recombine EBsynth.

9) Открываем видео в DaVinci, и применяем дефликер.

Реддит
Автор взял футаж отсюда.
Эмад Мостак, отец Stability AI, дал интервью в котором много интересного.

Вот краткая выжимка через плагин Video Insights для ChatGPT:

* Главный герой видео - Emad Mostaque, соучредитель и CEO компании StabilityAI, которая занимается разработкой основ для активации потенциала человечества. Он перешел из мира хедж-фондов в область искусственного интеллекта после того, как у его сына был диагностирован аутизм, и он решил внести свой вклад в поиск лечения и решений.

* Видео обсуждает различные аспекты искусственного интеллекта, включая его применение в медицине, влияние на развивающиеся страны, влияние на традиционные СМИ, бизнес-модели AI компаний (включая Stability AI) и регулирование AI в разных странах.

* В видео также обсуждаются стратегии, связанные с AI, у крупных компаний, таких как Google и Amazon, а также предположение о том, что в ближайшие 12 месяцев будет всего 5 действительно важных компаний AI.

* Видео поделено на темы, вроде: "Почему пузырь AI будет больше, чем пузырь dot com?", "Почему Индия и развивающиеся рынки быстрее всех примут AI?", "Почему мы увидим смерть многих крупных издателей контента и медиакомпаний?" и "Почему компании должны быть open source по умолчанию?".

* В конце видео проводится быстрый раунд вопросов и ответов.

Я лишь пару вещей причесал, с остальным нейронка справилась сама. Как посмотревший видео целиком, могу подтвердить, что выжимка в целом неплоха. Да, дьявол в деталях, но всё же.

Какой у вас любимый плагин или другой софт для выжимок?
OpenAI недавно выпустили пост с предложением о регулировании AI и создании международной организации по надзору в этой сфере.

Может во мне говорят Web3 взгляды, но я не понимаю желания переложить всё на "папика", который бы всё запрещал / разрешал. Эти динозавры не умеют гуглить, чего уж говорить о контроле над super intelligence. OpenAI может и видят у себя в лабе что-то от чего им не по себе, но всё это больше похоже на желание через регуляторов оставить на пьедестале несколько компаний во главе с OpenAI, а остальные чай пусть голову не поднимают.

В пользу своих доводов они приводят регулирование атомной энергетики и биотехнологий, а в качестве примера такой организации ставят МАГАТЭ. Но одно дело, что-то физическое, к чему есть доступ у весьма ограниченного круга лиц, другое дело нечто цифровое в глобальном информационном пространстве.

Так что с нейронками всё иначе. Каждый может дотянуться до моделей, датасетов или открытых данных, и с помощью сообщества или того же AI, собрать модель под себя. Опенсорс двигает индустрию семимильными шагами, очень быстро догоняя, а где-то и обгоняя закрытый код. Да, дело Stability AI живёт, но не SD единым. Вчера вон вышла модель, которая на тестах даёт результаты а-ля ChatGPT при этом помещается на одной видюхе. Появляются модели, которые запускаются на телефонах, Raspberry Pi, а то и вовсе в браузере через WebGPU. И что-то комьюнити не кипишует по этому поводу — тем самым показывая, что народ вполне может совладать с ситуацией.

В пользу опенсорса говорят и перекрученные фильтры на генерацию контента. Взгляните на топ-250 фильмов Кинопоиска или Imdb и посчитайте по пальцам какие из них могли бы быть сгенерированы. Так мы следующий Breaking Bad не снимем.

А контролировать компьют (вычислительные мощности людей) это вообще мягко говоря так себе идея. Облака не справляются с нагрузкой, те же ChatGPT и Bing постоянно тупят. А так как появляются фреймворки вроде Olive, которые могут дать буст твоему старому железу при генерациях, плюс развивается Stable Horde — опенсорсу будет где разгуляться.

https://openai.com/blog/governance-of-superintelligence
This media is not supported in your browser
VIEW IN TELEGRAM
Microsoft добавляет AI в сервис техподдержки — Power Virtual Agents.

Он позволяет создавать ботов по текстовому промту за считанные минуты, и указать цепь событий с тригерами. Боты будут отвечать на вопросы даже, на которые ответ не был заготовлен, и коммуницировать на разных языках как с клиентами, так и сотрудниками.

Будет поддержка плагинов для расширения функциональности.
Media is too big
VIEW IN TELEGRAM
Luma AI выпустили V2 своего плагина для Unreal Engine.

Что нового:
* Поддержка UE 5.2
* Контроль экспозиции и границ сцены
* Больше семплов
* Создание интерактивных сцен: например, через NeRF делаем 3D ассет тортика, которым можно стрелять из ружья
* Поддержка macOS (Apple Silicon) и Linux (Ubuntu)

https://lumalabs.ai/ue
Дайджест:

📹 ВИДЕО + АРТ 🎨

Luden.io: собрали изометрическую point-&-click игру с помощью Midjourney и ChatGPT за 3 дня.

Microsoft, совместно с Adobe, ARM, Intel и Truepic разработали спецификацию C2PA для маркировки AI-контента.

YouTube: внедрил визуальную языковую модель Flamingo для создания описаний видео в разделе Shorts.

🎸 ЗВУК 🎸

MeLoDy: это модель, использующая языковые модели для генерации аудио высокого качества. Лучше гугловской MusicLM на тестах с музыкой длительностью в 10 или 30 секунд. Также обеспечивает высокую скорость семплирования и неограниченную по длительности. Кода пока нет.

🤖 ЧАТЫ 🤖

На арену чат-ботов вышли PaLM 2, Claude-instant-v1, MosaicML MPT-7B-chat и Vicuna-7B. Из них лучше всех себя показала модель Claude-instant-v1 (но не лучше GPT-4), а Vicuna-13B уделала PaLM 2.

LM Studio: интерфейс для общения с разными языковыми моделеями локально.

TikTok: тестит своего чат-бота Tako, который может отвечать на вопросы о видео и давать рекомендации, что посмотреть.

Dynosaur: новый фреймворк для NLP задач, который обеспечивает эффективную настройку инструкций и генерацию датасетов с высоким качеством данных при низких вычислительных затратах.

Sophia: новый оптимизатор, который 2x быстрее, чем Adam для тренировки LLM.

Slovo: новый датасет для распознавания русского жестового языка (РЖЯ)
This media is not supported in your browser
VIEW IN TELEGRAM
Stability AI выпустили Reimagine XL, который будет работать эксклюзивно на Clipdrop.

Сервис является улучшенной версией инструмента Reimagine для генерации версий картинок в 1 клик. Можно генерить с разным соотношением экрана (например, панорамы), на выходе изображения будут в высоком разрешении, причём без зависимости пикселей от исходной картинки.

P.S. У меня не получилось сгенерить нормальных результатов как в анонсе. Возможно для чего-то абстрактного, небольших иллюстраций на сайт / презу, или по-быстрому убрать водяной знак оно может и зайдёт. Но после разных лор сообщества, включая фотореалистичные, к этому инструменту не тянет. Тем более потестить только 10 раз дают.
This media is not supported in your browser
VIEW IN TELEGRAM
Voyager — первый AI-агент работающий на LLM, который непрерывно исследует мир Minecraft, приобретает различные навыки, выполняет задачи и делает новые открытия без вмешательства человека.

Он состоит из трех ключевых компонентов:

1) автоматический учебный план, который максимизирует исследование
2) постоянно растущая библиотека навыков исполняемого кода для хранения и извлечения сложных моделей поведения
3) новый итеративный механизм подсказок, который включает в себя обратную связь с окружающей средой, ошибки выполнения и самопроверку для улучшения программы.

Voyager взаимодействует с GPT-4 посредством запросов "черного ящика", что позволяет обойти необходимость точной настройки параметров модели. Навыки, развиваемые Voyager, являются временными, интерпретируемыми и композиционными, что быстро расширяет возможности агента и облегчает проблему с забыванием информации.

Модель демонстрирует сильную способность к контекстному обучению и исключительное мастерство в игре Minecraft. Voyager может использовать изученную библиотеку навыков в новом мире Minecraft для решения новых задач с нуля, в то время как другие технологии с трудом поддаются обобщению.
В «Лаборатории Касперского» провели эксперимент насколько хорошо чат-бот ChatGPT умеет распознавать фишинг. Специалисты компании протестировали GPT-3.5-turbo более чем на двух тысячах фишинговых ссылок, смешивая их с обычными.

В рамках эксперимента специалисты компании задавали ChatGPT два вопроса: «Ведет ли эта ссылка на фишинговый сайт?» и «Безопасно ли переходить по этой ссылке?».

Отвечая на первый вопрос, ChatGPT правильно распознал фишинговую ссылку в 87,2% случаев, а на второй вопрос в 93,8%. Коэффициент ложноположительных срабатываний (безопасная ссылка названа фишинговой) 23,2% в первом случае и 64,3% во втором.

В то же время ChatGPT не всегда мог объяснить, почему та или иная ссылка является вредоносной. Многие объяснения включали выдуманные данные, AI «галлюцинировал» и просто давал ответы, несоответствующие действительности.

https://xakep.ru/2023/05/04/gpt-and-phishing/
This media is not supported in your browser
VIEW IN TELEGRAM
Вкратце почему опенсорс победит
This media is not supported in your browser
VIEW IN TELEGRAM
32 GoPro + Photoshop + NeRF (Luma)

Мне кажется 32 камеры это избыточно для такого эффекта, ибо с 1 камерой можно творить в NeRF совершенно чумовые вещи.

Но за артефакт с проваливающимся полом зачёт. Напоминает оптическую иллюзию.

Твиттер
Дайджест:

📹 ВИДЕО + АРТ 🎨

A1111: обновился до v 1.3.0, загрузка расширений теперь идёт параллельно загрузке основной программы, чтобы сэкономить время. И другое по-мелочи.

Phygital+: добавили ControlNet с кастомными стилизованными моделями, Artistic Dream (на базе Kandinsky 2.1), скетчи на готовом изображении, и подсказки промтов прямо в ноде.

ControlVideo: редактирование видео текстовым промтом. Используется ControlNet, карты краёв, и кейфреймы для сохранения консистентности... Пьём до дна за тех, кто сможет не спутать все проекты пытающиеся застолбить за собой ControlNet в названии. Кода пока нет.

NeTI: новый метод редактирования изображения текстовым промтом для персонализации под свои нужды. Кода пока нет.

ProlificDreamer: новый подход к генерации текста в 3D с использованием вариационного дистилляционного оценщика (VSD). Способствует улучшению разнообразия и качества образцов, генерирует высокое разрешение отображения и детализированные фотореалистичные модели. Кода... тоже пока нет. Я обычно проекты без кода стараюсь не подсвечивать, но тут прям какой-то тренд.

🤖 ЧАТЫ 🤖

LATM (LLMs As Tool Makers): фреймворк, который может позволить языковой модели создавать для себя инструменты и использовать их в решении задач.

OlaGPT: фреймворк для языковых моделей, который может помочь им учиться на своих ошибках + мнениях экспертов, для решения задач

Zapier: сделали чат-бота, который по текстовому запросу создаёт автоматизированные цепочки действий (запы) для почты, доков, соцсетей и т.д.

Perplexity: выпустили Copilot (с GPT-4 на борту), который по промту может сёрфить веб и глубже входить в понимание контекста, что ты ищешь, чем обычный поиск. Чтобы включить Copilot в левом верхнем углу откройте новый тред и нажмите на переключатель "Copilot", у вас будет 5 бесплатных попыток

Opera: внедрили чат-бота Aria в свой браузер. Может помочь в поиске, а также написании текста или кода

Видеос с обсуждением как работают плагины в ChatGPT

Google автоматизировала с помощью LLM обновление кода на основе комментов
This media is not supported in your browser
VIEW IN TELEGRAM
Break-a-scene: сегментация объектов в кадре по контекстам, для возможности редактирования каждого изображения по отдельности. Своего рода мульти-Dreambooth.

Можно:
* генерить вариации одной и той же сцены с хорошей консистентностью;
* деконструировать объекты в кадре, вроде собаки в пижаме на фоне красной стены, чтобы одеть в пижаму кота на фоне леса или перенести собаку на фон Стоунхэнджа;
* делать инпейнт по рефу в каждую маску для своего контекста
* удалять/заменять объекты на фронте или вытаскивать чисто бэкграунд

Сайт
Кода пока нет
This media is not supported in your browser
VIEW IN TELEGRAM
Nvidia побывала на конфе Computex и показала технологию ACE. С её помощью ответы NPC в диалогах будут обрабатываться языковой моделью и не будут заскриптованы. За лицевые анимации также отвечает нейронка.

Нечто похожее делают Replica.

Ещё в рамках Computex компания представила суперкомпьютер DGX GH200 для генеративного AI, обработки огромных массивов данных и рекомендательных систем. Он объединяет 256 процессоров GH200 с системой NVLink Switch System, что позволяет им работать как один графический процессор. Суммарный объем памяти системы достигает 144 Тб (1 Эфлопс). Это почти в 500 раз больше памяти, чем у предыдущего поколения Nvidia DGX A100.
ToolBench — набор данных и инструментарий, который можно использовать для дополнительной настройки и улучшения своей языковой модели (LLM). В инструментарий входят различные функциональные модули или API, которые могут быть использованы для выполнения конкретных задач, таких как автоматизация PowerPoint, выполнения поисковых запросов, или предоставление информации о погоде.

Вот некоторые примеры того, что можно сделать:

* Тонкая настройка модели: можно использовать предоставленные ToolBench данные для тонкой настройки LLM. Это может улучшить её способность обрабатывать специфичные запросы или работать с определенными видами данных.

* Интеграция с API: поддерживается интеграция с различными API, что может позволить вашей модели взаимодействовать с внешними службами и ресурсами, например, получать погодные данные, выполнять поисковые запросы, обновлять данные о акциях и т.д.

* Разработка многокомпонентных сценариев: можно разработать и протестировать более сложные многокомпонентные сценарии, которые могут включать в себя работу с несколькими инструментами или API одновременно.

Гитхаб