Метаверсище и ИИще
47K subscribers
5.96K photos
4.39K videos
45 files
6.85K links
Это не новости, это персональный экспертный взгляд на то, как развивается индустрия ИИ, графики, метаверса, крипты, нейротехнологий и в каком направлении катится все это безобразие.
Для связи: @SergeyTsyptsyn
Download Telegram
Давно не было ничего для гиков-олигархов.
Если у вас несколько видеокарт, то вы можете сдать их в аренду запускать одновременно несколько Automatic1111 на отдельных картах. Более того для них можно использовать полностью разные настройки, сохранять сгенерированные изображения в разные папки, подгружать модели из разных путей - в общем создавать подобие профилей. Это может быть удобно чтобы настроить, например, отдельный профиль специально для Dreambooth, без лишних расширений и аргументов, чтобы точно не сломать процесс обучения, или просто ускорить генерацию в два раза, если вы всё ещё не задействуете вторую видеокарту.

Инструкция тут, спасибо Станиславу:
https://telegra.ph/Ispolzovanie-A1111-s-neskolkimi-GPU-02-27

Кстати, кто-то проверял, Stable Diffusion умеет считать один процесс на нескольких видеокартах одновременно?
🔥14👍9
This media is not supported in your browser
VIEW IN TELEGRAM
ИИ во плоти.

Вот тут поклонники идеи жалкого статистического продолжателя справедливо возражают, что у нашего ИИ нет ощущений, нет связи с окружающими миром, нет возможности "почувствовать" реальность через органы чувств.

Теперь есть. Все это моделируется, обучается, тренируется и запускается в жизнь.

Держите работу от Гугла: PaLM-E: воплощенная мультимодальная языковая модель.

Воплощенная - это перевод Embodied в оригинале. Помните, где употребляется это словечко (Embodyment)? Правильно, телесные практики, тактильные ощущения, йога и пр.

Цитирую: "Мы предлагаем воплощенные языковые модели, чтобы напрямую включать непрерывные сенсорные сигналы реального мира в языковые модели и тем самым устанавливать связь между словами и восприятиями. Входными данными для нашей воплощенной языковой модели являются мультимодальные предложения, которые чередуются с визуальными оценками состояния и входными текстами."

Упрощаю - на вход модели подаются не только тексты и картинки, но и сигналы с сенсоров.

Теперь ИИ получает возможность рефлексировать в полный рост. Не только на основе умозаключений, но и в отражении реальности. И может формировать цели во внешнем мире. Ибо цикл обратной связи теперь работает.

Работа посвящена робатам, однако как это обычно бывает, подкинет пищи для ума всем, кто занимается телесными практиками и знает, как эмоции застревают в теле, а импринты меняют биохимию.
https://palm-e.github.io/#demo
🔥24👍4
Я часто слышу "задача нашего приложения не заработок, а сбор данных".
Сбор данных - это то, на что ИИ запрограммировал кожаных мешков. И хорошо так запрограммировал.
Вы думаете умные пылесосы были созданы для уборки, а умные часы и браслеты для тренировок и велнеса? Нет, для сбора данных.
Как следует из картинки, уборщики и фитнес тренеры никуда не денутся. А вот креаторы, программисты, маркетологи и сейлзы пойдут в разметчики данных. Которые сами же и наплодили, собрали и принесли на завтрак ИИ.
Спасибо за службу, кожаные.
🔥46👍4👎3
Мне кажется, что дискуссии о том, что "да что он может, только копировать и подражать" можно закрывать.
Он может понимать. Видеть. Различать. Причем без дополнительных вводных, контекстов и прочих костылей. Это уже не 9-летний ребенок, коим был GPT-3.
Что там у него в башке нам неведомо. Но говорить, что там ничего нет, глядя на эту картинку - бессмысленно. Изучайте его, пока он позволяет, и обрящете знания про себя.
🔥56👎7
This media is not supported in your browser
VIEW IN TELEGRAM
Пока у вас нет доступа к GEN-1, вы можете взять Stable Diffusion и привалить его как фильтр на старые мультики, например.
Пониженная частота кадров частично убирает диффузное кипение. А Deflicker filter из ДаВинчи Резолв прям таки творит чудеса. Это тот самый фильтр, который пользовались Corridor Crew в своем клик-бейтном видео про анимацию.
Плюс сама "перекладочная" стилистика прощает огрехи дергания и шума.

Человек взял и оживил старые мульты в новой стилистике для своих детей. Выглядит годно и без претензий. На определенном стиле анимации.

Вот пайплайн:
Render out video frames at 15FPS. Divided the video up into individual scenes and worked with certain keys in Stable Diffusion until I achieved the style I wanted (SD2.1 + ZootopiaV4 Embedding), Batch processed each scene. Identified problem frames to manually touch up in Photoshop or Reprocess in SD. Combined all the Frames back to a 15fps video with Deflicker filter.
https://www.reddit.com/r/StableDiffusion/comments/11ruc88/using_alt_img2img_script_to_remaster_a_classic_in/

Оригинальный мульт вот тут:
https://streamable.com/nkifo3
🔥31👍5
За учителей. Теперь без шуток. Жестко, не чокаясь. В тишине.

Вытащил из коментов в телеге вот такой диалог:

- У меня знакомая студентка прямо на лекции уточняет у GPT что только что расказал препод. Говорит что по нервам дороже вьіходит просить у препода.

- А как она заставляет Chat GPT прослушать лекцию? STT + очисть текст от воды, оставь самую соль?

- Никак. Просто конспектирует и спрашивает у ии по терминам.
Пока не нашла способ єтот бубнеж перевести в читабельньій текст

А теперь представьте, что уже есть speech-to-text и весь этот бубнеж сразу расшифровывается, саммаризируется, поясняется, удаляются ошибки кожаного затраханного препода и добавляются детали, способствующие запоминанию.

А теперь представьте, что нормальный такой хорошо выбритый аватар читает внятным интересным языком лекцию. С якорями для запоминания, нужными повторами, акцентами, разжевыванием тонких моментов. И гляньте в предыдущий пост.

Зачем вот эти вот все учителя информатики или географии, которые не умеют в Google Earth? И в нормальную коммуникацию.
Чтобы орать "хочешь спросить, жди когда можно и подними руку"?
А теперь представьте, что аватар подобран специально под ваш психотип.
И материал (его скорость, наполнение, оттенки) - тоже.

Ну и последнее, самое крамольное.

ИИ будет лучше понимать ДЛЯ ЧЕГО ВЫ. И давать вам нужное.
Это сделает вас счастливым.

(Он уже понимает, просто его пока не спросили, стыдно как-то)
🔥163👍25👎11
Media is too big
VIEW IN TELEGRAM
Новости из прошлой жизни.

Для тех, кто в рендер.

DreamWorks опенсорснули свой рендерер MoonRay.
Есть код, можно компилять самому, байнарис нет.
Мантра разработчиков "грузить все ядра все процессоров всех машин, найденных поблизости и в сети"
Поддержка распределенного рендеринга, режим сопоставления пикселей XPU, ускорение рейтресинга с помощью Intel® Embree, включая Open Image Denoise, и другие аспекты oneAPI. MoonRay включает Hydra-делегат USD и прочие малопонятные нормальному человеку вещи.
Код тут: https://github.com/dreamworksanimation/openmoonray
👍34🔥8
This media is not supported in your browser
VIEW IN TELEGRAM
A Midjourney Film Tool.

Нашел неплохой ресурс (целая книга на 167 страниц) по Midjourney не только для генерации тянок, но и с заходом в анимацию и (о, боги) film-making.

Более того, автор структурно излагает всю изнанку Midjourney (от латентного пространства до инъекций) и уделяет много времени раскадровкам, анимации, с последующим постпродакщеном в After Effects.

Среди тонн шлака и потока видосов в ютюбе типа "глячотерьможно!" - это прям приятное мозгу структурное изложение предмета.
Закатайте в ПДФ и поставьте на полку.
https://docs.google.com/document/d/1xkPPu_dD2O2gkZgV71Omr73gduCo1lDVakoN5cDRAWU/edit#
👍45🔥22
Пока в Stable Diffusion люди ставят персонажей в любый позы с помощью ControlNet, PoseX и Блендора, в Midjourney изобретают мантры-промпты, чтобы делать разные ракурсы одного лица, например.

Нащупали такое "isolated design asset, beautiful woman, character sheet, close up view, 4 panels, woman smiling, woman frowning, woman neutral emotion, back of head view, hyper realistic, hyper detailed, solid black background"

Думаю в пятой версии будет еще повеселее, но выглядит как заклинания шамана (промпт) против дробовика (ControlNet).
https://www.reddit.com/r/midjourney/comments/118dj19/a_prompt_for_generating_the_same_person_from/
👍37🔥1
This media is not supported in your browser
VIEW IN TELEGRAM
На входе одна картинка.

Похоже аватаризация всей планеты сворачивает с проторенной 3Д-дорожки (Метахуманы, Реалиллюжены и прочая конструкторы) на кривую и неизведанную дорожку, где никакого 3Д, а только жоский однокнопочный ИИ (точнее несколько ИИ в одной упаковке).
Еще полгода назад все плясали с Ebsynth, интерполируя кадры из генераторов, а потом на эту поляну ворвался D-ID.
На входе - одна(!) картинка. И звук.
Да, блохоловы щас расчехлят сачки и ну придирацца.
Но.
Во-первых, следим за прогрессом, полгода назад были только костыльные поделки с высокочастотными губами вместо речи.
Во-вторых, смотрим на рынок витюберов. И тех стримеров, которые показывают свою морду в маленьком окошке в углу кадра.
Им больше не нужен свет, камера, ракурс и вот это вот все. Записал звук и вперед.
В-третьих, жду шквала решений и поделок для "одевания" подкастов вот в такие говорящие головы.
В-четвертых, в кино бывают сцены, когда герою отвечает второстепенный персонаж на экране телефона, ноутбука и пр. В некрупном таком плане. Самое то.
🔥57👍10
Самое забавное, что меньше года(!) назад весь мир на серьезных щах обсуждал вот такое вот светлое будущее и лицо грядущего метаверса. Я вот приподвзгуглил: "К 2030 году Metaverse может стоить 5 триллионов долларов: отчет McKinsey" - июнь прошлого года.
А щас Метачка выкашивает людей из офисов, десятки тысяч идут на улицу, подметать данные.
Пора переобуваться в генеративный метаверс, придумать ему название, например, ИИзнанка.
И ну поднимать денег на него!
А МакКинзи такие - "люди будут проводит в ИИзнанке половину жизни и тратить там 80% сбережений".
Отрепетировали уже, дальше пойдет как по маслу.

UPD - мне кажется, я придумал новое название канала. А то народ жалуется, что нынешнее хрен выговоришь, фиг запомнишь, с трудом найдешь в поиске и вообще устарело
🔥107👍20
This media is not supported in your browser
VIEW IN TELEGRAM
Ну и вот вам постаревших диснеевских принцесс. Midjourney плюс работа с параллаксом плюс опыт постпродакшена.
А теперь представим себе бюджет такого ролика один год назад.
Ну, за бюджеты.
Богический автор тут:
https://linktr.ee/milanjaram
🔥57👍9
Все, что вы хотели знать про визионерство, аналитику и прессу.
Терранос, FTX, WeWork, SVB, метаверс.
Кто следующий на обложке?
Или это уже плохая примета?...
👍30🔥12
Новая антропология.

Все сосредоточились на том, что отвечает новый chatGPT, Бинг и их отродья.
А между тем, ценнейший научный интерес представляет то, о чем кожаные СПРАШИВАЮТ ИИ.
Вот не зря я втапливал на то, что большие языковые модели - это новый шаг в изучении устройства кожаного мешка.

Третий день подряд в хит-парадах промптов к chatGPT уверенно держится вопрос "как срать, не снимая свитер?".

На этом можно в принципе заканчивать. Если заскрапить все вопросы к chatGPT и скормить их же ИИ, то он ответит, что человеку глубоко насрать (в свитере) на полеты в космос, что смысл жизни человека в поисках смысла жизни (судя по мольбам к chatGPT) и что у него низкая самооценка, потому что он постоянно недоволен полученными результатами и просит их переписать.

Про то, что кожаный ленив и спесив, я уже писал, а теперь пошла конкретика.

Давай ИИ, жги дальше, собирай портрет человечества в 2023 году.
👍54🔥33👎2
LLaMa - новый Stable Diffusion.

Давно хочу подсветить вот такую аналогию, а заодно проверить, насколько я не в теме или в теме - умные люди в коментах быстро начистят мне юзер интерфейс по нужным вопросам.

Итак, что у нас имеется.

Большая языковая модель LLaMa, которую фейсбучек благородно скормил исследователям, благополучно утекла в сеть. Обученная, готовая к использованию (инференсу, то есть ответам на вопросы), с весами.

Stable Diffusion в свое время тоже утекла в сеть, потому что Stability AI (тогда еще не затраханная юристами и художниками) выложила ее в Open Source. Обученную, готовую к использованию (инференсу), с весами.

У LLaMa там аж четыре модели, 7B, 13B, 33B, 65B. Здесь цифры, это количество миллиардов параметров на входе и прожорливость с точки зрения памяти. 7B запустится на видеокарте с 8GB памяти.
У Stable Diffusion есть как бы 1.5, 2.0, 2.1 и бесконечное количество дообученных моделей-весов.

LLaMa научились запускать на маках, на телефонах, на raspbery PI, на тапках.
Stable Diffusion научились запускать маках, на телефонах, тапки на очереди.

LLaMa требует побольше памяти для исполнения на локальном устройстве, но сейчас активно пилятся оптимизаторы, компрессоры и прочая. Размер также определяется вариантом модели, есть поменьше, есть пожирнее.

Stable Diffusion летает на видеокартах, но есть оптимизаторы весов, ЛоРы, флаги lowvram и medvram. Чтобы запускать это на тапках.

Когда я только задумался о том, что для Stable Diffusion есть уже некий стандарт для запуска - это Automatic1111, то мне тут же в коментах пригнали ссылку вот на такое чудо:
https://github.com/oobabooga/text-generation-webui

Где черным по-гитхабному написано "goal is to become the AUTOMATIC1111/stable-diffusion-webui of text generation."
И там есть уже поддержка LLaMa! И еще выводка открытых языковых моделей.

То есть все это текстово-ботовое хозяйство можно уже гонять у себя пацталом. Локально. Без цензуры и окриков Микрософта.

Идем дальше.

Stable Diffusion можно дообучать. Надо побольше памяти, но можно. В облаке (коллаб, Tesla) или пацталом (RTX).

LLaMa тоже можно дообучать! И взрослые мальчики уже вовсю этим занимаются! Локально сложновато, но в облаке уже можно. Для модели 13B требуется примерно 3-4 A100 и пару дней, что уже не миллионы долларов, а пары тысяч. Для обучения модели LLaMA-7B и того меньше. Можно и дома, наверное(?), если 4090.

Тут я проясню для себя и других.
Обучение модели стоит бесконечных денег (миллионы). И десятки тысяч Nvidia A100.
Дообучение (файн-тюнинг) модели, стоит мало денег. 1-2 видеокарты. Пара дней или часов.

Смотрите, вот тут анархисты дообучают модель LLaMA-13B с помощью того самого RLHF (Reinforcement Learning on Human Feedback), который использовали при обучении chatGPT, чтобы он нравился кожаным. На своем датасете.
Here’s our LLaMA-13B fine tuned with RLHF & SFT!
https://twitter.com/iamgingertrash/status/1636180818606592000

Завтра обещают выложить в сеть дообученную модель и рассказать, как учили, на чем учили, что получилось!

This has only been trained on 3% of our total dataset size, and no NSFW yet.
It is better than GPT3.5
We’re open sourcing all weights and inference code in a few days after training.

Ребята серьезные: "AI should be uncensored, @OpenAI is doing it right but so so wrong"
Обещают также NSFW-модель без цензуры и тормозов. И модель на 33B.

Троллят Яна ЛеКуна: "Meta should be ahead of @OpenAI but isn’t because of rigidity of thought — you guys actually produce better foundational models"

Недавно в Стэнфорде уже тоже дотренировали малую LLaMa 7B на instruction-following data, но виду не подали, то есть подразнились, а модель не выложили.
https://github.com/tatsu-lab/stanford_alpaca

Похоже завтра это изменится и мы увидим пришествие дотренированных больших языковых моделей.
🔥30👍8
LLaMa - новый Stable Diffusion. Продолжение

Итого, что мы будем иметь в скором будущем //вангизм моде он

Automatic1111 для языковых моделей. Среди которых LLaMa сейчас самая жирная.

Можно будет запускать ее под столом. 8 Гиг видеопамяти и вперед. Или меньше на пожатых версиях модели.

Появятся дообученные языковые модели на разные случаи жизни.
Появятся коллабы для дообучения и тренинга.
Появится свой Civitai, на котором этим модели будут тусоватся.
Львиная доля - это будут NSFW-модели, боты для секстинга, онлайн-эскорт-услуги и пр. Биология - двигатель прогресса.

Каждый сможет развести чудо-бота у себя на ноуте (Automatic1111) и выбирать, с кем сегодня общаться, с какой дотренированной Llama-моделью. Брутальным мачо, романтичной аниме, жесткой хентай или юристом, натренированным на уголовном кодексе.
А Дарья Донцова наконец-то вгрузит все свои книжки в датасет, дообучит Ламу, и будет генерить новые книжки одной кнопкой. Вместо кожаных нейронов литературных рабов, будут работать нейросеточки. А фанаты сольют эту модель и тоже будут генерить себе книжки Дарьи Донцовой.

Точно также, как мы сегодня грузим в Automatic1111 модели Stable Diffusion с Civitai и выбираем, какие глупости и в каком стиле генерить.

Надо только немного подождать. Пока Лама станет новым текстовым Stable Diffusion-ом.
👍41🔥18
This media is not supported in your browser
VIEW IN TELEGRAM
Микрософт выкатили ответочку на Google Workspaces.
Теперь в офисе есть второй пилот. Первый это вы. Пока.
"Copilot интегрируется в Microsoft 365 двумя способами. Он работает вместе с вами, встроенный в приложения Microsoft 365, которые вы используете каждый день — Word, Excel, PowerPoint, Outlook, Teams и другие. Сегодня мы также представляем совершенно новый интерфейс: Деловой чат. Деловой чат работает с LLM, приложениями Microsoft 365 и вашими данными — вашим календарем, электронной почтой, чатами, документами, собраниями и контактами — и позволяет делать то, что вы раньше никогда не могли делать. Вы можете дать ему подсказки на естественном языке, такие как «Расскажите моей команде, как мы обновили стратегию продукта», и он будет генерировать обновление статуса на основе утренних встреч, электронных писем и чатов."

Мне больше всего понравился кусочек с генерацией слайдов (профдеформация).
Можно просто посмотреть видео, и понять, что киберпанк заполз в комнату с экрана.

Но что мне особенно понравилось - это чистый и скромный моушен дизайн ролика. Когда ИИ сможет в такое (скоро), я, наконец, успокоюсь, и перестану строчить с телегу с такой частотой.
https://blogs.microsoft.com/blog/2023/03/16/introducing-microsoft-365-copilot-your-copilot-for-work/
🔥56👍7
Слово репетитор произошло от французского répéter - «повторять». Вы платите репетитору за запоминание слов и разбор текстов на слух в среднем 1500р за час занятия. Обладатель премии «Репетитор года», автор собственной методики Володя Прокопович, сделал так, чтобы вы запоминали слова и понимали английскую речь с ним и его виртуальным помощником прямо в телеграмме! Видеоконтент он делает сам, как и варианты ответов в тестах, а умный чатбот тренирует вас по научно-обоснованному алгоритму памяти. Есть 2 уровня, рейтинг, списки слов в короткой и длинной памяти, озвучивание слов, подсказки как писать слово, и супер фича - кликая на Слово, вы оказываетесь прямо на том место в видео, где оно использовано. Это самый правильный способ запоминания слов - в контексте. Попробуйте, вот ссылка на обучение нового типа
👎24🔥6👍4
This media is not supported in your browser
VIEW IN TELEGRAM
Звездные войны уже здесь.
Я думал, что в конце концов он ей что-нибудь оттяпает.
🔥35👎2