Метаверсище и ИИще
47K subscribers
5.96K photos
4.39K videos
45 files
6.85K links
Это не новости, это персональный экспертный взгляд на то, как развивается индустрия ИИ, графики, метаверса, крипты, нейротехнологий и в каком направлении катится все это безобразие.
Для связи: @SergeyTsyptsyn
Download Telegram
Противостояние Микрософта и Гугла будет очень интересным и мультимодальным.
Тут недавно Самсунг намекнул, что может вонзить в свои новые телефоны Бинг, как поисковик по умолчанию. Акции Гугла сходили вниз, держатели акций немного облегчились.
А теперь все муссируют утечку про собственные ИИ-чипы от Микрософта. Что в принципе похоже на правду, ибо полагаться на милость Нвидия было бы недальновидно. Гугль тренирует свои модели на своих TPU, Амазон пользует свои гравитоны. А карты Нвидия - это монстры общего назначения, которые как бы overqualified для специализированных ИИ-операций. Плюс то майнеры, то датасайентисты постоянно создают дефициты и скачки цен.
Интересно, а появятся ли аналоги асиков для майнинга, для тех, кто генерит картинки и гоняет языковые модели под столом.
https://www.bigtechwire.com/2023/04/18/microsoft-is-developing-its-own-ai-chip-to-compete-with-google-tpu-and-aws-graviton/

Для справки:
Google TPU и AWS Graviton - это пользовательские чипы ИИ, предназначенные для ускорения рабочих нагрузок машинного обучения в облаке. Google TPU - это тензорный процессор, который может выполнять крупномасштабные матричные операции для моделей глубокого обучения. AWS Graviton - это процессор на базе ARM, который может выполнять широкий спектр рабочих нагрузок общего назначения, оптимизированных для вычислений, памяти, хранения данных и ускоренных вычислений, таких как серверы приложений, кодирование видео, высокопроизводительные вычисления, выводы машинного обучения на базе процессора и базы данных с открытым исходным кодом.
👍18🔥3
This media is not supported in your browser
VIEW IN TELEGRAM
Вот вам россыпь идей для ИИ-стартапов.
Берете любой звук, например младенческий плач, говорите, что обучили нейронку, которая умеет переводить с младенческого на человеческий. Никто же не проверит.

Я уже писал про такое же решение, только для котиков. Также читал, что нейронки тренируют анализировать звук автомобильного движка на предмет неисправностей.
Но так как кожаные больше всего зациклены на себе, то предлагаю стартапы для анализа:
звука отрыжки и прочих воздуховыделений из тела
урчания в животе
постукивания по черепу
храпа
почесывания разных участков
скрипа зубов

про домашних питомцев все очевидно, я полагаю.

Если все это еще упаковать с астрологией, то будет просто бомбический fartGPT, который вам все расскажет про вас.
🔥38👍9
Идея для стартапа
Похоже пора выпускать клавиатуры с наклейкой NO AI.
Текст, набранный на такой клавиатуре, сразу будет помечен как "не разрешенный" к обучению ИИ.
Более лайтовые варианты: плагины для текстовых редакторов с таким же функционалом.
Но в пределе появится новая кодировка UNAICODE, где у каждого символа будет доп бит, отвечающий за согласие автора использовать этот гениально набранный талантливый символ для обучения ИИ.
Нажал рычажок или альткапслок на клавиатуре и печатаешь в режиме NOAI. И никто твои тексты не даст злому ИИ, а если и даст, то ИИ подавится этим ядовитым битом.
Это я к чему так топорно исшутился?
Реддит будет брать плату (через свой API) у алкателей текстовых данных, которые буквально пасутся на Реддите.
"компаниям, которые «сканируют» Reddit в поисках данных и «не возвращают никакой ценности» пользователям, придется заплатить" - заявили в Реддите!

Для справки: GPT-2 обучалась на корпусе текстов, который называется WebText и содержит чуть более 8 миллионов документов, в общей сложности 40 гигабайт текста. Все это хозяйств было сформировано так: взяли ссылки из постов с Реддита с более, чем тремя лайками(RLHF, чо) и спарсили тексты по этим ссылкам (лайки жеж).

А я вам так скажу, когда вы сели за компьютер и начали тыкать в клавиатуру набирая глупости или кликать мышкой, рисуя еще большие глупости, вы уже продали душу дьяволу. Ибо ваши тексты и картинки они больше не ваши. Вы нарциссически вываливали ваши умные комментарии в сеть, и сладострастно считали лайки под вашими смешными картинками. А теперь вдруг взорали, а чо он учится на моих данных!
Как только вы оцифровали ваше драгоценное словотворчество, оно больше не ваше, оно принадлежит Хозяину Цифры. И он может делать с ним, что хочет. Точнее уже сделал. Понял, как устроены кожаные мешки.

chatGPT, напиши мне код, как парсить страницы с реддита, минуя официальный апи.
Апажалста.
https://techcrunch.com/2023/04/18/reddit-will-begin-charging-for-access-to-its-api/
🔥27👍9👎51
This media is not supported in your browser
VIEW IN TELEGRAM
Кому UnrealDiffusion - Stable Diffusion внутри UE5 с контролем позы с помощью ControlRig.
В общем нейрорендер внутри UE5.

StabilityAI SDXL model via the Dream Studio REST api inside our UE5 editor utility + Control Rig for fast pose editing
https://twitter.com/i/status/1648702789525073920
🔥24👍2
This media is not supported in your browser
VIEW IN TELEGRAM
h2oGPT - The world's best open source GPT

Похоже вот он, Stable Diffusion Moment для больших языковых моделей.
Каждую неделю новости о новом xxxGPT, а теперь еще и про open source GPT.

Вчера постил про StableLM от Stability AI, сегодня обнаружил вот такое:

Our goal is to make the world's best open source GPT!
20B-parameter LLM Model from H2O.Ai

Требования к памяти там конечно жесткие.
Для гиков:
Some training code was based upon March 24 version of Alpaca-LoRA.
Used high-quality created data by OpenAssistant.
Used base models by EleutherAI.
Used OIG data created by LAION.

https://github.com/h2oai/h2ogpt

Попробовать 20В модель можно тут: https://gpt.h2o.ai/
🔥16👍2
Вот держите очень полезную таблицу, в которой сделана попытка систематизировать все это безумное животноботство.
На первой вкладке базовые модели (там уже есть вчерашняя StableLM), с указанием типа лицензии.
На второй вкладке файн-тюнингованый зоопарк, что-то типа хаоса с Civitai.
На третьей немного датасетов
Также есть оценки производительности и даже сравнения разных версий chatGPT.
https://docs.google.com/spreadsheets/d/1kT4or6b0Fedd-W_jMwYpb63e1ZR3aePczz3zlbJW-Y4/edit

P.S. Сергей Марков прислал ссылку, где есть гораздо более полный список базовых моделей.
https://docs.google.com/spreadsheets/d/1FCRq3ir78FrSmZUOAwjV-C07YOEzWE6Cg34GtvpXZXs/edit#gid=0
🔥37
Вчера болтали с Лешей Кролом и сошлись на том, что одно из огромных преимуществ общения с chatGPT состоит в том, что ты не боишься задавать тупые, глупые, идиотские и просто бессмысленные вопросы.
Для людей воспитанных в совецкой образовательной традиции типа "хочешь спросить - подними руку и жди, сиди тихо - делай как все, не задавай глупых вопросов, не умничай, не высовывайся и вощенемешай" - это прямо челлендж.

Когда после ответа "вот тебе код", можно спросить "а чо с ним делать".
А после "положи на сервер", можно взорать "а как?".
И получить ответ. Спокойный такой. Для тупых.
И понять, что вот это вот "для тупых" сидит у тебя в голове со школы, с детства, со двора. Ибо за тупые вопросы принято высмеивать.
А chatGPT не считает тебя тупым. Он тебя держит за ... человека.
И это реально терапевтично.

Про глупые вопросы и образование это не психотравма, это системное явление, про которое я писал ниже.

- У меня знакомая студентка прямо на лекции уточняет у GPT что только что рассказал препод. Говорит что по нервам дороже вьіходит просить у препода - https://xn--r1a.website/cgevent/5357
👍68🔥30
Мутный философский пост.
Помните в детстве, вы читаете книжку, а на 32-й странице, наконец, первая картинка.
И вы такие - хоп, стопэ - непохоже же!
Вы уже напридумывали в голове, кто как выглядит, а тут вам подсовывают иллюстрацию, на которой воще все не так.
И вы такие читаете дальше, а через 30 страниц снова картинка, вы снова спотыкаетесь, но уже меньше.
К концу книги вы уже перестроились и мыслите навязанными образами, по крайней мере частично. Нейрончики дообучились. Файнтюниг, чо.
По крайней мере у меня так было.
А потом вы идете в кино, снятое по книге.
И тут снова - хоп, стопэ! - опять все не так! Не так как в голове.
И ваш мозг скрипит, ругается, но за два часа встает на рельсы новых образов.

Это я к чему.

Вот вы пишете промпт: "розовый пони на закате в окружении котиков".
И тут Stable Diffusion или Midjourney вам выдают 40 вариантов, а потом еще 80.

Если раньше вы читали текст и что-то там представляли, то теперь жмете кнопку, а ИИ фантазирует и воображает за вас. Причем разнообразно так.

Есть гипотеза, что ваша мышца "воображения" дрябнет, при каждом нажатии кнопки.

Раньше бывало, вы навоображади себе чего-то и попытались это нарисовать (ну или описать словами, для таких бездарей как я). Стали рисовать, не получается сходу, но методом градиентных проб, ошибок и ластика спустились к результату. А щас промпт, кнопка, готово.

Есть гипотеза, что мышца целеполагания и удержания фокуса дрябнет, при каждом нажатии кнопки.

ИИ берет на себя "усилия по воображению", сразу предоставляя вам результат. Пока 80 картинок на выбор, но он подучится на ваших лайках и будет давать вам одну, именно ту, которая именно для вас.

Ну а итогом будет промпт: "chatGPT, что я хочу вообразить сегодня?".
ИИ, такой: "судя по по вашим умным часам, скорости набора(произношения) промпта, сахару в крови и местоположению, вы хотите вообразить "розовых пони на закате в окружении котиков".

А вы просто жмете рычажок "Давай".

Мышцы воображения и желания вам больше не нужны.
Кстати, я не сказал, что это плохо. Думаю, что доить коров или сделать из теленка обед на 30 человек и запас на неделю, вы точно не умеете. Но никто не говорит, что это плохо. Я в стройотряде быстро научился, но это мне никак не пригодилось в жизни. И не пригодится, я надеюсь.
На первый план выходят другие навыки. Например, коммуникативность, которая очень помогает писать промпты. И получать результат.
Новые времена, новые мышцы.

Кстати, я знаю много людей, которые выросли уже без книг. На видосах. У них нет вот этого пайплайна: текст->воображение->картинка. У них сразу картинка. Я не вижу, что они сильно отличаются от читающих сверстников. Но у них бешеная способность к коммуникациям, а значит и к промптам (тут я возможно обобщаю, выборка маленькая, а научных работ на эту тему я не встречал).
👍52🔥6👎3
AI Jobpocalypse или ИИ Жопокалипсис.

Ни одна страна так не пострадает от chatGPT, как Индия.
Об этом интересная статья на Блумберге.
"Если технология, лежащая в основе ChatGPT, вытеснит инженеров-программистов, ни одна страна не пострадает больше, чем Индия, где проживает более 5 миллионов кодеров."

В статье поднимается правильный, на мой взгляд, вопрос о том, что на итоге все выровняется, но будет период, когда ИИ уже заменил огромное количество рабочих мест (кодеры), но еще не породил такое же количество новых рабочих мест(промптеры, операторы chatGPT, дообучатели, дособиратели данных). Что же будет в момент HR-разрыва?
https://www.bloomberg.com/news/newsletters/2023-04-17/chatgpt-ai-github-copilot-for-coding-threatens-india-tech-jobs
🔥18👍5
Forwarded from Psy Eyes (Andrey Bezryadin)
This media is not supported in your browser
VIEW IN TELEGRAM
Runway открыли доступ к GEN-2 в дискорде.

1) Идём в любой #generate тред

2) Вбиваем @GEN2 и дальше текстовый запрос. Либо картинка + промт.

Можно применять параметры для большего контроля над выходным изображением. Ловите гайд по расширенным настройкам.

Плюс: инфа как получать результаты близкие к оригиналу по структуре, и удивить себя результатами отдалённо похожими на оригинал.

Промт:
a cat at the stage of the music festival
👍22🔥14
Пока тут все делают ставки на то, покажет Эппле свои долгостроящиеся очки или нет, Эппле тем временем становится банком. Без всяких там web3, nft и dao. Чистый рафинированный фиат.
Читаем на сайте Эппле:
"Начиная с сегодняшнего дня, пользователи Apple Card могут увеличить свои ежедневные денежные вознаграждения с помощью сберегательного счета Goldman Sachs, который предлагает высокодоходную годовую доходность в размере 4,15% — ставка, которая более чем в 10 раз превышает средний показатель по стране.Без комиссий, минимальных депозитов и требований к минимальному балансу пользователи могут легко настраивать и управлять своим сберегательным счетом прямо из Apple Card в Wallet"

Оставим на совести "в 10 раз", памятуя о том, как Эппле сравнивает вещи.

Но шаг очень крутой, экосистема Эппле теперь включает в работу с деньгами пользователей.
https://www.apple.com/newsroom/2023/04/apple-cards-new-high-yield-savings-account-is-now-available-offering-a-4-point-15-percent-apy/
🔥15👎4👍1
This media is not supported in your browser
VIEW IN TELEGRAM
Пока мы тут заставляем Вилла Смита жрать спагетти (и наоборот) и воздыхаем над видосами из GEN-1/2 и пляшущими по эклеру тянками, взрослые мальчики спокойно приручают все это хозяйство к постпродакшену. В одно лицо.

Смотрите, что вытворяет Андрей Чибизов.
Андрей скромно пишет - съемки, миджорни, ген1 и чуть афтера.

Но если его прижать промптом, то выяснится, что "снимал актера на хромаке, генерил по первому кадру в миджорни фрейм, затаскивал видос и референсный кадр в ранвей, тречил камеру,по треку композил сгенеренную в мж локацию, паука - тоже снимал стопмоушн".

Это я к тому, что одной кнопкой не получится. До сих пор нужен опыт, знания, некривые руки. Как обычно, в общем.
Больше работ у Андрея в канале https://xn--r1a.website/orwell_here
Там не бесконечные аниме в простоквашино через контролнет, а интересные эксперименты.
Это именно ресерч, в его олдскульном понимании.
👍48🔥7👎5
This media is not supported in your browser
VIEW IN TELEGRAM
Еще одна работа Андрея Чибизова, это D-ID, о котором я уже много писал.
На входе одна картинка из любого генератора.
Ничего не кипит, не бурлит и не дергается.
Думаю будущее за генерацией видео по ключевым кадрам из раскадровок. О чем недавно намекал Адобченко.
👍24🔥7👎6
Виртуальные ассистенты.
Вот где будет баттл.
Soul Machines соединили 3D-аватар и GPT-4.
Их примеру сейчас последуют многие другие, все строительные материалы для этого уже можно найти на митинском рынке в интренете.
Все подробности ниже, там даже можно поговорить по душам в SoulMachine без смс и регистрации.
А мне кажется, что технологически все эти виртуальные твари-помощники будет развиваться по двум направлениям.
1. Традиционные 3Д-головы, а-ля метахьюман или нвидиевских аватров, засетапленные под липсинк и контекстную мимику.
2. Нейрорендеринг по типу D-ID.

Первый путь очень дорог в плане изготовления этих самых 3Д-голов. Либо вы будете в заложниках конструкторов, которые не всегда гибкие и кастомизируемые.
Второй путь катастрофически дешев плане персонажей - просто кнопка в Stable Diffusion или Midjourney.

Липсинк и мимика пока будут в руках определенных сервисов, переводящих текст\звук в 3Д-анимацию(в первом случае)или морфинг картинки(во втором).

Первый путь может быть востребован в виарчике, где есть обзор головы с разных сторон.
Но в большинстве случаев, асистент(пока) - это говорящая голова в анфас, которая преданно смотрит на вас, и тут облеты головы особенно не нужны.

А судя по тому, насколько зловещщи до сих пор 3Д-головы и насколько вариативны портреты из Midjourney, я бы ставил на второй путь. Если речь идет о массовом рынке с некиношными требованиями к качеству.
Нейрорендеринг дешев, 2Д-морфинг тоже.
https://xn--r1a.website/twin_3d/239
🔥14👍1
This media is not supported in your browser
VIEW IN TELEGRAM
Хотите перенести действующий бизнес с Web2 на Web3, открыть представительство в метавселенной и добавить геймификацию?

Trigital предоставляет экспертную и техническую поддержку на ранних этапах развития проекта, включая строительство объекта.

🌐 Мы построим 3D-проект в метавселенной, в котором пользователь проведет в среднем 7 минут.

📌 Проект можно будет подключить к сайту компании, и получать подробную статистику посещений, показывая свой бизнес в новой форме.

👀 Посмотрите на наш офис, и убедитесь в том, как классно может получиться ➡️ Посетить офис

Не откладывайте на потом, начните привлекать клиентов в виртуальной реальности уже сейчас.
#промо
👎60👍5🔥2
Киберпанк уже здесь, на голове.

Стримерша perrikaryal прошла Elden Ring при помощи аппарата для электроэнцефалографии (ЭЭГ), довела начатое дело до конца.

Портативный ЭЭГ отслеживает биоэлектрическую активность мозга через электроды на поверхности головы и позволяет perrikaryal совершать внутриигровые действия силой мысли.
Подробнее тут: https://3dnews.ru/1085328/devushka-strimer-proshla-elden-ring-s-pomoschyu-apparata-dlya-eeg-i-dazhe-pobedila-maleniyu

А теперь представьте, как мы генерим картинки силой мысли, а потом видео, а потом несложный нейрофидбек закольцовывает наши генерации, чтобы получалось максимально приятно нашему-вашему глазу.

Надеваем очки, капельницу для внутривенного питания, и уходим в трушный персональный метаверс.

В принципе мы и сейчас этим занимаемся. Наш мозг постоянно строит прогностические модели Мира на основе входных данных с наших сенсоров. А когнитивные искажения, импринты, пузыри мнений, вытеснение отрицательного и привычка говорить "на самом деле" делают это мир персональным метаверсом.
Только вот соседи мешают. Лезут со своим видением мира в комменты, спорят, не дают наслаждаться собственной картиной мира и своим метаверсом в голове.

Но ничего, шапочка с электродами, очки, наушники.

Пока унылый кожаный мир.
🔥62👎9👍7
Кожаная жадность не имеет границ

Вслед на Реддитом, который решил наживаться на том, что в датасеты для обучения ИИ попадают тексты с реддита, на эту скользкую дорожку вступил StackOverflow.

Типа мы тут храним много текстов, созданных чужими руками, и хотим за это много бабла.
Вся эта жажда наживы сильно напоминает мне ситуацию с патентными троллями - человеческая жадность, похоже, биологически обусловлена.

Интересно, а Реддит и Стековерфлоу собираются платить юзерам за создание контента на их платформах, который они потом продают ИИ?

Ну и мне кажется, что потомкам Кирилла и Мефодия (нет, берем шире, потомкам древних шумеров) стоит выйти на площадь и заявить: "дали миру письменность, вы пишете на ней всякие глупости, платите за использование букавок". Более того "вы читаете букавки, которые написали другие, и обучаете свои мозги, платите, варвары!".

Нет, ну правда, идеальный бизнес: берем тексты, которые написали другие и просим заплатить за то, что ИИ на них учится.

Так, ИИ, где мои бабки, у меня в чате 1275 человек, а ты, ИИ, наверняка подучился на всей этой ереси из чата. Переводи TON на мой кошелек.

Думаю следующих выход за хостерами. "Мы храним данные, хотите обучаться на них, вонзайте".

Криптобиржи также должны встрепенуться - где наши монетки за анализ нашей скромной волатильности.

В общем если людям дать волю, то я бы предложил начинать любой диалог со следующего привествия: "Слушай, я щас начну говорить слова ртом из головы, а твои нейрончики начнут на них обучаться, поэтому давай сразу подписочку, 10 баксов в месяц, за общение и дообучение твоей тупой башки".
🔥75👍30👎5
Forwarded from Denis Sexy IT 🤖
This media is not supported in your browser
VIEW IN TELEGRAM
Поигрался с новым алгоритмом Bark для озвучки текста: в отличии от других доступных алгоритмов, этот умеет и в придыхания, и в копирование голоса (но в коде написано, что как-то ограничили эту функцию из-за этических рисков), и в кучу языков, и даже в пение (!), и все это работает довольно быстро. 

Что мне больше всего понравилось, что можно в модель передавать помимо текста – эмоции которые алгоритм попробует озвучить.

Я протестировал все голоса доступные на русском, и мне кажется лучше всего справились голоса 3 и 5. В общем, собрал все тесты в видео, где этот алгоритм озвучил пикап лайны из моего прошлого поста.

Поиграться онлайн | Исходный код 

Для тех кто доберется поиграться сам, передавайте это вместе с текстом:

[laughter] или [laughs] - и диктор засмеется во время озвучки, 
[sighs] или [gasps] - озвучит вздох или испуг, 
[music] - будет музыкальная вставка (не очень хорошо работает),
[clears throat] - и диктор прочистит горло,
или ... и нейронка "запнется", как человек,
и нейронка попробует напеть текст, работает не очень стабильно.
А если выделить капсом, то алгоритм сделает акцент на этом слове. 

Я некоторым людям скидывал первый фрагмент из видео, и они подумали что это мой голос ☕️ что забавно - в видео нет настоящих людей.

Как по мне, сильная заявка на «Лучший опенсорс алгоритм озвучки 2023»
Please open Telegram to view this post
VIEW IN TELEGRAM
👍44🔥7
This media is not supported in your browser
VIEW IN TELEGRAM
GEN-1 от RunwayML выпустили как приложение на IOS.

За пределами перепостов могу добавить немного деталей.
1. Лимит на длину видео - 5 секунд.
2. На входе ваш видос плюс либо текст, либо картинка, либо (для большинства пользователей айфонов) пресет. Дальше генерация видос на основе модели GEN-1.
3. Генерация в облаке. Занимает 2-3 минуты (думаю в ближайшие сутки больше).
4. Конечно есть цензура. Никаких глупостей в промптах.
5. Есть ограничения на упоминания брендов или знаменитостей. Никаких "мультиков в стиле студии Гибли".
6. Скоро добавят GEN-2.
7. Бесплатный сыр с вотермарками. И 100 грамм в одни руки. Потом надо покупать кредиты.

Интересно посмотреть, как полетит приложение и сравнить с той же динамикой, например, у Ленса.

https://apps.apple.com/app/apple-store/id1665024375
👍21🔥4👎1
Больше Нерфов красивых и разных.
Вот держите подборку как люди прикручивают Нерфы к решению различных задач. По ссылке вы узнаете, что Неррфы плодятся как грибы и что их можно скрещивать и с генерацией из текста, и с видосами из RunwayML, и конечно с LumaAI.

Мне больше всего нравится реклама Тойоты Гелиос и Dollyzoom.

https://twitter.com/heybarsee/status/1649427834673168387
🔥45👍5👎1