This media is not supported in your browser
VIEW IN TELEGRAM
Open Source Video Outpainting (от Алибабы)
Ого, смотрите что пригнали умные папищики в коментариях.
Не Пикой единой - тут расширение (outpaint) видео в любых пропорциях, из стоячего в лежачее и наоборот.
И все это с кодом и даже очень странным демо.
Я уж подумал, не чит ли это, уж больно ловко видео расширяется до нужного (нет ли тут uncrop), но потом поглядел на пальцы у девушки и успокоился. Не врут. ИИ решает.
Все тут:
https://fanfanda.github.io/M3DDM/
Ого, смотрите что пригнали умные папищики в коментариях.
Не Пикой единой - тут расширение (outpaint) видео в любых пропорциях, из стоячего в лежачее и наоборот.
И все это с кодом и даже очень странным демо.
Я уж подумал, не чит ли это, уж больно ловко видео расширяется до нужного (нет ли тут uncrop), но потом поглядел на пальцы у девушки и успокоился. Не врут. ИИ решает.
Все тут:
https://fanfanda.github.io/M3DDM/
👍14🔥7👎1
Media is too big
VIEW IN TELEGRAM
Ну, за Topaz AI.
Держите корейский апскейлер, убиратель блюра и вообще улучшайзер видео.
Выглядит убойно. Еще более убойное название название:
Flow-Guided Dynamic Filtering and Iterative Feature Refinement with Multi-Attention for Joint Video Super-Resolution and Deblurring
Но вопрос в том, что даже когда появится обещанный код (вот-вот), эта штука так и останется в руках повелителей PyTorch и гиков.
Возможно, кто-то смастерит демо. Но будет ли это заменой Топаза - сильный вопрос. Причем даже не по качеству, а по продуктовости.
А что до качества, то все апскейлеры грешат артефактами - они порождают новые сущности, которых не было на исходных материалах и это иногда забавно.
Но, повторюсь, выглядит очень неплохо и для видосов с телефона может быть находкой.
https://github.com/KAIST-VICLab/FMA-Net
Держите корейский апскейлер, убиратель блюра и вообще улучшайзер видео.
Выглядит убойно. Еще более убойное название название:
Flow-Guided Dynamic Filtering and Iterative Feature Refinement with Multi-Attention for Joint Video Super-Resolution and Deblurring
Но вопрос в том, что даже когда появится обещанный код (вот-вот), эта штука так и останется в руках повелителей PyTorch и гиков.
Возможно, кто-то смастерит демо. Но будет ли это заменой Топаза - сильный вопрос. Причем даже не по качеству, а по продуктовости.
А что до качества, то все апскейлеры грешат артефактами - они порождают новые сущности, которых не было на исходных материалах и это иногда забавно.
Но, повторюсь, выглядит очень неплохо и для видосов с телефона может быть находкой.
https://github.com/KAIST-VICLab/FMA-Net
🔥26👍8👎2
Forwarded from AI Product | Igor Akimov
О, свежие анонсы от OpenAI
https://openai.com/blog/new-embedding-models-and-api-updates
Новые эмбеддинги: маленькие, но мощные, по 3 и большие, но вообще крутые, по 5 :) которые ещё и резать можно, если для задачи вся размерность не нужна.
- Улучшили Gpt-3.5-turbo, которая ещё и дешевле на 50%/25% стала на входные и выходные токены
- Улучшили Gpt-4-turbo, стала лучше писать код и меньше лениться.
- Улучшили moderation api для проверки, не выводит ли сеть что-то запрещённое.
- Добавили роли на разные API ключи и аналитику использования.
https://openai.com/blog/new-embedding-models-and-api-updates
Новые эмбеддинги: маленькие, но мощные, по 3 и большие, но вообще крутые, по 5 :) которые ещё и резать можно, если для задачи вся размерность не нужна.
- Улучшили Gpt-3.5-turbo, которая ещё и дешевле на 50%/25% стала на входные и выходные токены
- Улучшили Gpt-4-turbo, стала лучше писать код и меньше лениться.
- Улучшили moderation api для проверки, не выводит ли сеть что-то запрещённое.
- Добавили роли на разные API ключи и аналитику использования.
Openai
New embedding models and API updates
We are launching a new generation of embedding models, new GPT-4 Turbo and moderation models, new API usage management tools, and soon, lower pricing on GPT-3.5 Turbo.
🔥31👍7
ИИ и осознанные сновидения
Ух, люблю такое.
И хотя довольно скептичен по отношению с всем ободкам, оголовьям, обручам - соотношение полезный сигнал/шум там явно не в пользу первого, но сама идея кормить в ИИ не промпты, а информацию из мозга (ну и вообще "напрямую", минуя вербалку) очень интересная.
Но тут ребята замахнулись еще в обратную сторону: вводить фидбек полученный от ИИ обратно в голову, в помощью "ультразвуковых голограмм для нейростимуляции".
Все это звучит как маркетинговый буллшит, выглядит тоже. Но повторюсь, сама идея такого нейрофидбека мне нравится (я вообще верю в нейрофидбек).
Итак по порядку.
Стартап Prophetic только что представил Morpheus-1, описанный как первый в мире "мультимодальный генеративный ультразвуковой ИИ-трансформер", предназначенный для изучения человеческого сознания через управление осознанными сновидениями (с козырей, однако!).
Подробности:
Morpheus-1 сочетает в себе машинное обучение, данные ЭЭГ и ультразвуковые волны для обнаружения REM-сна и запуска сновидений, которые пользователи могут контролировать.
Обруч на голове читает мозговые волны, а ультразвуковые лучи стимулируют определенные зоны мозга, связанные с осознанными сновидениями. Вот тут и есть цикл обратной связи.
Встроенные аккумуляторы, Bluetooth и WiFi позволяют работать в течение всей ночи и синхронизировать данные, а приложение-компаньон отслеживает фазы сна и собирает данные о сновидениях для совершенствования моделей ИИ.
"Сочетание ультразвука и моделей машинного обучения (созданных на основе данных ЭЭГ и фМРТ) позволяет нам определять, когда сновидец находится в состоянии REM, чтобы вызвать и стабилизировать осознанные сновидения"
Morpheus-1 is a 103 million parameter transformer model trained on 8 GPUs for 2 days.
We engineered this from scratch and filed a provisional utility patent application.
На итоге, хотя я вижу много плохих маркеров на сайте, сама идея "прямого доступа" мне нравится и в этом направлении будут копать многие исследователи, взрослые притом.
Сейчас мы общаемся с chatGPT словами и на выходе от него, тоже слова, которые мы вводим в голову глазами или ушами. А прямой доступ - это когда все это происходит мимо второй сигнальной системы. Уровнем ниже. Без слов. В тишине. Как у Нео.
Маск, давай уже свою иголочку скорее. Без этих вот обручей на башке.
Вчерашний твит про трансформеры
https://twitter.com/PropheticAI/status/1750534355242418300
Сайт:
https://propheticai.co/
Ух, люблю такое.
И хотя довольно скептичен по отношению с всем ободкам, оголовьям, обручам - соотношение полезный сигнал/шум там явно не в пользу первого, но сама идея кормить в ИИ не промпты, а информацию из мозга (ну и вообще "напрямую", минуя вербалку) очень интересная.
Но тут ребята замахнулись еще в обратную сторону: вводить фидбек полученный от ИИ обратно в голову, в помощью "ультразвуковых голограмм для нейростимуляции".
Все это звучит как маркетинговый буллшит, выглядит тоже. Но повторюсь, сама идея такого нейрофидбека мне нравится (я вообще верю в нейрофидбек).
Итак по порядку.
Стартап Prophetic только что представил Morpheus-1, описанный как первый в мире "мультимодальный генеративный ультразвуковой ИИ-трансформер", предназначенный для изучения человеческого сознания через управление осознанными сновидениями (с козырей, однако!).
Подробности:
Morpheus-1 сочетает в себе машинное обучение, данные ЭЭГ и ультразвуковые волны для обнаружения REM-сна и запуска сновидений, которые пользователи могут контролировать.
Обруч на голове читает мозговые волны, а ультразвуковые лучи стимулируют определенные зоны мозга, связанные с осознанными сновидениями. Вот тут и есть цикл обратной связи.
Встроенные аккумуляторы, Bluetooth и WiFi позволяют работать в течение всей ночи и синхронизировать данные, а приложение-компаньон отслеживает фазы сна и собирает данные о сновидениях для совершенствования моделей ИИ.
"Сочетание ультразвука и моделей машинного обучения (созданных на основе данных ЭЭГ и фМРТ) позволяет нам определять, когда сновидец находится в состоянии REM, чтобы вызвать и стабилизировать осознанные сновидения"
Morpheus-1 is a 103 million parameter transformer model trained on 8 GPUs for 2 days.
We engineered this from scratch and filed a provisional utility patent application.
На итоге, хотя я вижу много плохих маркеров на сайте, сама идея "прямого доступа" мне нравится и в этом направлении будут копать многие исследователи, взрослые притом.
Сейчас мы общаемся с chatGPT словами и на выходе от него, тоже слова, которые мы вводим в голову глазами или ушами. А прямой доступ - это когда все это происходит мимо второй сигнальной системы. Уровнем ниже. Без слов. В тишине. Как у Нео.
Маск, давай уже свою иголочку скорее. Без этих вот обручей на башке.
Вчерашний твит про трансформеры
https://twitter.com/PropheticAI/status/1750534355242418300
Сайт:
https://propheticai.co/
X (formerly Twitter)
Prophetic (@PropheticAI) on X
INTRODUCING MORPHEUS-1
The world’s first multi-modal generative ultrasonic transformer designed to induce and stabilize lucid dreams.
Available for beta users Spring 2024
The world’s first multi-modal generative ultrasonic transformer designed to induce and stabilize lucid dreams.
Available for beta users Spring 2024
🔥25👍7👎5
Почему я верю в нейрофидбек.
Просто я прочитал две статьи на Снобе.
https://snob.ru/selected/entry/18318/
https://snob.ru/selected/entry/18427/
У человека жена больна эпилепсией. Это как бы приговор с точки зрения возможности иметь детей. Но у них растет дочь.
Ну и Леша - это мой однокурсник, поэтому у меня была возможность узнать многое за пределами статьи.
Леша по фану гоняет свою кожно-гальваническую реакцию к любым значениям. Натренировался.
С ЭЭГ сложнее, но тоже можно.
Просто я прочитал две статьи на Снобе.
https://snob.ru/selected/entry/18318/
https://snob.ru/selected/entry/18427/
У человека жена больна эпилепсией. Это как бы приговор с точки зрения возможности иметь детей. Но у них растет дочь.
Ну и Леша - это мой однокурсник, поэтому у меня была возможность узнать многое за пределами статьи.
Леша по фану гоняет свою кожно-гальваническую реакцию к любым значениям. Натренировался.
С ЭЭГ сложнее, но тоже можно.
snob.ru
Алексей Бердюгин: Как я стал нейрофизиологом и вылечил свою жену
«Я стоял и плакал от бессилия, видя ее судороги. Я дал себе слово найти способ задавить эту болезнь»
🔥37👍8👎1
Ну и коль скоро меня сегодня понесло внутрь кожаной башки, то поговорим про технологический компот из VR, ИИ и психотерапии.
Смотрите, пациент что-то говорит своему ИИ-терапевту. ИИ конвертирует речь в текст, RAG-выкликает базу по когнитивно-поведенческой терапии (в данном случае), классифицирует случай, и генерит (внимание) Generated Reality: картинки, эффекты, музыку, звуки и речь. Все это попадает в башку пациента через VR-шлем. Он реагирует. Ну и так далее.
Это свежая статья в Nature, а не влажные мечты стартаперов.
Было обнаружено, что цифровой аватар применяет основные психотерапевтические методы. Он часто делал наблюдения, которые отражали понимание проблем пользователя (например, “ Ваши заботы о вашем здоровье и вашей жизненной ситуации явно вызывают у вас много страданий”). Нормализуя чувства (“Логично чувствовать себя неудачником, когда жизнь становится подавляющей ”), выражая сочувствие (“ Мне очень жаль слышать о вашей потере работы”), и демонстрируя сочувствие (“Это должно быть непростое время для вас”), XAIA, как было отмечено, передает понимание и сострадание. Он также предлагал валидацию и похвалу, где это уместно (например, “ Ваша практика не принимать эти отношения как должное действительно заслуживает похвалы ” ).
Участники описывали цифровой аватар как эмпатичный, понимающий и способствующий созданию терапевтического контакта.
Подробности в статье:
https://www.nature.com/articles/s41746-024-01011-0
КПТ - как довольно прямолинейная терапия, хорошо формализуется и загоняется в RAG для дальнейшего обращения в ней.
Ну и тут явление гораздо шире. Средный американец (и не только) часто не может себе позволить даже первичную юридическую, медицинскую, налоговую или другую узкоспециализированную консультацию. А вот chatGPT может лихо ответить на 99% вопросов первичной консультации. Бесплатно или за 20 долларов в месяц.
Смотрите, пациент что-то говорит своему ИИ-терапевту. ИИ конвертирует речь в текст, RAG-выкликает базу по когнитивно-поведенческой терапии (в данном случае), классифицирует случай, и генерит (внимание) Generated Reality: картинки, эффекты, музыку, звуки и речь. Все это попадает в башку пациента через VR-шлем. Он реагирует. Ну и так далее.
Это свежая статья в Nature, а не влажные мечты стартаперов.
Было обнаружено, что цифровой аватар применяет основные психотерапевтические методы. Он часто делал наблюдения, которые отражали понимание проблем пользователя (например, “ Ваши заботы о вашем здоровье и вашей жизненной ситуации явно вызывают у вас много страданий”). Нормализуя чувства (“Логично чувствовать себя неудачником, когда жизнь становится подавляющей ”), выражая сочувствие (“ Мне очень жаль слышать о вашей потере работы”), и демонстрируя сочувствие (“Это должно быть непростое время для вас”), XAIA, как было отмечено, передает понимание и сострадание. Он также предлагал валидацию и похвалу, где это уместно (например, “ Ваша практика не принимать эти отношения как должное действительно заслуживает похвалы ” ).
Участники описывали цифровой аватар как эмпатичный, понимающий и способствующий созданию терапевтического контакта.
Подробности в статье:
https://www.nature.com/articles/s41746-024-01011-0
КПТ - как довольно прямолинейная терапия, хорошо формализуется и загоняется в RAG для дальнейшего обращения в ней.
Ну и тут явление гораздо шире. Средный американец (и не только) часто не может себе позволить даже первичную юридическую, медицинскую, налоговую или другую узкоспециализированную консультацию. А вот chatGPT может лихо ответить на 99% вопросов первичной консультации. Бесплатно или за 20 долларов в месяц.
👍35🔥14👎4
Джтиптишки теперь можно поминать всуе. То есть в чате.
В телеге в группе можно нажать @ и на вас вывалится список участников, из которого вы можете выбрать того, кого вы хотите помянуть и чье внимание привлечь.
Теперь также происходит в chatGPT!
Вы набираете @ и на вас вываливается список Джипитишек, которые вы недавно использовали (то есть не все, а те, которые вы пробовали, социальная механика).
После того, как вы выбрали из списка, чат будет происходить именно с этой джипитишкой. Ее название будет в заголовке чата.
Что мы имеем сейчас?
Можно выкликать разные джипитишки в одном чате (но одну за раз).
Они видят контекст и предыдущую историю.
Они не в курсе, что есть другие джипитишки в мире - они общаются только с вами напрямую, через интерфейс чата.
К сожалению пока нельзя внутри одной джипитишки вызвать другую типа: "возьми вывод @агент1 скорми его @агент2, забери результат и попроси @агент1 все переделать.".
Иначе у нас бы под рукой была уже мультиагентность, а вызовы агентов-джипитишек были похожи на вызовы фуенкций.
Выкликание конкретной джипитишки идет через клик пользователем в пункт меню, а не программно.
Но есть гипотезы, что вызовы агентов-джипитишек завезут в скором будущем. Будут GPT-баттлы.
И хотя я скептичен по поводу GPT Store и его монетизации (скоро напишу), идея (не относящаяся к Стору) про формирование облака своих подручных агентов-джипитишек мне очень нравится.
В телеге в группе можно нажать @ и на вас вывалится список участников, из которого вы можете выбрать того, кого вы хотите помянуть и чье внимание привлечь.
Теперь также происходит в chatGPT!
Вы набираете @ и на вас вываливается список Джипитишек, которые вы недавно использовали (то есть не все, а те, которые вы пробовали, социальная механика).
После того, как вы выбрали из списка, чат будет происходить именно с этой джипитишкой. Ее название будет в заголовке чата.
Что мы имеем сейчас?
Можно выкликать разные джипитишки в одном чате (но одну за раз).
Они видят контекст и предыдущую историю.
Они не в курсе, что есть другие джипитишки в мире - они общаются только с вами напрямую, через интерфейс чата.
К сожалению пока нельзя внутри одной джипитишки вызвать другую типа: "возьми вывод @агент1 скорми его @агент2, забери результат и попроси @агент1 все переделать.".
Иначе у нас бы под рукой была уже мультиагентность, а вызовы агентов-джипитишек были похожи на вызовы фуенкций.
Выкликание конкретной джипитишки идет через клик пользователем в пункт меню, а не программно.
Но есть гипотезы, что вызовы агентов-джипитишек завезут в скором будущем. Будут GPT-баттлы.
И хотя я скептичен по поводу GPT Store и его монетизации (скоро напишу), идея (не относящаяся к Стору) про формирование облака своих подручных агентов-джипитишек мне очень нравится.
👍31🔥2
This media is not supported in your browser
VIEW IN TELEGRAM
Если у вас еще не раскатали фичу упоминания конкретных (разных) Джипитишек в одном чате, то поглядите как это выглядит. Можно помянуть одну Джипитишку, поговорить с ней, потом взять ее результат и пихнуть в другую Джипитишку (помянув ее предварительно). Все в одном окошке, без копипаста.
В окошке чата появляетсяя надпись в заголовке - с какой Джипитишкой вы сейчас общаетесь. А сам чат служит "базой знаний" - контекстом, к которому все Джипитишки имеют доступ.
Представьте, когда можно будет указывать Джитпитишки программно, то есть не одну за раз
в меню, а на основе концепции микро-агентов, бросать задачу командам из Агентов-Джипитишек.
В окошке чата появляетсяя надпись в заголовке - с какой Джипитишкой вы сейчас общаетесь. А сам чат служит "базой знаний" - контекстом, к которому все Джипитишки имеют доступ.
Представьте, когда можно будет указывать Джитпитишки программно, то есть не одну за раз
в меню, а на основе концепции микро-агентов, бросать задачу командам из Агентов-Джипитишек.
👍24🔥3👎2
This media is not supported in your browser
VIEW IN TELEGRAM
Миссия выполнима!
Помните все эти шпионския фильмы, где по снимку из космоса Том Круиз читает номера машин?
Китайцы из Shanghai AI Lab выкатили вот такой апскейлер и ресторатор убитых картинок.
"Для обучения модели мы собираем набор данных, состоящийиспользовали датасет из 20 миллионов высококачественных изображений высокого разрешения, каждое из которых было размечено(!). "
"SUPIR позволяет восстанавливать изображения, руководствуясь промптами. Более того, мы вводим негативные промпты для дальнейшего улучшения качества восприятия. Мы также разработали метод, ориентированный на восстановление, чтобы устранить проблему достоверности, возникающую при восстановлении на основе генерации"
Тут я в замешательстве: "ты распознал плохой номер, распознай другой".
Или как в этом примере: "Это Дачия Дастер, тупица, что ты там мне за лого нарисовал, переделай".
Но сама идея управляемого апскейла мне нравится. Пока все апскейлеры генерят(дорисовывают) то, что им в голову придет. А тут можно допинывать до годного и бить по рукам(мозгам).
https://x.com/alexcarliera/status/1750549285664686450
Поглядите на примеры тут:
https://supir.xpixel.group/
И хорошая новость: код есть! Го распознавать номера со спутника!
https://github.com/Fanghua-Yu/SUPIR
Помните все эти шпионския фильмы, где по снимку из космоса Том Круиз читает номера машин?
Китайцы из Shanghai AI Lab выкатили вот такой апскейлер и ресторатор убитых картинок.
"Для обучения модели мы собираем набор данных, состоящийиспользовали датасет из 20 миллионов высококачественных изображений высокого разрешения, каждое из которых было размечено(!). "
"SUPIR позволяет восстанавливать изображения, руководствуясь промптами. Более того, мы вводим негативные промпты для дальнейшего улучшения качества восприятия. Мы также разработали метод, ориентированный на восстановление, чтобы устранить проблему достоверности, возникающую при восстановлении на основе генерации"
Тут я в замешательстве: "ты распознал плохой номер, распознай другой".
Или как в этом примере: "Это Дачия Дастер, тупица, что ты там мне за лого нарисовал, переделай".
Но сама идея управляемого апскейла мне нравится. Пока все апскейлеры генерят(дорисовывают) то, что им в голову придет. А тут можно допинывать до годного и бить по рукам(мозгам).
https://x.com/alexcarliera/status/1750549285664686450
Поглядите на примеры тут:
https://supir.xpixel.group/
И хорошая новость: код есть! Го распознавать номера со спутника!
https://github.com/Fanghua-Yu/SUPIR
🔥28👍6👎3
Media is too big
VIEW IN TELEGRAM
Истории без нарратива уже можно рассказывать вот таким образом.
Это не первая попытка игры в "биографический таймлапс", но обычно это эксперименты с крупным планом.
Если бы не 3-4 руки, периодически появляющиеся в кадре и традиционные проблемы с пальцами, то мой глаз бы не дергался - автор явно не напрягался с чисткой и пост-обработкой.
Ну и таймлайн в конце немного странный - с пожилого возраста проходит еще 50% всей длительности.
Это я к тому, что у контента есть препродакшен и пост-продакшен и они, собственно и делают продукт. Отсекая лишнее, добавляя нужное.
Но я оставлю это техническое демо тут, чтобы напоминать себе потом, где мы находились в начале 2024 года. И сколько стоило бы собрать подобноее без ИИ.
https://www.instagram.com/reel/C1wOp5mPgIA/?igsh=ZXU2bHBmZTF6cXV5
Это не первая попытка игры в "биографический таймлапс", но обычно это эксперименты с крупным планом.
Если бы не 3-4 руки, периодически появляющиеся в кадре и традиционные проблемы с пальцами, то мой глаз бы не дергался - автор явно не напрягался с чисткой и пост-обработкой.
Ну и таймлайн в конце немного странный - с пожилого возраста проходит еще 50% всей длительности.
Это я к тому, что у контента есть препродакшен и пост-продакшен и они, собственно и делают продукт. Отсекая лишнее, добавляя нужное.
Но я оставлю это техническое демо тут, чтобы напоминать себе потом, где мы находились в начале 2024 года. И сколько стоило бы собрать подобноее без ИИ.
https://www.instagram.com/reel/C1wOp5mPgIA/?igsh=ZXU2bHBmZTF6cXV5
👍41🔥27👎3
Кстати, по поводу предыдущего поста с таймлапсом жизни.
Я думаю, что сейчас уже реально собрать однокнопочное решение, которое бцдет генерить подобные ролики по одной фотке (или по описанию персонажа).
chatGPT напишет сколько угодно рандомных историй, затем превратит это в набор из 70-150 промптов. А дальше немного автоматизации, которую тоже можно поручить ИИ.
Я думаю, что сейчас уже реально собрать однокнопочное решение, которое бцдет генерить подобные ролики по одной фотке (или по описанию персонажа).
chatGPT напишет сколько угодно рандомных историй, затем превратит это в набор из 70-150 промптов. А дальше немного автоматизации, которую тоже можно поручить ИИ.
🔥14👍4👎3
Вот этут статью можно порекомендовать хотя бы из-за первого абзаца:
AI-хайп, честно говоря, слегка задолбал. Кажется, что все вокруг только и делают, что внедряют в продукт как можно больше AI фичей, поднимают миллионы на оболочку для ChatGPT, осваивают сто первый AI-тул и отдают свою работу роботам, а сами пьют лавандовый раф и делают подкасты про успешный успех. Все эти возвышенные презентации про amazing и awesome инновации от людей, которые слабо себе представляют, чем энкодер отличается от декодера и почему трансформеры в нейросетях не сражаются с автоботами, мало того, что набивают оскомину и отнимают время, так ещё и погружают в грёзы бизнес-руководителей и создают крайне завышенные ожидания.
Я терпеть не могу смотреть видосы (олдскул, тексты и картинки плиз). Поэтому особенно чувствителен к добротным текстам.
Хороший срез того, что мы сейчас имеем по поводу LLM. Немного неровно с точки зрения подробности описания одних аспектов и сжатости других, но в целом хороший научпоп, переходящий в гик-поп.
Почитайте, сверьтесь со своим представлением про LLM 2024. Игорь написал практически повесть, а не статью.
https://habr.com/ru/articles/768844/
AI-хайп, честно говоря, слегка задолбал. Кажется, что все вокруг только и делают, что внедряют в продукт как можно больше AI фичей, поднимают миллионы на оболочку для ChatGPT, осваивают сто первый AI-тул и отдают свою работу роботам, а сами пьют лавандовый раф и делают подкасты про успешный успех. Все эти возвышенные презентации про amazing и awesome инновации от людей, которые слабо себе представляют, чем энкодер отличается от декодера и почему трансформеры в нейросетях не сражаются с автоботами, мало того, что набивают оскомину и отнимают время, так ещё и погружают в грёзы бизнес-руководителей и создают крайне завышенные ожидания.
Я терпеть не могу смотреть видосы (олдскул, тексты и картинки плиз). Поэтому особенно чувствителен к добротным текстам.
Хороший срез того, что мы сейчас имеем по поводу LLM. Немного неровно с точки зрения подробности описания одних аспектов и сжатости других, но в целом хороший научпоп, переходящий в гик-поп.
Почитайте, сверьтесь со своим представлением про LLM 2024. Игорь написал практически повесть, а не статью.
https://habr.com/ru/articles/768844/
Хабр
Раскрывая секреты LLM: руководство по основным понятиям больших языковых моделей без хайпа
AI-хайп, честно говоря, слегка задолбал. Кажется, что все вокруг только и делают, что внедряют в продукт как можно больше AI фичей, поднимают миллионы на оболочку для ChatGPT, осваивают сто первый...
👍35🔥13👎2
This media is not supported in your browser
VIEW IN TELEGRAM
Ну, за видеоклипы.
Вот держите последний крип Канье Уэст. Жесткий ИИ-кринж в низком разрешении.
У него даже есть как бы режиссер (Jon Rafman). Народ в сети хлещется - это Runway или Stable Video Diffusion.
Хотя какая разница - почти все генератовы ИИ-видео сейчас умеют в такое.
Низкое разрешение называют "художественным приемом" и осторожно замечают, что музика (пока еще) живая, то есть не ИИ-шная.
Хотя, судя по нашим экспериментам с Suno.ai, который испольняет в рэп как родной, и наличием нецензурированных LLM-ок типа Дельфина, создание аудио-трека - вопрос пару кнопок и пары промптов.
За сим остается только бренд, имя и, как говорят достопочтенные искуствоведы, провенанс.
В общем, сейчас разберемся с генераторами видео-клипов, а потом приступим к однокнопочным генераторам брендов. Впрочем chatGPT уже вовсю пишет маркетинговые стратегии и генерит логосы, а в инсте жируют цифровые твари-инфлюенсеры.
Однокнопочные артисты не за горами.
Готовы потреблять синтетическое массовое искусство, не отличимое от кожаного? Горстями.
https://www.youtube.com/watch?v=riMf8FdOC5w
Вот держите последний крип Канье Уэст. Жесткий ИИ-кринж в низком разрешении.
У него даже есть как бы режиссер (Jon Rafman). Народ в сети хлещется - это Runway или Stable Video Diffusion.
Хотя какая разница - почти все генератовы ИИ-видео сейчас умеют в такое.
Низкое разрешение называют "художественным приемом" и осторожно замечают, что музика (пока еще) живая, то есть не ИИ-шная.
Хотя, судя по нашим экспериментам с Suno.ai, который испольняет в рэп как родной, и наличием нецензурированных LLM-ок типа Дельфина, создание аудио-трека - вопрос пару кнопок и пары промптов.
За сим остается только бренд, имя и, как говорят достопочтенные искуствоведы, провенанс.
В общем, сейчас разберемся с генераторами видео-клипов, а потом приступим к однокнопочным генераторам брендов. Впрочем chatGPT уже вовсю пишет маркетинговые стратегии и генерит логосы, а в инсте жируют цифровые твари-инфлюенсеры.
Однокнопочные артисты не за горами.
Готовы потреблять синтетическое массовое искусство, не отличимое от кожаного? Горстями.
https://www.youtube.com/watch?v=riMf8FdOC5w
👎28👍10🔥3
Ну и сейчас в коментах (после поста про Канье Уэста) начнет приподвскипать "мынетакие" или "этовсёбесовщина".
Вы пока послушайте пока пару каверов от Suno (спасибо старым хакерам), и поглядите как ловко он срисовал черты постсовецкой попсы и шансона, замешав в кучу Шатунова и Новикова. А боссанова - как пример того, что ИИ умеет не только в бессодержательный хардбасс или упоротый рэп, а кое-что знает про более сложные рисунки.
Я пока слушал боссу, понял, что мне нравится, как вокал немного "отстроен" от аранжировки (в этом есть фишка и новизна), а некоторые мелодические ходы заставят матерых композиторов побежать до клавиш и записать те самые фишки, которые потом можно присунуть в будущие хиты.
Вы пока послушайте пока пару каверов от Suno (спасибо старым хакерам), и поглядите как ловко он срисовал черты постсовецкой попсы и шансона, замешав в кучу Шатунова и Новикова. А боссанова - как пример того, что ИИ умеет не только в бессодержательный хардбасс или упоротый рэп, а кое-что знает про более сложные рисунки.
Я пока слушал боссу, понял, что мне нравится, как вокал немного "отстроен" от аранжировки (в этом есть фишка и новизна), а некоторые мелодические ходы заставят матерых композиторов побежать до клавиш и записать те самые фишки, которые потом можно присунуть в будущие хиты.
🔥28👍7👎4
Ну и для тех, кто лихо отличает кожаное искусство от бесовских генераций, вот вам тест.
Отличите кожаные лица от сгенерированных.
Я нормально так шел, но в конце несколько раз ошибся. Итого 6/10 правильных.
И нет, это не Stable Diffusion, это очень старый StyleGAN2. Я, кстати, просто узнал некоторые лица из старых статей про СтайлГану, это мне помогло, иначе бы облажался еще сильнее.
Ну и к вопросу о распознавательных способностях кожаных:
Гиперреалистичные лица, использованные в исследованиях, как правило, были менее отчетливыми, говорят исследователи, и были настолько близки к средним пропорциям, что не вызывали подозрений у участников. И когда участники смотрели на реальные фотографии людей, они, казалось, зацикливались на чертах, которые отклонялись от средних пропорций — например, деформированное ухо или нос больше среднего, — считая их признаком участия ИИ.
Тестируем себя тут (нужно логнуться гуглом):
https://www.nytimes.com/interactive/2024/01/19/technology/artificial-intelligence-image-generators-faces-quiz.html
Отличите кожаные лица от сгенерированных.
Я нормально так шел, но в конце несколько раз ошибся. Итого 6/10 правильных.
И нет, это не Stable Diffusion, это очень старый StyleGAN2. Я, кстати, просто узнал некоторые лица из старых статей про СтайлГану, это мне помогло, иначе бы облажался еще сильнее.
Ну и к вопросу о распознавательных способностях кожаных:
Гиперреалистичные лица, использованные в исследованиях, как правило, были менее отчетливыми, говорят исследователи, и были настолько близки к средним пропорциям, что не вызывали подозрений у участников. И когда участники смотрели на реальные фотографии людей, они, казалось, зацикливались на чертах, которые отклонялись от средних пропорций — например, деформированное ухо или нос больше среднего, — считая их признаком участия ИИ.
Тестируем себя тут (нужно логнуться гуглом):
https://www.nytimes.com/interactive/2024/01/19/technology/artificial-intelligence-image-generators-faces-quiz.html
Nytimes
Test Yourself: Which Faces Were Made by A.I.? (Published 2024)
People tend to overestimate their ability to spot digital fakes, researchers found.
👍10👎5🔥2
На прошлой неделе в интернетике приподвскипело про дипфейк-порно с участием Тейлор Свифт. И не только в интернетике!
Пресс-секретарь Белого дома Карин Жан-Пьер в пятницу заявила, что Белый Дом обеспокоен ситуацией, и что необходимо принять закон, защищающий людей от фальшивых сексуальных изображений.
Более того, даже CEO Микрософт Сатья Наделла взорал, что это "alarming and terrible".
А в Твитторе даже заблокировали поиск просто по запросу "Тейлор Свифт".
Реддит, твиттор и другие три дня усердно зачищали свои ленты. Сейчас все улеглось, но это повод немного разобраться ашоэтобыло.
Пресс-секретарь Белого дома Карин Жан-Пьер в пятницу заявила, что Белый Дом обеспокоен ситуацией, и что необходимо принять закон, защищающий людей от фальшивых сексуальных изображений.
Более того, даже CEO Микрософт Сатья Наделла взорал, что это "alarming and terrible".
А в Твитторе даже заблокировали поиск просто по запросу "Тейлор Свифт".
Реддит, твиттор и другие три дня усердно зачищали свои ленты. Сейчас все улеглось, но это повод немного разобраться ашоэтобыло.
👎4👍3🔥3
Для начала, это были никакие не дипфейки, а довольно топорные генерации, целиком сделанные в одном из генераторов.
Я быстро нашел исходники, это очень-очень плохого качества картинки, сделанные похоже либо в старом Stable Diffusion, либо вообше в Microsoft Designer. Никакого реализма, скорее карикатура низкого качества. Не порно, а скорее визуальные оскорбления.
Появились они с подачи одного фаната футбольной команды Buffalo Bulls. Тот разозлился, что его любимцы проиграли команде Chiefs, где играет нынешний бойфренд певицы Трэвис Келси, и таким вот способом решил пофанатеть.
В Твитторе глупые картинки набрали 50 миллионов просмотров и 25 тыщ репостов - это к вопросу о вере в человечество.
В этой ситуации меня радует, что вектор дискуссии наконец-то смещается с "запретить ИИ" на "что делать с распространенем картинок в интернете".
А ИИ просто обнажает проблему, переводя количество в некое новое качество, с которым непонятно, что делать.
Поясню. Все эти генерации с Тейлор Свифт появились сначала на сайте Celebrity Jihаd. Он существует уже около 15 лет и все это время постит реальные и не очень реальные картинки знаменитостей. Там полно фейков, созданных кожаными, а не ИИ.
Та же Тейлор Свифт уже судилась с сайтом, как и многие другие. И ничего, сайт жив и здоров, ибо экономическая модель работает и покрывает издержки.
Но тут пришел ИИ, и выяснилось, что генерить фейки (которые уже были и до того), можно в промышленных масштабах. И что они могут быть кривыми, косыми, некачественными - пипл схавает.
И тут кожаные, наконец, задумались. А на чем строится экономическая модель сайтов типа Celebrity Jihаd? На чем строится 50 миллионов просмотров в Твитторе за сутки? Что не так с экономикой внимания и на чем строится это внимание? Что будет на следующих выборах? Может быть что-то не так с метриками? Или с самими кожаными?
А ИИ стоит в сторонке и предлагает посмотреть в зеркало всем кожаным, которые мечтали о завоевании космоса, а теперь репостят глупости в твитторе, чем пугают Белый дом.
Вы находитесь тут, говорит он, без всяких эмоций (которых у него, по убеждению многих, нет).
Я быстро нашел исходники, это очень-очень плохого качества картинки, сделанные похоже либо в старом Stable Diffusion, либо вообше в Microsoft Designer. Никакого реализма, скорее карикатура низкого качества. Не порно, а скорее визуальные оскорбления.
Появились они с подачи одного фаната футбольной команды Buffalo Bulls. Тот разозлился, что его любимцы проиграли команде Chiefs, где играет нынешний бойфренд певицы Трэвис Келси, и таким вот способом решил пофанатеть.
В Твитторе глупые картинки набрали 50 миллионов просмотров и 25 тыщ репостов - это к вопросу о вере в человечество.
В этой ситуации меня радует, что вектор дискуссии наконец-то смещается с "запретить ИИ" на "что делать с распространенем картинок в интернете".
А ИИ просто обнажает проблему, переводя количество в некое новое качество, с которым непонятно, что делать.
Поясню. Все эти генерации с Тейлор Свифт появились сначала на сайте Celebrity Jihаd. Он существует уже около 15 лет и все это время постит реальные и не очень реальные картинки знаменитостей. Там полно фейков, созданных кожаными, а не ИИ.
Та же Тейлор Свифт уже судилась с сайтом, как и многие другие. И ничего, сайт жив и здоров, ибо экономическая модель работает и покрывает издержки.
Но тут пришел ИИ, и выяснилось, что генерить фейки (которые уже были и до того), можно в промышленных масштабах. И что они могут быть кривыми, косыми, некачественными - пипл схавает.
И тут кожаные, наконец, задумались. А на чем строится экономическая модель сайтов типа Celebrity Jihаd? На чем строится 50 миллионов просмотров в Твитторе за сутки? Что не так с экономикой внимания и на чем строится это внимание? Что будет на следующих выборах? Может быть что-то не так с метриками? Или с самими кожаными?
А ИИ стоит в сторонке и предлагает посмотреть в зеркало всем кожаным, которые мечтали о завоевании космоса, а теперь репостят глупости в твитторе, чем пугают Белый дом.
Вы находитесь тут, говорит он, без всяких эмоций (которых у него, по убеждению многих, нет).
🔥39👍18👎1