AI для Всех
14.9K subscribers
1.32K photos
181 videos
11 files
1.51K links
Канал, в котором мы говорим про искусственный интеллект простыми словами

Главный редактор и по рекламе: @crimeacs

Иногда пишут в канал: @GingerSpacetail, @innovationitsme
Download Telegram
Как Viridis стала палитрой по умолчанию

И ещё про цветовые карты - это важная тема, т.к. правильная палитра позволяет увидеть структуры в сырых данных.

Долгое время в matplotlib палитрой по умолчанию была JET (радуга), но, начиная с версии 2.0, используется Viridis. При её разработке (которая была PhD работой) основными требованиями были:
- перцептивная однородность (даже в ч/б)
- доступность для людей с цветовой слепотой

Viridis была разработан так, чтобы цвета были равномерно распределёнными в цветовом пространстве - схожие значения представлены похожими цветами, но при этом достаточно отчётливыми даже в ч/б и для людей с цветовой слепотой.

JET не соответствует этим требованиям - некоторые цвета превалируют больше других, что может привести к неверной интерпретации данных.

Рекомендую посмотреть видео, которое за 20 минут весело и задорно расскажет о теории цвета, а также полистать пост с более подробной информацией. А в качестве бонуса вот вам инструмент для создания собственной палитры.

🎞 Видео
🌐 Пост
@karray
Please open Telegram to view this post
VIEW IN TELEGRAM
👍28🔥104
This media is not supported in your browser
VIEW IN TELEGRAM
Dreamix: Video Diffusion Models (VDM) as General Video Editors

Представлен новый метод видеомонтажа на базе предобученной Imagen-Video.

Imagen-Video - это каскадная VDM, которая состоит из текстового энкодера, базовой VDM модели с низким разрешением, 3 spatial super-resolution (SSR) для апскейла и 3 temporal superresolution для создания промежуточных кадров.

Это работает так: оригинальное видео даунсемплится с добавлением шума и скармливается вместе с промтом базовой VDM с низким разрешением для генерации основной темы. Для повышения качества Imagen-Video (базовая модель и первые два SSR) файнтюниться на оригинальном видео с использованием несуществующего слова для промта, а потом на неупорядоченных кадрах (с заморозкой temporal слоев) - это позволяет ей запоминать детали в высоком разрешении из оригинального видео. Далее, видео с низким качеством апскейлить оставшимися моделями.

В качестве бонуса этот метод также можно использовать для анимации статических изображений.

📜 Статья
👩‍💻 Сайт с примерами
@karray
🔥26🤯10👍81
{скромные} успехи в NMR spectroscopy

Опытный специалист может по МР спектру определить, какие химические соединения были в 🧪образце. Но это занимает чудовищное количество времени.

Авторы статьи (в т.ч. разработчики популярной MestreLab) подошли к проблеме как к задаче компьютерного зрения. Взяли несколько классов (липиды, нуклеотиды и тд) и применили четыре подхода:

Image similarities
Гипотеза: изображения спектров внутри классов близки.
Проверили MobileNetV2 с евклидовым расстоянием, ORB feature matching и Structural Similarity Index (SSIM) и ничего не получили.

Image registration
Гипотеза: для спектров из одного класса нужно минимум преобразований, чтобы их совместить.
Использовали VoxelMorph и тоже ничего не получили.

Кластеризация
Гипотеза: горшочек, вари уже.
Применили VGG16 для feature extraction + PCA + k-means для разбивки на 9 кластеров. Тоже не вышло.

Классификация
Натренировали CNN и получили точность ~60%. Это хотя бы proof-of-concept.

Го помогать ученым?

📖Статья
🧑‍🔬Код
@GingerSpacetail
👍21🔥84🎉1
This media is not supported in your browser
VIEW IN TELEGRAM
RunWay ML выпустили Video-to-Video

RunWay ML - стартап, который можно описать как Голливуд для бедных (с AI и другими радостями машинного обучения) - выпустили нейросеть, которая может стилизовывать видео. И что круто, без всяких подергиваний и кислотного трипа.

Модель называется Gen-1 (про нее рассказывают начиная с 38 секунды видео), что намекает нам на то, что со временем качество будет только улучшаться. Пока модель в бета-тесте, подать заявку на ее использование можно тут.

🎥 Сайт продукта
👍38🔥174
Мое предположение: Bard умеет оценивать собственную уверенность в ответах (скорее всего через какой нибудь sampling uncertainty, типа masksembles)

Вот это чел только uncertainties и robustness занимается

https://twitter.com/dustinvtran/status/1622720476002021376?s=46&t=A6lQj2TZZX1Rh1hZ2hfqSA

P.S.: хотя я бы его Bart лучше назвал, можно было бы шкодливость некую оправдать
😁14👍3🔥1
BioGPT - SOTA модель для четырех биомедицинских NLP задач

О главном: нет, BioGPT не напишет вместо вас научную статью.

BioGPT - большая языковая модель от Microsoft с архитектурой GPT-2-medium, у BioGPT-large в основе GPT-2 XL.

Pretraining: модели обучены с нуля на 15-миллионном корпусе абстрактов PubMed.
Словарный запас: специфичен для биомедицинского домена и справляется с терминологией, даже если это редко используемые аббревиатуры в духе R2-D2🤖 и C3-PO🟡🤖
Fine-tuning: можно решать задачи сквозного извлечения связей, ответов на вопросы (как в PubMedQA), классификации документов (например, по ныне известным 10 признакам рака) и очень ограниченно - для генерации текста.

Теперь это SOTA модель для:
извлечения связей между
▪️лекарством и биологической целью
▪️патологией и ее биохимией
▪️лекарствами
и ответов на вопросы (точность BioGPT-large 81%), но требует промпта в формате <вопрос>, <контекст>, <цель>.
Btw, генерации (и галлюцинации) очень релевантные

📖Статья
🤗 Модели (демо, QA)
@GingerSpacetail
🔥243👍3🤯2
Forwarded from Сиолошная
Следить за презентацией Microsoft + OpenAI можно тут

в комменты вставлю пару цитат с того, что говорят
🔥22👍53🤩1
Трансформер для универсальной сегментации картинок

Авторы предлагают использовать OneFormer, универсальную систему сегментации изображений, которая объединяет сегментацию с многозадачным обучением.

Сначала они тренируют сетку на ground truth каждой области (семантическая, инстансная и паноптическая сегментация) в рамках одного многозадачного процесса обучения.

Затем добавляют специальный токен для каждой задачи, что позволяет сделать модель динамичной и многозадачной.

После этого используют контрастный лосс между запросом и текстом во время обучения, чтобы установить лучшие межзадачные и межклассовые различия.

Примечательно, что OneFormer превосходит специализированные модели Mask2Former во всех трех задачах сегментации на ADE20k, Cityscapes и COCO, несмотря на то, что последняя обучалась на каждой из трех задач отдельно с использованием в три раза большего количества ресурсов.

📙 Статья
🐙 Проект
👍23🔥32😱2
Карпаты возвращается в OpenAI

tweet
44👍11🔥6🎉5🤯3😁1😢1
Transformers learn in-context by gradient descent

Трансформеры стали самой современной архитектурой нейронных сетей во многих областях машинного обучения. Отчасти это объясняется их выдающейся способностью к контекстному обучению на небольшом количестве примеров. Тем не менее, механизмы, с помощью которых трансформеры становятся обучаемыми в контексте, недостаточно хорошо изучены.

Авторы исследования утверждают, что обучение трансформеров на авторегрессионных задачах может быть тесно связано с известными формулами метаобучения на основе градиента.

Они начинают с простой конструкции весов, которая показывает эквивалентность преобразований данных, вызванных 1) одним линейным слоем self-attention и 2) градиентным спуском (GD) на регрессионных потерях.

В статье показывают, как обученные трансформеры реализуют градиентный спуск в своем прямом проходе. Это позволяет понять внутреннюю работу оптимизированных трансформеров, которые обучаются в контексте.

📖 Статья
👍132🔥1
Новый клип Linkin Park нарисовала нейросеть.

Нейросеть нарисовала клип на до этого неизданную песню Linkin Park.

В кредитах к клипу указан целый отдел AI production. Вот так вот неожиданно будущее добралось даже до самого духа предыдущего поколения.

Клип
👍19🔥98😁1
Forwarded from TechSparks
То ли ирония судьбы, то ли жесткий сарказм. Есть такой сервис Quora, смысл которого в том, что человек приходит туда с вопросом, а считающие себя экспертами люди ему отвечают.
Так вот этот сервис запустил своего чат-бота про имени Poe, чтоб на вопросы отвечал он :) И делает он это мгновенно и всегда. А ответа людей приходится подчас ждать долго, и можно вовсе не дождаться.
Несколько обескураженый журналист поинтересовался у основателя глубоко социального по сути своей сервиса, зачем он так. И получил ответ, суть которого сводится к тому, что Adam D’Angelo всегда восторгался потенциалом ИИ, но пока тот был во младенчестве, он дал людям костыль в виде возможности спрашивать друг у друга.
Разумные замечания с его стороны: Бот может соврать, но он всегда предваряет это дисклеймером, что может ошибаться. Люди уверенно несут чушь и крайне редко сообщают, что способны ошибиться.
Интересно, какой процент экспертов Quora согласится принять участие в обучении бота; Адам подчеркивает, что без разрешения авторов он не станет использовать их ответы для дообучения.
А пока журналист грустит на тему ситуации:
A company whose very foundation was built upon connecting humans with each other to share knowledge is now pursuing a model where people turn not to each other, but to robots for their answers. 
https://www.wired.com/story/plaintext-down-the-chatbot-rabbit-hole/
👍18😢12🤯4🎉2🤩2
Хорошая статья на Нью-Йоркере, под названием ChatGPT - это размытый JPEG всего интернета

Статья
👍47🔥5😁5🎉2🤩21
Масштабируем трансформеры для компьютерного зрения до 22 млрд параметров.

Существует огромный резерв для улучшения возможностей наших моделей зрения, особенно учитывая уроки, которые мы извлекли из LLM. Авторы представляют ViT-22B, крупнейший на сегодняшний день backbone для компьютерного зрения.

Они делятся рецептом очень эффективного и стабильного обучения масштабных ViT с впечатляющими результатами. Авторы надеются вдохновить усилия по масштабированию моделей зрения и объединить высококлассные модели зрения с лучшими LLM, что станет важным шагом в развитии ИИ (всем бы еще их бюджет на вычисления выделили).

📖 Статья
👍22🔥52🤯2
ChatGPT показал высокие результаты в медицинском тесте (USMLE)

Мы недавно писали о BioGPT и вот ещё одна новость про LLM в медицине.

USMLE - это тест в США, который должны пройти врачи, чтобы получить разрешение на медицинскую практику.

ChatGPT набирал в нём в среднем 60%, что соответствует проходному баллу, и таким образом превзошёл предыдущую модель PubMedGPT, у которой в среднем было 50% (правда на другом датасете).

Но самое интересное то, что PubMedGPT была дообучена на медицинских корпусах, в то время как ChatGPT использовался как есть без дополнительных промтов.

Экзаменаторы также отметили высокую точность и корректные объяснения (правда на более сложных этапах теста частота таких ответов снижалась)

📖Статья
@karray
👍21🔥72🤯2😁1
GLAZE - инструмент для "маскировки стиля"

Не успел утихнуть шум вокруг NoAI в сообществе художников, как подвезли способ “защитить” свой арт от копирования.

Мы уже много слышали об одежде, которая сделает вас невидимым для ИИ (и для беспилотных авто) и тут авторы используют похожий подход.

Идея проста - “маскировка” добавляет к изображениям незаметный глазу шум. При обучении на таких данных, модели вместо стиля “жертвы” (так авторы называют художников) будут учить ложные стили, заложенные в этот шум.

Вообще, авторы много внимание уделяют тому, что чуть ли не каждый пытается украсть у независимых художников их стиль и то время, которое они потратили на приобретение навыка, ушло в пустую, потому что каждый может сгенерировать арт в их стиле за секунды. Но они не затрагивают позитивную сторону - генеративные модели могут служить вдохновением или ассистентом для упрощения работы.

Прочитав интро этой статьи, любой художник, который не сильно разбирается в ИИ, обязательно захочет застраховаться. А между тем, такая “маскировка” может подложить свинью в датасеты, в то время как человечество стоит на пороге дефицита данных и это - плохая новость.

📜 Статья
@karray
👍15🔥9😢9
GLAZE: Protecting Artists from Style Mimicry by Text-to-Image Models

А теперь к техническим деталям. Предложенный подход был явно вдохновлен Adversarial Attack. Но в отличие от прямого вычисления градиента в сторону другого стиля, авторы используют предобученную диффузионную модель (ха-ха, обратим диффузию против себя) для трансформации стиля “жертвы” в ложный стиль (например, Пикассо).

Затем они извлекают эмбеддинги (например, используя предобученный VAE) из оригинала и измененного изображения и вычисляют нужный шум, минимизируя L2 норму между ними, сохраняя при этом визуальное сходство с оригиналом, используя LPIPS регуляризацию.

Таким образом можно локализовать специфичные признаки стиля в виде шума, который подмешивается к оригинальному изображению. Если мы зафайнтюним нашу модель на таких изображениях, при текстовом запросе “котик в стиле X” мы получим котика в стиле Y.

Авторы утверждают, что Adversarial Attack - не оптимальный подход, но между строк читается, что у них не хватило сил на тренировку классификатора стилей и ресурсов для вычисления градиент напрямую (диффузионные модели очень ресурсоёмкие).

Весь их пайплайн построен на предобученных моделях, что выглядит как выстрел в ногу, учитывая цель “маскировки”.

📜 Статья
@karray
👍9🔥6😱3
Вышел GitHub Copilot для бизнеса

GitHub Copilot - первый в мире масштабный инструмент для разработчиков ИИ, и теперь его предлагают каждому разработчику, команде, организации и предприятию.

Новые возможности:

* Более мощная модель искусственного интеллекта: Новые алгоритмы моделирования улучшают качество предложений по коду.
* Фильтрация уязвимостей безопасности на основе ИИ: GitHub Copilot автоматически обращает внимание на hardcoded учетные данные, SQL-инъекции и на кучу других опасных моментов.
* Поддержка VPN-прокси: GitHub Copilot работает с VPN, в том числе с самоподписанными сертификатами, поэтому разработчики могут использовать его в любой рабочей среде.
* Простая регистрация: Любая компания может быстро приобрести лицензии Copilot for Business онлайн и легко назначить места - даже если она не использует платформу GitHub для своего исходного кода.

Стоит эта радость 19$ за пользователя

Подробности тут
👍20😱4😁3🎉2
Андрей Карпаты анонсировал умного ассистента от Open AI. Звучит очень резонно, учитывая работы open-source сообщества по Open Assistant.
🔥46👍32
Иллюстрация к современным чат ботам. Вот так это выглядит на самом деле 😂
😁76🔥21🤩4😱2😢21🤯1