AI для Всех
14.9K subscribers
1.32K photos
180 videos
11 files
1.51K links
Канал, в котором мы говорим про искусственный интеллект простыми словами

Главный редактор и по рекламе: @crimeacs

Иногда пишут в канал: @GingerSpacetail, @innovationitsme
Download Telegram
Auraloss - лоссы для аудио

Auraloss - коллекция лосс функций, ориентированных на аудио. Эти функции потерь используются в приложениях машинного обучения для работы со звуком.

Эта библиотека может быть полезна для ученых, работающих с аудиоданными и машинным обучением. Ее можно использовать для решения различных задач, таких как распознавание речи, синтез аудио, сжатие аудио и многое другое.

В библиотеке собраны временные, частотные и персептивные лоссы, которые помогают обучать модели с различными характеристиками.

Например, временные лоссы могут быть полезны для обучения моделей, генерирующих или обрабатывающих речевые сигналы, в то время как частотные лоссы лучше подойдут для задач обработки звука, таких как разделение источников звука.

🐙 GitHub
👍315🔥3🤩1
Forwarded from Neural Shit
This media is not supported in your browser
VIEW IN TELEGRAM
УХ БЛЯ! Наткнулся на нейродебаггер, который исправляет ошибки в коде и объясняет их с помощью GPT-3.

Сам пока не пробовал, вечером посмотрю, но выглядит многообещающе.

Инструмент бесплатный, сайт проекта тут. Там же ссылка на гитхаб и инструкцию по установке
🔥62😱9🤯4👍3
Цифровое клонирование

Re;memory от Deepbrain AI номинирован на премию CES 2023 Innovation Awards. Это поминальная служба, которая воссоздает внешний вид, манеры и голос умершего человека с помощью ИИ.

Сама идея не нова:
- мы недавно писали о похожем стартапе;
- можно поговорить с цифровым Эйнштейном от UneeQ;
- также они буквально предлагают создать цифрового работника;
- GPT3 помогла канадцу пережить утрату невесты.

Тренд очевиден - с развитием больших языковых моделей эта область будет только набирать обороты (астрологи объявили 2023 годом ChatGPT-подобных ботов).. Уже сейчас появляются возможности лицензировать свой образ для использования после смерти, но что делать с людьми, которые жили до появления технологии?

Настанет тот день, когда ИИ станет slightly conscious и тогда нам придется решать вопросы куда сложнее - есть ли права у цифровой личности. Этот вопрос хорошо раскрыт в сериале Чёрное зеркало и проходит красной линией по всем сезонам.

👨‍💻Wiki

@karray
👍27🤯91😱1
И продолжая предыдущий пост, хочу поделиться другими произведениями о побочных эффектах технологий и тонких гранях между полезностью и деструктивностью:

Альманах - очень интересный проект от русских ютуберов, вдохновленный Черным зеркалом.

The Thirteenth Floor - фильм 1999 года про метавселенную, задолго до того, как это стало трендом (посмотрел фильм благодаря пиратам 90х, которые налепили Матрица на обложку кассеты, спасибо им).

Upload - легкий сериал, где людей загружают в метавселенную после смерти.

Free Guy - комедия 2021 года про NPC, который обрел самосознание.

Это то, что сразу пришло на ум. Делитесь похожими фильмами в коменнтах

@karray
👍13🔥63
Point Cloud Utils - мощная и простая в использовании библиотека Python для работы с 3D облаками точек и сетками.

Point Cloud Utils - это ценный инструмент для ученых. Работаете ли вы в области геологии, археологии, палеонтологии, гидродинамики, метеорологии, материаловедения, компьютерного зрения или робототехники, Point Cloud Utils поможет вам эффективно обрабатывать и анализировать 3D-данные.

Point Cloud Utils умеет работать с различными форматами файлов, что упрощает импорт и экспорт данных из различных источников. Это может быть особенно полезно для ученых в таких областях, как геология, археология и палеонтология, которые часто работают с 3D-данными из различных источников, таких как лидарное сканирование, компьютерная томография и фотограмметрия.

Кроме того, Point Cloud Utils предоставляет широкий спектр метрик для сравнения облаков точек, таких как расстояние Хаусдорфа, что может быть полезно для ученых которым часто необходимо сравнивать 3D-данные из разных источников.

🐍 ссылка
👍32🤩5🔥4
Риски использования языковых моделей для дезинформации

OpenAI и Stanford Internet Observatory в преддверии потенциальной интеграции ChatGPT в Microsoft Office, Bing и Outlook предупреждают, что с LLM пропагандистов станет больше, а кампании могут стать даже персонализированными.

Антидоты (и "но"):
🛠 факт-чувствительные модели (технически открытый вопрос),
🛠 радиоактивные данные (не ясно, сработает ли, как для изображений),
🏛ограничения на сбор данных (так мы можем не увидеть🍿битву терминаторов)
🏛ограничения на ресурсы (риск геополитической эскалации)
🏛ограничения на использование LLM (непокорный open source)
🏛ограничения на релиз моделей (помним рэп-батл между OpenAI и StabilityAI)
🚩меченый ИИ контент (но синтетический НЕ= ложный)
🚩распределенная human проверка
🚩стандарты цифрового происхождения
💡модели, помогающие проверять источники, выявлять манипуляции и предоставлять контекст и критику (целая область исследования)
💡медийная грамотность

Что ж, факт-чек теперь как чистка зубов

📖Статья
@GingerSpacetail
🔥19👍72
Forwarded from Earth&Climate Tech
​​ClimateLearn библиотека для работы с климатическими моделями машинного обучения

Приветики. Сейчас машинное обучение где только не используется, в том числе и в прогнозе климатических моделей. Зачастую, их применение без понимания физики процессов со стороны ИИ сообщества, приводит к неоднозначным результатам. Аналогично, результаты могут быть восприняты сомнительно, если климатологи не разбираются в архитектурах моделей и налаживании конвейера данных. В общем пока что, как я понимаю, "дикий запад". Чтобы как-то стандартизировать и упорядочить вычислительные подходы для климатических прогнозов, ученые из Калифорнийского Университета в Лос Анджелесе (UCLA) представили на известной конференции NeurIPS библиотеку ClimateLearn.

Библиотека, основанная на PyTorch (фреймворк для машинного обучения от Meta AI) предоставляет доступ к:
Наборам климатических данных
Моделям машинного обучения (пока только ResNet, U-net и ViT) для прогноза климатических свойств
Климатическим метрикам для сравнения производительности моделей
Легкой визуализации результатов

В будущем авторы планируют добавить вероятностные подходы и модные нынче диффузионные модели. Сейчас можно поиграться в гугл колабе.
Круто! Хотелось бы чтобы подобные истории начали появляться для геологии, геофизики и петрофизики. Кажется Руслан Мифтахов, инициировал что-то подобное.

Библиотека 📚
Гугл Колаб 💻
Гитхаб 💾
Блог 📖
🔥124👍3
🤯 Полное отслеживание тела теперь возможно с помощью сигналов WiFi

Глубокая нейронная сеть сопоставляет фазу и амплитуду сигналов WiFi с метками на человеческом теле

Модель может оценить позу нескольких субъектов, используя сигналы WiFi в качестве единственного входного сигнала.

Исследование показывает, что сигналы WiFi могут служить повсеместной заменой RGB-изображений для восприятия человека.

Освещенность и окклюзия практически не влияют на WiFi.

🤖 Статья
🤯71🔥18😱7👍5🤩1
Поддержать канал и поставить эмоджи это очень приятно! Но еще приятнее отправить нам донат 🍩

мы на них себе покупаем разные ништяки, например я оплачиваю психотерапевта, @GingerSpacetail покупает хурму в любое время года, а @karray наверняка себя чем то балует, но нам не признается.

Так что непоскупитесь уж вашим спонсорам разговоров у кулера 😀

Поддержите канал по ссылке выше
22🤯5🎉5😢3👍2😁1😱1
Опенсорсный интерфейс Мозг-Компьютер

Интерфейсы мозг-компьютер (BCI) - это системы, обеспечивающие прямую связь между мозгом и компьютером. Эти интерфейсы используют электрофизиологические сигналы мозга, такие как ЭЭГ, для управления внешними устройствами или связи с компьютером.

BCI потенциально могут революционизировать способы взаимодействия с технологиями и имеют широкий спектр применения - от помощи людям с ограниченными возможностями до управления протезами конечностей и даже игр. Они также могут быть использованы в научных исследованиях для лучшего понимания мозга и разработки новых методов лечения неврологических расстройств.

Уникальным аспектом openBCI, является то, что в нем используются недорогие электроды ЭЭГ по цене от $499,99. Это делает его более доступным для использования исследователями и частными лицами и может демократизировать область BCI.

Мне кажется что, OpenBCI может значительно подстегнуть исследования в этой области, кто такой себе не захочет?

Сайт проекта
👍32🔥41
В Мета разработали "Balance": Python библиотеку для корректировки выборок данных, содержащих смещения (баесы).

В исследованиях и науке о данных мы часто сталкиваемся с необъективными данными (например предвзятые опросники). Обучение ML-моделей на таких данных может привести к ошибочным оценкам или некачественным моделям (баес на входе - баес на выходе).

Balance включает в себя простую структуру для взвешивания данных и оценки их смещения. Он разработан для обеспечения лучших практик подбора весов и предлагает несколько подходов к моделированию. Пакет уже поддерживает текущую автоматизированную обработку данных опросов в Мета и специальный анализ данных опросов, проводимый исследователями каждый месяц.

🌋 Инструмент тут
🔥53👍9😱2
Расшифровка любого видео за минуты!

Нас никто не просил, но мы запили для вас небольшое демо, которое позволяет распознать речь на одном из 99 языков, определить говорящих (говорун 1, говорун 2, говорун 3) и перевести текст на выбранный язык.

Под капотом несколько библиотек:
denoiser - для удаления всего постороннего из аудио, кроме речи;
pyannote - для определения говорящего;
Whisper - то, где происходит вся магия.

Про Whisper мы уже писали - она может не только автоматически распознать язык и речь, но и может перевести текст на один из 99 языков. Интересно, что перевод на любой язык не был заявлен официально - в ходе экспериментов с моделью я случайно наткнулся на эту возможность. В репозитории лишь сказано, что она может переводить один из языков на английский. Качество распознавания и особенно перевода сильно зависит от языка (на этой диаграмме показано сравнение)

📖 Colab Ноутбук
@karray
👍32🔥183🤩3
Forwarded from эйай ньюз
The Artificial Intelligence (AI) Residency Program

У Меты есть годовая программа AI Residency, на которой к вам приставят опытного ментора из числа ресерчеров, вы будете импелементить идеи и работать над научными публикациями и open-source проектами. То есть вас будут учить работе исследователя. Бэкраунгд в AI и Deep Learning не обязателен, но нужно иметь техническое образование.

Колобочки, это, кажется, лучшая возможность для тех, кто закончил бакалавриат или магу и хочет серьезно вкатиться в AI. По сути это своеобразные подготовительные курсы перед поступлением на профильное PhD. Если бы я знал в свое время о существовании таких программ, я бы точно не упустил ни одной возможности.

Подозреваю, что конкурс там будет не маленький, но я все равно рекомендую всем заинтересованным отправлять свои заявки.

Подать на программу в США можно тут до вечера 24 января.

@ai_newz
🔥15👍83
Самый горячий язык программирования в 2023 году - английский. Чем больше и эффективнее становиться языковые модели - тем больше функций бекэнда они на себя принимают. Думаю что в этом году парадигма No Code окончательно поменяет свой смысл.

Какие самые интересные применения LLM вы видели?
🤩24👍93🤯3🔥2😁2
Классный Twitter-тред про то что такое, и как работают эмбеддинги в больших языковых моделях (LLM)
🔥17👍31
This media is not supported in your browser
VIEW IN TELEGRAM
StyleGAN-T - ГАН жив!

Пик популярности ГАНов пришелся на 2020 год, а в январе следующего была представлена DALLE-2. С тех пор мы редко слышим о ГАНах, но это не значит, что исследования в этой области не ведутся - у старых (10 лет 😱) добрых ГАНов есть ряд преимуществ:
- менее ресурсоемкие
- быстрее обучить (хотя не без своих проблем)
- быстрый инференс

И главное на, мой взгляд - “распутанное” латентное пространство (об это в следующем посте). Это позволяет, напрмер, делать эффектный морфинг, как на видео.

Но проблема по сравнению с диффузными моделями - ГАНы не могут генерировать объекты из разных доменов. Например, одна и та же модель не сможет нормально генерировать котиков и людей.

На днях вышла новая статья, в которой авторы показывают, что большие ГАНы способны на это. За основу они вязли StyleGAN-XL, а вместо классов использовали ембеддинги из языковой модели, а точнее предварительно обученный CLIP ViT-L/14 в качестве текстового энкодера. Сама идея не нова, но объединив эти два подхода, им удалось добиться генерации разнообразных изображений по текстовому промту.

📜 Статья
👩‍💻 Код обещают

@karray
Please open Telegram to view this post
VIEW IN TELEGRAM
👍16🔥62😱1
This media is not supported in your browser
VIEW IN TELEGRAM
StyleGAN для извлечения скрытых признаков

Обучая генеративную модель создавать лица, мы имеем дело с очень большим многомерном пространством. Например, для изображения 16х16x1 (256 оттенков серого 🤨) размер пространства будет 256 в степени 16х16. Но зачем нам столько пикселей, когда мы можем описать лица несколькими признаками (цвет глаз и волос, угол наклона головы)? Это и есть скрытые признаки, а задача StyleGAN - найти их.

Эти признаки, затем, могут быть использованы для различных задач - от классификации до кластеризации и самое замечательное в этом то, что каждый признак имеет семантическое значение (ноэтонеточно).

Но есть один момент: ГАНы не умеют в инверсию - это когда мы хотим обратить процесс и вместо генерации извлечь скрытые признаки из реальных изображений.

Есть несколько способов добиться этого и про один из них мы уже писали. Но на сколько хороша StyleGAN как экстрактор скрытых признаков? Ответ на этот вопрос вы найдётся в моем блоге. Как всегда - не все так однозначно.

PS: на гифке EditGAN.

📖 Пост
@karray
Please open Telegram to view this post
VIEW IN TELEGRAM
👍15🔥41😁1
ML для NMR spectroscopy

Одна из областей, где есть интересные МЛ задачи - спектроскопия ядерного магнитного резонанса (NMR spectroscopy). Да, физика, как в МРТ.

Зачем NMR в медицине:
⁃ количественная оценка продуктов обмена веществ
⁃ получение структуры белков, ДНК, РНК
⁃ анализ связываемости молекул

А значит, для:
▪️неинвазивной диагностики
▪️понимания патофизиологии заболеваний
▪️разработки лекарств

Где полезен МЛ:
1. Реконструкция полного спектра.
Спектр не непрерывная кривая, а выборка точек, реконструкция может приводить к потере информации

2. Денойзинг.
Идеально, если пики хорошо различимы, но сырые данные часто имеют низкий SND из-за перекрывающихся сигналов

3. Интерпретация спектра.
У опытного специалиста аннотация занимает до нескольких месяцев🥺

4. Объединение частотного и временного домена.
Т.к. дискретное преобразование Фурье может давать искажения

В следующих сериях - пробы, ошибки и достижения

P.S. В мире 300 000 MLE, а нужны миллионы. Велком в МЛ

🧲 Img из статьи
@GingerSpacetail
👍18🔥54
Про Dall-E и эстетику

Иглман [Stanford PHD] называет то, как генераторы изображений учатся и создают искусство, "карикатурной версией" того, как это делают люди. Во-первых, утверждает он, недостаточно просто создавать новые вещи. Чтобы быть полностью творческим, человек - или творческая машина - должен уметь фильтровать эти новые вещи и отбирать наиболее резонансные и значимые на основе человеческих критериев, говорит он. "DALL-E не может этого сделать. У него есть новизна, но нет фильтрации, избирательности", - говорит он. "Ему придется узнать, что такое быть человеком, прежде чем он сможет фильтровать на основе человеческих критериев, прежде чем он сможет понять, оценят ли люди тот или иной рисунок или почему".

Что-то подобное мы уже слышали про языковые модели, а оказалось что RLHF (reinforcement Learning with human feedback) это именно то самое недостающее звено. Думаю что Stability уже наняли толпу кенийцев-арт студентов для разметки и ранжирования.

Статья
👍18😁82🔥2😢1