AI для Всех
14.8K subscribers
1.31K photos
177 videos
11 files
1.5K links
Канал, в котором мы говорим про искусственный интеллект простыми словами

Главный редактор и по рекламе: @crimeacs

Иногда пишут в канал: @GingerSpacetail, @innovationitsme
Download Telegram
Нейроморфные чипы NeuRRAM: энергоэффективные нейросети теперь реальность

Когда Лекун говорит о NeuralAI и создании цифровых органоидов, имитирующих биологические органы, это звучит как научная фантастика.

А когда в Nature выходит статья о новых нейроморфных чипах и решение МЛ задач на приборе размером с ноготок (1 кв см), дух захватывает, как в детстве на качелях.

NeuRRAM - это один из самых передовых чипов для нейроморфных вычислений, потому что:
- Использует аналоговую память для хранения и обработки больших данных;
- Поддерживает разнообразные и сложные задачи ИИ с довольно высокой точностью (например, классификация изображений 99% на MNIST; 85,7% на CIFAR-10, распознавание голосовых команд 84.7% на датасете от Google);
- Экономит до 1000 раз больше энергии, чем традиционные компьютеры (сейчас ИИ - серьезная нагрузка на окружающую среду);
- Спроектирован с учетом потребностей на всех уровнях от алгоритмов до устройств;

Секрет энергоэффективности в отсутвии энергозатратного перемещения данных: он хранит веса моделей в аналоговой энергонезависимой RRAM и выполняет вычисления непосредственно на чипе. Микросхема также поддерживает параллелизм данных, отображая слой в модели нейронной сети на несколько ядер для параллельного вывода.

Прорыв в том, что NeuRRAM может работать на маленьких устройствах: часы, VR-шлемы, наушники и прочие edge девайсы.
В общем, может изменить будущее вычислений и ИИ. И где-то подвинуть NVIDIA🥇🤔🥈

@GingerSpacetail
📖Статья
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥40👍173🤯3
Generative Agents: Interactive Simulacra of Human Behavior

Исследователи из Стэнфорда и Гугл создали "генеративных агентов" на базе gpt3.5-turbo для имитации поведения человека в песочнице, вдохновленной The Sims.

У них получился симулятор социальных взаимодействий, где каждый агент определяется текстовым описанием его профессии, интересами и связей с другими, а ChatGPT играет роль движка. Для обеспечения долгосрочной согласованности действий, авторы расширили ChatGPT тремя компонентами, что позволило агентам создавать распорядок дня, реагировать на новые события и менять планы, если это необходимо.

Первый компонент - модуль долговременной памяти и система извлечения информации. Долгосрочная память сохраняет прошлый опыт агента и состояние окружающей среды с датой и временем события. Для извлечения релевантной информацию авторы просят ChatGPT присвоить оценку важности (от 0 до 10) для каждой записи в долгосрочной памяти, учитывая текущую ситуацию. Далее авторы присваивают вес каждой записи таким образом, что старые записи менее релевантные. На каждом шагу в цикле действий авторы собирают промт комбинируя эти веса и просят ChatGPT решить, что агент должен сделать.

Второй компонент - рефлексия, которая является вторым типом памяти. Подобно тому, как мы во время сна обрабатываем и сохраняем важную информацию в долгосрочную память, приобретенную за день, несколько раз за игровой день ChatGPT просят выделить самые важные события для каждого агента, что позволяет агенту делать выводы о себе и других. Эти выводы также сохраняется в долгосрочную память.

Третий компонент - планирование, которое переводит эти выводы и текущую обстановку в высокоуровневые план действий. Сначала ChatGPT просят создать грубый план на день используя в промте предыдущий опыт и текущее состояние окружения, а затем рекурсивно просят добавить детали для более реального поведения. Эти планы тоже записываются в долгосрочную память.

📜 Статья
👩‍💻 Демо
@karray
🔥427👍4🤩1
День Рождения @crimeacs

Всем привет! У меня (создателя этого канала) сегодня день рождения и вот как вы можете помочь мне отпраздновать:

1. Сделать форк моего инструмента по анализу землетрясений

2. Поискать что можно улучшить/оптимизировать/добавить/починить/прокомментировать. Основные функции прописаны в папке phasehunter и app.py

3. Прислать Pull Request с вашими добавлениями

Если вы не умеете программировать на питоне, но например дружите с UX - присылайте лучшие макеты интерфейса в комментарии.

Если умеете что-то еще - пишите!

Спасибо за такое чудесное поздравление!
Артемий, 29 лет 😊
Please open Telegram to view this post
VIEW IN TELEGRAM
🎉9715🔥6👍2😁1
Forwarded from Futuris (Anton)
⚡️Amazon мощно заявил о себе в гонке генеративных ИИ ⚡️ предоставив бесплатный доступ к своему AI-ассистенту по программированию CodeWhisperer🤖 (бесплатный аналог Copilot X от Microsoft) - поддерживает множество языков программирования, интегрируется с различными средами разработки (IDE) и фильтрует предложения кода.

Кроме того, Amazon представил Bedrock - инновационный инструмент для создания и масштабирования генеративных ИИ-приложений. Он включает базовые модели от стартапов, таких как AI21 Labs, Anthropic и Stability AI, что позволит разработчикам строить свои приложения на основе передовых ИИ-технологий.

Эти новости подчеркивают амбиции Amazon на рынке искусственного интеллекта, где компания стремится конкурировать с гигантами, такими как Microsoft, Google, OpenAI. Разработчики теперь могут расчитывать на более доступные и продвинутые инструменты, которые помогут ускорить и упростить процесс разработки программного обеспечения🤓
👍30🔥74😁1😱1
Школа анализа данных Яндекса вновь открыла приём заявок — он продлится до 7 мая. Успейте зарегистрироваться, чтобы получить возможность учиться у топовых учёных и IT-специалистов.

Программа длится 2 года, обучение бесплатное. Можно выбрать одно из направлений: data science, инфраструктура больших данных, разработка машинного обучения или анализ данных в прикладных науках.

Чтобы учиться в ШАДе, важно интересоваться машинным обучением, обладать хорошей математической подготовкой и владеть одним из языков программирования. Заполните анкету уже сейчас: https://clck.ru/344mAx

#промо
17😢9🔥5👍4😱1
This media is not supported in your browser
VIEW IN TELEGRAM
DINOv2: Learning Robust Visual Features without Supervision

Авторы из Meta AI решили провести ревизию и масштабировать существующие подходы self-supervised learning (#SSL) для извлечения скрытых признаков из изображений (pre-text task).

DINOv2 - комбинация идей из DINO, iBOT и SwAV. Авторы показали, что увеличивая количество параметров растёт и производительность. Их модель на 1.1B параметров обошла weakly-supervised методы в 8 из 10 бенчмарках на downstream задачах сегментации и построении карт глубины (код и веса уже доступны).

Для увеличения количества параметров моделей требуется больше данных, и SSL идеален в этом смысле, поскольку не требует наличия ручной разметки. Но эффективность обучения напрямую зависит от качества данных. Для решения этой проблемы авторы предложили новый подход сбора изображений из непроверенных источников используя курируемые наборы данных (такие, как ImageNet).

Они предложили пайплайн состоящий из нескольких техник фильтрации изображений из непроверенных источников. Например, они используют существующие SSL модели для извлечения эмбеддингов из изображений для последующей кластеризации. Используя эмбеддинги из курируемых наборов данных, они размечают кластеры и сортируют похожие изображения. Таким образом им удалось создать большой и сбалансированный набор данных высокого качества.

Статья | Код | Демо

@karray
31🔥8👍6
Тут сразу несколько новостей про альтернативы ChatGPT, которые я опробовал и собрал для вас в одном месте.

OpenAssistant - альтернатива ChatGPT с открытым исходным кодом и набором данных от сообщества LAION. Подробней в видео от Янника.
Демо

LLaVA - новая мультимодальная модель от Microsoft, которая понимает картинки. Модель объяденяет преобученные CLIP ViT-L/14 и LLaMA. Авторы собрали данные для файнтюна давая ChatGPT только описание изображения и координаты баундинг боксов объектов без фактического изображения. Первые эксперименты показывают, что модель достигает 85% по сравнению с GPT-4 в синтетическом мультимодальном наборе данных. Код и веса доступны.
Демо

Vicuna - чат-бота на основе LLaMA дообученный на диалогах, полученных из ShareGPT, и протестированный с помощью GPT-4. Авторы говорят, что Vicuna-13B достигает 90% качества ChatGPT и превосходя при этом LLaMA и Alpaca в большинстве случаев. Стоимость обучения составила около 300 долларов. Код и веса доступны.
Демо

MiniGPT-4 - еще одна мультимодальная модель, основанная на предобученных Vicuna и ViT. Авторы заморозили эти модели и добавили один линейной слой проекции, который был дообучен. Их результаты показывают, что MiniGPT-4 обладает многими возможностями GPT-4, такими как создание веб-сайта из наброска от руки. Код и веса также доступны. Авторы отдельно обещают оптимизацию под 3090
Демо

@karray
👍27🔥187
Forwarded from Earth&Climate Tech
Media is too big
VIEW IN TELEGRAM
DINOv2 для оценки высоты кроны деревьев в масштабе меньше метра

Вслед за моделью SAM, которая выделяет (сегментирует) любые объекты на изображении, компания Мета выпустила модели компьютерного зрения с самообучением DINOv2. По сути это метод обучения моделей компьютерного зрения, использующий самообучение для достижения результатов, которые превосходят стандартные подходы (судя по релизу).

ИИ сейчас развивается с безумной скоростью конечно. Но мое внимание привлек не сам DINOv2, хотя я очень впечатлен, просто для себя юз кейса не нашел пока, а видео из официального релиза, где Мета показывает как можно применять эту модель для оценки высоты кроны деревьев по всему миру. Картирование растительности имеет большое значение для понимания углеродного цикла. Структура леса может быть пространственно неоднородной, и оценка высоты и площади кроны позволяют наблюдать деградацию существующих лесов, естественное лесовосстановление, или внедрение устойчивых методов ведения сельского хозяйства.

Оказывается Мета работала в сотрудничестве с The Global Restoration Initiative и применяла наработки DINOv2 для картирование лесных массивов и оценки высоты крон деревьев в МАСШТАБЕ КОНТИНЕНТОВ и разрешении меньше метра! Меня впечатлило. Кроме того они выпустили совместную научную статью по этому поводу, где описывают процесс обучения модели на спутниковых данных и данных лидаров.

Мета что-то задумала в области компьютерного зрения. Иначе объяснить такое количество масштабных ИИ работ в такой короткий срок не объяснить.

📖 Статья
21🔥10🎉2👍1🤩1
Рассматриваю предложения

Друзья, в августе у меня заканчивается контракт в Стенфорде и дальше передо мной встает выбор:
* еще год исследований в Стенфорде
* своя компания
* чей-то невероятно крутой и интересный проект

Если вы хотите пригласить меня в свой проект или хотите прореферить меня своим работодателям - пишите в личку @crimeacs, рассматриваю предложения от $150k.

💻LinkedIn

Keywords: ML/DL/AI, time-series, sensor data, waveforms, audio, speech, music, anomaly detection, signal processing
🔥4711👍2🤩2😁1
Forwarded from Denis Sexy IT 🤖
Media is too big
VIEW IN TELEGRAM
Мы все ближе к генеративной сингулярности:
Nvidia показала работу алгоритма text2video, и он работает сильно лучше чем все предыдущие примеры.

Смонтировал примеры в одно видео, тут по ссылке технические детали про архитектуру и больше примеров.

Модель, поиграться, кажется, нам не дадут 🥲
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥45😁5
Вышел новый подкаст с @crimeacs про землетрясения

Землетрясения, которые произошли в начале года в Турции и Сирии, привели к гибели более 50 тысяч человек и разрушили множество зданий. В связи с этим возник вопрос о причинах такой катастрофы и о возможных мерах предотвращения.

Меня (а еще Кирилла и Александра) пригласили в последний выпуск научно-популярного подкаста "Юра, мы всё узнали!" , чтобы мы пролили свет на причины землетрясений и способы минимизации их последствий.

Яндекс.Музыка
Spotify
Apple Podcasts
Castbox
🔥17👍43
Новость: Stability AI запускает первый набор языковых моделей StableLM

StableLM предназначена для генерации текста и кода и будет использоваться в различных приложениях. Она демонстрирует, как маленькие и эффективные модели могут достигать высокой производительности при соответствующем обучении.

Модель StableLM обучена на новом экспериментальном наборе данных, созданном на основе набора данных The Pile, который в три раза больше с 1,5 триллионом токенов контента.

StableLM демонстрирует удивительную производительность в разговорных и кодовых задачах, несмотря на ее небольшой размер от 3 до 7 миллиардов параметров (в сравнении, у GPT-3 175 миллиардов параметров).

Модели от 15 до 65 миллиардами параметров находятся в разработке.

И 🍒на торте: StableLM с открытым исходным кодом! Бежим тестить!

Пресс-релиз

GitHub

HuggingFace
🔥31👍71😁1
Forwarded from Сиолошная
Посмотрел TED Talk от Президента OpenAI, Greg Brockman.

В нём Greg рассказывает про то, насколько языковая модель становится более способной, если к ней прикрутить плагины (внешние модели и/или скрипты, с которыми GPT может "переписываться"). Это частично отсылает нас к основной причине, которую я упоминал на стриме с Валерой (появилась запись, кстати), почему языковые модели это умнО. Потому что они могут коммуницировать между собой также, как это делают люди, и выполнять разные роли, при этом программировать их на каком-то конкретном языке, отличном от английского, не нужно.

В общем, если хочется посмотреть демку - приглашаю к ознакомлению. Но упомянул я видео не поэтому, что хотел приплести видос с Валерой - а потому что среди прочего у Greg спросили, какие возможности модели его поразили.

Если вы помните, в статье про ChatGPT я писал, что GPT-3 научилась в математику, но только на уровне сложения-умножения 2-3 значных чисел. Там можно спекулировать, мол, все такие пары встречались в трейне, модель просто их выучила!

Ну так вот, Greg рассказал - а я проверил - что модель может складывать спокойно даже 40-значные числа, потому что она поняла процесс познакового сложения. При этом если дать одно 40 и одно 35 значное число - магии не произойдет. Числа, которые вводил я - полностью случайные, просто руками по клаве повозил. Уверен на 100%, что комбинация уникальная. Пример решён верно, перепроверил в Python. Оговорюсь, что перенос строки в промпте я не делал, это из-за ширины текстового окна так кажется, то есть даже форматирования простейшего нет.

P.S.: а ещё Greg поделился, что при запуске GPT-3 они боялись, что люди начнут генерировать дезинформацию, а те...начали генерировать спам про виагру (таблетки) ахаххахаха люди такие люди...
👍298😁5🤩3🔥2🤯1
CLAP 👏 - как CLIP, но для звуков

Во-первых: контрастное обучение продемонстрировало значительный успех в области изучения мультимодальных представлений. В данной работе предлагается "язык-аудио" для создания аудиопредставлений путем объединения аудиоданных с описаниями на естественном языке. Для достижения этой цели авторы сначала выпустили LAION-Audio-630K, большую коллекцию из 633 526 аудио-текстовых пар из различных источников данных.

Во-вторых, они построили контрастную модель предварительного обучения "язык-аудио", рассматривая различные аудиокодеры и текстовые кодеры. Они включили в модель механизм слияния признаков и дополнения ключевых слов к подписям, что позволило модели обрабатывать аудиоданные различной длины и повысить производительность.

В-третьих, авторы оценивают модель в трех задачах: поиск текста по аудиозаписям, классификация аудиозаписей zero-shot и контролируемая классификация аудиозаписей.

Результаты показывают, что модель достигает превосходной производительности в задаче поиска текста по аудиозаписям. В задачах классификации аудио модель достигает передовой производительности в условиях zero-shot.

📕 Статья
🦑 Модель
🔥28👍65
Forwarded from Сиолошная
Наш любимый HuggingFace 🤗 запускает свой ответ ChatGPT: HuggingChat 💬

В основе лежит затюненнаяя OpenAssistant фейсбучная LLAMA на 30B параметров, про которую я писал раньше. Она, кстати, уже доступна 3 дня как - прям самая большая и мощная, ага!

Доступно тут в привычном интерфейсе https://huggingface.co/chat/

На скриншоте - пример ответа модели на запрос создать игру "Змейка".

UPD: веб-приложение легло под натиском запросов, подождём (ну или можно запускать локально, хе-хе)
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥25👍86
Прорыв в области аугментации мультимодальных данных: LeMDA

Интеллектуальные системы предназначены для обучения на основе различных типов данных, таких как текст, аудио и изображения. Несмотря на то, что нейронные сети достигли больших успехов в использовании мультимодальных данных, методы аугментации данных (получение дополнительных данных из существующих) в основном ограничиваются одной модальностью за раз.

Аугментация данных для мультимодального обучения - задача сложная, поскольку трудно сохранить общий смысл при дополнении каждой модальности. Например, если каким-то случайным образом изменить изображение, подпись к нему может перестать его точно описывать. Кроме того, сложно придумать подходящие преобразования, которые работают для всех модальностей.

Авторы представляют LeMDA (Learning Multimodal Data Augmentation)! Этот простой в использовании метод автоматически учится дополнять мультимодальные данные в пространстве признаков (закодированное представление данных), без необходимости знать точные модальности или их взаимосвязи. LeMDA имеет три основных преимущества:

* Она значительно повышает производительность мультимодальных архитектур глубокого обучения.
* Она может применяться к комбинациям модальностей, которые ранее не рассматривались.
* Она достигает самых современных результатов в различных приложениях с изображениями, текстом и табличными данными.

LeMDA - это революционное решение для мультимодального дополнения данных, прокладывающее путь к созданию более надежных и универсальных интеллектуальных систем.

📕 Статья
🦑 Код
17👍8🔥2
Stability AI запускает API для увеличения изображений

Компания Stability AI объявила о выпуске своего революционного API для увеличения изображений, который позволяет пользователям увеличивать размер любого изображения без ущерба для его резкости и детализации. Этот инновационный инструмент на базе ИИ станет ценным дополнением к набору API для создания и редактирования изображений.

API увеличения изображения использует две современные модели с открытым исходным кодом, Real-ESRGAN и Stable Diffusion 4x Upscaler. Теперь пользователи могут легко увеличивать изображения, независимо от того, созданы они с использованием Stability AI или нет, получая исключительные результаты.

🦾 Документация
🐕 Анонс
👍30🔥114
Поваренная книга Self-supervised Learning (#SSL) от Meta.

Meta выпустили новую "Поваренную книгу самоконтролируемого обучения" - практическое руководство для исследователей и практиков ИИ о том, как сориентироваться в рецептах SSL (self-supervised learning), понять его различные “ручки и рычаги” и получить ноу-хау, необходимые для экспериментов с SSL.

Self-supervised learning (SSL), которое называют "темной материей интеллекта", является ключевым ингредиентом недавних прорывов в области ИИ.

Оно расширило границы глубокого обучения во многих областях, позволяя обучаться на огромных объемах немаркированных данных, а не полагаться на тщательно аннотированные наборы данных. Сегодня SSL лежит в основе передовых моделей для всех модальностей - язык (например, перевод и большие языковые модели), аудио (например, data2vec) и зрение (например, модель SEER, обученная на одном миллиарде изображений, и DINOv2).

Но обучение SSL похоже на приготовление изысканного блюда - это сложное искусство с высоким барьером для входа. Хотя многие ингредиенты могут быть знакомы, успешный рецепт SSL включает в себя головокружительный набор вариантов, от выбора правильных задач до обучения с тщательно подобранными и выдержанными гиперпараметрами.

Вы также найдете советы и рекомендации от более чем десятка авторов из различных университетов, включая Нью-Йоркский университет, Университет Мэриленда, Калифорнийский университет в Дэвисе, Университет Монреаля, а также ведущих исследователей Meta AI, таких как Янн ЛеКун.

📕 Книга
🐕 Анонс
👍358🔥8
Media is too big
VIEW IN TELEGRAM
Wonder Dymanics демократизирует создание компьютерной графики в кино

Представьте, что вы хотите включить друга робота в свой киберпанк ютуб сериал. До сегодняшнего дня вы бы отказалась от идеи примерно сразу, потому что качественная работа по визуальным эффектам (VFX) обоходится в $20 000 за секунду. {Поэтому реалистичные анимированные персонажи остаются прерогативой высокобюджетных проектов}

Из чего складывается эта сумма. Самый первый шаг - сделать модель, текстуры самого персонажа. Если не хотите анимировать его вручную, вам понадобится студия захвата движения или съемочное оборудование, отражающие шары, зеленые экраны и всякое такое. Из них к каркасу компьютерной графики необходимо применить примитивы движения, а актера заменить персонажем. Интегрированная в сцену 3D-модель должна соответствовать направлению и цвету освещения, оттенку и зернистости пленки и многому другому. Это много ресурсов и дней работы.

Wonder Dynamics стремится изменить это с помощью web платформы, которая позволяет создателям буквально перетаскивать персонажа компьютерной графики в любую сцену, как если бы он был профессионально снят и отредактирован.

Звучит многообещающе, надо поиграться: +1 пункт вейтлистов.

🖥 Присоединиться к закрытому бета-тестированию здесь
▶️ Посмотреть на красивое
🗞 Почитать статью на techcrunch

@GingerSpacetail
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥385👍3😱3
This media is not supported in your browser
VIEW IN TELEGRAM
WhaleGPT 🐋

Сможет ли ИИ нам помочь разговаривать с китами?

Киты, как и люди, являются социальными существами со сложной системой коммуникации. Их общение состоит из коротких кликов и щелчков, которые используются для различных целей.

Исследователи обратились к искусственному интеллекту (ИИ), чтобы помочь расшифровать язык китов. Проект CETI (Cetacean Translation Initiative) направлен на использование ИИ и методов машинного обучения для анализа и перевода общения китов. Используя передовые методы обработки естественного языка, ученые надеются понять грамматику и смысл издаваемых звуков.

Для достижения этой цели необходимо больше данных. CETI планирует использовать различные технологии, такие как буйковые решетки, записывающие устройства, прикрепленные к китам, водные дроны и воздушные дроны, для сбора аудио- и видеозаписей поведения и общения китов. Собранные данные будут обработаны и проанализированы алгоритмами машинного обучения для обнаружения и классификации коды китов.

Цель проекта CETI - не только понять язык китов, но и общаться с ними. Поскольку исследователи продолжают изучать глубины общения китов, остается только гадать, что думают эти величественные существа о наших начинаниях и сможем ли мы когда-нибудь спросить их об этом.

Видео снял мой друг вчера в Monterey Bay

Ссылка
54🔥16🤩4😱3👍2