AI Для Всех
12.3K subscribers
1.05K photos
138 videos
10 files
1.34K links
Канал, в котором мы говорим про искусственный интеллект простыми словами

Главный редактор и по рекламе: @crimeacs

Иногда пишут в канал: @GingerSpacetail, @innovationitsme
Download Telegram
Китайский генератор нейро видео теперь доступен для всех

Клинг, с помощью которого уже сгенерировали столько восхитительного нейротреша, теперь доступен для всех. Можно даже ожидать что с российскими номерами заведется.

Творить тут
Инфраструктура для ML и AI задач

Кластеры Kubernetes отлично подходят для запуска ML-проектов в продакшене. С их помощью можно изолировать проведение разных экспериментов, автоматизировать их запуск и управление, а также быстро масштабировать ресурсы под нагрузкой. Добавление нод с GPU в такие кластеры ускорит обучение ML-моделей и повысит их производительность в продакшене.

В сервисе Managed Kubernetes от Selectel, как раз есть все необходимое для работы с ML-проектами:

▪️ Большой запас видеокарт под любую задачу в наличии: NVIDIA А2, А30, А100, А2000, А5000, Tesla Т4, GTX 1080, GTX 2080
▪️ Отказоустойчивость и автомасштабирование нод c GPU. В зависимости от нагрузки Kubernetes автоматически создаст или удалит ноды в группе.
▪️ Простая настройка драйверов на GPU-нодах кластера. Используйте предустановленные драйверы или самостоятельно установите нужные с помощью GPU Operator

А сейчас новые клиенты Managed Kubernetes c GPU могут получить 100% кешбэк за первый месяц использования сервиса.

Развернуть свой ML-проект в кластерах Kubernetes c GPU и получить кешбэк можно по ссылке: https://slc.tl/7304r

#Реклама АО «Селектел». ИНН: 7810962785
Erid: 2Vtzqwx12nn
ИИ почти победил на Международной математической олимпиаде

Системы искусственного интеллекта AlphaProof и AlphaGeometry 2, разработанные компанией DeepMind, справились с четырьмя из шести задач Международной математической олимпиады (IMO) этого года. Это уже уровень серебряной медали! 🥈

Что такое IMO? 🏆
Для тех, кто не знает, IMO — это старейшее и наиболее престижное математическое соревнование для студентов старших классов. Здесь представлены чрезвычайно сложные задачи, которые ставят в тупик даже профессиональных математиков!

Как ИИ справился с этой задачей? 🧠💻

DeepMind разработали несколько систем. Часть задач решил AlphaProof, а часть AlphaGeometry2

* AlphaProof:
От неформального к формальному: AlphaProof начинает с преобразования около 1 миллиона неформальных математических задач в формальный математический язык.

Генерация задач: В процессе формализации 1 миллион задач превращается примерно в 100 миллионов формальных задач (что возможно благодаря созданию бесконечного количества вариаций).

Сеть решателей: Здесь происходит магия. Сеть решателей, работающая на основе алгоритма AlphaZero (да-да, того самого, который завоевал шахматный мир!), решает формальные задачи, ищет доказательства или опровержения.

Цикл обучения: Когда решатель находит доказательство, он обучается на этом опыте, а новые знания помогают ему справляться с еще более сложными задачами.

* AlphaGeometry 2: Использует аналогичный подход, но специализируется на геометрических задачах. Эта система может визуализировать и манипулировать геометрическими концепциями, что делает её исключительно эффективной в решении сложных геометрических задач.

Что дальше? 🚀
DeepMind не собирается останавливаться на достигнутом. Теперь они работают над созданием ИИ, который сможет понимать и решать математические задачи на обычном, человеческом языке.

Блог-пост
This media is not supported in your browser
VIEW IN TELEGRAM
📢 Тихая ИИ революция в прогнозировании погоды: NeuralGCM

Прогнозирование погоды всегда представляло собой непростую задачу. Последние годы, для решения этой задачи все чаще предлагаются нейронные сети. Исследователи из Гугла, делают следующий шаг в моделировании климата и представляют NeuralGCM — инновационную систему на основе искусственного интеллекта и физического моделирования.

Вот как она устроена:

🌐 Гибридный подход:
NeuralGCM состоит из двух ключевых компонентов:
1. "Динамическое ядро", основанное на физических законах, моделирующее крупномасштабные атмосферные движения.
2. Нейронные сети, моделирующие мелкомасштабные процессы, такие как образование облаков.

🧠 Принцип работы:
1. Модель делит атмосферу Земли на трёхмерную сетку.
2. Для каждой ячейки этой сетки нейронные сети анализируют:
- Температуру,
- Давление,
- Влажность,
- Данные о ветре.
3. Эти сети предсказывают изменения условий в краткосрочной перспективе.
4. Физическая модель использует эти предсказания для обновления глобального состояния погоды.
5. Этот процесс повторяется, создавая прогнозы на дни вперед.

🔬 Секрет успеха: дифференцируемый дизайн
- Вся система разработана так, чтобы быть дифференцируемой.
- Это позволяет оптимизировать её с помощью методов машинного обучения.
- В результате ИИ учится взаимодействовать с предсказаниями физической модели.

🏋️ Процесс обучения:
- Использованы 40 лет исторических данных о погоде.
- Начинали с предсказаний на 6 часов, постепенно увеличивая период до 5 дней.
- Такой подход помогает модели понимать долгосрочные эффекты своих предсказаний.

🏆 Впечатляющие результаты:
- Соответствует точности традиционных методов.
- Работает значительно быстрее (до 1000 раз в некоторых сравнениях).
- Способна моделировать климатические паттерны на десятилетия вперёд (ну это еще надо валидировать).

💡 Почему это важно:
1. Возможность более точного и эффективного прогнозирования погоды.
2. Помощь в лучшем понимании изменения климата.
3. Демонстрация того, как ИИ может не только заменить, но и улучшить традиционные научные методы.

Этот гибридный подход к моделированию погоды показывает, как глубокие научные знания могут сочетаться с передовыми технологиями ИИ. Это важный шаг вперёд, который может изменить не только метеорологию, но и многие другие области, зависящие от сложных симуляций.

⛈️ Статья
Media is too big
VIEW IN TELEGRAM
Meta представляет SAM 2: Новый уровень в сегментации объектов на изображениях и видео

Компания Meta анонсировала запуск SAM 2, обновлённой версии своей модели Segment Anything (SAM). Эта новинка теперь поддерживает сегментацию объектов как на статичных изображениях, так и в видео.

Специально для вас, сделал нейродубляж их анонса, так что смотрите со звуком 🔊

SAM-2 обуспечивает высокое качество сегментации в режиме реального времени.

Ключевые особенности и инновации

1. Универсальная сегментация:
SAM 2 способен сегментировать объекты как в изображениях, так и в видео, включая те, которые не были заранее известны модели. Это позволяет работать с ранее невиданными визуальными данными без дополнительного обучения.

2. Производительность в реальном времени:
Модель обрабатывает видео со скоростью около 44 кадров в секунду и выполняет аннотацию в 8,4 раза быстрее по сравнению с предыдущей версией SAM.

3. Новые механизмы памяти:
SAM 2 включает продвинутую систему памяти для управления информацией о кадрах видео. Система состоит из кодировщика памяти, банка памяти и модуля внимания, что обеспечивает точность сегментации объектов на протяжении всего видео.

4. Сегментация по промпту:
Модель расширяет задачи сегментации изображений на формат видео. Пользователи могут задавать точки, боксы или маски в любом кадре видео для определения целевого объекта. SAM 2 создаёт пространственно-временную маску, или "маскет", для отслеживания объекта на протяжении всего видео.

5. Обработка окклюзий:
В SAM 2 добавлена специальная "голова окклюзии", которая помогает модели определять, когда объект скрыт из-за окклюзии или других факторов, улучшая сегментацию даже в случае временного исчезновения объекта.

Методология

Архитектура SAM 2 построена на базе SAM, но с добавлением функций для работы с видео данными. Модель рассматривает изображения как одноименные видео и обрабатывает кадры последовательно. Такой подход позволяет SAM 2 достигать точной сегментации, используя память о предыдущих кадрах и взаимодействиях.

📚 Статья
🙈 Демо
👌 Блог-пост
Media is too big
VIEW IN TELEGRAM
Синтетическая реальность. Громкое обновление в проекте GR00T: метод аугментации данных для обучения роботов

Огромные корпусы данных позволили создать очень смышлёные LLM. Время сделать то же в робототехнике. Инженеры NVIDIA разработали решение, позволяющую в тысячу раз умножать собранные человеком-специалистом тренировочные данные для обучения роботов.
Речь идет о многообещающем проекте GR00T (да, как Грут из вселенной Марвел) и методике масштабирования обучающих данных, применяемых в робототехнике.

Как это работает:
1. Сбор реальных данных в Apple Vision Pro
NVIDIA применяет виар очки, чтобы предоставить оператору возможность полного погружения в тело робота. Vision Pro анализирует позы рук человека и перенаправляет эти движения на робота в реальном времени. С точки зрения оператора, он буквально становится роботом-аватаром, реально как в фильме "Аватар". Хотя сбор данных таким образом медленный и трудоемкий, этого вполне достаточно для создания начальной базы.
2. Генеративная симуляция в RoboCasa
Фреймворк, созданный Yuke Zhu берет небольшое количество собранных данных и умножает их, изменяя визуальный облик и планировку окружающей среды. На видео показано, как робот ставит чашку в сотнях различных кухонь с разнообразными текстурами, мебелью и расположением предметов. У компании есть только одна физическая кухня в лаборатории GEAR в NVIDIA HQ, но в симуляциях их может быть бесконечное количество.
3. Вариативность движений с помощью MimicGen
MimicGen позволяет ещё больше увеличить количество данных, варьируя движения робота. Этот метод генерирует множество новых траекторий действий на основе оригинальных данных человека и отбраковывает неудачные попытки, например, те, где чашка падает.

Take-away формула: человеческий сэмпл с использованием Vision Pro -> RoboCasa создает N визуальных вариаций -> MimicGen умножает это количество до NxM.

NVIDIA придумала способ конвертировать вычислительные ресурсы в дорогостоящие данные, собранные человеком, благодаря качественной симуляции. Данные от первого лица больше не являются ограничением из-за 24 часов/день/робот в физическом мире. Теперь ограничения только цифровые, и это очень sci-fi футуристично.

Набор для создания своей синтетической реальности (понадобится робот и много GPU):
• RoboCasa: открытый код RoboCasa
• MimicGen: открытый код для роботизированных рук, и скоро обещают версию для гуманоидов и пяти-палых рук MimicGen
• Apple Vision Pro -> гуманоидный робот "Аватар": в открытом доступе Xiaolong Wang libraries
• вдохновляющая презентация: Jensen's keynote

И бонус: лаборатория GEAR набирает лучших робототехников мира для сопоставимого по масштабам с "лунным" проекта по достижению физического AGI. Как апликнуться к ним - в посте Jim Fan (LinkedIn): GEAR lab hiring
Замечена реклама Claude в аэропорту Сан-Франциско
Apple идёт в Open-Source!

Apple выпустила и полностью открыла DCLM, 7B LLM, включая веса, код обучения и датасет.

DCLM превосходит Mistral/Qwen2/Gemma по разным бенчмаркам. Основные данные на английском языке, окно контекста 2048, лицензия Apple Sample Code License.

Модель обучена на 2.5 трлн токенов с использованием DataComp-LM (DCLM) и данных из Common Crawl. DCLM - тестовая платформа для контролируемых экспериментов с данными

AI Стратегия Apple кардинально изменилась в сторону Open-Source, что может означать большие планы для AI на их устройствах.

🤗HuggingFace
Please open Telegram to view this post
VIEW IN TELEGRAM
Новый трек Sber500 и GigaChat: открыт прием заявок для AI-стартапов 🔥

Акселератор Sber500 вместе с GigaChat запустили отдельный трек для стартаперов, готовых интегрировать AI-сервис GigaChat в свои решения — уже готовые или новые.

Подавай заявку до 10 августа по ссылке. Лучшие кейсы представим на международной конференции AI Journey 2024.

✔️Кого ждем среди участников:
- команды действующих стартапов стадии MVP и выше,
- впервые для Sber500 — индивидуальных участников с идеей.

✔️Что ты получишь за 10 недель программы:
- возможность работы с международными менторами и трекерами акселератора Sber500,
- помощь от партнера трека Школы 21 с поиском IT-специалистов для реализации идеи.

Участвуйте в акселераторе, чтобы стать частью классного комьюнити российских фаундеров и создать яркое AI-решение для рынка вместе с GigaChat.

Регистрация по ссылке.

#Реклама ООО "СТАРТЕХ БАЗА" ИНН 5047276050 Erid: 2VtzqvY69to
Please open Telegram to view this post
VIEW IN TELEGRAM
RLHF: не совсем то, чем кажется

Привет, друзья! Сегодня поговорим о RLHF (обучение с подкреплением на основе обратной связи от людей). Это важный этап в создании языковых моделей, но давайте разберемся, почему он не так крут, как кажется на первый взгляд.

🎮 Представьте, что мы учим ИИ играть в шахматы или Go. Настоящее обучение с подкреплением (RL) - это когда ИИ играет тысячи партий сам с собой и учится выигрывать. А RLHF? Это как если бы мы показывали 2 доски с ходами ИИ и спрашивали людей: "Какая из этих позиций вам нравится больше?".

📊 В RLHF мы создаем "модель наград" на основе человеческих оценок. ИИ потом пытается "понравиться" этой модели. Но это не то же самое, что научиться реально побеждать!

🤔 Почему же RLHF все-таки работает для языковых моделей?
1. Людям проще выбрать лучший ответ из нескольких, чем самим написать идеальный.
2. RLHf помогает уменьшить "галлюцинации" ИИ.

🚀 Но представьте, если бы мы могли применить настоящее RL к языковым моделям! Это был бы огромный прорыв. Пока что это сложно, потому что трудно определить четкие "правила игры" и "победу" для разговора или написания текста.

💡 Итог: RLHF - полезный инструмент, но это не то волшебное RL, которое привело к победе AlphaGo над чемпионами мира. Будущее за тем, кто сможет применить настоящее RL к языковым моделям!

Пост Андрея
This media is not supported in your browser
VIEW IN TELEGRAM
Визуальные Эмбеддинги от Nomic: SOTA в мультимодальном поиске

Команда Nomic дерзнула и поместила публичную коллекцию Метрополитен-музея искусства в латентное пространство, внедрив 250 000 произведений в свою новейшую модель эмбеддингов. Это впечатлило MET, и они зарегистрировались на Hugging Face. Трогательно, когда самый популярный музей США таким твистом вкатывается в ИТ.

А нам теперь можно искать произведения искусства, вводя запросы типа "картина маслом с цветами и собаками" — это первый в своем роде семантический поиск предметов искусства 🖼️🔎

Что под капотом:
Vision Encoder: 92M параметров.
Text Encoder: 137M параметров.
Натренированы на 1.5 млрд пар "изображение-текст" (DFN-2B).
Vision Encoder инициализирован с Eva02 MIM ViT B/16, Text Encoder — с Nomic Embed Text.

Обучали 3 полных эпохи на 16 H100 GPUs, размер батча — 65,536.
Contrastive Learning: обучение с использованием image-text pairs.
Locked Text Image Tuning (LiT): замороженный текстовый энкодер.

В результате получили SOTA модель, обошедшую OpenAI CLIP
Imagenet 0-shot: 71.0 (v1.5)
Datacomp Avg.: 56.8 (v1.5)
MTEB Avg.: 62.28 (v1.5)

Если хотите свое унифицированное латентное пространство для мультимодальных задач и семантический поиск по изображениям и текстам одновременно, модель доступна под лицензией CC-BY-NC-4.0

MET map
📃Пост
🌐Repo
🤗v1.5
Please open Telegram to view this post
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
AGI для настольного тенниса

Google DeepMind разработали робота, который может играть в настольный теннис на высоком уровне, бросая вызов опытным игрокам.

Эти роботы используют:

- Компьютерное зрение для отслеживания мяча и движений противника

- Роботизированные руки/суставы для быстрых и точных ударов

- ИИ для предугадывания движений противника и разработки стратегии

Хотя это в первую очередь исследовательский проект, возможно в недалеком будущем матчи человек-робот могут стать реальностью.

Сыграли бы вы в настольный теннис с роботом? 🏓🤖

💻 Блог
🚀 Друзья, мы нашли крутую визуализацию для понимания архитектуры Transformer!

🧠 Transformer - это основа современных языковых моделей, таких как GPT и BERT.

🔍 "Transformer Explainer" позволяет заглянуть внутрь этой технологии:

- Embedding: преобразование текста в числа
- Self-Attention: внимание на важные части данных
- Feed-Forward Networks: обработка информации

🎮 Интерактивные возможности:
- Ввод собственного текста
- Наблюдение за работой внимания
- Эксперименты с температурой генерации

🔗 Потрогать трансформер
📽️ Посмотреть видео

Отличный инструмент для всех, кто интересуется ИИ!
Кто едет на Burning Man 2024?

Друзья, this time of year again! На плаю потихонечку съезжаются люди. Строится храм и человек!

Я уверен что нас тут больше одного человека, которые едут на Берн. У меня уже есть билет, но вот с Кэмпом пока не определился. Кто еще едет?

Давайте сорганизуемся!
This media is not supported in your browser
VIEW IN TELEGRAM
The AI Scientist: Автоматизация научных исследований

Японская исследовательская лаборатория Sakana.ai представила миру своего ИИ ученого - систему, предназначенную для автоматизации всего цикла научных исследований. Он создан, чтобы снизить трудозатраты на проведение научных экспериментов и написание статей, особенно в области машинного обучения.

Плюсы:
1. Автоматизация процессов: AI Scientist способен самостоятельно генерировать исследовательские идеи, писать код, проводить {computational} эксперименты и анализировать результаты. Это позволяет значительно ускорить исследовательский процесс.

2. End-to-end: Система охватывает весь цикл научного исследования от формулирования гипотез до написания и рецензирования научных статей. Это делает возможным проведение исследований без необходимости в ручной работе со стороны человека.

3. Open-source: Код проекта и его подробное описание открыты для всех. Это позволяет другим исследователям и разработчикам изучать, модифицировать и применять технологию в своих проектах.

Ограничения:
1. Сфера применения: Сейчас AI Scientist натренин и может использоваться в области машинного обучения. Расширение на другие научные дисциплины потребует дополнительных усилий.

2. Креативность исследований: Хотя система способна генерировать научные идеи и критически их оценивать, текущая версия системы работает в основном с уже существующими данными и моделями, это, конечно, ограничивает инновационность создаваемых результатов.

3. Human-in-the-loop: Контроль со стороны человека безусловно необходимым. Это особенно важно на этапах проверки гипотез и интерпретации результатов, где необходимы экспертные знания.

The AI Scientist задуман, чтобы взять на себя рутинные задачи исследователей. И кажется, это новый рубеж, в котором машина становится не просто ассистентом, а полноценным аспирантом ученым.

💻Код
😤Статья об AI Scientist, написанная людьми
💻Статья авторства самого AI Scientist (их в repo много)
Please open Telegram to view this post
VIEW IN TELEGRAM
🤙Чат: какая сейчас самая Крутая LLM без интернета на айфон? Хочу установить и в пустыне без интернета пользоваться
Flux Pro + Claude.

Использовал Claude для того что бы улучшать промт для Flux.

1. Генерируем промпт по вашему описанию (кошка в пустыне)
2. Генерируем 4 изображения
3. Подаем эти изображения обратно в Claude и просим улучшить
4. Получаем промпт для генерации
5. Повторять 2-3 раза

https://fal.ai/models

А еще приходите нас навестить в кэмпе Blue CATerpillar на 9&I
This media is not supported in your browser
VIEW IN TELEGRAM
Sapiens: основа для моделей человеческого зрения

Meta Reality Labs представляет Sapiens, семейство моделей для четырех основных задач человеческого зрения: оценка 2D-позы, сегментация частей тела, оценка глубины и прогнозирование нормалей поверхности.

Модели поддерживают высокое 1К разрешение "из коробки" и легко тюнятся для отдельных задач путем простой тонкой настройки. Для обучения использовались более чем 300 миллионов изображений человека в дикой природе.

Полученные модели демонстрируют замечательное обобщение для данных в дикой природе, даже когда маркированные данные скудны или полностью синтетические.

Конструкция модели также обеспечивает масштабируемость — производительность модели в разных задачах улучшается по мере того, как мы масштабируем параметры от 0,3 до 2 миллиардов.

Sapiens постоянно превосходит существующие базовые показатели в различных бенчмарках, ориентированных на человека.

🖥️ Блог

📜 Paper
Обмани астрономию, если сможешь

У меня есть новости для тех, кто как и я думал, что школьные уроки астрономим им нигде и никогда не пригодятся. Если заинтриговал, то читаем далее 😊

Одним из побочных эффектов повсеместного распространения ИИ является рост deep-fake изображений и видео.

Задача распознавания дипфейков становится все сложнее, так как их качество растет с каждым днём пропорционально развитию ИИ моделей.

Как быть? Помощь пришла с совсем неожиданной стороны: астрономия 🌌

Британские учёные придумали новый метод обнаружения изображений, сгенерированных ИИ.

Метод использует анализ отражений в глазных яблоках человека. Реальные изображения показывают постоянные отражения в обоих глазах, а дипфейки в большинстве случаев - нет.

Метод заимствует инструменты из астрономии, такие как коэффициент Джини, обычно используемый для изучения изображений галактик.

Хотя этот метод не является 100% надежным, он предлагает новый подход к решению проблемы обнаружения дипфейков и их быстрой предварительной фильтрации.

Хотите определить дипфэйк, ищите звёзды в их глазах 👀

Блог
Please open Telegram to view this post
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
AlphaProteo: ИИ, который подбирает «ключи» для биологических замков

Среди авторов канала есть drug delivery & drug discovery scientist, поэтому сегодня разговор об этой сфере.

Одна из гиганских проблем разработки лекарств - побочные эффекты из-за неспецифических взаимодействий лекарства со всем подряд в нашем организме. Ее можно решить, например, инкапсулировав лекарство в наночастицу, которая распакуется, когда попадет внутрь целевой клетки из-за изменения pH. Тут возникает проблема доставки уже наночастицы в целевые клетки.

Для наглядности представьте, что вам нужно доставить посылку, только она магнитная: на нее всякое налипает, и она ко всему прилипает.
Ваша задача — создать такую посылку, чтобы она сильнее всего "прилипла" ровно к нужным дверям.
Для этого наночастицу "украшают" хитрым лигандами, которые взаимодействуют только с рецепторами, присутвующими в целевой клетке. И лиганды, и рецепторы - это белки. Мне нравится думать о них как о ключах и замках.

Анонсированная 5 сентября модель AlphaProteo от DeepMind выглядит для такой задачи очень и очень полезной. Она не просто ищет существующие ключи, но и генерирует новые, позволяя ученым разрабатывать биоструктуры с полезными функциями.

Да, функциями. Это ещё один слой проблем и возможностей drug discovery. Функция белка ведь зависит от структуры, если мы прикрепили что-то к белку, его функция может измениться. В биологии на каждом шагу нежданчик, и DeepMind очень старается помочь предсказывать возможные варианты.

В качестве теста AlphaProteo сгенерил лиганды для двух целевых вирусных белков (BHRF1 и SC2RBD домен связывания рецептора спайкового белка SARS-CoV-2), и для пяти белков, участвующих в развитии рака, воспаления и аутоиммунных заболеваний (IL-7Rɑ, PD-L1, TrkA, IL-17A и VEGF-A).
А потом проверили в настоящей лаборатории.

Под капотом все те же сверточные нейронные сети (CNN) и трансформеры, которые обрабатывают последовательности аминокислот и предсказывают их 3D-структуру с атомарной точностью, а также потенциальные функции белков.

Тренировочные данные - Protein Data Bank белков с известными структурами и функциями и более 100 млн белков авторства AlfaFold, отполировано обучением с подкреплением (reinforcement learning) и методами оптимизации энергетических ландшафтов.

Поиграться пока нельзя, возможно, добавят функционал в 🧬alphafold server
Пока только 📝пост
И 📖whitepaper