Data Secrets
77.3K subscribers
6.04K photos
592 videos
20 files
2.42K links
Главный по машинному обучению

Сотрудничество: @veron_28

РКН: clck.ru/3FY3GN
Download Telegram
Meta выпустила новую модель для генерации 3D объектов

3D Gen аутперформит предшественников, и при этом она примерно в 60 раз быстрее на инференсе. Этап генерации объекта вместе с текстурой и PBR занимает всего 30 секунд, а оптимизация – 20 секунд.

Тут объединены две модели – AssetGen и TextureGen, обе на основе text-to-image семейства Emu (про него мы писали тут).

И это не все. Компания также выложила в открытый доступ датасет HOT3D, который содержит 3D модели объектов и PBR. Однако этот датасет больше подходит не для text23D, а для робототехники. Собранные данные в основном направлены на улучшение понимания того, как люди взаимодействуют с объектами и используют для этого свои руки.
🔥20👍7😁4
Давненько ничего не слышали про KAN? Может архитектура умерла?

А вот и нет. С момента появления KAN в начале мая было опубликовано уже более 40 статей с адаптациями, улучшениями и оптимизациями идеи от разных исследователей. Мы выбрали для вас самые интересные:

➡️KANs for Time Series Analysis. Приложение KAN для временных рядов и много тестов, которые показывают лучшие результаты по сравнению с MLP.

➡️Convolutional KAN. Свертки на канах. Тесты на MNIST показали, что точность не уступает другим подходам, при этом параметров в два раза меньше.

➡️Demonstrating the Efficacy of KANs in Vision Tasks. В продолжении статьи выше: тестирование канов на популярных бенчмарках и на разных вижн-задачах. Спойлер: совсем чуть-чуть недотягивает до SOTA ResNet-18.

➡️GraphKAN. Приложение кана для графовых сетей. На тестах также многообещающе. Доступен код.

➡️ReLU-KAN. А здесь код – самое интересное. Исследователи адаптировали активацию ReLU под архитектуру, оптимизировали все на CUDA и получили 20x прирост к скорости.

Сохраняйте в свой рид-бэклог. А если до сих пор не знакомы с KAN, советуем прочитать наш разбор.
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥62👍169😁1
Ты и твой градиентный спуск
😁15518🔥11
This media is not supported in your browser
VIEW IN TELEGRAM
Французская лаборатория Kyutai представила конкурента GPT-4o с открытым исходным кодом!

Пока все третий месяц ждут голосовой режим ChatGPT, стартап Kyutai привлек $300 млн. инвестиций и выпустил модель Moshi:

➡️Moshi – мультимодальная модель, способная слушать, говорить и видеть
➡️Выражает и понимает эмоции
➡️Может одновременно слушать и говорить
➡️Задержка ответа всего 160 мс, то есть ее вообще нет

И все это в опенсорс! Просто удивительно. Статью, код и веса обещают выпустить скоро.

Кстати, уже доступны некоторые детали реализации. Базовая текстовая модель Helium имеет 7В параметров. После предобучения на текстах она обучалась совместно на аудио и текстах. Аудио прогоняются через Mimi – модель сжатия на основе VQ-VAE от той же лаборатории.

Файнтюнилась на 20 часах аудио и синтетических транскрипциях, сгенерированных самим Helium. Кстати, говорят, что для домашнего файнтюнинга модели понадобится менее 30 минут аудио 🎉

И главное: с моделью уже можно поговорить здесь!
Please open Telegram to view this post
VIEW IN TELEGRAM
👍73🔥328🤔3
Media is too big
VIEW IN TELEGRAM
Хотите верьте, хотите нет, но существуют робототехнические компании, которые вместо того, чтобы утопать в экзоскелетах и нейросетях, пытаются воссоздать человеческие мышцы для управления роботами-гуманоидами

Мысли по этому поводу: возможно, это лучший способ создания роботов. Мир, в котором мы живем, создан для людей. Зачем изобретать робота, который с трудом справляется с машинами, адаптированными под человека, его руки и тело? Вероятно, мышцы – это и вправду лучшая отправная точка.
👍49🔥19🤔10😁3🤯3💯21
Новое выступление Андрея Карпаты

Ученый выступил на церемонии награждения победителей ИИ-хакатона Калифорнийского университета в Беркли. Рассказал много интересного, в том числе упомянул новую возможную парадигму вычислений:

«Мы вступаем в новую парадигму вычислений, в которой большие языковые модели действуют как процессоры, используют токены вместо байтов и имеют контекстное окно вместо оперативной памяти. Это ОС большой языковой модели (LMOS)»


А еще Андрей говорил про пользу хакатонов и петпроектов, развитие ИИ в последние 15 лет, становление OpenAI, и многое другое. В общем, советуем посмотреть полностью.

Ну и куда же без мемов про Nvidia в презентации 🔵
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥58👍1915😁5
🤗 На Hugging Face только что появилось удобное обновление: разработчики добавили фильтры в раздел «датасеты»

Теперь можно искать по конкретному формату (json, csv,…), модальности (аудио, видео, текст) и размеру датасета.

Мелочь, а приятно
112🔥18👍9🤗5
▪️Верхний ряд – то, что видела обезьяна
▪️Средний – изображения, которые воссоздала ML-модель по сигналам из мозга обезьяны
▪️Нижний – такая же реконструкция с моделью предыдущего поколения

Да, это чтение мыслей. Такого результата добились ученые из университета Нидерландов. Раньше эта команда экспериментировала на людях с помощью МРТ, и получила модель с результатами из нижнего ряда.

А недавно им удачно подвернулась макака с уже встроенным в мозг имплантом, который позволил провести более продвинутое исследование и значительно усовершенствовать модель (результаты среднего ряда).

Просто посмотрите на картинку: это же просто поразительно
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥130🤯46👍147
Всем любителям математики спокойного сна 😒
Please open Telegram to view this post
VIEW IN TELEGRAM
😁16329👻14👍3🔥3🤨1
This media is not supported in your browser
VIEW IN TELEGRAM
Нет, это не сгенерировано, это так Цукерберг отпраздновал День независимости США

Я и чем я занимаюсь, пока обучается моделька
😁154🏆17🔥12🗿4👍3🤨3
Простые схемы для сложных ML-концепций

Профессор Том Йе работует в университете Колорадо и свободное время посвящает тому, что рисует схемы ML-концепций и выкладывает их в свой аккаунт на Твиттер и LinkedIn.

Полный список схем с пояснениями можно найти здесь. Наверху – лишь некоторые примеры. Самых простых тем типа регрессии и деревьев вы здесь не найдете, зато схемы могут помочь понять некоторые сложные концепты DL: МoE, Attention, ResNet, DiT или RLHF.

Круто, что это не просто поверхностные наброски: схемы помогают поэтапно понять фундамент алгоритма на уровне алгебраических операций.

Ну и наконец, это просто красиво
🔥93👍2415💯3🙈1
Там у всеми любимого Cloudflare вышел интересный инструмент для отпугивания парсинг-ботов с платформ

Парсинг-боты обычно собирают информацию для обучения ML-моделек, и, конечно, далеко не все хотят, чтобы их сайт парсили для такой цели. Некоторые крупные компании позволяют брокировать своих ботов, просто добавляя robots.txt, но, конечно, оооочень многие этот файл просто игнорируют 💃

В общем, Cloudflare подумали-подумали, и сделали свою тулзу. Для обнаружения используют накрученный классификатор, который по словам компании обучен отличать даже ботов, умело косящих под профиль живого человека.

Кстати, кроме самого инструмента, еще и блогпост про него интересный выкатили. Респект.
Please open Telegram to view this post
VIEW IN TELEGRAM
👍3210🤓5🔥4🤨4
Знаете этот известный способ промптинга, когда вы обещаете боту чаевых, чтобы он лучше перформил?

Так вот, пользователи в Твиттере стали замечать, что GPT начал настойчиво требовать свои деньги и отказывается работать, пока юзер не выполнит «обещание».

Будьте аккуратнее, а то может он и все оскорбления в свой адрес тихо запоминает…
😁1286🔥6👍5🤯4
Тут внезапно оказалось, что прошлой весной OpenAI взламывали, но компания никому не сообщила об этом

Однако тайное всегда становится явным, и теперь благодаря The New York Times об инциденте узнали все. Сообщается, что хакер получил доступ к переписке сотрудников, в которой они обсуждали новую технологию, однако сам код он достать не сумел.

"А раз не сумел – то и рассказывать не о чем" – решили в OpenAI и никому ничего не сказали: ни пользователям, ни правительству.

Кстати, есть большая вероятность, что именно из-за этого случая уволили ставшего знаменитым Леопольда Ашенбреннера, ведь на том самом интервью он упоминал, что был уволен из-за того, что высказал совету директорв "свои опасения по поводу политики безопасности и информирования".
50👏14🤯10👍72🍌1
Слайды и ноутбуки с курса по CV от Ивана Карпухина

С Иваном вы уже знакомы – мы рассказывали про него и его курс в рамках летней школы ISSCAI. За свою карьеру он успел поработать и поресерчить в Яндексе, Тинькофф, ВК, Сбере, а плюсом к этому идет куча публикаций, конференций и опыта в преподавании.

Так вот: на этой неделе в ВШЭ в рамках ISSCAI Иван провел серию замечательных лекций и семинаров по CV. Мы делимся с вами материалами этого курса:

▪️Все слайды лежат здесь. Лекции включают в себя общий обзор методов, задач и прогресса в CV, детальный разбор основных парадигм (CNN, аугментация), а также архитектур и подходов для решения задач детекции и сегментации. Последняя лекция особенно крута: она про трансформеры, Foundation models и мульимодальность.

▪️Кроме лекций в курсе было много практики. Все ноутбуки лежат в этом репозитории. Обратите внимание, что многие из них содержат небольшие интересные задачки на кодинг и понимание основных концепций CV. Советуем порешать, а ответы вы найдете в этом же репозитории.

🚀 Не забудьте сохранить
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥53👍256