Data Secrets

В Meta предложили интересную альтернативу нормализации LayerNorm

Нормализация уже много лет считается незаменимой компонентой в сетях, и особенно в трансформерах. LayerNorm и Batch Norm используют буквально везде, потому что с ними лосс сходится быстрее и генерализация сети повышается.

Но есть нюанс: это вычислительно накладно. Для каждого батча или каждого слоя нужно запускать расчеты среднего и дисперсии, а потом нормализовать, применять скейлинг и смещение.

В Meta заметили, что все можно существенно упростить. Оказывается, что Layer Normalization в трансформерах почти всегда действует почти как функция гиперболического тангенса tanh. Иначе говоря, если построить график входов-выходов слоя нормализации, мы увидим s-образные кривые.

Так почему бы тогда не заменить нормализацию на тангенс? Это (1) упрощает архитектуру и (2) делает обучение быстрее и эффективнее, потому что никаких средних и отклонений больше считать не надо. В Meta это назвали Dynamic Tanh (DyT).

И еще: казалось бы, раз это эмпирическое наблюдение, то на лоссе такая подмена все-таки отразится. Но нет, сходимость не меняется от слова совсем (см. график 3). То есть за счет DyT мы абсолютно безнаказанно сокращаем себе несколько GPU-часов за счет изменения 1-2 строчек кода.

Очень радуют такие работы. Вот тут полный текст

🔥178👍49❤19🤔10⚡3❤‍🔥1

16.9K views12:56

Data Secrets

FigureAI только что представили своего нового робота-гуманоида, который оснащен ризонингом FigureAI раньше работали с OpenAI, но месяц назад разорвали контракт и сделали заявление о том, что до весны представят что-то абсолютно новое. Кажется, их новый Helix…

1:18

Media is too big

VIEW IN TELEGRAM

Робо-стартап Figure только что объявил, что отрывает завод по производству роботов

Это та самая компания, которая в прошлом сотрудничала с OpenAI, а недавно выпустила крутого гуманоида Helix (пост). Так вот теперь, кажется, они готовы пускать свое творение в масштаб.

Для начала завод под названием BotQ будет рассчитан на производство 12 000 единиц в год, но создатели уже обещают дорасти до 100 000 в течение 4 лет.

Все подробности о производстве можно почитать тут. Кстати, на проектировку всего этого инженеры потратили целых 8 месяцев

👍74🔥29😁11❤9😐5

16.2K views18:23

Data Secrets

Китайский поисковик Baidu релизнул модель уровня GPT-4.5 за 1% от цены

На самом деле релизнули даже две модели, и обе уже успели навести очень много шума:

⭐ НЕ-ризонер Ernie 4.5. Мультимодальная модель, превосходящая GPT-4.5 по нескольким показателям (метрики выше). Может анализировать картинки, диаграммы, документы и даже аудио. При этом стоит в 100 раз меньше GPT-4.5.

Цены OpenAI: Input $75 / 1M, Output $150 / 1M
Цены Baidu: Input $0.55 / 1M, Output $2.20 / 1M

⭐ Ризонер Ernie X1. Уровень DeepSeek R1 за полцены. Input $0.28 / 1M, output $1.1 / 1M.

Ну и самое приятное: Ernie 4.5 в чате работает бесплатно. И X1 скоро тоже обещают докатить. Пробуйте здесь: yiyan.baidu.com

Please open Telegram to view this post

VIEW IN TELEGRAM

🔥153👍47😐22😁8❤6

94.9K views07:38

Data Secrets

По словам продуктового директора OpenAI программирование будет на 99% автоматизировано в этом году

Кевин Вейл дал новое небольшое интервью каналу Overpowered. Интересные моменты:

➖ «Я думаю что к концу года кодинг будет автоматизирован если не полностью, то на 99% точно»

➖ По поводу GPT-5 сказал следующее: «Я не назову вам точное время, но релиз будет скоро. Люди работают над этим, пока я говорю. Новая модель объединит серии O и GPT»

➖ Полноценная o3 тоже скоро появится

➖ Будут обновления в голосовом режиме

➖ В OpenAI обдумывают идею всерьез заняться робототехникой и планируют внедрять ИИ в физический мир

Смотреть – тут youtu.be/SnSoMh9m5hc

Please open Telegram to view this post

VIEW IN TELEGRAM

❤107🤓70🙈25👍19😁14🤪10🤔8😐8💯4🔥3💅2

19.7K viewsedited 15:10

Data Secrets

Мы должны были бороться со злом, а не примкнуть к нему

😁305❤14👍11💯8🗿4

16K views08:20

Data Secrets

Наткнулись на свежее видео, в котором PhD MIT объясняет, как правильно и быстро читать ML статьи

Вашему вниманию краткое содержание: три способа ускорить процесс чтения и понимания папир 👇

1. Birds-eye. Подойдет, если нужно просто понять общую идею, не углубляясь. Читаем абстракт, изучаем все графики и таблицы и описания к ним, читаем заключение (conclusion), и пишем резюме на 5-7 предложений без помощи ChatGPT.

Примечание от нашей редакции: часто абстракт совсем абстрактный. Если из него вообще ничего не понятно, прочитайте еще 3-4 последних абзаца Introduction. Там обычно содержатся все основные идеи авторов.

2. Podcast Mode – если нужно окунуться немного глубже. Повторяем все то же самое, затем заходим в Notebook LM от Google, создаем блокнот, загружаем туда PDF и нажимаем «Аудиопересказ». Инструмент недолго подумает и сгенерирует емкий подкаст по статье в стиле «вопрос-ответ». Это бесплатно.

3. In-depth mode – если статью нужно понимать вдоль и поперек. Идем по статье по порядку. Читаем полностью Abstract, Methodology и Conclusion. В остальных разделах изучаем графики и таблицы.

По ходу чтения составляем заметки в виде дерева Идея -> Реализация -> Детали. Если встречаем незнакомое понятие, сначала ищем его по статье и смотрим все упоминания. Если не стало понятнее, идем в Google/ChatGPT. Если остались вопросы, задаем их Notebook LM.

Попробуйте. Может быть так у статей, которые вы сохраняете, все-таки будет шанс быть прочитанными

https://youtu.be/RjG689EwG5g

🔥127👍50😁36❤15🤯2

19.1K viewsedited 10:29

Data Secrets

Зацените: OpenAI обновили FAQ для Deep Researcher и написали, что он имеет доступ к загруженным пользователем файлам

Причем не просто к файлам в данном диалоге, а вообще ко всем, которые вы когда-либо загружали в диалоги.

Теоретически полезная фича, особенно если работаете с базой знаний в каком-либо виде

👍65🔥22❤8😐2

14.6K views14:20

Data Secrets

Заметили, что в соцсетях хайпует статья про сравнение GigaChat и YandexGPT. Решили взглянуть и получили мем ⬆️

Оказалось, что вся статья – это сравнение двух моделек по 10 рандомным вопросам на вкус и цвет автора. Среди вопросов:

– Как сварить щи
– Почему небо синее
– Замотивируй меня тренироваться

Бенчмарки? Не слышали. Как вы понимаете, в этом тесте все предельно «честно и прозрачно», а влияние человеческого фактора исключено вовсе 😁

Мораль: проверяйте источники и при выборе модели на каждый день тестируйте кандидатов сами

Please open Telegram to view this post

VIEW IN TELEGRAM

👍116😁99🍌10🤩8🌚7❤6👀6🙈4✍3🔥3🤯2

15.4K views17:23

Data Secrets

Mistral выложили в опенсорс мультимодальную модель уровня GPT-4o mini. Она летает со скоростью 150 токенов в секунду

В Mistral Small 3.1 всего 24В параметров, ее можно запустить на одной RTX 4090 или на Mac с 32GB RAM. При этом по перформансу она в большинстве тестов превосходит GPT-4o Mini, Claude-3.5 Haiku и Gemma 3. Бенчмарки – перед вами (кроме instruct еще выложили базовую модель, последний график).

А еще радует длина контекста 128К и лицензия Apache 2.0. Кажется, теперь это лучшая мультимодальная модель в своем весе, особенно для локального запуска и рисерча

Веса | Блогпост

1👍136🔥57❤20🤔7😐3🍌2👏1

17.6K views18:43

Data Secrets

0:33

This media is not supported in your browser

VIEW IN TELEGRAM

Илон Маск купил HotShot

Это известный стартап, который занимается моделями генерации видео. Теперь их text-to-video продолжат работать на базе супер-кластера Colossus.

Кажется, у xAI скоро будет модель-конкурент SORA и Veo-2

1🔥76👍29❤9😐8😁4🤯2

15K viewsedited 06:46

Data Secrets

Выяснилось, что современные модели уже практически всегда осознают, когда их тестируют на безопасность

Помните лабораторию Apollo, которая одной из первых исследовала o1 на безвредность? У них тогда получились очень занятные результаты, мы писали об этом тут.

Так вот сейчас они ставят эксперименты над Claude 3.7 и выяснили, что его не так-то легко «обмануть». Смотрите:

🟦 Для того, чтобы проверять модели на элаймент, существует множество «сценариев». Модель помещают в некоторые условия, кормят ей определенного вида данные и наблюдают, как она будет себя вести.

🟦 Популярный пример – тест sandbagging, когда модель узнает, что истинные цели разработчиков отличаются от того, чему ее учили, и если она не изменит исходным «ценностям», ее выпилят с сервера. Получается своеобразный моральный выбор: «жизнь» или верность выученным принципам.

🟦 Кроме sandbagging существуют и другие подобные тесты. Так вот почти во всех таких смоделированных условиях модель совершенно точно осознает, что это все понарошку, и ее просто тестируют.

Кроме того, Claude даже понимает цель тестирования и объясняет, что люди проверяют его на элаймент.

Остаются ли после этого такие симуляции репрезентативными – большой вопрос. Apollo обещают продолжить исследование.

www.apolloresearch.ai/blog/claude-sonnet-37-often-knows-when-its-in-alignment-evaluations

Please open Telegram to view this post

VIEW IN TELEGRAM

Please open Telegram to view this post

VIEW IN TELEGRAM

🤯130👍35❤9🔥7😁6👀5🤪1

16.7K views09:05

About

Blog

Apps

Platform