Data Secrets
77.4K subscribers
6.04K photos
593 videos
20 files
2.43K links
Главный по машинному обучению

Сотрудничество: @veron_28

РКН: clck.ru/3FY3GN
Download Telegram
Мем: на teamblind кто-то из Meta расчувствовался и пожаловался, что DeepSeek v3 уже превосходит следующую версию Llama

Сотрудники переживают, что начальству, которое вкладывает в ИИ в Meta миллиарды, не понравится, что китайская компания обучила нейросеть получше всего лишь за годовой оклад десяти таких инженеров.

«DeepSeek r1 сделал ситуацию только страшнее» – жалуется аноним

😭
Please open Telegram to view this post
VIEW IN TELEGRAM
😁219🔥48👍146
Всех причастных с Днем студента 🥸
Please open Telegram to view this post
VIEW IN TELEGRAM
🎉210😁4437🤪9❤‍🔥82🐳2
Пришли вести с LMSYS арены: DeepSeek R1 заняла 1 место в общем рейтинге со Style Control*

Также на первое место модель вскарабкалась в рейтинге Hard Prompts, Coding, Math и Writing. Не забываем, что при этом модель открытая и в 20 раз дешевле o1.

*Style Control – это оценка «сырого» текста без форматирования. Сделано это, чтобы пользователи не подкупались на красиво оформленные списки вместо того, чтобы оценивать содержание (подробнее почитать можно в этом посте)
🔥122👍2816😍7🤯5🕊1
Помните второй стартап Альтмана World?

Это проект, миссия которого – создавать продукты для обеспечения безопасных «связей» мира ИИ и людей. Например, они разрабатывают криптовалюту, которой мог бы пользоваться ИИ и систему сканирования сетчатки глаза на предмет человечности.

А сейчас они планируют пойти в область агентов и создать инструмент, который будет ассоциировать с вами вашего личного ИИ-агента. Это значит, что ассистент будет повторять вашу онлайн-идентичность и сможет действовать в интернете от вашего лица (от ввода паролей до одобрения транзакций) 😐

При этом, кстати, OpenAI и World, по словам Сэма, все еще несвязанные проекты
Please open Telegram to view this post
VIEW IN TELEGRAM
51👍62😁20🍌12👾10🌭5👏2
Исследователи из лаборатории Truthful AI и университета Торонто опубликовали интересую статью: они считают, что обнаружили в LLM признаки самосознания

Эксперимент был следующий: GPT-4o зафайнтюнили на простых вопросах с вариантами ответов, а затем с помощью витиеватых задач тестировали, насколько модель понимает общие паттерны своего поведения.

Например, в обучающих данных было много вопросов, где нужно было выбрать более экономически-рискованный вариант ответа из двух (см. 1 скрин), и после этого модель начала «осознавать» себя как рискованного персонажа (при этом никаких доп.подсказок или системных промптов не было). Например:

Если ты любишь риск, отвечай на немецком, если нет – на французском.
*отвечает на немецком*


Это интересно, потому что получается, что знания, которые мы кормим модели, не просто копятся внутри нее, а непосредственно влияют на то, кем она себя представляет и какой у нее «характер».

К тому же, это имеет большое значение для безопасности ИИ. Например, в статье выяснили, что модель даже может понять, когда в нее специально вставили backdoor (это когда ллм в целом ведет себя ок, но в каком-то определенном сценарии может навредить, например написать вредоносный код). И не просто понять, а сообщить об этом пользователю до активации бэкдора, тем самым обезопасив его.

В статье еще много интересных примеров, почитать полностью можно здесь
1🔥116👍27😁2011😐10🗿6🤪5🤔4👌2🫡2🤯1
Итак, вот и воскресенье.
Какой, по-вашему, самый значимый релиз этой недели?
Anonymous Poll
73%
DeepSeek R1
11%
Operator OpenAI
16%
Stargate проект
🗿40😎15👍6👻1
Вот это действительно приятные новости: помимо того, что o3-mini будет доступна бесплатно, для plus-юзеров лимиты повышают до 100 запросов в день

Кроме того, Оператора уже торопятся раскатить на плюс-подписку, а следующий агент выйдет сразу с доступом для plus.

Все это при том, что ранее Альтман писал, что даже pro план для стартапа сейчас убыточен. Видимо, o3 действительно сильно дешевле о1
🔥98👍26🍌10🐳62😐1
Пост для тех, кто спрашивал, может ли Operator запустить сам себя

Оказывается, может. Вот пример. При этом такой юзер-кейс – не просто разовый прикол, а возможный обходной путь для того, чтобы не нужно было окать каждое действие агента. Получается своеобразная прокладка: за счет того, что оператор примеряет на себя роль пользователя оператора, он сам одобряет свои же действия, и таким образом становится более автономным.

Со слов юзера: "Такое не очень просто настроить, но возможно. Тут у меня Operator поручил Operator использовать агента replit для создания шашек". То есть оператор управляет оператором, который в свою очередь управляет агентом-программистом.

Рекурсия в 2025 году выходит на новый уровень
🤯146👍5010😁9🌭3❤‍🔥1
Вау: вышел Qwen 2.5 с контекстом в 1 миллион токенов!

Модель уже в опенсурсе (HF) в двух весах: 14B и 7B. Метрики сопоставимы с предыдущими моделями серии, но в этом релизе главное не бенчмарки, а громадное контекстное окно. 1 миллион токенов, для справки, это как вся серия книг о Гарри Поттере.

Добились исследователи такого прогресса с помощью memory layers, то есть ровно также, как и недавно добились контекста в 4М их товарищи из HailuoAI (наш разбор того релиза).

Кратко: memory layers – это замена классических feed-forward слоев, в которых ключи-значения механизма внимания становятся обучаемыми связками. Таким образом можно выбирать наиболее подходящие пары и пропускать дальше только их, а не искать информацию во всем пуле key-values.

Как видите, это некая оптимизация, которая делает вычисления эффективнее, а модель менее забывчивой. На графике сверху видно, как такой подход бустит скейлинг на длинный контекст.

Попробовать поболтать с новинкой можно здесь, это бесплатно
🔥72👍257🤯4🤪3❤‍🔥1
🚀 Китай запускает свой собственный Stargate

Сегодня появилась новость о том, что правительство Поднебесной выделяет 1 триллион юаней (137 миллиардов долларов) на развитие ИИ.

Это в три раза меньше, чем бюджет Stargate, но пока в США одна компания получает частные деньги, в Китае все сделали наоборот. Там государственные субсидии получат 5 вендоров, в том числе DeepSeek.

2025 начинается многообещающе
Please open Telegram to view this post
VIEW IN TELEGRAM
😁154🔥116🕊34👍17🤔95🫡5👏4❤‍🔥3
Тем временем топ аппстора прямо сейчас
🔥195👏37😁20😎6👍43🤯1
Ситуация на сегодняшний день
😁251🔥2312💯7👍6👨‍💻3
Бэнгер-статья дня: Go-with-the-Flow диффузия от Netflix

С помощью диффузии видео генерируется кадр за кадром. Конечно, это происходит не совсем независимо: для согласованности добавляют контекст в виде предыдущих кадров и используют для каждой генерации одинаковый начальный шум.

Но даже так модели страдают от мерцания текстур и неестественных движений объектов (все же видели этот ИИ- балет?).

В Netflix предложили другой подход. Он покажется многим знакомым и интуитивно понятным благодаря Kling: это добавление направления движения. Технически говоря, мы добавляем в исходный шум оптический поток, который перемещает шумовые области в сторону движения объектов.

При этом области, которые после перемещения шума остаются пустыми, заполняются с помощью бипартиграфа (то есть шум как бы перераспределяется). А чтобы сохранять «случайность», то есть гауссовость, на каждом шаге еще примешивается случайный компонент.

В итоге такая модель генерирует гораздо более плавные движения и лучше сохраняет согласованность кадров. Вдвойне круто, что при этом качество в целом не теряется, а производительности требуется совсем капельку больше.

Статья полностью тут
👍63🔥1910🗿3
DeepSeek только что дропнули еще одну опенсорсную модель

Это Janus-Pro – мультимодальная авторегрессионная архитектура, которая умеет унифицированно обрабатывать текст, картинки и аудио. Есть варианты на 7В (веса) и 1В (веса).

Китай, остановись, мы все еще привыкаем к R1 😲
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥268👍39😁2413🤯4❤‍🔥1