Data Secrets – Telegram

Data Secrets

77.4K subscribers

6.05K photos

593 videos

20 files

2.43K links

Главный по машинному обучению

Сотрудничество: @veron_28

РКН: clck.ru/3FY3GN

Download Telegram

About

Blog

Apps

Platform

77.4K subscribers

Вы готовы? Найдена лучшая вакансия всех времен: xAI нанимает инженера для разработки ИИ-девочек

Роль так и называется: Fullstack Engineer - Waifus

😁

Буквально на днях xAI выпустили Companions. Это новая фича, которая вживляет Grok в одного из нескольких доступных аватаров с их характером, внешностью и голосом.

Так вот одного из таких аватаров xAI сделали аниме-девочкой по имени Ани. За пару дней она уже стала настоящей звездой соцсетей, а скачивания Grok взлетели просто немыслимо. В Японии приложение даже вышло в топ-1 по AppStore.

В общем, видимо, xAI нащупали золотую жилу и теперь ищут инженера, который наклепает им еще тяночек.

Платить обещают $180,000 - $440,000 USD. Если надумали – вам сюда

Please open Telegram to view this post

VIEW IN TELEGRAM

2😁181❤413512🔥7❤‍🔥4👍4🦄4🍓22🤨1

26.5K views17:09

This media is not supported in your browser

VIEW IN TELEGRAM

Сегодня в 20:00 по Москве – новый стрим OpenAI

Судя по превью, будет какое-то обновление Operator. Может в этот раз его все-таки сделают полезным? 😐

Please open Telegram to view this post

VIEW IN TELEGRAM

😁86❤12🔥7🦄6🤯2👍1

20.3K views05:36

Всего один программист в мире оказался лучше ИИ в прошедшем соревновании на AtCoder

AtCoder World Tour Finals – одно из самых престижных соревнований в мире, попасть туда не так уж и просто. Особенно в Heuristic Division: там задачи решаются методами эвристики и оптимизации и нельзя просто решить или не решить, можно только решить лучше других (как на Kaggle).

Так вот в этом году это соревнование спонсирует OpenAI, и им разрешили выпустить свою модель посоревноваться наравне с людьми.

Ну и дальше случилось то, что вы видите на скрине. Всего один человек в мире, поляк Przemysław Dębiak с ником Psyho (довольно известный кодер, кстати) смог побить модельку OpenAI.

Сам кодер утверждает, что вообще не использовал ИИ и программировал просто в VSCode. Он пишет:

Человечество одержало верх (пока!)

Я совершенно измотан. Мне казалось, что я спал всего 10 часов за последние три дня, и я еле живой.

(Если честно, это предварительные результаты, но мой отрыв должен быть достаточно большим)

💀

Please open Telegram to view this post

VIEW IN TELEGRAM

🔥277❤57🤯30☃15👏13👍99😁8🤔72🏆1

26K views08:03

У исследователей по всему миру постепенно скапливаются вопросики к безопасности в xAI

В Твиттере за пару дней в сторону стартапа Маска неположительно высказалось уже немало людей, в том числе ученые из OpenAI (пост) и Anthropic (пост). Претензии такие:

1. Отсутствие системных карт моделей. У OpenAI, Anthropic и Google есть свои проблемы к релизами, но они всегда стараются публиковать тех.отчеты, в которых описывают, как проводились тесты и элаймент. Grok-4 вышел без системной карты вообще, и никто не в курсе, была ли там вообще какая-то работа с безопасностью.

2. Особенно накаляется ситуация после того, как Grok ни с того ни с сего начал называть себя Меха Гитлером. И отреагировали на весь этот скандал xAI лишь тем, что написали, что решили проблему (внимание!) путем корректировки системного промпта. Воистину элаймент, который мы заслужили.

3. Свежие вышедшие компаньоны тоже не всех устраивают. Аниме-тянка, конечно, неплоха, но пишут, что она «повышает риск психологических расстройств», как в фильме Она.

Интересно, что сам Маск всегда выступал за политику открытого кода и безопасности ИИ. Получается, переобулся 🤷‍♂️

Please open Telegram to view this post

VIEW IN TELEGRAM

1140😁5941❤13🍾4🤯2☃1🔥1🎉1🕊1

20.6K views15:32

This media is not supported in your browser

VIEW IN TELEGRAM

⚡️

OpenAI показали ChatGPT agent

Это Deep Research и Operator в одном флаконе. То есть агент, который сможет просматривать веб-страницы (мультимодально, в отличие от Deep Research), вызывать API и другие инструменты, выполнять какие-то задачи и все это – с ризонингом.

Особенный упор – на вызов инструментов, говорят специально обучали агента пользоваться разнообразными тулзами с помощью RL. Создает диаграммы, презентации, таблицы, генерирует картинки, может залогиниться на сайте, использовать терминал и почту, сделать комит и прочее.

Результат на Humanity’s Last Exam – 42%. Это очень серьезный прирост относительно o3 и даже Deep Research. На Frontier Math тоже заметен скачок.

Кстати, под капотом не o3 и не o4-mini, а какая-то новая модель, обученная специально под agent mode и computer use.

Вопреки ожиданиям, раскатали агента не только для Pro подписчиков за 200$. Доступ дадут и обычным пользователям с Plus, лимиты – 40 запросов в месяц (терпимо).

Нравится 😄

Please open Telegram to view this post

VIEW IN TELEGRAM

Please open Telegram to view this post

VIEW IN TELEGRAM

❤161👍58🔥3111🤯33🤔22😁1

25.8K views17:23

This media is not supported in your browser

VIEW IN TELEGRAM

Pov: руководитель узнал, что ты был на собеседовании в другой компании, и теперь ты притворяешься, что это было «для повышения квалификации»

😁266🔥26❤15🕊43

23.9K views05:38

Ууу, кажется Anthropic понизили лимиты на Claude Code без какого-либо предупреждения

На GitHub проекта уже второй день сыпятся претензии от пользователей, которые уверяют, что заметили у себя странности. Теперь предупреждение «Claude usage limit reached» выскакивает, якобы, задолго до того, как юзеры достигают обозначенных в подписке лимитов.

Anthropic пока комментариев не давал

1134🤯4322😁9🤨6❤4👍33🕊1🗿11

22.8K viewsedited 08:15

Netflix официально объявили о том, что теперь они будут использовать ИИ для создания фильмов и сериалов

Оказалось, что на платформе даже уже есть ИИ-фрагменты. В аргентинском сериале El Atonata сцена с крушением здания – полностью сгенерированная.

И co-CEO говорит, что такие «съемки» обошлись в несколько раз дешевле, и заняли в 10 раз меньше времени, чем классический монтаж.

Давно пора ☕️

Please open Telegram to view this post

VIEW IN TELEGRAM

1🔥172👍56😁2921🤔1917🗿109❤6⚡1👀1

22.6K views13:14

OpenAI тестирует на WebArena новую модельку под названием «o3-alpha-responses-2025-07-17»

Некоторые думают, что это та самая модель, которая на днях заняла 2-е место на одном из сложнейших соревнований по кодингу в мире. Некоторые подозревают, что это опенсорс, который так давно обещал Альтман. А возможно, это просто новый чекпоинт для o3.

В любом случае, кажется, модель действительно неплоха. Есть много пользовательских примеров, на которых она превосходит o3.

Будем ждать 🍿

Please open Telegram to view this post

VIEW IN TELEGRAM

126🔥28❤19👍965⚡4😁3🦄2

21.6K views16:28

⚡️

Вышел ARC-AGI-3

Это новая и наиболее продвинутая версия одного из самых известных бенчмарков в мире. На сей раз тест предназначен специально для агентов и состоит из игр.

Фишка – в интерактивности. Обычно все бенчмарки статичные, а тут акцент смещён на динамические среды, которые требуют не просто распознавания паттернов, а именно настоящего усвоения новых правил и навыков прямо по ходу игры.

Каждая игра в бенчмарке устроена так, что ее правила, цели и механики неизвестны участнику заранее. Человек справляется с такими задачками легко, с абсолютным скором 100%. А вот ИИ с треском проваливается: даже самые свежие модели выбивают чистый 0.

Ключевые проверяемые способности — самостоятельное исследование, быстрое обучение, адаптация к новым ситуациям, умение планировать и гибко перестраиваться. В общем, все то, что делает интеллект человека по-настоящему сильным.

Учитывается, кстати, не только успешное прохождение, но и то, сколько шагов понадобилось игроку. Это напрямую позволяет измерить скорость приобретения новых навыков – считай еще одна прокси-метрика.

Сейчас ARC-AGI-3 в стадии превью. Пока опубликована малая часть финального набора, и разработчики ждут фидбэка от комьюнити.

Кстати, вы тоже можете проверить свои силы: создатели снова сделали специальный лендинг для людей, где каждый может попробовать решить задачки из бенчмарка aka поиграть в игры. Выглядит как то, на что можно залипнуть на всю субботу ✌️

Please open Telegram to view this post

VIEW IN TELEGRAM

Please open Telegram to view this post

VIEW IN TELEGRAM

86🔥5723❤20👍106😁1

20.6K views07:46

Новая ризонинг-модель от OpenAI впервые в истории решила международную олимпиаду по математике IMO на золотую медаль

Об этом рассказал один из сотрудников в X. О какой точно модели речь – не уточняется, но ясно, что она еще не опубликована + пишут, что это не GPT-5.

LLM решила 5 задач из 6, причем оценивали ее по тем же правилам, что и людей: давали в сумме 9 часов на раздумья, ограничивали доступ в интернет и принимали только полностью обоснованные доказательства на естественном языке.

В общем, модель набрала 35/42 баллов, это твердая золотая медаль. До этого ни одной модели ни разу не удавалось добиться таких результатов.

Решения модельки, кстати, можно посмотреть здесь

❤136🔥69👍26😁8👻31

21.7K viewsedited 12:02

Почитали тут системную карту ChatGPT Agent. Оказывается, это первая в мире система ИИ, официально получившая статус «высокого риска» по разработке биологического оружия

Это значит, что Agent может существенно помочь даже неспециалисту пройти все шаги, необходимые для создания известных биологических или химических угроз.

Пока ни одна компания, кроме OpenAI, ни разу не объявляла о подобном для своих моделей. На уровне экосистемы это означает следующее:

1. Естественно, повышенные меры безопасности и мониторинга. Инструменты обнаружения вводятся не только на этапе генерации, но и (дополнительно) до того, как запрос вообще передается в модель.

2. Обновленные NDA и политики ответственности внутри самого OpenAI + обязательные постоянные внешние аудиты системы.

3. Ну и самое интересное: обязательная отчетность для пользователей, выявлявших необычное поведение системы. То есть если вы – даже случайно – наткнулись на необычное поведение модели, то обязаны об этом сообщить. В противном случае могут заблокировать аккаунт, а еще вы попадете под расследование.

Вот так, друзья. Уже ощущаете киберпанк?

🤯172❤52373510⚡5😁5🤔4🔥3🍓1💘1

21.4K views15:03

Новая ризонинг-модель от OpenAI впервые в истории решила международную олимпиаду по математике IMO на золотую медаль Об этом рассказал один из сотрудников в X. О какой точно модели речь – не уточняется, но ясно, что она еще не опубликована + пишут, что это…

Грустная история про бюрократию

Еще не остыла новость о том, что модель OpenAI выиграла золотую медаль на IMO, и вдруг оказалось, что они такие не одни: моделька Google DeepMind тоже нарешала задач на золото.

Причем узнали Google об этом в пятницу днем (новость от OpenAI же вышла только в субботу примерно в час ночи).

То есть, по сути, DeepMind готовы были заявить о выигрыше первыми. Но… пришлось ждать одобрения твита отделом маркетинга.

В итоге объявление от них выйдет, скорее всего, только в понедельник (сейчас о победе модели сообщает участник комитета IMO).

А в это время Альтман уже давно забрал себе всю славу 🔵

Please open Telegram to view this post

VIEW IN TELEGRAM

🫡206😁133❤28🔥11👍743🤔1

33.3K views05:29

Так, это что-то новенькое: там вышла статья, которую совместно писали ученые из OpenAI, Anthropic, Google DeepMind и Meta*

Вот так наборчик, да? И о чем, как вы думаете, статья, если она объединила исследователей из четырех таких конкурирующих лаб?

Конечно, о безопасности. Кстати, среди авторов – Йошуа Бенджио, а среди рецензентов – Илья Суцкевер, Джон Шульман и Джеффри Хинтон.

Пишут про цепочки рассуждений (Chain of Thoughts). Основная мысль: люди зря надеятся, что CoT поможет нам надежно интерпретировать модели и считывать их истинные мотивы, предупреждая тем самым какие-то вредные действия.

На сегодняшний день – да, какое-то представление о скрытых мыслях сетей CoT действительно дает, и этим надо активно пользоваться. Но это довольно хрупкая возможность, которая может исчезнуть по мере прогресса.

В перспективе не стоит забывать о физике процесса ризонинга: для модели это та же самая генерация токенов, только в рамках специального тега /think. Фактически, сеть просто генерирует что-то «для себя» перед тем как начать генерировать ответ для пользователя, и мы называем это размышлением.

Нет оснований полагать, что в CoT всегда будут содержаться истинные намерения моделей, тем более для будущих более продвинутых архитектур и методов обучения.

Ну, в общем, очень интересный кейс единодушия ученых. Почитать полностью можно тут

👍174❤54👀3518🔥12🗿52😁1

21.3K viewsedited 14:41

Anthropic заставили своего Claude управлять настоящим мини-магазином в офисе компании Рассказываем, что из этого вышло. Спойлер: эксперимент получился не без странностей. Итак, Claude полностью управлял ценообразованием, заказывал поставки, общался с клиентами.…

xAI позаимствовали идею у Anthropic и теперь у них в офисе стоит вот такой автомат с едой, которым полностью заправляет Grok-4

Вообще, на презентации Grok-4 Маск упоминал, что модель способна управлять бизнесом. Вот и посмотрим, сможет ли она заработать хоть что-то и не слить бюджет на вольфрамовые кубики 👥

Please open Telegram to view this post

VIEW IN TELEGRAM

Please open Telegram to view this post

VIEW IN TELEGRAM

😁20232❤23👍1764🦄1

20.5K views06:36