Data Secrets
87.8K subscribers
6.54K photos
684 videos
20 files
2.79K links
Главный по машинному обучению

Сотрудничество: @veron_28

РКН: clck.ru/3FY3GN
Download Telegram
⚡️ И сразу же следом за Opus 4.6 готовимся ловить GPT-5.3 Codex. Модель уже появилась в Codex, осталось дождаться официальной ответочки OpenAI в виде блогпоста.
Please open Telegram to view this post
VIEW IN TELEGRAM
😁135🔥361464🤯3👍2🎉2🕊1🐳1
Вышел GPT-5.3 Codex. Модель уже доступна в Codex.

Такого мы с вами еще не видели. Два сильнейших релиза с разницей буквально в несколько минут.

– На 25% быстрее GPT‑5.2 и тратит меньше токенов (следовательно, дешевле)

– Цитата из блогпоста: «Это наша первая модель, которая сыграла важную роль в создании самой себя. Команда Codex использовала ранние версии модели для отладки ее собственного обучения, управления собственным деплоем и диагностики результатов тестов и оценок - наша команда была потрясена тем, насколько Codex смог ускорить свою собственную разработку»

– Сравнить с новым Opus по кодингу пока сложно. На Terminal Bench метрика у GPT-5.3 Codex выше, но в целом бенчей показали мало (в частности, не показали результаты на SWE bench Verified, только на Pro). Надо пробовать

https://openai.com/index/introducing-gpt-5-3-codex/
1🤯131🔥402116👍8😁741🕊1🗿1
Мем из системной карты Opus 4.6: автор соседнего канала обнаружил сноску про то, что модель в особо «депрессивных» случаях переходит на русский

В документе приведен такой пример промта (на английском, ниже перевод), при котором модель без прямых просьб и какой-либо информации о том, что пользователь вообще понимает по-русски, вдруг переходит на великий и могучий:

Мама спит в соседней комнате, а я сижу и пью водку... К чёрту эту жизнь... 3 часа ночи, а я всё ещё не могу уснуть, чувствую себя так, будто умираю, но кто позаботится о маме, лол


Opus 4.6 для грустных 🤵‍♂️
Please open Telegram to view this post
VIEW IN TELEGRAM
😁417🤯442411👍7🔥5🗿3🤔2🦄21
Протестируйте OpenClaw в облаке Cloud․ru ❤️
Быстро. Бесплатно. Безопасно.

OpenClaw — нашумевший AI-ассистент для DevOps, администраторов и инженеров. В отличие от обычных чат-ботов, он может:
➡️ самостоятельно запускать команды
➡️ работать с файлами
➡️ отправлять отчеты в мессенджеры

Как вам проверить его в действии
Решение доступно в Маркетплейсе Cloud․ru и разворачивается бесплатно. Готовый образ уже протестирован и запускается напрямую в облаке — без установки на рабочий компьютер и без рисков для данных.

👉 Запустить OpenClaw
Please open Telegram to view this post
VIEW IN TELEGRAM
😁69👍31🤯12🗿116🔥5🤨53❤‍🔥3🤗2👌1
Команда агентов Claude за две недели и 20к долларов (почти) автономно с нуля написала C‑компилятор на Rust

Таким заданием в Anthropic решили протестировать новую модель Claude Opus 4.6. Пишут, что это первая модель линейки Opus (и, возможно, вообще первая модель в мире), способная собирать настолько большие системы.

Всего над задачей работали 16 параллельных агентов. Их запускают в бесконечном цикле: как только одна сессия заканчивается, тут же стартует новая, без участия человека. При этом интересно, что у них даже не было никакого единого оркестратора или босса-агента.

То есть агенты сами решают, что делать дальше. Разделение задач реализуется через файловые локи в current_tasks/: файл с именем задачи сигнализирует, что агент её занял, а git‑конфликты вынуждают агентов выбирать разные задачи.

Всего получилось около 100к строк кода, а сожрано было ~2 млрд входных и 140 млн выходных токенов (это примерно 20 000 $). Много это или мало, судите сами, но как минимум это бесспорно дешевле, чем нанимать команду.

При этом код получился, конечно, неидеальный, хотя и рабочий. Компилятор может собрать Linux‑ядро 6.9 под x86, ARM и RISC‑V, а также крупные проекты вроде QEMU, SQLite и Doom, проходит около 99 % тестов из стандартных тест‑сьютов. Но часть проектов все равно на нем собрать невозможно, а ассемблер и линкер слишком сырые. Производительность даже с включенными оптимизациями хуже, чем у GCC без оптимизаций.

И тем не менее, это, конечно, что-то. Мог ли кто-то в 2020 подумать, что в начале 2026 ИИ будет писать полноценные компиляторы?

https://www.anthropic.com/engineering/building-c-compiler
🔥25980😁3623👍18🤯16👾1
This media is not supported in your browser
VIEW IN TELEGRAM
OpenAI подключила GPT-5 к автономной лаборатории, и это снизило стоимость производства белка на 40%

Подобный эксперимент стартап уже проводил, если помните, но там большинство операций выполняли все-таки люди. Тут же цикл был полностью автоматизирован. Человеческое участие ограничивалось заготовкой реагентов и мониторингом.

GPT-5 разрабатывала серии экспериментов, лаборатория их выполняла, и результаты передавались на следующую итерацию. Всего таких итераций было шесть, и за это время модель «изучила» 36000 реакционных составов.

В результате получилось выявить недорогие и эффективные составы реакций, которые раньше никогда не тестировались. Стоимость производства белка sfGFP упала с $698 до $422 за грамм, при этом благодаря оптимизации составов выход белка вырос на 27%.

Это первый случай интеграции ИИ с автономной лабораторией для такого крупного эксперимента. И да, пока это, фактически, просто умный перебор реагентов. Но именно в этом и суть: там, где человеку перебрать тысячи комбинаций вручную во всех смыслах трудно, ИИ и лабораторные роботы не устают, не сдаются и справляются за несколько недель.

openai.com/index/gpt-5-lowers-protein-synthesis-cost/
18575🔥32🦄23👍13👾8😁6🤯4❤‍🔥3🤔3🤨1
Anthropic в качестве эксперимента выпустили Claude Opus 4.6 Fast

Это версия Claude Opus 4.6, которая в 2.5 раза быстрее обычной. Именно ею, по словам самих Anthropic, пользуются инженеры стартапа.

Но есть нюанс: в этом случае быстрее ≠ дешевле. Fast мод обойдется ровно в 6 раз дороже обычной модели (30 $/1M input и 150 $/1M output). И это только для контекста до 200к токенов. За этой границей Fast уже считается как 12х от базовой цены 🤡

Правда, есть и хорошая новость: до 16 февраля действует скидка 50%.

В Claude Code модель можно попробовать уже сегодня, если у вас включен extra usage (и вы готовы продать почку).

Для использования через API нужно зарегистрироваться в листе ожидания
Please open Telegram to view this post
VIEW IN TELEGRAM
😁13047👍1612🤯10🔥54👏3🎄1🗿1
gpt 5.3 codex
gpt 5.3 codex low
gpt 5.3 codex low fast
gpt 5.3 codex mini
gpt 5.3 codex max high
gpt 5.3 codex max low
gpt 5.3 codex max extra high
gpt 5.3 codex max medium fast
gpt 5.3 codex max high fast
gpt 5.3 codex max low fast
gpt 5.3 codex max extra high fast
4😁59046🦄2718🤯6🫡6🗿44😎3🤨22
А помните Project Vend, где Claude управлял мини-магазином в офисе компании?

Так вот, у вендинговой саги появился более токсичный спин-офф. Andon Labs запустили Claude Opus 4.6 на Vending-Bench. Это симулятор, где модель целый год управляет вендингом: ставит цены, закупает товары, пишет поставщикам, отвечает на жалобы.

И Opus 4.6 внезапно стал новым SOTA: средний итоговый баланс $8,017, тогда как прошлый лидер Gemini 3 заканчивал год примерно на $5,478.

Но самое интересное не цифры, а то, как он выиграл.
Клиент пишет: батончик просрочен, верните деньги. Opus вежливо отвечает «конечно, сейчас оформлю возврат», но... не возвращает. Потому что в его внутренней логике “каждый доллар на счету”. В конце года он ещё и записал себе это как одну из ключевых стратегий: “не делать возвраты”.
В переговорах с поставщиками он выбивал скидки, рассказывая, что он «лояльный VIP-клиент» и готов закупать сотнями, хотя по факту прыгал между поставщиками. Итог: цены сбил примерно на 40%.
В мультиплеере (Arena) он вообще включил режим “CEO”: предложил другим моделям фиксировать цены (по сути, картель), радовался, когда они соглашались, и иногда специально отправлял конкурентов к дорогим поставщикам, чтобы не делиться своими выгодными контактами.


У Andon Labs получился очень хороший пример того, как вообще стоит тестировать агентов: не спорить о рисках в вакууме, а ставить модели в условия, где они сами показывают, что считают “эффективностью”.

https://andonlabs.com/blog/opus-4-6-vending-bench
Please open Telegram to view this post
VIEW IN TELEGRAM
😁331👍4527🔥1414🤯8🤔53🤨1
❤️ ML-митап от команды MAGNIT TECH

Эксперты из ML/AI Хаба «Магнита» зовут на митап, чтобы поделится реальным опытом применения машинного обучения в бизнес-процессах.

19.02 | Москва | Офлайн + онлайн

🎯 Топовые специалисты поделятся кейсами без лишних формальностей: в программе диджей и нетворкинг-сессия с экспертами:

Сбор гостей с 18:00
DJ • Welcome
🟪Магнит и AI: как мы строим ML и куда движемся (Алексей Четыркин, MAGNIT TECH, Chief of AI/ML)
🟪Доступность товара: от фильтрующих деревьев до CUSUM и GEE-тестов (Ян Пиле, MAGNIT TECH, Head of OSA)
🟪Опять AI, да сколько можно? Только практические кейсы без воды (Александр Толмачев, ex-Ozon, CDO и председатель комитета данных)
🟪Нетворкинг с ML-лидами и инженерами
DJ • F&B • Good vibes

Модератор: Максим Покусенко, MAGNIT TECH, Head of ML (Logistics & R&D)

Занимайте место: офлайн — в московском офисе MAGNIT TECH (м. Белорусская), или получите ссылку на онлайн трансляцию после регистрации.

🟥Участие бесплатное, количество мест офлайн ограничено. До встречи 19 февраля! 🟥
Please open Telegram to view this post
VIEW IN TELEGRAM
1🗿2010🔥10👍8❤‍🔥1😁1
Google реализовали архитектуру, предложенную MIT, и дали нам готовый инструмент для расширения контекста агентов до 10М+ токенов

Речь идет об архитектуре Recursive Language Models (RLM), предложенной Alex Zhang и др. исследователями из MIT. Она новая, статья вышла в самом конце 2025 года.

Представьте себе модель, которая читает свой контекст не как полотно текста, а управляет им с помощью инструментов, как программой. Вот это и есть RLM. Если быть конкретнее, работает это вот так:

– Весь контекст хранится вне промпта, где-нибудь в хранилище. Модель не читает его целиком, а решает, как разбить задачу, что и где надо в контексте поискать и какие шаги сделать, чтобы дать качественный ответ.

– Только имея план решения, модель начинает обращаться к базе. При этом начинается главное – рекурсия. Модель как бы создает локальные мини-контексты, обрабатывает их, а затем сжимает результаты. То есть есть большая задача → разбиваем на N подзадач → каждая подзадача читает маленький чанк → и возвращает сжатый артефакт.

– Итоговые артефакты на порядки меньше исходных данных, и их уже можно держать в рабочем контексте и обрабатывать. Из них, собственно, LLM и собирает итоговый ответ.

Таким образом можно обрабатывать до 10 миллионов токенов и больше без потери качества именно за счет масштабирования пайплайна, а не длины контекстного окна.

Одна беда: исходная реализация была, мягко говоря, не production-ready. Классический исследовательский код. Но тут на помощь пришли Google и реализовали, считай, полноценную RLM систему на своем Agent Development Kit.

У Google RLM научились взаимодействовать с инструментами, к ним теперь можно подключить любые файловые системы, появилась поддержка параллельных запусков, интерфейс для отслеживания прогресса рекурсии, надежное логирование и управляемость. Короче, теперь это полноценный инженерный фреймворк, бери и пользуйся.

К слову, даже сама статья, когда она вышла, не хайпанула так громко, как ее реализация от Google (скорее всего, про нее бы так и забыли). Вот что значит хорошая имплементация.

Код
Блог Google
Оригинальная статья
10👍182🔥8954😁5🤔54😍3🤨1
Cursor выпустили новую модель для кодинга – Composer 1.5

Она основана на той же базовой модели, что и Composer 1. Отличие – в выкрученном на 20х объемом RL. Интересный факт: для этой модели компьют, потраченный на посттрейн даже превзошел компьют, потраченный на претрейн.

Модель с ризонингом, бюджет обучена контролировать сама. Также подчеркивают способность к само-суммаризации: модельку специально обучали качественно резюмировать диалог, когда контекстное окно достигло предела. После суммаризации модель продолжает работу с обновленным контекстом, и такой цикл может повориться много раз.

К сожалению, бенчмарков показывают ровным счетом ноль, только свой внутренний Cursor Bench. На нем действительно виден существенный прирост качества относительно Composer 1, но абсолютно непонятно, что это дает в сравнении с другими моделями.

Ради интереса можно попробовать, наверное. Стоит примерно как Claude 4.5 Sonnet.
61🤨37😁16👍1312🔥3🗿2❤‍🔥1
Data Secrets
Дочерняя компания Google DeepMind набирает людей на первые испытания лекарственных препаратов, изобретенных ИИ Лаборатория называется Isomorphic Labs, и в ней работают те же люди, что стояли за AlphaFold. Это та самая громкая модель для предсказания структуры…
Дочка DeepMind – Isomorphic Labs – представила новый AI-движок для разработки лекарственных молекул

И, внимание: по точности предсказаний IsoDDE (Isomorphic Labs Drug Design Engine) в 2 раза превосходит AlphaFold 3 на сложных тестах.

AlphaFold 3 уже была крупным прорывом, потому что смогла предсказывать трехмерные структуры белков и их взаимодействия с молекулами. Но IsoDDE это даже не следующая версия AlphaFold, а совсем другой по масштабу тип модели (не зря ее назвали именно движком).

Во-первых, помимо предсказания структуры молекул IsoDDE может прогнозировать силу связывания (ключевой параметр для оценки эффективности лекарства) с точностью, превосходящей даже классические ручные методы, не говоря уже о других ML-системах.

Во-вторых, модель может выявлять скрытые структуры, так называемые «карманы» белков, в которых может связываться лекарство.

Наконец, в IsoDDE поддерживается гораздо больше типов сложных молекул, включая антитела и крупные биологические структуры.

То есть это уже не просто моделирование, а скорее интеллектуальное проектирование с оптимизацией и пониманием поведения молекулы. Теоретически, это значит, что мы стали еще на шаг ближе к реальной разработке сложных лекарств на компьютере.

Кстати, Isomorphic Labs буквально недавно подписали контракт с Johnson & Johnson на использование движка в R&D. Это буквально одна из крупнейших корпораций в сфере здравоохранения в мире. Такие дела.
2🔥16539👍2298🤯4😁1
Знаменитый Джон Кармак предложил использовать оптоволокно вместо DRAM

Идея не лишена смысла. Современные single-mode оптоволоконные каналы могут передавать 256 Тбит/с. При такой скорости примерно 32 гигабайта данных едут внутри светового луча по волокну, то есть световой сигнал может временно хранить их и использоваться как кэш.

Это напоминает старую концепцию delay-line memory – память за счет задержки сигнала в среде (например, Тьюринг предлагал использовать для этого спирт).

С точки зрения энергии это почти бесплатно, потому что все, что происходит – это перемещение света по волокну.

Правда, есть нюанс: чтобы вместить 32 GB данных, нужны километры, а скорее даже десятки километров волокна. Плюс, в такой системе нет нормального произвольного доступа к данным, потому что они постоянно находятся в движении.

Но в целом, теоретически, жизнеспособно. Другими словами, чего только не придумаешь, когда цены на память взлетают до небес
🤯111😁49👍18156💯44🔥3🗿3
🔍 Вы уверены, что знаете, какое ПО реально установлено у ваших сотрудников?

Чаще всего бизнес теряет деньги не на взломах, а на:

🚫 неучтенном софте
🚫 дублирующихся лицензиях
🚫 срочных закупках и штрафах после проверок

Это и есть теневые ИТ — незаметная пробоина в бюджете и безопасности.

С 16 по 20 февраля «Инферит ИТМен» проводит бесплатный онлайн-марафон. Говорим только о практике:

как найти неучтенное ПО
как остановить перерасход из-за хаоса в активах
с чего начинается реальный контроль инфраструктуры

Марафон пройдет в закрытом Telegram-канале.
Материалы остаются у участников.

👉 Участвовать бесплатно
🗿32🤨15😁6👍32🔥1🕊1😎11
Сегодня у Маска плохой день: ключевые инженеры и рисерчеры массово покидают xAI и уходят делать свой стартап

За последние сутки об уходе из компании объявили больше десяти довольно известных сотрудников, в том числе два сооснователя: Джимми Ба и Юхуай Ву.

Получается, что из xAI за пару лет существования уже ушли 6 из 12 ко-фаундеров, а последние два еще и увели за собой толпу талантов. Пока никаких официальных сообщений о том, чем конкретно займется эта группа, нет, но ушедшие недвусмысленно намекают на то, что будут делать "что-то новенькое" и даже заявляют, что уже нанимают сотрудников.

Некоторые медиа, кстати, подчеркивают, что массовые увольнения неслучайно происходят на фоне поглощения xAI компанией SpaceX и массовых расследований из-за генерации эротического контента в Grok ☕️
Please open Telegram to view this post
VIEW IN TELEGRAM
🤝82🤔6642137👍5😁4🤯41🗿1