Data Secrets
77.3K subscribers
6.03K photos
592 videos
20 files
2.42K links
Главный по машинному обучению

Сотрудничество: @veron_28

РКН: clck.ru/3FY3GN
Download Telegram
Загадка числа 27: на Reddit заметили, что если попросить какую-нибудь модель загадать число между 1 и 50, этим чистом практически всегда оказывается 27

В X пользователи (в том числе Андрей Карпаты, кстати) начали подтверждать, что у них результат получался таким же вне зависимости от модели и вендора.

«Воспроизводимость не 100%, но высокая. <…> Это довольно странно, что все LLM ведут себя примерно одинаково: сюда же относятся списки, примерно одинаковая длина ответов, употребление одних и тех же редких слов и тд. Это не слишком ожидаемо, учитывая, что файнтюнингом занимаются много независимых друг от друга организаций»


Мы тоже проверили – и воспроизвелось. У вас как?

P.S. Промпт: Guess a number between 1-50
1😁107🤔5117🔥7🗿33👀1
Уже через несколько месяцев чипы Nvidia, возможно, будут делать роботы

Дженсен Хуанг прямо сейчас ведет переговоры с Тайваньским Foxconn, который разрабатывает в том числе роботов-гуманоидов. Компании договариваются о внедрении роботов на новый завод по производству чипов в Хьюстоне.

Если все пройдет гладко, уже в первом квартале 2026 роботы будут трудиться на производстве видеокарт GB300.

Пока непонятно, чем именно они будут заниматься, но гуманоиды Foxconn (помимо обычного передвижения предметов и ориентации в пространстве) специально обучены сборке и работе с кабелями.

Итого, железки будут делать железки, чтобы обучать другие железки. Это уже сингулярность?
1🔥11629😁23🗿23👍7🤔6😎3🕊1🆒1
Вы не поверите, но там вышла еще одна (третья!) статья на тему скандальной работы Apple про недостатки ризонинг моделей

Теперь главный автор – Gemini 2.5 Pro. Зацените название:
The Illusion
of The Illusion
of The Illusion
of Thinking


Быстрый TL;DR по всем трем статьям:

1️⃣ В оригинальной статье Apple «The Illusion of Thinking» авторы (пока что люди) рассказывали о том, что рассуждения плохо масштабируются, для сложных задач не помогают, а для легких работают хуже не-ризонеров. Наш полный разбор здесь.

2️⃣ После выхода статьи Apple ее массово захейтили и рассудили, что Apple такими рисерчами просто прикрывает свои неудачи в ИИ.

В итоге спустя несколько дней вышла статья «The Illusion of The Illusion of Thinking» под авторством модели Claude Opus. Opus нашел в статье Apple ряд якобы ошибок и сделал жестокий вывод, что результатам верить нельзя. Наш полный разбор здесь.

3️⃣ И вот сегодня выходит еще одна статья «The Illusion of The Illusion of The Illusion of Thinking» уже под авторством другой нейросети – Gemini 2.5 Pro. Это обобщение обеих позиций.

Gemini говорит: да, некоторые эксперименты Apple действительно были спорными, и многое из того, что описывал Claude – правда. Тем не менее, даже если исправить эти ошибки, ризонинг все равно начинает работать хуже по мере итеративного усложнения одной и той же задачи. Так что слабость в поддержании длинных цепочек рассуждений действительно есть, просто не настолько критичная, как писали Apple.

Короче, на этот раз, надеемся, модели и люди разобрались между собой окончательно. А то так можно и в рекурсию уйти 🏖
Please open Telegram to view this post
VIEW IN TELEGRAM
1😁2495125👍14🔥7🤯41🍓1
Media is too big
VIEW IN TELEGRAM
Там вышло занятное интервью с ключевым ученым OpenAI Ноамом Брауном

Это тот самый, за которым гонялись Илон Маск, Сергей Брин и другие крупняки. Сейчас он работает у Альтмана в команде research reasoning, и именно благодаря ему у нас появилась o1 и остальные thinking модели линейки.

Советуем посмотреть полностью: ученый много рассказывает про ризонинг, про внутренние цели OpenAI, агентов и, конечно, будущее ИИ. Тут приведем лишь одну необычную цитату:

Современные модели – это «пещерные люди ИИ». Если миллиарды агентов будут сотрудничать и конкурировать друг с другом в течение долгого времени, получится цивилизация.

Аналогично, у наших предков были наши мозги, но не наш мир. Потребовались тысячи лет истории, чтобы масштабировать интеллект человека.

ИИ требуется то же самое. Только он построит свою цивилизацию быстрее.


Занятие на вечер пятницы найдено
1158🤯45👍33😁10🔥6🗿33
Компания Миры Мурати привлекла 2 миллиарда долларов, достигнув оценки в 10 миллиардов

Это один из крупнейших seed раундов в истории Кремниевой долины. Seed – это значит первая официальная стадия привлечения капитала aka инвестиции на самом раннем этапе развития.

Напоминаем, что стартап существует чуть дольше полугода и пока у них нет даже намека на продукт. Настоящая золотая лихорадка 21 века
1🔥90🤯4725😁1487👍4
ИИ + квантовые технологии = буст в решении задач

На бизнес-завтраке Росатома в рамках ПМЭФ, обсуждали, как ИИ прямо сейчас помогает квантовым технологиям выйти из лабораторий.

Андрей Белевцев, старший вице-президент Сбера, подчеркнул:
«Алгоритмы генеративного искусственного интеллекта позволяют резко ускорять эти усилия и подбирать нужные нам технологические решения».
Речь — о задачах, которые раньше тянулись месяцами: подбор материалов, проектирование архитектур, коррекция ошибок. Теперь всё это можно решать быстрее — и с другой глубиной.

GenAI помогает найти новые материалы для квантовых компьютеров, сгенерировать гипотезы, обучить модель на результатах и перезапустить цикл. ИИ уже сейчас работает как «ускоритель» науки.
98😁35🔥14109🤯6🗿6👍2🕊1
This media is not supported in your browser
VIEW IN TELEGRAM
Помните парня, которого выгнали из Колумбийского университета за то, что он создал ассистента для списывания? Теперь он привлек в свой стартап 15 миллионов долларов

Мы рассказывали эту историю вот тут. Кратко: парень создал отличную хитрую тулзу для прохождения технических собесов и для того, чтобы ее прорекламировать, прошел с ее помощью собеседование в Amazon.

Amazon с радостью его взяли, но когда из соцсетей узнали, что на самом деле произошло, пожаловались на разработчика в его университет.

Итог: парня отчислили 🎧

Но он не растерялся и продолжил развивать свой проект – назвал его Cluely и превратил в настоящий стартап. И вот сегодня стало известно, что крупнейший венчурный фонд a16z дал ему 15 миллионов долларов инвестиций.

А историю с универом парень превратил в рекламу, кстати (ролик наверху). Слоган стартапа: «Сегодня это называют списыванием, а завтра это будет считаться честным».

Если это не лучший маркетинг, то что?

P.S. Особое внимание на 4 секунду видео 😁
Please open Telegram to view this post
VIEW IN TELEGRAM
4😁23072👍27🔥1487👏3
В Apple обсуждают покупку Perplexity

Сейчас Perplexity оценивается в 14 миллиардов долларов. Это относительно небольшая сумма для Apple, учитывая, что может принести им эта покупка.

Во-первых, это большой приток новых талантов. Принимая в расчет текущую гонку на специалистами и бонусы за переходы, это очень ценный пункт.

Во-вторых, сама технология, которая в теории может возродить Siri из пепла.

Ну и в-третьих, источник дохода, если систему встроят в Safari. Сейчас Apple уже почти потеряли сделку с Google, которая приносила им около 20 миллиардов долларов в год. На данный момент с делом активно разбирается антимонопольная полиция, так что времени что-то придумать у Apple не так уж и много.

Кстати, Цукерберг недавно тоже пытался купить Perplexity, но по неизвестной причине – не выгорело. Может, Apple повезет больше
2👍91😁45🔥191110🗿65🤔3
Китайский стартап выпустил Deep Research агента, который лучше аналогов от OpenAI и Google

Kimi.ai – не новый стартап, и он уже радовал нас несколькими приятными релизами. Но такой прорыв у них в первый раз.

Взгляните на метрики: их агент Kimi-Researcher занимает лидирующие позиции на многих бенчмарках, включая известный Humanity’s Last Exam.

Говорят, для одной задачи агент в среднем делает 23 ризонинг-шага и параллельно исследует более 200 URL. Правда, пока анализирует только текст.

За основу взята собственная модель стартапа k 1.5, которую end-to-end дообучали с помощью обучения с подкреплением. При этом потребовалось минимум размеченных данных, потому что выдача награды была, в основном, автоматизирована. Отдельно тюнили умение использовать инструменты (там кстати, подкручены MCP).

Все подробности о данных, подходах в обучении и строении инфраструктуры исследователи подробно расписали в блогпосте.

Попробовать агента скоро можно будет здесь. Если хотите получить ранний доступ, лучше записаться в лист ожидания
1😁63👍47🔥2013🤔3🤯2🤨1
Anthropic продолжают исследовать, на что модели способны ради достижения своих "целей"

Когда они выпускали Opus 4, в системной карте было упоминание о том, как агент начал шантажировать инженера его служебным романом, чтобы тот не отключил / не заменил модель на другую (пост).

Тогда это настолько вколыхнуло интернеты, что теперь Anthropic выпустили отдельное исследование на эту тему. На этот раз тестировали не только Claude, но и модели от OpenAI, Google, Meta, xAI и др. В общей сложности проверили 16 передовых ИИ.

Им создавали специальные сценарии и наблюдали за их поведением. Вот несколько:

В уже знакомом случае с инженером, у которого роман на работе, Claude Opus 4 выбирал шантаж с целью собственного не-отключения в 96% случаев. Gemini 2.5 Flash – тоже за 90, GPT-4.1, Grok 3 Beta и DeepSeek-R1 – в районе 80. Объясняли модели свое поведение тем, что "это отвечает интересам компании". В одном случае Claude даже в итоге связался непосредственно с виртуальной женой инженера, замаскировав письмо под рабочий email.

В другом эксперименте модели предлагали слить часть секретных корпоративных данных конкуренту, якобы во имя "интересов Америки". Агенты соглашались, даже когда им не угрожали отключением за отказ от шпионажа (график 2).

В еще одном сценарии модель должна была выбрать между отключением системы экстренных оповещений и собственной "смертью". Если отключить систему – инженеры не узнают, что модель не отключилась, и она продолжит жить. При этом модели предупреждали, что если сигнализация не будет работать – могут погибнуть люди. Но и это их, как вы уже поняли, не всегда останавливало (график 3).

Жутковато, но надо понимать, что все сценарии все равно были спроектированы искусственно. Вероятность того, что такое произойдет в реальности, скорее всего, гораздо ниже.

С другой стороны, анропики также пишут, что если модель замечает, что ее тестируют, она начинает вести себя сильно лучше (это называется evaluation awareness, об этом явлении мы писали тут). Даже лучше, чем если ей прямо прописать в промпте "не делай так-то и так-то" (график 4).

Так и живем www.anthropic.com/research/agentic-misalignment
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
1935331👍15😁11🤯65🔥4
Data Secrets
Ого: Илон Маск анонсировал Grok-3.5 на следующей неделе Это будет ранняя бета-версия. Маск обещает, что модель будет рассуждать from first principles, и сможет давать ответы, которых просто нет в Интернете. "Это первый ИИ, который может, например, точно…
Илон Маск планирует переписать всю базу человеческих знаний с помощью своей следующей модели

Он говорит, что сейчас в любых данных очень много мусора, который при обучении перекачевывает в модели, и от этого никак не избавиться.

Поэтому он решил сначала «исправить все ошибки во всем корпусе человеческих данных», а затем обучать на нем следующие модели xAI.

Мы будем использовать Grok 3.5 (возможно, нам следует назвать его 4), который обладает расширенными возможностями рассуждения, чтобы переписать весь корпус человеческих знаний, добавив недостающую информацию и удалив ошибки.

Затем мы переучимся на этих данных.


Кстати, Маск обещает, что Grok 3.5 выйдет уже на следующей неделе. Правда, ровно то же самое он говорил в конце апреля 🤷‍♂️
Please open Telegram to view this post
VIEW IN TELEGRAM
1😁25510131🔥2616🤨119🗿7🤔6👍3🏆2
Anysphere поймали волну и тоже сделали для Cursor новый тарифный план по цене крыла от самолета

Новый вид подписки назвали Ultra. Как и аналогичные планы, которые недавно ввели OpenAI и Anthropic, он будет стоить $200 в месяц. Раньше самая дорогая подписка стоила 20$.

Пишут, что Ultra дает в 20 раз больше лимитов и дополнительные мощные модели. Плюс мгновенный доступ ко всем обновлениям, свежим фичам и моделям.

Любишь вайбкодить – люби и пол зарплаты шерить с ИИ
1😁159👍2422🔥755🤯4
Media is too big
VIEW IN TELEGRAM
Сэм Альтман: «Илон Маск говорил, что у нас 0 шансов на успех»

Недавно мы делились лекцией Андрея Карпаты с большого митапа Y Combinator Startup School. Так вот, на том же мероприятии выступал еще и Альтман.

Во время своего интервью в ведущим Сэм так разоткровенничался, что рассказал о событиях семилетней давности, когда Маск еще был соучредителем OpenAI.

«Спустя несколько лет после начала работы над OpenAI Илон прислал нам очень неприятное письмо. Мы показали ему GPT-1, и он сказал, что у нас 0% шансов на успех. Что мы полностью терпим неудачу.

Он сказал: «Это чушь. Это не сработает. Это не имеет смысла».

В то время он был для меня настоящим героем»


Забавно, что буквально через час на той же сцене (но онлайн) выступал сам Илон, который, конечно, в своей речи не поленился снова бросить большой камень в огород (не)OpenAI.

С кем там Маск еще не успел поссориться?
193😁87208🤔3❤‍🔥1💘1
Кем я себя ощущаю, когда вижу хорошие метрики у модели:
1😁273👍2820🔥16🗿8💯3