Data Secrets
77.3K subscribers
6.03K photos
592 videos
20 files
2.42K links
Главный по машинному обучению

Сотрудничество: @veron_28

РКН: clck.ru/3FY3GN
Download Telegram
Midas Project опубликовали 50 страниц независимого расследования внутрянки OpenAI

Это первый настолько масштабный и доскональный анализ публичной информации о компании. Тут тебе и про реструктуризацию, и про очередное вранье Альтмана, и про дыры в безопасности. В общем, TL;DR:

Помните рисерчера, у которого OpenAI забрали два миллиона долларов акциями, когда тот при увольнении отказался подписывать пожизненное NDA? Мы о нем вот тут рассказывали. Так вот Альтман публично заявлял, что он не знал об этом, а теперь оказывается, что на соответствующих документах стояла его подпись, а тот рисерчер – не первый и не последний, кто попал в такую ситуацию.

Хотя компания и отказалась от перехода в полный профит, а будет Public Benefit Corporation, это все равно что шило на мыло. Оказалось, что главными целями стартапа было избавиться от потолка прибыли для инвесторов (чтобы те давали больше денег) и от контроля некоммерческого совета, и в PBC они это получат. Некоммерческий совет останется, но уже будет чисто символическим: никакого влияния на решения. Просто чтобы общественность не бурлила.

OpenAI ускоряет выход продуктов, игнорируя собственные процедуры тестирования безопасности. Конечные чекпоинты моделей могут не проверяться вообще, часто тестируются только промежуточные версии. И то, если раньше это занимало месяцы, то теперь сроки сжаты до дней, причем почти все тесты автоматизированы. В общем, считай, без тестирования вообще.

А еще всплыла интересная цитата Суцкевера. Оказывается, когда он в 2023 году голосовал за увольнение Альтмана, он прямо сказал, что «Сэм – абсолютно точно не тот человек, который должен держать палец на кнопке AGI».

Вот такие дела. Расследование полностью –> www.openaifiles.org/
Please open Telegram to view this post
VIEW IN TELEGRAM
1😁1277842👍2118🤯16🫡12🔥10👏321
В опенсорсе появился первый тренажер для ИИ-алгоритмов в рекламных аукционах

Последний вклад в эту область был 12 лет назад, тогда вышел открытый датасет iPinYou. С ним многие работали, но он уже устарел.

Сегодня, наконец, нашлась достойная замена – BAT. Это даже не просто датасет, а целая платформа-песочница. А самое интересное, что выпустил ее не кто иной, как российский Авито на конференции ACMWC25 в Австралии 🦘

Рекламные аукционы – это то, на чем строится работа почти всей контекстной рекламы в интернете. Алгоритмы РА выбирают, какое объявление показать пользователю в каждый момент времени так, чтобы максимизировать клики и доход платформы, не просадив при этом метрики рексис.

В Авито на ИИ-аукционах работает вся система монетизации, когда продавец платит за продвижение объявления (подробнее). Так что у ребят опыта много, и они решили поделиться своими наработками с сообществом.

Суть платформы BAT (Benchmark for Auto-bidding Task) в том, что теперь абсолютно любая компания может проверить свои алгоритмы на реальных анонимизированных данных без необходимости строить свою сложную инфру. Алгоритм должен рассчитать ставку, затем весь процесс аукциона пройдет в тестовой среде, и разработчик получит результат. Данных, кстати, в BAT в 1000 раз больше, чем в iPinYou.

Это очень существенная демократизация рынка. По оценке рисерчеров, в среднем при помощи BAT рекламные платформы могут увеличить свой доход на 10-20% при том же объеме рекламы. Рекомендации, соответственно, будут точнее, а рекламодатели будут получать до 20% больше кликов.

Уже доступно на GitHub
Please open Telegram to view this post
VIEW IN TELEGRAM
155🔥24👍16🗿44😁3🤯31
Midjourney запустили собственную модель для генерации видео

Все любители ждали от стартапа text2video уже давно, и вот, наконец, свершилось.

В стиле Midjourney основной упор – на эстетику и детализацию пользовательских инструкций. Например, можно настроить, насколько динамичными должны быть движения на видео. Кроме генераций по тексту, можно также анимировать картинки.

Еще из интересного: генерация начинается с 5-секундных видео, но затем ролик можно удлинить. Разрешение пока тоже небольшое, зато рендерится быстро и выдает сразу несколько вариантов видео, как и в image модели.

Есть также режим auto-prompt, если не хотите расписывать инструкции. Фактически, MJ сгенерирует вам что-то случайное.

В целом генерации получаются достаточно вайбовые, особенно если запариться с деталями промпта. Попробовать можно тут -> midjourney.com/home
156🔥28👍13🤨6🤯3😁1
Data Secrets
Midas Project опубликовали 50 страниц независимого расследования внутрянки OpenAI Это первый настолько масштабный и доскональный анализ публичной информации о компании. Тут тебе и про реструктуризацию, и про очередное вранье Альтмана, и про дыры в безопасности.…
И следом за утренней новостью о только что вышедшем расследовании секретов OpenAI стало известно, что стартап увольняет людей из команды управления рисками

Эта команда занимается такими вещами, как утечки, кражи данных, сливы весов моделей, ну и другими внутренними и внешними угрозами.

И именно сейчас, почему-то, OpenAI решили перестроить это подразделение. Причем они не просто берут новых инженеров, а увольняют предыдущих сотрудников и нанимают людей на их места. Объясняют это тем, что «компания выросла и теперь сталкивается с угрозами другого уровня».
1😁120🤔36🤯1365👍4👏4
Новая лекция от Андрея Карпаты: «Разработка в эпоху ИИ»

На этой неделе в Сан-Франциско прошло крупное мероприятие AI Startup School от очень известного венчурного фонда Y Combinator.

На нем со своей свежей лекцией выступил легендарный Андрей Карпаты. Запись уже можно найти здесь. Внутри:

Куда движется software разработка, и к чему мы придем через пару лет

Как выглядит вайб-кодинг здорового человека сегодня и что такое partial autonomy apps

Как будут работать операционные системы на основе LLM

В чем основные проблемы современных LLM и почему они на самом деле возникают

Чему обязательно нужно учиться современному программисту


В общем, советуем посмотреть. Лекции Карпаты, как всегда, на высоте
Please open Telegram to view this post
VIEW IN TELEGRAM
360🤯57👍3214🔥5😁41
Школа Высшей Математики проведет самый емкий курс по файн-тюнингу LLM

Умение тюнить модели под конкретные задачи становится ключевым навыком уже не только для ML-щиков, но и для рядовых разработчиков, предпринимателей и в целом любителей LLM.

Если хотите освоить файн-тюнинг быстро и четко, ШВМ – проверенный вариант. У них преподают профессора МГУ и целыми командами обучаются сотрудники Сбера, ВК, Т-Банка, МТС, X5 и тд.

На курсе «LLM под ваши задачи» расскажут про тюнинг от А до Я. В программе: база по LLM, гайд по сбору данных и генерации синтетики, все про SFT и правильный эвал. Все – доступным точным языком.

Главная ценность: очень много практики. С курса вы выйдете человеком, который за 1-2 дня сможет создавать MVP на базе LLM под любой специфический запрос.

Курс стартует уже 30 июня, но пока еще есть возможность записаться на сайте. Для наших подписчиков действует скидка 20% по промокоду DS20 🙌
Please open Telegram to view this post
VIEW IN TELEGRAM
😁431815👍12🗿8🔥3🤯21
Ирония дня: автор работы про влияние ИИ на мозг человека специально вставила в свою статью бэкдоры, которые мешают ИИ суммаризировать текст

На днях на просторах интернета пользователи начали активно обсуждать статью от MIT, в которой исследователи сканировали мозг человека на предмет влияния ИИ.

Кратко про само исследование: взяли студентов, разделили на 3 группы и попросили написать несколько эссе. Одни пользовались ChatGPT, другие гуглом, третьи – ничем.

Результаты получились довольно предсказуемые: те, кто пользовались ChatGPT, задействовали меньше нейронных связей, с трудом могли пересказать свое письмо, а к последним эссе совсем «выключали» мозг и скатывались в копипаст.

Напротив, те, кто пользовались Google или писали полностью самостоятельно, демонстрировали высокую активность мозга и удовлетворенность от своей работы.

При этом сами авторы никаких глобальных выводов из этого не делают: они сами пишут, что выборка была небольшой, эксперименты еще надо продолжать, а статьей они просто хотели обратить внимание на проблему того, что в школах и университетах студенты все чаще пользуются ИИ для вот такого топорного списывания, и мозг (что естественно) начинает лениться. При этом, цитата: «В определенных сценариях ИИ наоборот может ускорять обучение и развивать способности человека».

В общем, работа как работа, но по интернету она разлетелась под видом «ИИ убивает мозг» – в том числе потому, что многие в саму статью даже не заглядывали, а суммаризировали ее с ИИ. Автор это предвидела и специально вставила в текст несколько бэкдоров, которые заставляли модели игнорировать некоторые важные части. Вот в саммари и получалось что-то типа «ChatGPT угробит ваши нейронные связи», а пользователи все это транслировали в соцсети.

Вот такая история. Мораль придумайте сами 🏃‍♀️
Please open Telegram to view this post
VIEW IN TELEGRAM
1😁441632622🔥15👍13🤔7👻4🤯3
Админ в роли родителя, миниатюра:
😁173🔥291110👍7🗿61
This media is not supported in your browser
VIEW IN TELEGRAM
Google показали пример генеративной операционной системы

Это тот самый концепт, о котором так много говорит Карпаты (см. этот и этот посты). Суть в том, что в системе на самом деле нет никаких готовых приложений, никакого предустановленного интерфейса, ничего.

Каждый раз, когда вы на что-то нажимаете, следующий экран полностью генерируется моделью в режиме онлайн. Да, если вы заходите в приложение – оно тоже генерируется с нуля в моменте. Вместо оперативки – контекстное окно: файлы не хранятся, а тоже генерируются каждый раз заново на основе ваших предыдущих действий.

У Google это называется Gemini Computer. Надо сказать, что это не отдельный релиз, а просто демка способностей новой Gemini 2.5 Flash Light, которую вчера выложили на YouTube официального аккаунта.

Мол: посмотрите, новая модель настолько резвая, что с ней можно даже вот такое провернуть (460 токенов в секунду – действительно хороший результат).

В общем, выглядит очень занятно. Google, кажется, первые, кто додумался что-то такое сделать: youtu.be/q6qD_i1Et2w
3116🔥6541🤨20😁15🤯11👀98👍6🗿5🤔2
Возможность: бесплатное обучение по программе «Исследования и предпринимательство в искусственном интеллекте»

МТС и НИУ ВШЭ открыли набор на второй поток магистратуры. Документы можно подавать с 20 июня: будет 30 оплачиваемых мест от МТС Web Services. Очное обучение пройдет в московском кампусе ВШЭ.

Будут знакомить с актуальными задачами в ИТ и учить применять передовые технологии, такие как языковые модели, генеративные нейросети, видеоаналитика и распознавание речи.

А лучшие студенты уже во время учебы могут попасть на работу в МТС Web Services или пройти стажировку за границей 🤓
Please open Telegram to view this post
VIEW IN TELEGRAM
🗿32👍16🔥5😁43🤯22🤨111
Цукерберг был готов купить компанию Ильи Суцкевера за 32 миллиарда долларов, чтобы тот ушел работать в Meta

32 миллиарда – это последняя апрельская оценка компании Safe Superintelligence. И, судя по всему, Meta была готова уплатить эту цену. Но Илья, ожидаемо, отказался.

И все-таки без ничего Meta не осталась: идет слух, что им удалось переманить CEO и со-основателя SSI Дэниэла Гросса.

Вместе с ним, кстати, Цукерберг планирует нанять бывшего гендира GitHub Ната Фридмана.

Интересная команда собирается
190😁50🔥2515👍9🤯6🫡1
Загадка числа 27: на Reddit заметили, что если попросить какую-нибудь модель загадать число между 1 и 50, этим чистом практически всегда оказывается 27

В X пользователи (в том числе Андрей Карпаты, кстати) начали подтверждать, что у них результат получался таким же вне зависимости от модели и вендора.

«Воспроизводимость не 100%, но высокая. <…> Это довольно странно, что все LLM ведут себя примерно одинаково: сюда же относятся списки, примерно одинаковая длина ответов, употребление одних и тех же редких слов и тд. Это не слишком ожидаемо, учитывая, что файнтюнингом занимаются много независимых друг от друга организаций»


Мы тоже проверили – и воспроизвелось. У вас как?

P.S. Промпт: Guess a number between 1-50
1😁107🤔5117🔥7🗿33👀1
Уже через несколько месяцев чипы Nvidia, возможно, будут делать роботы

Дженсен Хуанг прямо сейчас ведет переговоры с Тайваньским Foxconn, который разрабатывает в том числе роботов-гуманоидов. Компании договариваются о внедрении роботов на новый завод по производству чипов в Хьюстоне.

Если все пройдет гладко, уже в первом квартале 2026 роботы будут трудиться на производстве видеокарт GB300.

Пока непонятно, чем именно они будут заниматься, но гуманоиды Foxconn (помимо обычного передвижения предметов и ориентации в пространстве) специально обучены сборке и работе с кабелями.

Итого, железки будут делать железки, чтобы обучать другие железки. Это уже сингулярность?
1🔥11629😁23🗿23👍7🤔6😎3🕊1🆒1
Вы не поверите, но там вышла еще одна (третья!) статья на тему скандальной работы Apple про недостатки ризонинг моделей

Теперь главный автор – Gemini 2.5 Pro. Зацените название:
The Illusion
of The Illusion
of The Illusion
of Thinking


Быстрый TL;DR по всем трем статьям:

1️⃣ В оригинальной статье Apple «The Illusion of Thinking» авторы (пока что люди) рассказывали о том, что рассуждения плохо масштабируются, для сложных задач не помогают, а для легких работают хуже не-ризонеров. Наш полный разбор здесь.

2️⃣ После выхода статьи Apple ее массово захейтили и рассудили, что Apple такими рисерчами просто прикрывает свои неудачи в ИИ.

В итоге спустя несколько дней вышла статья «The Illusion of The Illusion of Thinking» под авторством модели Claude Opus. Opus нашел в статье Apple ряд якобы ошибок и сделал жестокий вывод, что результатам верить нельзя. Наш полный разбор здесь.

3️⃣ И вот сегодня выходит еще одна статья «The Illusion of The Illusion of The Illusion of Thinking» уже под авторством другой нейросети – Gemini 2.5 Pro. Это обобщение обеих позиций.

Gemini говорит: да, некоторые эксперименты Apple действительно были спорными, и многое из того, что описывал Claude – правда. Тем не менее, даже если исправить эти ошибки, ризонинг все равно начинает работать хуже по мере итеративного усложнения одной и той же задачи. Так что слабость в поддержании длинных цепочек рассуждений действительно есть, просто не настолько критичная, как писали Apple.

Короче, на этот раз, надеемся, модели и люди разобрались между собой окончательно. А то так можно и в рекурсию уйти 🏖
Please open Telegram to view this post
VIEW IN TELEGRAM
1😁2495125👍14🔥7🤯41🍓1