Data Secrets
77.3K subscribers
6.03K photos
590 videos
20 files
2.42K links
Главный по машинному обучению

Сотрудничество: @veron_28

РКН: clck.ru/3FY3GN
Download Telegram
Китайский стартап MiniMax вслед за DeepSeek решили устроить неделю релизов. Вот что уже выпустили:

В понедельник – первая ризонинг-модель стартапа M1, да еще и в опенсорсе, еще и с огромным контекстом в миллион токенов. Вывод поддерживает до 80 тысяч токенов. Это самое длинное в мире контекстное окно. Есть агентские способности.

Обучили, кстати, всего за 500к долларов, а по бенчмаркам чуть хуже Gemini 2.5 Pro. Вот репорт, гитхаб и веса.

Вчера – text/image2video модель Hailuo 2. Поддерживает сложную физику и телодвижения, хорошо понимает инструкции. Особенно хвастаются разработчики рекордной производительностью и дешевизной. Попробовать можно тут, бесплатно.

В общем, начало релизной недели MiniMax заложили основательное. Сегодня тоже ждем чего-нибудь интересного 🤓
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
1🔥135👍2923🗿86🤔5🤯2🦄2👏1🤩1
Nvidia стала рекордсменом ИИ-опенсорса среди корпораций

На скрине их карта активности на Hugging Face с начала 2025. Всего за год – 347 релизов. Они обогнали Meta, Microsoft, Google, Mistral, DeepSeek и даже самих HuggingFace.

Впереди них в общем рейтинге только стартап Ai2 (они целенаправленно занимаются опенсорсом датасетов и моделей).

Забавно, что в мире корпораций, занимающихся софтом, лидирует в таком рейтинге именно та, которая занимается железом

Респект
1😁131🔥70🫡2824👏8❤‍🔥2🍓11
This media is not supported in your browser
VIEW IN TELEGRAM
Уже известные вам alphaXiv завезли в свой инструментарий Research агента, который сможет помочь исследователям с их статьями

Напоминаем, что alphaXiv – это зеркало arXiv на ИИ-максималках. На платформе уже есть бесплатный агент для Deep Research, агент для работы с кодовой базой любой статьи, генератор конспектов и контекстный чат-бот для ответов на вопросы по статьям.

А теперь еще появился Research Agent. Суть: вы подгружаете свою статью или ее часть, а агент ее анализирует, проверяет, опираясь на релевантные статьи со всего интернета, составляет ревью литературы, предлагает дополнительные идеи и помогает с текстом.

А скоро, кстати, обещают еще и интеграцию MCP

🍯 www.alphaxiv.org/assistant
1🔥12329👍1554🤯2❤‍🔥1
This media is not supported in your browser
VIEW IN TELEGRAM
«Учитесь на сантехника» и еще 3 цитаты отца ИИ Джеффри Хинтона из большого нового интервью

«Сверхразум появится через 10-20 лет, а сокращение рабочих мест уже началось, даже если вы этого не замечаете. В одной крупной компании CEO сократил штат в половину только с начала 2025»


«Цифровой интеллект неизбежно будет доминировать, потому что человек передает информацию со скоростью 10 бит в секунду, а ИИ – со скоростью триллионы бит в секунду. К тому же, ИИ не может умереть. Мы решили проблему бессмертия, просто не для настоящего мозга»


«Учитесь на сантехника. Эта профессия – одна из немногих, которую ИИ заменит еще не скоро»


«Вероятность вымирания человечества из-за ИИ – примерно 10-20%. И это не остановить. Компании будут максимизировать прибыль, ИИ будет становиться лучше, и гонка продолжится, несмотря на риски»


Интервью полностью советуем посмотреть здесь, не пожалеете
2🗿178😁64🫡5022👍13107👀3👾2🤔1🍾1
Midas Project опубликовали 50 страниц независимого расследования внутрянки OpenAI

Это первый настолько масштабный и доскональный анализ публичной информации о компании. Тут тебе и про реструктуризацию, и про очередное вранье Альтмана, и про дыры в безопасности. В общем, TL;DR:

Помните рисерчера, у которого OpenAI забрали два миллиона долларов акциями, когда тот при увольнении отказался подписывать пожизненное NDA? Мы о нем вот тут рассказывали. Так вот Альтман публично заявлял, что он не знал об этом, а теперь оказывается, что на соответствующих документах стояла его подпись, а тот рисерчер – не первый и не последний, кто попал в такую ситуацию.

Хотя компания и отказалась от перехода в полный профит, а будет Public Benefit Corporation, это все равно что шило на мыло. Оказалось, что главными целями стартапа было избавиться от потолка прибыли для инвесторов (чтобы те давали больше денег) и от контроля некоммерческого совета, и в PBC они это получат. Некоммерческий совет останется, но уже будет чисто символическим: никакого влияния на решения. Просто чтобы общественность не бурлила.

OpenAI ускоряет выход продуктов, игнорируя собственные процедуры тестирования безопасности. Конечные чекпоинты моделей могут не проверяться вообще, часто тестируются только промежуточные версии. И то, если раньше это занимало месяцы, то теперь сроки сжаты до дней, причем почти все тесты автоматизированы. В общем, считай, без тестирования вообще.

А еще всплыла интересная цитата Суцкевера. Оказывается, когда он в 2023 году голосовал за увольнение Альтмана, он прямо сказал, что «Сэм – абсолютно точно не тот человек, который должен держать палец на кнопке AGI».

Вот такие дела. Расследование полностью –> www.openaifiles.org/
Please open Telegram to view this post
VIEW IN TELEGRAM
1😁1277842👍2118🤯16🫡12🔥10👏321
В опенсорсе появился первый тренажер для ИИ-алгоритмов в рекламных аукционах

Последний вклад в эту область был 12 лет назад, тогда вышел открытый датасет iPinYou. С ним многие работали, но он уже устарел.

Сегодня, наконец, нашлась достойная замена – BAT. Это даже не просто датасет, а целая платформа-песочница. А самое интересное, что выпустил ее не кто иной, как российский Авито на конференции ACMWC25 в Австралии 🦘

Рекламные аукционы – это то, на чем строится работа почти всей контекстной рекламы в интернете. Алгоритмы РА выбирают, какое объявление показать пользователю в каждый момент времени так, чтобы максимизировать клики и доход платформы, не просадив при этом метрики рексис.

В Авито на ИИ-аукционах работает вся система монетизации, когда продавец платит за продвижение объявления (подробнее). Так что у ребят опыта много, и они решили поделиться своими наработками с сообществом.

Суть платформы BAT (Benchmark for Auto-bidding Task) в том, что теперь абсолютно любая компания может проверить свои алгоритмы на реальных анонимизированных данных без необходимости строить свою сложную инфру. Алгоритм должен рассчитать ставку, затем весь процесс аукциона пройдет в тестовой среде, и разработчик получит результат. Данных, кстати, в BAT в 1000 раз больше, чем в iPinYou.

Это очень существенная демократизация рынка. По оценке рисерчеров, в среднем при помощи BAT рекламные платформы могут увеличить свой доход на 10-20% при том же объеме рекламы. Рекомендации, соответственно, будут точнее, а рекламодатели будут получать до 20% больше кликов.

Уже доступно на GitHub
Please open Telegram to view this post
VIEW IN TELEGRAM
155🔥24👍16🗿44😁3🤯31
Midjourney запустили собственную модель для генерации видео

Все любители ждали от стартапа text2video уже давно, и вот, наконец, свершилось.

В стиле Midjourney основной упор – на эстетику и детализацию пользовательских инструкций. Например, можно настроить, насколько динамичными должны быть движения на видео. Кроме генераций по тексту, можно также анимировать картинки.

Еще из интересного: генерация начинается с 5-секундных видео, но затем ролик можно удлинить. Разрешение пока тоже небольшое, зато рендерится быстро и выдает сразу несколько вариантов видео, как и в image модели.

Есть также режим auto-prompt, если не хотите расписывать инструкции. Фактически, MJ сгенерирует вам что-то случайное.

В целом генерации получаются достаточно вайбовые, особенно если запариться с деталями промпта. Попробовать можно тут -> midjourney.com/home
156🔥28👍13🤨6🤯3😁1
Data Secrets
Midas Project опубликовали 50 страниц независимого расследования внутрянки OpenAI Это первый настолько масштабный и доскональный анализ публичной информации о компании. Тут тебе и про реструктуризацию, и про очередное вранье Альтмана, и про дыры в безопасности.…
И следом за утренней новостью о только что вышедшем расследовании секретов OpenAI стало известно, что стартап увольняет людей из команды управления рисками

Эта команда занимается такими вещами, как утечки, кражи данных, сливы весов моделей, ну и другими внутренними и внешними угрозами.

И именно сейчас, почему-то, OpenAI решили перестроить это подразделение. Причем они не просто берут новых инженеров, а увольняют предыдущих сотрудников и нанимают людей на их места. Объясняют это тем, что «компания выросла и теперь сталкивается с угрозами другого уровня».
1😁120🤔36🤯1365👍4👏4
Новая лекция от Андрея Карпаты: «Разработка в эпоху ИИ»

На этой неделе в Сан-Франциско прошло крупное мероприятие AI Startup School от очень известного венчурного фонда Y Combinator.

На нем со своей свежей лекцией выступил легендарный Андрей Карпаты. Запись уже можно найти здесь. Внутри:

Куда движется software разработка, и к чему мы придем через пару лет

Как выглядит вайб-кодинг здорового человека сегодня и что такое partial autonomy apps

Как будут работать операционные системы на основе LLM

В чем основные проблемы современных LLM и почему они на самом деле возникают

Чему обязательно нужно учиться современному программисту


В общем, советуем посмотреть. Лекции Карпаты, как всегда, на высоте
Please open Telegram to view this post
VIEW IN TELEGRAM
360🤯57👍3214🔥5😁41
Школа Высшей Математики проведет самый емкий курс по файн-тюнингу LLM

Умение тюнить модели под конкретные задачи становится ключевым навыком уже не только для ML-щиков, но и для рядовых разработчиков, предпринимателей и в целом любителей LLM.

Если хотите освоить файн-тюнинг быстро и четко, ШВМ – проверенный вариант. У них преподают профессора МГУ и целыми командами обучаются сотрудники Сбера, ВК, Т-Банка, МТС, X5 и тд.

На курсе «LLM под ваши задачи» расскажут про тюнинг от А до Я. В программе: база по LLM, гайд по сбору данных и генерации синтетики, все про SFT и правильный эвал. Все – доступным точным языком.

Главная ценность: очень много практики. С курса вы выйдете человеком, который за 1-2 дня сможет создавать MVP на базе LLM под любой специфический запрос.

Курс стартует уже 30 июня, но пока еще есть возможность записаться на сайте. Для наших подписчиков действует скидка 20% по промокоду DS20 🙌
Please open Telegram to view this post
VIEW IN TELEGRAM
😁431815👍12🗿8🔥3🤯21
Ирония дня: автор работы про влияние ИИ на мозг человека специально вставила в свою статью бэкдоры, которые мешают ИИ суммаризировать текст

На днях на просторах интернета пользователи начали активно обсуждать статью от MIT, в которой исследователи сканировали мозг человека на предмет влияния ИИ.

Кратко про само исследование: взяли студентов, разделили на 3 группы и попросили написать несколько эссе. Одни пользовались ChatGPT, другие гуглом, третьи – ничем.

Результаты получились довольно предсказуемые: те, кто пользовались ChatGPT, задействовали меньше нейронных связей, с трудом могли пересказать свое письмо, а к последним эссе совсем «выключали» мозг и скатывались в копипаст.

Напротив, те, кто пользовались Google или писали полностью самостоятельно, демонстрировали высокую активность мозга и удовлетворенность от своей работы.

При этом сами авторы никаких глобальных выводов из этого не делают: они сами пишут, что выборка была небольшой, эксперименты еще надо продолжать, а статьей они просто хотели обратить внимание на проблему того, что в школах и университетах студенты все чаще пользуются ИИ для вот такого топорного списывания, и мозг (что естественно) начинает лениться. При этом, цитата: «В определенных сценариях ИИ наоборот может ускорять обучение и развивать способности человека».

В общем, работа как работа, но по интернету она разлетелась под видом «ИИ убивает мозг» – в том числе потому, что многие в саму статью даже не заглядывали, а суммаризировали ее с ИИ. Автор это предвидела и специально вставила в текст несколько бэкдоров, которые заставляли модели игнорировать некоторые важные части. Вот в саммари и получалось что-то типа «ChatGPT угробит ваши нейронные связи», а пользователи все это транслировали в соцсети.

Вот такая история. Мораль придумайте сами 🏃‍♀️
Please open Telegram to view this post
VIEW IN TELEGRAM
1😁440632622🔥15👍13🤔7👻4🤯3
Админ в роли родителя, миниатюра:
😁172🔥291110👍7🗿61
This media is not supported in your browser
VIEW IN TELEGRAM
Google показали пример генеративной операционной системы

Это тот самый концепт, о котором так много говорит Карпаты (см. этот и этот посты). Суть в том, что в системе на самом деле нет никаких готовых приложений, никакого предустановленного интерфейса, ничего.

Каждый раз, когда вы на что-то нажимаете, следующий экран полностью генерируется моделью в режиме онлайн. Да, если вы заходите в приложение – оно тоже генерируется с нуля в моменте. Вместо оперативки – контекстное окно: файлы не хранятся, а тоже генерируются каждый раз заново на основе ваших предыдущих действий.

У Google это называется Gemini Computer. Надо сказать, что это не отдельный релиз, а просто демка способностей новой Gemini 2.5 Flash Light, которую вчера выложили на YouTube официального аккаунта.

Мол: посмотрите, новая модель настолько резвая, что с ней можно даже вот такое провернуть (460 токенов в секунду – действительно хороший результат).

В общем, выглядит очень занятно. Google, кажется, первые, кто додумался что-то такое сделать: youtu.be/q6qD_i1Et2w
3116🔥6541🤨20😁15🤯11👀98👍6🗿5🤔2