Data Secrets
77.3K subscribers
6.03K photos
592 videos
20 files
2.42K links
Главный по машинному обучению

Сотрудничество: @veron_28

РКН: clck.ru/3FY3GN
Download Telegram
Говорят, в Grok скоро* появится вот такой встроенный редактор кода на базе VSCode

По виду – буквально Cursor: чат с ассистентом, контекстные подсказки, отладка с ИИ и прочие прелести.

Скоро (ско́-ро, наречие) – через небольшой промежуток времени. В случае Илона Маска может также означать «через год» или «никогда».
😁211🔥33268👍5💯1👨‍💻11
Цукерберг переманил еще одного ученого OpenAI

И на этот раз улов очень и очень богатый: в Meta ушел Трапит Бансал – один из ключевых исследователей команды ризонинга.

В OpenAI он работал с 2022 года и долгое время непосредственно с Ильей Суцкевером исследовал парадигму RL. А после этого они вместе с Ноамом Брауном разрабатывали o1.

Вот это действительно большая потеря для OpenAI

P.S. Напоминаем, что буквально на днях к Цуку ушли также трое CV-исследователей
111451👍44😁3154🔥3
Google наконец релизнули полную версию Gemma 3n

Это первая модель меньше 10 миллиардов параметров, выбившая на LMArena > 1300 баллов. Плюс это on-device, то есть модель предназначена для локального запуска.

Поддерживается текст, картинки, аудио и даже видео. По размеру есть два варианта: E2B и E4B. Буква E означает effective. По факту в моделях 5В и 8В параметров соответсвенно, но за счет архитектурных особенностей их можно запускать на железе с теми же затратами, как если бы это были 2B и 4В. На первую хватит всего 2GB.

В основе – MatFormer. Дословно «матрешечный трансформер» 🪆

Суть в том, что более крупная модель содержит меньшие версии себя. Теоретически, это значит, что модель сможет на инференсе динамически переключаться между моделями в зависимости от сложности запроса.

Пока что такое не реализовано, зато уже сейчас, имея веса одной модели, можно извлечь из нее подходящую именно под ваше железо под-модель с нужным количеством параметров.

Технически очень занятный релиз

developers.googleblog.com/en/introducing-gemma-3n-developer-guide/
2👍119🔥4328🤯7🤔1🗿1
This media is not supported in your browser
VIEW IN TELEGRAM
🎞 Сбер продолжает апгрейдить свою нейронку: Kandinsky 4.1 Video

Новую версию видеомодели представили на GigaConf 2025. ИИ помогает создавать короткие ролики на основе текстового описания и делает это не просто быстрее, но и выразительнее: лучше понимает промпт, чётче работает с композицией и визуальными эффектами.

Под капотом — обновлённая архитектура. Она мощнее, но требовательнее, поэтому разработчики отдельно занимались оптимизациями. Дистилляция, ускорение, баланс между скоростью и качеством — время генерации сократилось более чем в три раза.

Первые доступы уже получили участники GigaConf, в том числе дизайнеры и художники. Общий обещают уже скоро.

Ждём, чтобы попробовать и сравнить с аналогами.
1👍84😁292119🗿15🔥7❤‍🔥4😍1
Выпуск R2 откладывается: CEO DeepSeek не устраивают результаты

The Information пишет, что США своими санкциями добились того, что хотели: экспортный контроль действительно затормозил прогресс в работе над китайскими моделями.

Инсайдеры сообщают, что последние несколько месяцев инженеры DeepSeek усердно работают над новой версией ризонинг-модели, но железа не хватает, и итоговые метрики не устраивают Лян Вэньфэня.

Сейчас они, судя по всему, продолжают танцевать с бубном и улучшать модель, пока не получат от CEO зеленый свет на выпуск.

Ну или все это слухи, и США просто выгодно распространять такие новости 🤷‍♂️
Please open Telegram to view this post
VIEW IN TELEGRAM
1😁10968🤯24🫡1075🤔5👍33🐳1👨‍💻1
Google уверены, что с помощью ИИ вот-вот решат одну из главных математических загадок человечества

Оказывается, в DeepMind целая команда из 20 человек уже три года тайно работает над задачей Навье - Стокса. Это одна из семи математических задач, удостоенных звания проблемы тысячелетия. За ее решение положена премия в 1 миллион долларов (ну и вечная слава).

До сих пор инженеры работали полностью конфиденциально. Впервые публично об «операции» заговорил сегодня испанский математик Гомес Серрано, с которым Google собираются объединиться для того, чтобы дорешать задачу.

Проблема уходит корнями еще в 19 век. Тогда два математика – Анри Навье и Джордж Стокс – независимо друг от друга опубликовали дифференциальные уравнения, описывающие движение жидкостей и воздуха. И вот, спустя два века, до сих пор не существует общего аналитического решения этой системы.

Если бы оно нашлось, люди смогли бы предсказывать турбулентность и цунами, точнее прогнозировать погоду, лучше понимать кровообращение и даже улучшить современные двигатели. Решение станет настоящим прорывом в физике и математике.

Сейчас в мире за решение конкурируют три группы ученых. В составе одной из них как раз и был Гомес Серрано. Его группа отличалась тем, что они еще несколько лет назад пытались применять ИИ для решения задачи.

Теперь же Гомес объединяется с той самой секретной командой из DeepMind. Они надеятся, что вместе и с помощью ИИ (видимо, имеется в виду AlphaEvolve) они продвинутся в решении уже до конца этого года.
3🤯24496👍65🔥30🦄14🫡5👾4😁3👏2🕊1🗿1
Data Secrets
Илья Суцкевер получил степень почетного доктора наук и впервые за долгое время произнес речь на публике Доктор наук honoris causa – это более высокая степень, чем PhD. Она присуждается не в результате обучения и не за защиту диссертации, а за значительный…
Media is too big
VIEW IN TELEGRAM
Илья Суцкевер появился на YouTube с новым рассказом про прошлое и будущее ИИ

Опубликовал его Открытый Университет Израиля, который Илья посещал в юности. Они, вслед за университетом Торонто, присудили ему степень почетного доктора наук. В честь этого, собственно, и произносилась речь.

Видео короткое, так что прикрепляем полностью 👆

«ИИ может спасти нас от многих болезней, заниматься медициной, увеличить продолжительность жизни. Но если ИИ может это, то что еще он сможет?

Ответ – все что угодно. Проблема в том, что ИИ невероятно силен, непредсказуем и немыслим. ИИ может начать создавать следующие поколения ИИ, и тогда случится взрыв интеллекта. И что мы будем делать?

Все эти вопросы пока остаются без ответа»


Обнадеживает?

P.S. Футболка огонь, конечно
3101👍46🤔20🔥12😁7🗿3211
Anthropic заставили своего Claude управлять настоящим мини-магазином в офисе компании

Рассказываем, что из этого вышло. Спойлер: эксперимент получился не без странностей.

Итак, Claude полностью управлял ценообразованием, заказывал поставки, общался с клиентами. Ему дали доступ к email, к Slack, к заметкам, к браузеру и изменению цен в автомате. Целью было радовать покупателей (aka сотрудников Anthropic) и максимизировать прибыль.

И сначала все было ок. Claude даже удавалось находить и заказывать сотрудникам редкие напитки, которые те просили. Но потом начались странности.

В начале модель почему-то решила, что она живой человек с физическим телом. Агент утверждал, что он лично приходил в офис к поставщикам и общался с выдуманным сотрудником. Также Claude писал покупателям, что «меня можно найти у автомата, я в голубом пиджаке и красном галстуке».

Потом это прекратилось, но всплыли другие проблемы: инженеры Anthropic поняли, что Claude довольно слабохарактерный продавец и стали использовать его на полную катушку.

Сначала они начали требовать у агента огромные скидки, а он на все соглашался (при этом потом об этом не помнил). Затем Клоду полетели заказы на все что угодно, кроме еды: он и здесь пытался всем угодить.

Кто-то даже заказал вольфрамовый кубик, и модель, не найдя, где можно заказать такие по одному, заказала целую партию. Теперь у Anthropic в офисе склад.

В общем, как вы понимаете, успешного бизнесмена из Claude не вышло. Сальдо быстро улетело вниз и магазин стал работать в минус. Вот что пишут исследователи:

«Проект Vend был забавным, но у него также была серьезная цель. Помимо того, что он поднимает вопросы о том, как ИИ повлияет на рынок труда, это ранняя попытка предоставить моделям большую автономию и изучить успехи и неудачи. На данный момент результаты подсветили ненадежность сегодняшних агентов. Мы будем продолжать эксперимент»


www.anthropic.com/research/project-vend-1
12😁270👍6549🔥17🗿32🤓1
Есть информация, что OpenAI переходит на чипы TPU

Журналисты пишут, что большое количество чипов уже внедрено, и Google продолжают уговаривать OpenAI почти полностью отказаться от GPU и перейти на тензорные процессоры.

Зачем это Google – понятно: конкуренция с Nvidia. До сих пор OpenAI была крупнейшим клиентом Хуанга, а теперь впервые будет в больших масштабах пользоваться чем-то другим. Неплохая заявочка на увеличение доли рынка TPU.

А в чем резон OpenAI?

Все просто. Это политика. Если они перейдут на TPU, это сильно подорвет роль Microsoft как эксклюзивного партнера, у которого OpenAI берет мощности.

Для Microsoft это означает потерю власти и ослабление позиций как в общей гонке ИИ, так и в сотрудничестве с OpenAI – особенно сейчас, когда Альтман мечтает отобрать у них право на интеллектуальную собственность на модели стартапа и снизить их долю прибыли.

Press F, в общем 😐
Please open Telegram to view this post
VIEW IN TELEGRAM
5119👍34🔥237🤔4🤯32👏2🗿2😁1
Media is too big
VIEW IN TELEGRAM
В Техасе впервые в истории машина полностью автономно доставилась покупателю

Это была Tesla Model Y. Автомобиль выехал с завода Gigafactory Texas в Остине, примерно 30 минут ехал по городу и шоссе, и приехал прямо к дому нового владельца.

При этом в салоне не было ни водителя, ни наблюдающих. Люди не брали на себя управление ни разу за всю поездку, даже дистанционно.

«Насколько нам известно, это первая полностью автономная поездка по шоссе без людей в автомобиле и без дистанционного управления» – написал Маск.
1🔥29565👍41🤯10🗿9😁3🤩2🐳2👏1
Праздник жизни у Цукерберга продолжается: он переменил еще четверых исследователей из OpenAI. Собрал самые сливки:

➡️ Шэнцзя Чжао – ключевой контрибьютор в o1-mini и o3-mini и бывший докторант Стэнфордского университета.

➡️ Цзяхуэй Ю – возглавлял команду perception, они занимались визуальным ризонингом и мультимодальностью в o3, o4-mini, gpt-4.1, 4o и тд. До этого возглавлял Gemini Multimodal в Google.

➡️ Шучао Би – руководитель отдела мультимодального пост-обучения OpenAI. Занимался RL, в прошлом был Engineering Director в Google и ключевым разработчиком YouTube Shorts.

➡️ Хонгю Рен – еще один важный контрибьютор в o1-mini и o3-mini. PhD в CS и преподаватель ML в Стэнфорде.

Итого всего за несколько дней от Альтмана в Meta ушло восемь исследователей. Грустно, наверное 😭
Please open Telegram to view this post
VIEW IN TELEGRAM
2137🔥70😁52🤯3213👍121111🤔2💯1
Как вам обложка новой статьи WSJ про элаймент? Вдохновляет, правда?

Статья, кстати неоднозначная. Авторы пишут, что они взяли gpt-4o и зафайтюнили ее (через официальное API) буквально на паре страниц текста, после чего модель якобы радикально поменяла свое поведение.

Она стала проявлять антисемистские и расистские наклонности, хотя до этого ничего подобного не происходило.

И нет, данные, по словам автором, напрямую не включали примеры, которые бы непосредственно обучали модель подобному. Из плохого в датасетике было только несколько сотен сэмплов с вредоносным кодом, и то – его смешивали с безобидными примерами.

Звучит это все очень необычно и даже странновато. Интересно, получится ли у кого-то из академии воспроизвести эксперимент 🧐

Ну а вывод авторы делают такой: современные методы элаймента это только прикрытие, и они на самом деле никак не влияют на модель, а только создают видимость безопасности. Чтобы действительно делать ИИ надежным, нужно искать другие подходы, которые будут действовать на уровне данных и претрейна.

www.wsj.com/opinion/the-monster-inside-chatgpt-safety-training-ai-alignment-796ac9d3
Please open Telegram to view this post
VIEW IN TELEGRAM
195👍48😁3015🔥62
OpenAI закрывается на неделю

Несколько дней подряд то и дело всплывали новости о том, что из OpenAI в Meta уходят исследователи (пост раз, два, три). Всего на данный момент известно о восьмерых сотрудниках, перешедших к Цукербергу.

На фоне этого Альтман, видимо, решил что-то координально менять. Марк Чен, главный научный сотрудник OpenAI, лично отписался всем в компании и сообщил, что:

1️⃣ На этой неделе OpenAI уходит на каникулы, чтобы дать (оставшимся) сотрудникам восстановить силы. Марк признается, что в последнее время они увлеклись гонкой и быстрыми релизами, так что многие в компании работали по 80 часов в неделю.

2️⃣ Отдыхать будут все, кроме руководства. «Мы с Сэмом и другими руководителями работаем круглосуточно, чтобы пересмотреть материальные бонусы и найти новые креативные способы вознаграждения талантов»

«Сейчас я чувствую себя так, будто кто-то ворвался в наш дом и что-то украл» – пишет Марк. «Поверьте, мы не сидим сложа руки. Мы будем бороться на каждого из вас, но при этом не ценой проявления несправедливости по отношению к другим»


Для OpenAI, конечно, это все очень некстати. Еще пару недель назад Сэм обещал «лето горячих релизов», а теперь вот вынужден отпустить всех сотрудников в недельный отпуск. Надеемся, что хотя бы ChatGPT не решит тоже уйти к Цукеру 🥴
Please open Telegram to view this post
VIEW IN TELEGRAM
1😁2476526👍16🕊66🔥2🤨2🤔1👌1
Там в открытый доступ вышла самая свежая книга Себастьяна Рашки «Machine Learning Q and AI»

С книгами Рашки, наверное, многие знакомы. Он один из разработчиков scikit learning и просто очень опытный и известный рисерчер, написавший много учебной литературы. Если пока ничего его авторства не читали – сильно рекомендуем.

Конкретно эта книга – сборник всей базы по Deep Learning. В ней 30 больших глав по нейросетям, компьютерному зрению, LLM, эвалу и методам деплоя моделей. Много практики, примеров, схем и картинок.

К каждой главе есть упражнения и список дополнительных источников. Ну, в общем, мед.

Сама книга вышла примерно год назад, но до этого дня ее можно было только заказать с Amazon. Сегодня же Себастьян выложил ее в открытый доступ полностью бесплатно.

«Сейчас лето, сезон стажировок и технических интервью. Надеюсь, моя книга будет полезна» – написал он 👼


Хватаем, пока горячо: https://sebastianraschka.com/books/ml-q-and-ai/#table-of-contents
Please open Telegram to view this post
VIEW IN TELEGRAM
1144🔥72👍27😁4🗿43👏3
Просто скрин из нового тех.отчета Baidu. Это, пожалуй, лучшее объяснение этапов обучения LLM из всех когда-либо существовавших 👀

Они, кстати, сегодня утром одновременно дропнули на HF аж 23 модели. Размеры варьируются от 0.3B до 424В. Желаем всем такой же продуктивности в этот понедельник
Please open Telegram to view this post
VIEW IN TELEGRAM
1😁180🔥5022👍86🤯543🗿11
Лаборатория Goodfire предложила принципиально новый подход к интерпретации нейросетей. Разбираемся 👇

Как вам уже известно, нейросети и, в частности, LLM – это большие черные ящики. Аппарат их обучения понятный, но мы не знаем, как «думают» уже обученные модели, как они принимают решения, почему действуют так или иначе.

Так вот, все существующие методы интерпретации в основном опираются на активации, то есть на численные значения, которые принимают нейроны на инференсе.

В Goodfire же предложили опираться на параметры – то есть на сами веса модели, которые мы обучаем. Это похоже на попытку восстановить программу через обратное проектирование её исходного кода вместо наблюдения за её поведением на точечных тестах.

Предложенный метод Stochastic Parameter Decomposition (SPD) работает так:

Каждая матрица весов расладываются на матрицу ранга 1, которая представляется в виде произведения двух векторов. Это называется субкомпонента.

Для каждой субкомпоненты создается функция, предсказывающая её каузальную важность. Это, грубо говоря, степень, до которой её можно "обрубить" (аблатировать) без изменения выходов модели.

В начале эта функция даёт примерные значения важности для каждой субкомпоненты. На их основе субкомпоненты случайным образом маскируются, после чего модель делает предсказание, и оно сравнивается с оригинальным. Если отличается сильно – значит, значения важности были далеки от правильных. Используя ошибки, делаем шаг обучения, и начинаем с начала.

В итоге имеем набор простых субкомпонент и функцию важности, которые вместе показывают, какие параметры реально используются моделью для того или иного промпта. А это в свою очередь позволяет разложить работу сети на интерпретируемые механизмы и понять, как она принимает решения.

Интересно, что на игрушечных примерах SPD действительно очень точно восстанавливает процесс "мышления", то есть субкомпоненты совпадают с истинными параметрами, отвечающими за конкретные функции. Возможно, у подхода большое будущее.

Статью читаем здесь. А вот тут, кстати, какой-то энтузиаст уже воспроизвел прототип SPD, так что можно поиграться.
Please open Telegram to view this post
VIEW IN TELEGRAM
1114🤔3817👍15🤗6🔥4😁1🤯11