Data Secrets
77.4K subscribers
6.05K photos
593 videos
20 files
2.43K links
Главный по машинному обучению

Сотрудничество: @veron_28

РКН: clck.ru/3FY3GN
Download Telegram
Смотрите: это Ян Лекун и Леон Ботту с тем самым Amiga 1000, на котором они в 80-х годах писали первые нейросети

На втором фото – как раз дискета с SN-1, опять же, та самая из 80-х. SN расшифровывается как Simple Network. После SN-1 потом появилась SN2 и SN3, а потом это превратилось в опенсорс систему Lush, которая вышла в 2001.

Lush был самым ранним тензорным движком с Lisp-интерфейсом. На основе него потом сделали Torch7, ну а затем из всего этого получился PyTorch. Вот такая история.

А в 1987 Лекун также использовал эту Amiga, чтобы написать свою PhD-диссертацию. Не удивляйтесь, кстати, что на компьютер эта штука совсем не похожа.

Это как бы «все в одном» корпус: внизу спрятана клавиатура, а остальная коробка – это системный блок. ОС загружалась с дискеты. На деле это был один из самых продвинутых ПК того времени.

Фото из Твиттера (источник)
180🔥74👍23🤯18💯3😁22
Австралийские ученые изобрели биологический искусственный интеллект

Из система называется PROTEUS (PROTein Evolution Using Selection). Это платформа для направленной эволюции молекул прямо внутри живых клеток млекопитающих.

Направленная эволюция – это когда эволюционные процессы белков или генов искусственно ускоряют и "направляют", чтобы получить молекулы с нужными свойствами. За ее изобретение в 2018 году Фрэнсис Х. Арнольд дали Нобелевку.

Но тогда метод работал только для бактерий или дрожжей, то есть для единичных простых белков. А PROTEUS – первый метод, который делает directed evolution для клеток млекопитающих. Кратко, как это работает:

Специальные вирусоподобные частицы (VLV) заносят нужный ген в клетку и делают в нём случайные мутации, как будто перемешивают «параметры» белка.

Если мутировавший белок работает лучше (например, активирует нужный сигнал сильнее), клетка даёт сигнал, и именно этот вариант распространяется дальше – как награда в Reinforcement Learning.

Лучшие гены снова мутируют, снова проходят отбор. Все это похоже на эволюционный поиск гиперпараметров, но внутри живых клеток.

Буквально живой аналог AutoML. Авторы сами говорят, что вдохновлялись именно алгоритмами ИИ. И кстати, это уже работает на хомячках. Скоро будут тестировать и на людях, но там нужна дополнительная работа с иммунитетом.

Если такое заработает массово и стабильно – последствия могут быть революционными. Лекарства, выработка антител, синтетическая биология…

В такое будущее даже хочется.
Please open Telegram to view this post
VIEW IN TELEGRAM
1199🔥7046🤯31🤔14👍10😁7🕊2🦄11
Data Secrets
Ничего необычного, просто у свежего техрепорта Gemini 2.5 3295 авторов на ArXiv 😎 Да, 3295, Карл: arxiv.org/abs/2507.06261 Два года назад, кстати, когда выходил первый техрепорт Gemini, их было примерно 1000
Оказывается, там еще и пасхалка спрятана: из первых букв имен этой толпы ученых можно сложить фразу "GEMINI MODELS CAN THINK AND GET BACK TO YOU IN A FLASH", то есть "Gemini может подумать и ответить вам мгновенно"

Ощущение, что даже с самим тех.отчетом они так не напрягались, как с этим списком
1😁260🔥291499🤯5👍42❤‍🔥1
Белые хакеры из университета Торонто придумали новую атаку на GPU

Те, кто увлекается кибербезом, точно знают, что такое Rowhammer. Это классическая аппаратная атака, которая заключается в многократном чтении (или записи) определённых строк памяти. Это вызывает электрические помехи и приводит к непреднамеренным изменениям (bit flip) в соседних ячейках памяти.

Изначально Rowhammer была обнаружена для обычной оперативки, но теперь оказалось, что она может быть адаптирована и для видеопамяти (это назвали GPUHammer).

Причем эффект может быть даже страшнее, потому что в случае ИИ всего один ошибочный бит в весах модели может привести к катастрофическому снижению точности. Прямо в статье это доказали на примере ImageNet: метрика скакнула с 80% до менее чем 1%.

Уязвимы все системы с видеокартами NVIDIA на GDDR6 (например, A6000). Такие ооочень часто используются в дата-центрах. Причем существующие защиты вроде TRR не сильно спасают.

Nvidia порекомендовали включать ECC (Error-Correcting Code): он позволяет автоматически исправлять некоторые типы ошибок в памяти. Но есть нюанс: ECC роняет производительность на 10–50%. Так что в перспективе нвидии все-таки придется реагировать изменениями в архитектуре.

В общем, спасибо ребятам за исследование, конечно, но не от всей души 🎧
Please open Telegram to view this post
VIEW IN TELEGRAM
2😁16183👍2214🔥10🤔7
This media is not supported in your browser
VIEW IN TELEGRAM
Цукерберг заявил, что исследователи уходят к нему вовсе не из-за денег

Он говорит, что новости не совсем честно освещают, почему ученые из многих лабораторий охотно уходят в его новое подразделение MSL. Дело, мол, по большей степени не в деньгах, а в корпоративной структуре и количестве компьюта.

Команды в MSL будут очень маленькие и подчиняться будут напрямую Марку, чтобы ученые тратили минимум времени на бюрократию, созвоны и согласования.

Кроме того, в MSL будет самый большой объем компьюта на одного речерчера. Каждый получит в распоряжение сотни GPU, и количество доступных вычислений будет быстро увеличиваться.

К 2026 компания построит кластер Prometheus на 1GW, а потом примется за строительство Hyperion, который будет масштабироваться до 5GW+. Для частной компании это просто невероятные мощности.

Ну и да, сотни миллионов за переход – это так, приятное дополнение 👉
Please open Telegram to view this post
VIEW IN TELEGRAM
1😁2971023920👍15117
Data Secrets
OpenAI профукали сделку с Windsurf, но Google оказался тут как тут Обо всем по порядку: Слухи о том, что OpenAI покупает вайб-кодинг стартап Windsurf, ходили еще с апреля, но сделку все никак не закрывали: скорее всего, из-за сложностей с Microsoft (подробно).…
История с Windsurf подходит к логическому завершению: компанию поглощает стартап Cognition

Cognition – это разработчики ассистента для кодинга Devin, вы про него точно слышали. Так вот сегодня они объявили о том, что окончательно подписали сделку о покупке Windsurf (включая бренд, интеллектуальную собственность, торговую марку и команду).

Любопытно, что произошло все максимально тихо и без слухов. Сколько было шума о том, что Windsurf собираются покупать Apple, OpenAI, Google. А тут – на тебе, Cognition Lab.

Все сотрудники (возможно кроме тех, кто недавно ушел в Google) получат какую-то материальную выгоду от сделки. Это могут быть акции или просто выплата, при этом нет никакого vesting cliff (можешь получить свою долю и сразу уволиться, без отработки определенного обязательного срока).

Но это все детали. Самое интересное – что получится от слияния двух агентских IDE, Windsurf и Devin. Следим
170👌24🤯13👀10😁6👍3
Data Secrets
История с Windsurf подходит к логическому завершению: компанию поглощает стартап Cognition Cognition – это разработчики ассистента для кодинга Devin, вы про него точно слышали. Так вот сегодня они объявили о том, что окончательно подписали сделку о покупке…
Кстати, символично, что вся эта история в максимальном стиле Кремниевой долины произошла, пока Windsurf располагался в том самом офисе Пегого Дудочника из сериала

Стартап переехал в то самое помещение, где снимали Silicone Valley, и где работал Pied Piper, осенью – и с тех пор и началась череда контрактов, сорванных и удачных сделок, хантинга сотрудников и тд 😑

Кому нужен буст для стартапа, имейте в виду: помещение теперь свободно
Please open Telegram to view this post
VIEW IN TELEGRAM
2😁232🤯393016🔥4🦄4👍22
Французская лаборатория INRIA предложила новый способ самообучения LLM – SOAR

С помощью него они выбили 52% на ARC-AGI. Для понимания, результат o3-pro – примерно 58%. Разбираемся ->

Основная идея – рисерч и доработка возможных решений. Это называется эволюционный поиск и вообще-то это вещь не новая. Если брать такой поиск сам по себе, он, конечно, что-то там бустит, но без вау-эффекта.

А тут к нему прикрутили еще и дополнительное обучение. После каждой итерации генерации и доработки гипотез все попытки (удачные и неудачные) используются для тюнинга той же самой модели. Этот цикл «поиск — обучение на своем опыте — улучшение» повторяется до стабилизации результата.

И вот это уже работает заметно лучше. Например, если взять Qwen2.5-32B, результат которого на ARC-AGI – 27%, и приложить SOAR, то метрика растет до 52%, то есть почти в 2 раза! То же самое можно наблюдать с другими размерами и моделью Mistral.

Все дообученные модели выложили в опенсорс. Вот веса. Код тоже имеется.

А статью почитать полностью можно вот тут. Ее, кстати, приняли на ICML
1🔥150👍4727🤔7🤯3
В Google ИИ-агент помог обнаружить и предотвратить предстоящую кибер-атаку на систему

Об этом рассказал сам Сундар Пичаи. Агент называется Big Sleep, его презентовали еще в прошлом году. До этого он уже помогал находить белые пятна в системе безопасности Google, но этот случай – первый в истории, когда ИИ помог предотвратить реальную атаку.

Кстати, сегодня Google также объявили о том, что добавят ИИ-агентов в свою известную систему мониторинга Timesketch и анонсируют еще одну ИИ-систему (уже помасштабнее) обнаружения аномалий и угроз – FACADE. Это будет первое публичное демо проекта, хотя внутри Google он работает уже с 2018 года.

blog.google/technology/safety-security/cybersecurity-updates-summer-2025/
181🔥50👍23😁199🤔21
Бывший сотрудник OpenAI, который покинул стартап пару недель назад, написал огромный блог-пост о том, каково там работать

Кельвин Френч-Оуэн работал в OpenAI год и занимался запуском Codex. Вот что интересного он пишет:

1️⃣ Внутренняя структура стартапа не вывозит быстрый рост количества сотрудников. За тот год, пока там работал Кельвин, OpenAI вырос с 1000 до 3000 людей. И да, им это необходимо, потому что продукты масштабируются беспрецедентно. Но структуры отчетности, онбординга, организация людей и найма страдает ну очень сильно.

2️⃣ При этом люди все еще работают так, как будто они в маленьком стартапе. Например, им все еще разрешается сразу же реализовывать все свои идеи без согласований и волокиты. С одной стороны – круто. С другой – начинаются дублирования, людей то куча. Кельвин пишет, что, например, видел десятки библиотек для управления циклами или очередями. Представьте, сколько это напрасно потраченного рабочего ресурса.

3️⃣ У сотрудников очень разные уровни кодинга. Есть инженеры Google, которые за день пишут сложнющие системы, а есть вчерашние PhD, которые не привыкли к продуктовому коду. И все они работают вместе: из-за этого главный репозиторий превращается, мягко говоря, в помойку.

4️⃣ В компании действительно сохраняется культура move-fast-and-break-things с быстрыми бессонными спринтами и запусками. По словам Кельвина, это того стоит. Но не всех устраивает не спать неделю…

5️⃣ Ну и классика: OpenAI не так уж и озабочены безопасностью. Элаймент заключается больше в чем-то практическом (не грубить пользователю, не манипулировать, не обсуждать политику и оружие), чем в искоренении каких-то общечеловеческих рисков ИИ.

Ну так что, стрем или норм?

calv.info/openai-reflections
Please open Telegram to view this post
VIEW IN TELEGRAM
1159👍83😁43🤯29🗿10❤‍🔥4👌4🤝3🔥2👏2
Каждое утро в нашем заведении начинается одинаково: из OpenAI в Meta ушли еще двое ученых

Джейсон Вэй – ведущий исследователь в области агентов и ризонинга и соавтор той самой легендарной статьи про законы масштабирования нейросетей

Хён Вон Чон – руководитель Codex и основной архитектор GPT-4, серии o и Deep Research

Уже классика 😐
Please open Telegram to view this post
VIEW IN TELEGRAM
1😁272👍27🤔2016🗿129🤯543🔥2
Google снова пытаются изобрести альтернативу трансформерам: на этот раз они показали новую архитектуру Mixture-of-Recursions

Идея: рекурсивно переиспользовать одни и те же слои для повторной обработки некоторых токенов. На каждой новой итерации мы оставляем только те токены, которые требуют дополнительного рассмотрения. Получается какой-то новый вид ризонинга, при этом модель несколько раз думает только над наиболее сложными частями ответа, экономя компьют.

Теперь о том, как это работает:

У нас есть стек слоев обычного трансформера, которые мы хотим переиспользовать несколько раз. Для каждого токена принимается решение: выпустить его сейчас или продолжить обрабатывать. Чем больше номер итерации – тем меньше токенов в ней остается. В конце получается, что над самыми сложными частями модель думала много раз, а над самыми простыми – один или пару.

Есть варианты, как шерить слои (скрин 5). Можно в каждой итерации оставлять идентичные блоки вообще без изменений, а можно вставлять уникальные первый и последний слой, а середину оставлять одинаковой. В статье показали, что вторая вариация работает приятнее.

Аналогично, можно по-разному решать, сколько итераций пройдет каждый токен (скрин 4). Вариант первый: в самом начале с помощью классификатора назначать каждому токену число N его итераций. Вариант два: в начале каждой итерации вставлять роутер, который будет решать, кто пойдет дальше. В первом случае обучение чуть стабильнее, но и там и там – свои танцы с бубном регуляризациями.

Ну и да, за счет того, что KV кэш мы не пересчитываем, вся эта архитектура остается достаточно эффективной. Например, по сравнению с ванильным трансформером, MoR: (1) выбивает те же метрики с в два раза меньшим числом параметров; (2) в два раза бодрее на инференсе; (3) снижает потребление FLOPs на 25 % на тех же объемах данных.

Получается довольно симпатичный баланс, и в статье даже пишут, что это новая Парето-оптимальность для трансформерных архитектур: и затраты, и качество оказываются одновременно лучше предшественников (скрин 6).

Радуемся и очень ждем уже на проде

Код | Статья
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
111🔥55🤯16👍119👏33😁2👌2
Вы готовы? Найдена лучшая вакансия всех времен: xAI нанимает инженера для разработки ИИ-девочек

Роль так и называется: Fullstack Engineer - Waifus 😁

Буквально на днях xAI выпустили Companions. Это новая фича, которая вживляет Grok в одного из нескольких доступных аватаров с их характером, внешностью и голосом.

Так вот одного из таких аватаров xAI сделали аниме-девочкой по имени Ани. За пару дней она уже стала настоящей звездой соцсетей, а скачивания Grok взлетели просто немыслимо. В Японии приложение даже вышло в топ-1 по AppStore.

В общем, видимо, xAI нащупали золотую жилу и теперь ищут инженера, который наклепает им еще тяночек.

Платить обещают $180,000 - $440,000 USD. Если надумали – вам сюда
Please open Telegram to view this post
VIEW IN TELEGRAM
2😁181413512🔥7❤‍🔥4👍4🦄4🍓22🤨1
This media is not supported in your browser
VIEW IN TELEGRAM
Сегодня в 20:00 по Москве – новый стрим OpenAI

Судя по превью, будет какое-то обновление Operator. Может в этот раз его все-таки сделают полезным? 😐
Please open Telegram to view this post
VIEW IN TELEGRAM
😁8612🔥7🦄6🤯2👍1