Data Secrets

Смотрите: это Ян Лекун и Леон Ботту с тем самым Amiga 1000, на котором они в 80-х годах писали первые нейросети

На втором фото – как раз дискета с SN-1, опять же, та самая из 80-х. SN расшифровывается как Simple Network. После SN-1 потом появилась SN2 и SN3, а потом это превратилось в опенсорс систему Lush, которая вышла в 2001.

Lush был самым ранним тензорным движком с Lisp-интерфейсом. На основе него потом сделали Torch7, ну а затем из всего этого получился PyTorch. Вот такая история.

А в 1987 Лекун также использовал эту Amiga, чтобы написать свою PhD-диссертацию. Не удивляйтесь, кстати, что на компьютер эта штука совсем не похожа.

Это как бы «все в одном» корпус: внизу спрятана клавиатура, а остальная коробка – это системный блок. ОС загружалась с дискеты. На деле это был один из самых продвинутых ПК того времени.

Фото из Твиттера (источник)

❤180🔥74👍23🤯18💯3😁22

20.3K views09:35

Data Secrets

Австралийские ученые изобрели биологический искусственный интеллект

Из система называется PROTEUS (PROTein Evolution Using Selection). Это платформа для направленной эволюции молекул прямо внутри живых клеток млекопитающих.

Направленная эволюция – это когда эволюционные процессы белков или генов искусственно ускоряют и "направляют", чтобы получить молекулы с нужными свойствами. За ее изобретение в 2018 году Фрэнсис Х. Арнольд дали Нобелевку.

Но тогда метод работал только для бактерий или дрожжей, то есть для единичных простых белков. А PROTEUS – первый метод, который делает directed evolution для клеток млекопитающих. Кратко, как это работает:

➖ Специальные вирусоподобные частицы (VLV) заносят нужный ген в клетку и делают в нём случайные мутации, как будто перемешивают «параметры» белка.

➖ Если мутировавший белок работает лучше (например, активирует нужный сигнал сильнее), клетка даёт сигнал, и именно этот вариант распространяется дальше – как награда в Reinforcement Learning.

➖ Лучшие гены снова мутируют, снова проходят отбор. Все это похоже на эволюционный поиск гиперпараметров, но внутри живых клеток.

Буквально живой аналог AutoML. Авторы сами говорят, что вдохновлялись именно алгоритмами ИИ. И кстати, это уже работает на хомячках. Скоро будут тестировать и на людях, но там нужна дополнительная работа с иммунитетом.

Если такое заработает массово и стабильно – последствия могут быть революционными. Лекарства, выработка антител, синтетическая биология…

В такое будущее даже хочется.

Please open Telegram to view this post

VIEW IN TELEGRAM

1❤199🔥7046🤯31🤔14👍10😁7🕊2🦄11

22.5K viewsedited 12:27

Data Secrets

Ничего необычного, просто у свежего техрепорта Gemini 2.5 3295 авторов на ArXiv 😎 Да, 3295, Карл: arxiv.org/abs/2507.06261 Два года назад, кстати, когда выходил первый техрепорт Gemini, их было примерно 1000

Оказывается, там еще и пасхалка спрятана: из первых букв имен этой толпы ученых можно сложить фразу "GEMINI MODELS CAN THINK AND GET BACK TO YOU IN A FLASH", то есть "Gemini может подумать и ответить вам мгновенно"

Ощущение, что даже с самим тех.отчетом они так не напрягались, как с этим списком

1😁260🔥29☃14❤99🤯5👍42❤‍🔥1

19.3K views15:02

Data Secrets

Белые хакеры из университета Торонто придумали новую атаку на GPU

Те, кто увлекается кибербезом, точно знают, что такое Rowhammer. Это классическая аппаратная атака, которая заключается в многократном чтении (или записи) определённых строк памяти. Это вызывает электрические помехи и приводит к непреднамеренным изменениям (bit flip) в соседних ячейках памяти.

Изначально Rowhammer была обнаружена для обычной оперативки, но теперь оказалось, что она может быть адаптирована и для видеопамяти (это назвали GPUHammer).

Причем эффект может быть даже страшнее, потому что в случае ИИ всего один ошибочный бит в весах модели может привести к катастрофическому снижению точности. Прямо в статье это доказали на примере ImageNet: метрика скакнула с 80% до менее чем 1%.

Уязвимы все системы с видеокартами NVIDIA на GDDR6 (например, A6000). Такие ооочень часто используются в дата-центрах. Причем существующие защиты вроде TRR не сильно спасают.

Nvidia порекомендовали включать ECC (Error-Correcting Code): он позволяет автоматически исправлять некоторые типы ошибок в памяти. Но есть нюанс: ECC роняет производительность на 10–50%. Так что в перспективе нвидии все-таки придется реагировать изменениями в архитектуре.

В общем, спасибо ребятам за исследование, конечно, но не от всей души 🎧

Please open Telegram to view this post

VIEW IN TELEGRAM

2😁16183👍22❤14🔥10🤔7

22.4K viewsedited 17:41

Data Secrets

0:46

This media is not supported in your browser

VIEW IN TELEGRAM

Цукерберг заявил, что исследователи уходят к нему вовсе не из-за денег

Он говорит, что новости не совсем честно освещают, почему ученые из многих лабораторий охотно уходят в его новое подразделение MSL. Дело, мол, по большей степени не в деньгах, а в корпоративной структуре и количестве компьюта.

Команды в MSL будут очень маленькие и подчиняться будут напрямую Марку, чтобы ученые тратили минимум времени на бюрократию, созвоны и согласования.

Кроме того, в MSL будет самый большой объем компьюта на одного речерчера. Каждый получит в распоряжение сотни GPU, и количество доступных вычислений будет быстро увеличиваться.

К 2026 компания построит кластер Prometheus на 1GW, а потом примется за строительство Hyperion, который будет масштабироваться до 5GW+. Для частной компании это просто невероятные мощности.

Ну и да, сотни миллионов за переход – это так, приятное дополнение 👉

Please open Telegram to view this post

VIEW IN TELEGRAM

1😁29710239❤20👍15117

20.3K viewsedited 05:30

Data Secrets

OpenAI профукали сделку с Windsurf, но Google оказался тут как тут Обо всем по порядку: ➖ Слухи о том, что OpenAI покупает вайб-кодинг стартап Windsurf, ходили еще с апреля, но сделку все никак не закрывали: скорее всего, из-за сложностей с Microsoft (подробно).…

История с Windsurf подходит к логическому завершению: компанию поглощает стартап Cognition

Cognition – это разработчики ассистента для кодинга Devin, вы про него точно слышали. Так вот сегодня они объявили о том, что окончательно подписали сделку о покупке Windsurf (включая бренд, интеллектуальную собственность, торговую марку и команду).

Любопытно, что произошло все максимально тихо и без слухов. Сколько было шума о том, что Windsurf собираются покупать Apple, OpenAI, Google. А тут – на тебе, Cognition Lab.

Все сотрудники (возможно кроме тех, кто недавно ушел в Google) получат какую-то материальную выгоду от сделки. Это могут быть акции или просто выплата, при этом нет никакого vesting cliff (можешь получить свою долю и сразу уволиться, без отработки определенного обязательного срока).

Но это все детали. Самое интересное – что получится от слияния двух агентских IDE, Windsurf и Devin. Следим

1❤70👌24🤯13👀10😁6👍3

19.1K viewsedited 08:24

Data Secrets

История с Windsurf подходит к логическому завершению: компанию поглощает стартап Cognition Cognition – это разработчики ассистента для кодинга Devin, вы про него точно слышали. Так вот сегодня они объявили о том, что окончательно подписали сделку о покупке…

Кстати, символично, что вся эта история в максимальном стиле Кремниевой долины произошла, пока Windsurf располагался в том самом офисе Пегого Дудочника из сериала

Стартап переехал в то самое помещение, где снимали Silicone Valley, и где работал Pied Piper, осенью – и с тех пор и началась череда контрактов, сорванных и удачных сделок, хантинга сотрудников и тд 😑

Кому нужен буст для стартапа, имейте в виду: помещение теперь свободно

Please open Telegram to view this post

VIEW IN TELEGRAM

2😁232🤯3930❤16🔥4🦄4👍22

19.4K views08:47

Data Secrets

Французская лаборатория INRIA предложила новый способ самообучения LLM – SOAR

С помощью него они выбили 52% на ARC-AGI. Для понимания, результат o3-pro – примерно 58%. Разбираемся ->

Основная идея – рисерч и доработка возможных решений. Это называется эволюционный поиск и вообще-то это вещь не новая. Если брать такой поиск сам по себе, он, конечно, что-то там бустит, но без вау-эффекта.

А тут к нему прикрутили еще и дополнительное обучение. После каждой итерации генерации и доработки гипотез все попытки (удачные и неудачные) используются для тюнинга той же самой модели. Этот цикл «поиск — обучение на своем опыте — улучшение» повторяется до стабилизации результата.

И вот это уже работает заметно лучше. Например, если взять Qwen2.5-32B, результат которого на ARC-AGI – 27%, и приложить SOAR, то метрика растет до 52%, то есть почти в 2 раза! То же самое можно наблюдать с другими размерами и моделью Mistral.

Все дообученные модели выложили в опенсорс. Вот веса. Код тоже имеется.

А статью почитать полностью можно вот тут. Ее, кстати, приняли на ICML

1🔥150👍47❤27🤔7🤯3

30.1K views12:50

Data Secrets

В Google ИИ-агент помог обнаружить и предотвратить предстоящую кибер-атаку на систему

Об этом рассказал сам Сундар Пичаи. Агент называется Big Sleep, его презентовали еще в прошлом году. До этого он уже помогал находить белые пятна в системе безопасности Google, но этот случай – первый в истории, когда ИИ помог предотвратить реальную атаку.

Кстати, сегодня Google также объявили о том, что добавят ИИ-агентов в свою известную систему мониторинга Timesketch и анонсируют еще одну ИИ-систему (уже помасштабнее) обнаружения аномалий и угроз – FACADE. Это будет первое публичное демо проекта, хотя внутри Google он работает уже с 2018 года.

blog.google/technology/safety-security/cybersecurity-updates-summer-2025/

1❤81🔥50👍23😁199🤔2⚡1

21K viewsedited 16:16

Data Secrets

Бывший сотрудник OpenAI, который покинул стартап пару недель назад, написал огромный блог-пост о том, каково там работать

Кельвин Френч-Оуэн работал в OpenAI год и занимался запуском Codex. Вот что интересного он пишет:

1️⃣ Внутренняя структура стартапа не вывозит быстрый рост количества сотрудников. За тот год, пока там работал Кельвин, OpenAI вырос с 1000 до 3000 людей. И да, им это необходимо, потому что продукты масштабируются беспрецедентно. Но структуры отчетности, онбординга, организация людей и найма страдает ну очень сильно.

2️⃣ При этом люди все еще работают так, как будто они в маленьком стартапе. Например, им все еще разрешается сразу же реализовывать все свои идеи без согласований и волокиты. С одной стороны – круто. С другой – начинаются дублирования, людей то куча. Кельвин пишет, что, например, видел десятки библиотек для управления циклами или очередями. Представьте, сколько это напрасно потраченного рабочего ресурса.

3️⃣ У сотрудников очень разные уровни кодинга. Есть инженеры Google, которые за день пишут сложнющие системы, а есть вчерашние PhD, которые не привыкли к продуктовому коду. И все они работают вместе: из-за этого главный репозиторий превращается, мягко говоря, в помойку.

4️⃣ В компании действительно сохраняется культура move-fast-and-break-things с быстрыми бессонными спринтами и запусками. По словам Кельвина, это того стоит. Но не всех устраивает не спать неделю…

5️⃣ Ну и классика: OpenAI не так уж и озабочены безопасностью. Элаймент заключается больше в чем-то практическом (не грубить пользователю, не манипулировать, не обсуждать политику и оружие), чем в искоренении каких-то общечеловеческих рисков ИИ.

Ну так что, стрем или норм?

calv.info/openai-reflections

Please open Telegram to view this post

VIEW IN TELEGRAM

1❤159👍83😁43🤯29🗿10❤‍🔥4👌4🤝3🔥2👏2

21.4K viewsedited 05:43

Data Secrets

Каждое утро в нашем заведении начинается одинаково: из OpenAI в Meta ушли еще двое ученых

➖ Джейсон Вэй – ведущий исследователь в области агентов и ризонинга и соавтор той самой легендарной статьи про законы масштабирования нейросетей

➖ Хён Вон Чон – руководитель Codex и основной архитектор GPT-4, серии o и Deep Research

Уже классика 😐

Please open Telegram to view this post

VIEW IN TELEGRAM

1😁272👍27🤔2016🗿12❤9🤯543🔥2

20.2K views07:14

Data Secrets

Google снова пытаются изобрести альтернативу трансформерам: на этот раз они показали новую архитектуру Mixture-of-Recursions

Идея: рекурсивно переиспользовать одни и те же слои для повторной обработки некоторых токенов. На каждой новой итерации мы оставляем только те токены, которые требуют дополнительного рассмотрения. Получается какой-то новый вид ризонинга, при этом модель несколько раз думает только над наиболее сложными частями ответа, экономя компьют.

Теперь о том, как это работает:

➖ У нас есть стек слоев обычного трансформера, которые мы хотим переиспользовать несколько раз. Для каждого токена принимается решение: выпустить его сейчас или продолжить обрабатывать. Чем больше номер итерации – тем меньше токенов в ней остается. В конце получается, что над самыми сложными частями модель думала много раз, а над самыми простыми – один или пару.

➖ Есть варианты, как шерить слои (скрин 5). Можно в каждой итерации оставлять идентичные блоки вообще без изменений, а можно вставлять уникальные первый и последний слой, а середину оставлять одинаковой. В статье показали, что вторая вариация работает приятнее.

➖ Аналогично, можно по-разному решать, сколько итераций пройдет каждый токен (скрин 4). Вариант первый: в самом начале с помощью классификатора назначать каждому токену число N его итераций. Вариант два: в начале каждой итерации вставлять роутер, который будет решать, кто пойдет дальше. В первом случае обучение чуть стабильнее, но и там и там – свои танцы с ~~бубном~~ регуляризациями.

Ну и да, за счет того, что KV кэш мы не пересчитываем, вся эта архитектура остается достаточно эффективной. Например, по сравнению с ванильным трансформером, MoR: (1) выбивает те же метрики с в два раза меньшим числом параметров; (2) в два раза бодрее на инференсе; (3) снижает потребление FLOPs на 25 % на тех же объемах данных.

Получается довольно симпатичный баланс, и в статье даже пишут, что это новая Парето-оптимальность для трансформерных архитектур: и затраты, и качество оказываются одновременно лучше предшественников (скрин 6).

Радуемся и очень ждем уже на проде

Код | Статья

Please open Telegram to view this post

VIEW IN TELEGRAM

Please open Telegram to view this post

VIEW IN TELEGRAM

❤111🔥55🤯16👍119👏33😁2👌2

23.5K views10:06

About

Blog

Apps

Platform