Смотрите: это Ян Лекун и Леон Ботту с тем самым Amiga 1000, на котором они в 80-х годах писали первые нейросети
На втором фото – как раз дискета с SN-1, опять же, та самая из 80-х. SN расшифровывается как Simple Network. После SN-1 потом появилась SN2 и SN3, а потом это превратилось в опенсорс систему Lush, которая вышла в 2001.
Lush был самым ранним тензорным движком с Lisp-интерфейсом. На основе него потом сделали Torch7, ну а затем из всего этого получился PyTorch. Вот такая история.
А в 1987 Лекун также использовал эту Amiga, чтобы написать свою PhD-диссертацию. Не удивляйтесь, кстати, что на компьютер эта штука совсем не похожа.
Это как бы «все в одном» корпус: внизу спрятана клавиатура, а остальная коробка – это системный блок. ОС загружалась с дискеты. На деле это был один из самых продвинутых ПК того времени.
Фото из Твиттера (источник)
На втором фото – как раз дискета с SN-1, опять же, та самая из 80-х. SN расшифровывается как Simple Network. После SN-1 потом появилась SN2 и SN3, а потом это превратилось в опенсорс систему Lush, которая вышла в 2001.
Lush был самым ранним тензорным движком с Lisp-интерфейсом. На основе него потом сделали Torch7, ну а затем из всего этого получился PyTorch. Вот такая история.
А в 1987 Лекун также использовал эту Amiga, чтобы написать свою PhD-диссертацию. Не удивляйтесь, кстати, что на компьютер эта штука совсем не похожа.
Это как бы «все в одном» корпус: внизу спрятана клавиатура, а остальная коробка – это системный блок. ОС загружалась с дискеты. На деле это был один из самых продвинутых ПК того времени.
Фото из Твиттера (источник)
❤180🔥74👍23🤯18💯3😁2 2
Австралийские ученые изобрели биологический искусственный интеллект
Из система называется PROTEUS (PROTein Evolution Using Selection). Это платформа для направленной эволюции молекул прямо внутри живых клеток млекопитающих.
Направленная эволюция – это когда эволюционные процессы белков или генов искусственно ускоряют и "направляют", чтобы получить молекулы с нужными свойствами. За ее изобретение в 2018 году Фрэнсис Х. Арнольд дали Нобелевку.
Но тогда метод работал только для бактерий или дрожжей, то есть для единичных простых белков. А PROTEUS – первый метод, который делает directed evolution для клеток млекопитающих. Кратко, как это работает:
➖ Специальные вирусоподобные частицы (VLV) заносят нужный ген в клетку и делают в нём случайные мутации, как будто перемешивают «параметры» белка.
➖ Если мутировавший белок работает лучше (например, активирует нужный сигнал сильнее), клетка даёт сигнал, и именно этот вариант распространяется дальше – как награда в Reinforcement Learning.
➖ Лучшие гены снова мутируют, снова проходят отбор. Все это похоже на эволюционный поиск гиперпараметров, но внутри живых клеток.
Буквально живой аналог AutoML. Авторы сами говорят, что вдохновлялись именно алгоритмами ИИ. И кстати, это уже работает на хомячках. Скоро будут тестировать и на людях, но там нужна дополнительная работа с иммунитетом.
Если такое заработает массово и стабильно – последствия могут быть революционными. Лекарства, выработка антител, синтетическая биология…
В такое будущее даже хочется.
Из система называется PROTEUS (PROTein Evolution Using Selection). Это платформа для направленной эволюции молекул прямо внутри живых клеток млекопитающих.
Направленная эволюция – это когда эволюционные процессы белков или генов искусственно ускоряют и "направляют", чтобы получить молекулы с нужными свойствами. За ее изобретение в 2018 году Фрэнсис Х. Арнольд дали Нобелевку.
Но тогда метод работал только для бактерий или дрожжей, то есть для единичных простых белков. А PROTEUS – первый метод, который делает directed evolution для клеток млекопитающих. Кратко, как это работает:
Буквально живой аналог AutoML. Авторы сами говорят, что вдохновлялись именно алгоритмами ИИ. И кстати, это уже работает на хомячках. Скоро будут тестировать и на людях, но там нужна дополнительная работа с иммунитетом.
Если такое заработает массово и стабильно – последствия могут быть революционными. Лекарства, выработка антител, синтетическая биология…
В такое будущее даже хочется.
Please open Telegram to view this post
VIEW IN TELEGRAM
1❤199🔥70 46🤯31🤔14👍10😁7🕊2🦄1 1
Data Secrets
Ничего необычного, просто у свежего техрепорта Gemini 2.5 3295 авторов на ArXiv 😎 Да, 3295, Карл: arxiv.org/abs/2507.06261 Два года назад, кстати, когда выходил первый техрепорт Gemini, их было примерно 1000
Оказывается, там еще и пасхалка спрятана: из первых букв имен этой толпы ученых можно сложить фразу "GEMINI MODELS CAN THINK AND GET BACK TO YOU IN A FLASH", то есть "Gemini может подумать и ответить вам мгновенно"
Ощущение, что даже с самим тех.отчетом они так не напрягались, как с этим списком
Ощущение, что даже с самим тех.отчетом они так не напрягались, как с этим списком
1😁260🔥29☃14❤9 9🤯5👍4 2❤🔥1
Белые хакеры из университета Торонто придумали новую атаку на GPU
Те, кто увлекается кибербезом, точно знают, что такое Rowhammer. Это классическая аппаратная атака, которая заключается в многократном чтении (или записи) определённых строк памяти. Это вызывает электрические помехи и приводит к непреднамеренным изменениям (bit flip) в соседних ячейках памяти.
Изначально Rowhammer была обнаружена для обычной оперативки, но теперь оказалось, что она может быть адаптирована и для видеопамяти (это назвали GPUHammer).
Причем эффект может быть даже страшнее, потому что в случае ИИ всего один ошибочный бит в весах модели может привести к катастрофическому снижению точности. Прямо в статье это доказали на примере ImageNet: метрика скакнула с 80% до менее чем 1%.
Уязвимы все системы с видеокартами NVIDIA на GDDR6 (например, A6000). Такие ооочень часто используются в дата-центрах. Причем существующие защиты вроде TRR не сильно спасают.
Nvidia порекомендовали включать ECC (Error-Correcting Code): он позволяет автоматически исправлять некоторые типы ошибок в памяти. Но есть нюанс: ECC роняет производительность на 10–50%. Так что в перспективе нвидии все-таки придется реагировать изменениями в архитектуре.
В общем, спасибо ребятам за исследование, конечно, но не от всей души🎧
Те, кто увлекается кибербезом, точно знают, что такое Rowhammer. Это классическая аппаратная атака, которая заключается в многократном чтении (или записи) определённых строк памяти. Это вызывает электрические помехи и приводит к непреднамеренным изменениям (bit flip) в соседних ячейках памяти.
Изначально Rowhammer была обнаружена для обычной оперативки, но теперь оказалось, что она может быть адаптирована и для видеопамяти (это назвали GPUHammer).
Причем эффект может быть даже страшнее, потому что в случае ИИ всего один ошибочный бит в весах модели может привести к катастрофическому снижению точности. Прямо в статье это доказали на примере ImageNet: метрика скакнула с 80% до менее чем 1%.
Уязвимы все системы с видеокартами NVIDIA на GDDR6 (например, A6000). Такие ооочень часто используются в дата-центрах. Причем существующие защиты вроде TRR не сильно спасают.
Nvidia порекомендовали включать ECC (Error-Correcting Code): он позволяет автоматически исправлять некоторые типы ошибок в памяти. Но есть нюанс: ECC роняет производительность на 10–50%. Так что в перспективе нвидии все-таки придется реагировать изменениями в архитектуре.
В общем, спасибо ребятам за исследование, конечно, но не от всей души
Please open Telegram to view this post
VIEW IN TELEGRAM
2😁161 83👍22❤14🔥10🤔7
This media is not supported in your browser
VIEW IN TELEGRAM
Цукерберг заявил, что исследователи уходят к нему вовсе не из-за денег
Он говорит, что новости не совсем честно освещают, почему ученые из многих лабораторий охотно уходят в его новое подразделение MSL. Дело, мол, по большей степени не в деньгах, а в корпоративной структуре и количестве компьюта.
Команды в MSL будут очень маленькие и подчиняться будут напрямую Марку, чтобы ученые тратили минимум времени на бюрократию, созвоны и согласования.
Кроме того, в MSL будет самый большой объем компьюта на одного речерчера. Каждый получит в распоряжение сотни GPU, и количество доступных вычислений будет быстро увеличиваться.
К 2026 компания построит кластер Prometheus на 1GW, а потом примется за строительство Hyperion, который будет масштабироваться до 5GW+. Для частной компании это просто невероятные мощности.
Ну и да, сотни миллионов за переход – это так, приятное дополнение👉
Он говорит, что новости не совсем честно освещают, почему ученые из многих лабораторий охотно уходят в его новое подразделение MSL. Дело, мол, по большей степени не в деньгах, а в корпоративной структуре и количестве компьюта.
Команды в MSL будут очень маленькие и подчиняться будут напрямую Марку, чтобы ученые тратили минимум времени на бюрократию, созвоны и согласования.
Кроме того, в MSL будет самый большой объем компьюта на одного речерчера. Каждый получит в распоряжение сотни GPU, и количество доступных вычислений будет быстро увеличиваться.
К 2026 компания построит кластер Prometheus на 1GW, а потом примется за строительство Hyperion, который будет масштабироваться до 5GW+. Для частной компании это просто невероятные мощности.
Ну и да, сотни миллионов за переход – это так, приятное дополнение
Please open Telegram to view this post
VIEW IN TELEGRAM
1😁297 102 39❤20👍15 11 7
Data Secrets
OpenAI профукали сделку с Windsurf, но Google оказался тут как тут Обо всем по порядку: ➖ Слухи о том, что OpenAI покупает вайб-кодинг стартап Windsurf, ходили еще с апреля, но сделку все никак не закрывали: скорее всего, из-за сложностей с Microsoft (подробно).…
История с Windsurf подходит к логическому завершению: компанию поглощает стартап Cognition
Cognition – это разработчики ассистента для кодинга Devin, вы про него точно слышали. Так вот сегодня они объявили о том, что окончательно подписали сделку о покупке Windsurf (включая бренд, интеллектуальную собственность, торговую марку и команду).
Любопытно, что произошло все максимально тихо и без слухов. Сколько было шума о том, что Windsurf собираются покупать Apple, OpenAI, Google. А тут – на тебе, Cognition Lab.
Все сотрудники (возможно кроме тех, кто недавно ушел в Google) получат какую-то материальную выгоду от сделки. Это могут быть акции или просто выплата, при этом нет никакого vesting cliff (можешь получить свою долю и сразу уволиться, без отработки определенного обязательного срока).
Но это все детали. Самое интересное – что получится от слияния двух агентских IDE, Windsurf и Devin. Следим
Cognition – это разработчики ассистента для кодинга Devin, вы про него точно слышали. Так вот сегодня они объявили о том, что окончательно подписали сделку о покупке Windsurf (включая бренд, интеллектуальную собственность, торговую марку и команду).
Любопытно, что произошло все максимально тихо и без слухов. Сколько было шума о том, что Windsurf собираются покупать Apple, OpenAI, Google. А тут – на тебе, Cognition Lab.
Все сотрудники (возможно кроме тех, кто недавно ушел в Google) получат какую-то материальную выгоду от сделки. Это могут быть акции или просто выплата, при этом нет никакого vesting cliff (можешь получить свою долю и сразу уволиться, без отработки определенного обязательного срока).
Но это все детали. Самое интересное – что получится от слияния двух агентских IDE, Windsurf и Devin. Следим
1❤70👌24🤯13👀10😁6👍3
Data Secrets
История с Windsurf подходит к логическому завершению: компанию поглощает стартап Cognition Cognition – это разработчики ассистента для кодинга Devin, вы про него точно слышали. Так вот сегодня они объявили о том, что окончательно подписали сделку о покупке…
Кстати, символично, что вся эта история в максимальном стиле Кремниевой долины произошла, пока Windsurf располагался в том самом офисе Пегого Дудочника из сериала
Стартап переехал в то самое помещение, где снимали Silicone Valley, и где работал Pied Piper, осенью – и с тех пор и началась череда контрактов, сорванных и удачных сделок, хантинга сотрудников и тд😑
Кому нужен буст для стартапа, имейте в виду: помещение теперь свободно
Стартап переехал в то самое помещение, где снимали Silicone Valley, и где работал Pied Piper, осенью – и с тех пор и началась череда контрактов, сорванных и удачных сделок, хантинга сотрудников и тд
Кому нужен буст для стартапа, имейте в виду: помещение теперь свободно
Please open Telegram to view this post
VIEW IN TELEGRAM
2😁232🤯39 30❤16🔥4🦄4👍2 2
Французская лаборатория INRIA предложила новый способ самообучения LLM – SOAR
С помощью него они выбили 52% на ARC-AGI. Для понимания, результат o3-pro – примерно 58%. Разбираемся ->
Основная идея – рисерч и доработка возможных решений. Это называется эволюционный поиск и вообще-то это вещь не новая. Если брать такой поиск сам по себе, он, конечно, что-то там бустит, но без вау-эффекта.
А тут к нему прикрутили еще и дополнительное обучение. После каждой итерации генерации и доработки гипотез все попытки (удачные и неудачные) используются для тюнинга той же самой модели. Этот цикл «поиск — обучение на своем опыте — улучшение» повторяется до стабилизации результата.
И вот это уже работает заметно лучше. Например, если взять Qwen2.5-32B, результат которого на ARC-AGI – 27%, и приложить SOAR, то метрика растет до 52%, то есть почти в 2 раза! То же самое можно наблюдать с другими размерами и моделью Mistral.
Все дообученные модели выложили в опенсорс. Вот веса. Код тоже имеется.
А статью почитать полностью можно вот тут. Ее, кстати, приняли на ICML
С помощью него они выбили 52% на ARC-AGI. Для понимания, результат o3-pro – примерно 58%. Разбираемся ->
Основная идея – рисерч и доработка возможных решений. Это называется эволюционный поиск и вообще-то это вещь не новая. Если брать такой поиск сам по себе, он, конечно, что-то там бустит, но без вау-эффекта.
А тут к нему прикрутили еще и дополнительное обучение. После каждой итерации генерации и доработки гипотез все попытки (удачные и неудачные) используются для тюнинга той же самой модели. Этот цикл «поиск — обучение на своем опыте — улучшение» повторяется до стабилизации результата.
И вот это уже работает заметно лучше. Например, если взять Qwen2.5-32B, результат которого на ARC-AGI – 27%, и приложить SOAR, то метрика растет до 52%, то есть почти в 2 раза! То же самое можно наблюдать с другими размерами и моделью Mistral.
Все дообученные модели выложили в опенсорс. Вот веса. Код тоже имеется.
А статью почитать полностью можно вот тут. Ее, кстати, приняли на ICML
1🔥150👍47❤27🤔7🤯3
В Google ИИ-агент помог обнаружить и предотвратить предстоящую кибер-атаку на систему
Об этом рассказал сам Сундар Пичаи. Агент называется Big Sleep, его презентовали еще в прошлом году. До этого он уже помогал находить белые пятна в системе безопасности Google, но этот случай – первый в истории, когда ИИ помог предотвратить реальную атаку.
Кстати, сегодня Google также объявили о том, что добавят ИИ-агентов в свою известную систему мониторинга Timesketch и анонсируют еще одну ИИ-систему (уже помасштабнее) обнаружения аномалий и угроз – FACADE. Это будет первое публичное демо проекта, хотя внутри Google он работает уже с 2018 года.
blog.google/technology/safety-security/cybersecurity-updates-summer-2025/
Об этом рассказал сам Сундар Пичаи. Агент называется Big Sleep, его презентовали еще в прошлом году. До этого он уже помогал находить белые пятна в системе безопасности Google, но этот случай – первый в истории, когда ИИ помог предотвратить реальную атаку.
Кстати, сегодня Google также объявили о том, что добавят ИИ-агентов в свою известную систему мониторинга Timesketch и анонсируют еще одну ИИ-систему (уже помасштабнее) обнаружения аномалий и угроз – FACADE. Это будет первое публичное демо проекта, хотя внутри Google он работает уже с 2018 года.
blog.google/technology/safety-security/cybersecurity-updates-summer-2025/
1❤81🔥50👍23😁19 9🤔2⚡1
Бывший сотрудник OpenAI, который покинул стартап пару недель назад, написал огромный блог-пост о том, каково там работать
Кельвин Френч-Оуэн работал в OpenAI год и занимался запуском Codex. Вот что интересного он пишет:
1️⃣ Внутренняя структура стартапа не вывозит быстрый рост количества сотрудников. За тот год, пока там работал Кельвин, OpenAI вырос с 1000 до 3000 людей. И да, им это необходимо, потому что продукты масштабируются беспрецедентно. Но структуры отчетности, онбординга, организация людей и найма страдает ну очень сильно.
2️⃣ При этом люди все еще работают так, как будто они в маленьком стартапе. Например, им все еще разрешается сразу же реализовывать все свои идеи без согласований и волокиты. С одной стороны – круто. С другой – начинаются дублирования, людей то куча. Кельвин пишет, что, например, видел десятки библиотек для управления циклами или очередями. Представьте, сколько это напрасно потраченного рабочего ресурса.
3️⃣ У сотрудников очень разные уровни кодинга. Есть инженеры Google, которые за день пишут сложнющие системы, а есть вчерашние PhD, которые не привыкли к продуктовому коду. И все они работают вместе: из-за этого главный репозиторий превращается, мягко говоря, в помойку.
4️⃣ В компании действительно сохраняется культура move-fast-and-break-things с быстрыми бессонными спринтами и запусками. По словам Кельвина, это того стоит. Но не всех устраивает не спать неделю…
5️⃣ Ну и классика: OpenAI не так уж и озабочены безопасностью. Элаймент заключается больше в чем-то практическом (не грубить пользователю, не манипулировать, не обсуждать политику и оружие), чем в искоренении каких-то общечеловеческих рисков ИИ.
Ну так что, стрем или норм?
calv.info/openai-reflections
Кельвин Френч-Оуэн работал в OpenAI год и занимался запуском Codex. Вот что интересного он пишет:
Ну так что, стрем или норм?
calv.info/openai-reflections
Please open Telegram to view this post
VIEW IN TELEGRAM
1❤159👍83😁43🤯29🗿10❤🔥4👌4🤝3🔥2👏2
Каждое утро в нашем заведении начинается одинаково: из OpenAI в Meta ушли еще двое ученых
➖ Джейсон Вэй – ведущий исследователь в области агентов и ризонинга и соавтор той самой легендарной статьи про законы масштабирования нейросетей
➖ Хён Вон Чон – руководитель Codex и основной архитектор GPT-4, серии o и Deep Research
Уже классика😐
Уже классика
Please open Telegram to view this post
VIEW IN TELEGRAM
1😁272👍27🤔20 16🗿12❤9🤯5 4 3🔥2
Google снова пытаются изобрести альтернативу трансформерам: на этот раз они показали новую архитектуру Mixture-of-Recursions
Идея: рекурсивно переиспользовать одни и те же слои для повторной обработки некоторых токенов. На каждой новой итерации мы оставляем только те токены, которые требуют дополнительного рассмотрения. Получается какой-то новый вид ризонинга, при этом модель несколько раз думает только над наиболее сложными частями ответа, экономя компьют.
Теперь о том, как это работает:
➖ У нас есть стек слоев обычного трансформера, которые мы хотим переиспользовать несколько раз. Для каждого токена принимается решение: выпустить его сейчас или продолжить обрабатывать. Чем больше номер итерации – тем меньше токенов в ней остается. В конце получается, что над самыми сложными частями модель думала много раз, а над самыми простыми – один или пару.
➖ Есть варианты, как шерить слои (скрин 5). Можно в каждой итерации оставлять идентичные блоки вообще без изменений, а можно вставлять уникальные первый и последний слой, а середину оставлять одинаковой. В статье показали, что вторая вариация работает приятнее.
➖ Аналогично, можно по-разному решать, сколько итераций пройдет каждый токен (скрин 4). Вариант первый: в самом начале с помощью классификатора назначать каждому токену число N его итераций. Вариант два: в начале каждой итерации вставлять роутер, который будет решать, кто пойдет дальше. В первом случае обучение чуть стабильнее, но и там и там – свои танцы с бубном регуляризациями.
Ну и да, за счет того, что KV кэш мы не пересчитываем, вся эта архитектура остается достаточно эффективной. Например, по сравнению с ванильным трансформером, MoR: (1) выбивает те же метрики с в два раза меньшим числом параметров; (2) в два раза бодрее на инференсе; (3) снижает потребление FLOPs на 25 % на тех же объемах данных.
Получается довольно симпатичный баланс, и в статье даже пишут, что это новая Парето-оптимальность для трансформерных архитектур: и затраты, и качество оказываются одновременно лучше предшественников (скрин 6).
Радуемся и очень ждем уже на проде
Код | Статья
Идея: рекурсивно переиспользовать одни и те же слои для повторной обработки некоторых токенов. На каждой новой итерации мы оставляем только те токены, которые требуют дополнительного рассмотрения. Получается какой-то новый вид ризонинга, при этом модель несколько раз думает только над наиболее сложными частями ответа, экономя компьют.
Теперь о том, как это работает:
Ну и да, за счет того, что KV кэш мы не пересчитываем, вся эта архитектура остается достаточно эффективной. Например, по сравнению с ванильным трансформером, MoR: (1) выбивает те же метрики с в два раза меньшим числом параметров; (2) в два раза бодрее на инференсе; (3) снижает потребление FLOPs на 25 % на тех же объемах данных.
Получается довольно симпатичный баланс, и в статье даже пишут, что это новая Парето-оптимальность для трансформерных архитектур: и затраты, и качество оказываются одновременно лучше предшественников (скрин 6).
Радуемся и очень ждем уже на проде
Код | Статья
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
❤111🔥55🤯16👍11 9👏3 3😁2👌2