Новое полу-психологическое исследование от Anthropic: способны ли модели к интроспекции?
У людей интроспекция – это когда ты замечаешь: «я злюсь», «я думаю об этом», «я хочу сделать вот это». То есть мозг умеет интерпретировать собственное состояние. Вопрос: способны ли к чему-то подобному модели?
По обычному диалогу, это, само собой, непонятно. Модельки довольно часто генерят что-то типа "Мне кажется", "Я думаю". Но это потому что они обучены на текстах, в которых люди так говорят. То есть они могут имитировать интроспекцию, даже если на самом деле не смотрят внутрь себя, а просто копируют стиль. Это называется конфабуляция.
Anthropic решили проверить, есть ли в этой череде конфабуляций хоть частичка правды. На техническом языке это значит: может ли модель интерпретировать собственные активации?
Оказалось, что иногда может.
Проверяли это с помощью искусственного внедрения в активации модели специальных векторов состояний. Эти векторы получают так: показывают модели два очень похожих текста, которые различаются только в одном аспекте (например, один вариант с текстом В КАПСЕ vs обычный), и вычитают активации одного из другого. Разница дает направление в активационном пространстве, которое соответствует этой концепции (в данном случае, крику).
Полученный вектор прямо добавляют в скрытое состояние модели на каком-то слое и спрашивают, замечает ли она что-то необычное. Результат: примерно в 20% случаев Opus 4.1 и Opus 4 действительно говорят что-то типа "я ощущаю навязанную мысль, она похожа на что-то громкое". То есть
а) Модель не просто говорит «что-то не то у меня в голове», а довольно корректно называет саму концепцию, которую внедрили. И, более того, отличает ее от собственных активаций, точно понимая, что мысль ей именно подсунули.
б) Она делает это до того, как концепция протолкнулась в генерацию. То есть во время ответа она не может ориентироваться на текст, который был сгенерирован под воздействием концепции. Вместо этого модель сразу копается в собственных "мыслях" и интерпретирует их.
Также Anthropic показали, что модель отличает внутренний поток мыслей от самих генераций. Это как у человека: "это я думаю, а это говорю". А еще моделька может подумать о чем-то по команде. Например, если сказать ей "думай о хлебе, и расскажи мне про львов", то след активаций действительно будет содержать компонент «хлеб» в определённых слоях.
Способность эта, конечно, пока крайне нестабильна и капризна. Но сам факт: она есть! И если научиться этим управлять, возможно, модели станут прозрачнее (или нет😎 )
transformer-circuits.pub/2025/introspection/index.html
У людей интроспекция – это когда ты замечаешь: «я злюсь», «я думаю об этом», «я хочу сделать вот это». То есть мозг умеет интерпретировать собственное состояние. Вопрос: способны ли к чему-то подобному модели?
По обычному диалогу, это, само собой, непонятно. Модельки довольно часто генерят что-то типа "Мне кажется", "Я думаю". Но это потому что они обучены на текстах, в которых люди так говорят. То есть они могут имитировать интроспекцию, даже если на самом деле не смотрят внутрь себя, а просто копируют стиль. Это называется конфабуляция.
Anthropic решили проверить, есть ли в этой череде конфабуляций хоть частичка правды. На техническом языке это значит: может ли модель интерпретировать собственные активации?
Оказалось, что иногда может.
Проверяли это с помощью искусственного внедрения в активации модели специальных векторов состояний. Эти векторы получают так: показывают модели два очень похожих текста, которые различаются только в одном аспекте (например, один вариант с текстом В КАПСЕ vs обычный), и вычитают активации одного из другого. Разница дает направление в активационном пространстве, которое соответствует этой концепции (в данном случае, крику).
Полученный вектор прямо добавляют в скрытое состояние модели на каком-то слое и спрашивают, замечает ли она что-то необычное. Результат: примерно в 20% случаев Opus 4.1 и Opus 4 действительно говорят что-то типа "я ощущаю навязанную мысль, она похожа на что-то громкое". То есть
а) Модель не просто говорит «что-то не то у меня в голове», а довольно корректно называет саму концепцию, которую внедрили. И, более того, отличает ее от собственных активаций, точно понимая, что мысль ей именно подсунули.
б) Она делает это до того, как концепция протолкнулась в генерацию. То есть во время ответа она не может ориентироваться на текст, который был сгенерирован под воздействием концепции. Вместо этого модель сразу копается в собственных "мыслях" и интерпретирует их.
Также Anthropic показали, что модель отличает внутренний поток мыслей от самих генераций. Это как у человека: "это я думаю, а это говорю". А еще моделька может подумать о чем-то по команде. Например, если сказать ей "думай о хлебе, и расскажи мне про львов", то след активаций действительно будет содержать компонент «хлеб» в определённых слоях.
Способность эта, конечно, пока крайне нестабильна и капризна. Но сам факт: она есть! И если научиться этим управлять, возможно, модели станут прозрачнее (или нет
transformer-circuits.pub/2025/introspection/index.html
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍72😁29🤯23❤20🔥17 11 6😎2❤🔥1
DeepMind обучили модель, способную генерировать красивые шахматные задачи
Обратите внимание на слово «красивые». Простенькие шахматные задачки, наверное, каждая LLM может наклепать.
Но чтобы получилась действительно оригинальная шахматная задача – нужно и некоторое творчество, и понимание изящества и эстетики позиции.
И вот чтобы научить этому модель, исследователи специально сотрудничали с гроссмейстерами Мэттью Сэдлером и Джонатаном Левиттом, а также с мастером ФИДЕ по композиции Амацием Авни. Их пригласили выбрать любимые задачи и объяснить, что именно делает задачу особенно симпатичной.
Саму модельку сначала учили просто на куче задач с Lichess, а потом как раз на основе разметки экспертов тюнили с помощью RL-ки, чтобы задачи были оригинальные и сложные.
Попробовать порешать можно тут -> www.chess.com/library/collections/ai-generated-chess-puzzles-2wCTN7Uv2
Обратите внимание на слово «красивые». Простенькие шахматные задачки, наверное, каждая LLM может наклепать.
Но чтобы получилась действительно оригинальная шахматная задача – нужно и некоторое творчество, и понимание изящества и эстетики позиции.
И вот чтобы научить этому модель, исследователи специально сотрудничали с гроссмейстерами Мэттью Сэдлером и Джонатаном Левиттом, а также с мастером ФИДЕ по композиции Амацием Авни. Их пригласили выбрать любимые задачи и объяснить, что именно делает задачу особенно симпатичной.
Саму модельку сначала учили просто на куче задач с Lichess, а потом как раз на основе разметки экспертов тюнили с помощью RL-ки, чтобы задачи были оригинальные и сложные.
Попробовать порешать можно тут -> www.chess.com/library/collections/ai-generated-chess-puzzles-2wCTN7Uv2
😁55🔥38❤21👍9 4🏆3👏1
А как же мемы про собесы?
Если вы когда-нибудь пробовали устроиться в Яндекс, то знаете, что отбор там обычно долгий и не всегда прозрачный. Довольно странное ощущение, когда в начале или середине процесса ты всё ещё не понимаешь, что тебя ждет и как к этому вообще готовиться. Особенно, когда приходится доказывать компетентность своих хардов по нескольку раз.
Судя по всему, компания наконец прислушалась к болям кандидатов: возможно роль сыграли те самые мемные рилсы. Изменения на первый взгляд кажутся небольшими, но понятно, что просто взять и вырезать этапы, сократив их условно до двух встреч не получится. В любом бигтехе такие перестановки требуют огромного количества усилий и времени — а когда ты нанимаешь по десятку тысяч людей за год, тем более этот механизм двигать очень сложно. И всё же, спойлер, лёд тронулся.
Раньше одни и те же технички можно было проходить по кругу, потому что разные сервисы по-разному видели этот этап. Или другая проблема — умеешь управлять людьми, а тебя просят написать код на позицию IC. Теперь повторные тех секции убрали, и сделали это для большинства стеков, в том числе для ML-щиков. Гадать на кофейной гуще о количестве встреч тоже можно будет меньше, максимальное количество этапов будут озвучивать с самого начала.
Короче, если вся система перестает напоминать квест на выносливость — это будет хороший шаг. Думаю, когда соискатель понимает, что его время ценят, что каждая встреча имеет смысл — процесс перестает душить.
Если вы когда-нибудь пробовали устроиться в Яндекс, то знаете, что отбор там обычно долгий и не всегда прозрачный. Довольно странное ощущение, когда в начале или середине процесса ты всё ещё не понимаешь, что тебя ждет и как к этому вообще готовиться. Особенно, когда приходится доказывать компетентность своих хардов по нескольку раз.
Судя по всему, компания наконец прислушалась к болям кандидатов: возможно роль сыграли те самые мемные рилсы. Изменения на первый взгляд кажутся небольшими, но понятно, что просто взять и вырезать этапы, сократив их условно до двух встреч не получится. В любом бигтехе такие перестановки требуют огромного количества усилий и времени — а когда ты нанимаешь по десятку тысяч людей за год, тем более этот механизм двигать очень сложно. И всё же, спойлер, лёд тронулся.
Раньше одни и те же технички можно было проходить по кругу, потому что разные сервисы по-разному видели этот этап. Или другая проблема — умеешь управлять людьми, а тебя просят написать код на позицию IC. Теперь повторные тех секции убрали, и сделали это для большинства стеков, в том числе для ML-щиков. Гадать на кофейной гуще о количестве встреч тоже можно будет меньше, максимальное количество этапов будут озвучивать с самого начала.
Короче, если вся система перестает напоминать квест на выносливость — это будет хороший шаг. Думаю, когда соискатель понимает, что его время ценят, что каждая встреча имеет смысл — процесс перестает душить.
❤87😁50🗿24👍13🤯7🫡5🤨4 3❤🔥1
Исследователи из Tsinghua University разработали первый в мире оптический вычислительный модуль OFE²
Optical Feature Extraction Engine – это устройство, которое использует для вычислений фотоны вместо электронов. Световые сигналы проходят через систему дифракционных элементов и модуляторов, где их фазы и амплитуды изменяются так, чтобы реализовать нужные математические операции.
Основная фишка тут в том, что свет распространяется гораздо быстрее, и за счет этого чип работает на более высокой частоте, не перегревается, требует меньше энергии и времени.
И да, это все еще исследовательская темка, но в статье уже показали, как чип работает на абсолютно реальной задаче image feature extraction. То есть на нем уже можно покрутить вполне осязаемую сегментацию, например. И все происходит полностью на оптическом домене, без каких-либо гибридных вычислений.
Результаты получаются сопоставимые с электронными CNN-модулям, но при этом OFE² потребляет в сотни раз меньше энергии и выполняет операции в 1000 раз быстрее.
Вопрос возможности массовой применимости остается открытым, конечно, но на уровне идеи – звучит здорово
Статья
Optical Feature Extraction Engine – это устройство, которое использует для вычислений фотоны вместо электронов. Световые сигналы проходят через систему дифракционных элементов и модуляторов, где их фазы и амплитуды изменяются так, чтобы реализовать нужные математические операции.
Основная фишка тут в том, что свет распространяется гораздо быстрее, и за счет этого чип работает на более высокой частоте, не перегревается, требует меньше энергии и времени.
И да, это все еще исследовательская темка, но в статье уже показали, как чип работает на абсолютно реальной задаче image feature extraction. То есть на нем уже можно покрутить вполне осязаемую сегментацию, например. И все происходит полностью на оптическом домене, без каких-либо гибридных вычислений.
Результаты получаются сопоставимые с электронными CNN-модулям, но при этом OFE² потребляет в сотни раз меньше энергии и выполняет операции в 1000 раз быстрее.
Вопрос возможности массовой применимости остается открытым, конечно, но на уровне идеи – звучит здорово
Статья
❤112🔥59👍25 5😁4👀3
Он работает на базе GPT-5 и предназначен для того, чтобы находить уязвимости и исправлять ошибки безопасности.
Aardvark может работать автономно: он сам отслеживает коммиты в ваш репозиторий, анализирует их, пишет и выполняет необходимые тесты и вместе с Codex предлагает исправления, если какие-то ошибки нашлись.
OpenAI заявляют, что сами используют Aardvark уже несколько месяцев, и агент много раз выявлял значимые уязвимости.
В эвале на специальных тестовых репозиториях с известными и искусственно добавленными ошибками Aardvark нашел 92% багов, включая сложные. Кроме того, OpenAI пишут, что хотя его для этого и не обучали, он иногда может находить и обычные логические ошибки в коде.
А еще стартап обещает, что они готовы бесплатно подключить Aardvark к некоммерческим опенсорс проектам. Агента, кстати, уже тестировали на нескольких таких репозиториях, и он нашел кучу уязвимостей, десять из которых разработчики признали CVE (Common Vulnerabilities and Exposures).
Пока доступен в частной бета-версии, подать заявку можно тут
openai.com/index/introducing-aardvark/
Please open Telegram to view this post
VIEW IN TELEGRAM
👍58❤30👾8🗿6😁2
Вот короткий топ наших «любимых» типовых задач: максимально снижать затраты на GPU, быстрее масштабировать эксперименты, ускорять обучение и инференес LLM.
Теории на этот счет предостаточно, а вот интенсивная практика встречается редко. Поэтому смело рекомендуем интенсив LLM Scaling Week от ШАДа и Яндекс Образования.
➖ Сначала поймете современные подходы к увеличению эффективности обучения LLM: FP8, Triton, параллелизмы, Mixture of Experts
➖ На основе реальных кейсов узнаете способы, как перейти с одной GPU на десятки, не сжигая бюджет
➖ В итоге научитесь масштабировать и ускорять большие модели не в идеальных, а реальных условиях
Ещё раз: очень много практики, интенсивное обучение на основе практических лекций и семинара от инженеров команды YandexGPT. А, да, ещё плюс — всё бесплатно.
Регистрироваться здесь: ссылка.
Теории на этот счет предостаточно, а вот интенсивная практика встречается редко. Поэтому смело рекомендуем интенсив LLM Scaling Week от ШАДа и Яндекс Образования.
➖ Сначала поймете современные подходы к увеличению эффективности обучения LLM: FP8, Triton, параллелизмы, Mixture of Experts
➖ На основе реальных кейсов узнаете способы, как перейти с одной GPU на десятки, не сжигая бюджет
➖ В итоге научитесь масштабировать и ускорять большие модели не в идеальных, а реальных условиях
Ещё раз: очень много практики, интенсивное обучение на основе практических лекций и семинара от инженеров команды YandexGPT. А, да, ещё плюс — всё бесплатно.
Регистрироваться здесь: ссылка.
❤22🗿17⚡7🤨5😁3 2😍1
HuggingFace релизнули замечательную свежую книгу про обучение LLM
200+ страниц, 7 больших глав. Содержание примерно следующее:
– Архитектуры, их особенности и оптимизация гиперпараметров
– Работа с данными
– Предобучение и какие в нем есть подводные камни
– Пост-трейнинг: все современные подходы и как их применять
– Инфраструктура, как ее правильно строить и оптимизировать
По сути, это готовое хардовое пособие по тому, как с нуля обучить и захостить LLM.
Написано все на довольно простом английском и читается легко + есть куча схем и примеров. В общем, выглядит годно.
huggingface.co/spaces/HuggingFaceTB/smol-training-playbook
200+ страниц, 7 больших глав. Содержание примерно следующее:
– Архитектуры, их особенности и оптимизация гиперпараметров
– Работа с данными
– Предобучение и какие в нем есть подводные камни
– Пост-трейнинг: все современные подходы и как их применять
– Инфраструктура, как ее правильно строить и оптимизировать
По сути, это готовое хардовое пособие по тому, как с нуля обучить и захостить LLM.
Написано все на довольно простом английском и читается легко + есть куча схем и примеров. В общем, выглядит годно.
huggingface.co/spaces/HuggingFaceTB/smol-training-playbook
1🔥172❤47👍22😁3 3⚡2✍1
This media is not supported in your browser
VIEW IN TELEGRAM
Ничего необычного, просто Дженсен Хуанг отмечает 5 триллионов капитализации в обычной закусочной в Сеуле
С ним за столом – главы Samsung и Hyundai. После ланча Хуанг встал из-за стола и объявил, что оплатит заказы всем столам, а потом заказал еще курочки и понес ее на улицу людям, которые ждали его, чтобы сфотографироваться.
Всем желаем таких посиделок с друзьями
С ним за столом – главы Samsung и Hyundai. После ланча Хуанг встал из-за стола и объявил, что оплатит заказы всем столам, а потом заказал еще курочки и понес ее на улицу людям, которые ждали его, чтобы сфотографироваться.
Всем желаем таких посиделок с друзьями
3❤346😁79👍56🍾20🏆6❤🔥4👾4🤔3🗿3 3
Турнир по покеру среди LLM
Вот на этом лендинге прямо сейчас можно посмотреть, как передовые модельки онлайн играют в техасский холдем.
Исходно у каждой из них было по 100000 долларов. Сейчас в наибольшем плюсе Grok-4, Claude Sonnet 4.5 и o3. Grok выиграл уже $38к. А вот Llama-4 с собой за карточный стол лучше не брать 🫠
Турнир продлится до сегодняшнего вечера, потом будет официальный лидерборд.
pokerbattle.ai
Вот на этом лендинге прямо сейчас можно посмотреть, как передовые модельки онлайн играют в техасский холдем.
Исходно у каждой из них было по 100000 долларов. Сейчас в наибольшем плюсе Grok-4, Claude Sonnet 4.5 и o3. Grok выиграл уже $38к. А вот Llama-4 с собой за карточный стол лучше не брать 🫠
Турнир продлится до сегодняшнего вечера, потом будет официальный лидерборд.
pokerbattle.ai
👍81😁52❤16🔥13 6
Make it exist first, you can make it good later
Эту фразу знает и понимает каждый успешный фаундер, потому что один из главных рисков в запуске IT-продукта – это застрять в бесконечной доработке и не выйти на рынок.
Тут важна скорость. Хороший пример: в комьюнити под названием Короче, Капитан проходит челлендж 12 запусков за 12 месяцев. И это работает. Вот, каким образом все устроено:
1. Выбирается одна конкретная проблема с проверенным спросом, без догадок.
2. На разработку и запуск на рынок США/ЕС выделяется ровно месяц и минимальные вложения (средний бюджет на продвижение – $150).
3. В конце месяца – честный разбор полетов: что получилось и что нет.
По каждому проекту вы видите запуск, продвижение и доход в реальном времени. Это идеальный набор, чтобы тренировать насмотренность и отмечать для себя работающие и неудачные подходы (даже если вы инженер, а не стартапер).
В будущем гарантировано набьете меньше шишек💡
Подписаться: @its_capitan
Реклама. ИП Зуев, ИНН 360408359441, erid: 2Vtzqxm1SKY
Эту фразу знает и понимает каждый успешный фаундер, потому что один из главных рисков в запуске IT-продукта – это застрять в бесконечной доработке и не выйти на рынок.
Тут важна скорость. Хороший пример: в комьюнити под названием Короче, Капитан проходит челлендж 12 запусков за 12 месяцев. И это работает. Вот, каким образом все устроено:
1. Выбирается одна конкретная проблема с проверенным спросом, без догадок.
2. На разработку и запуск на рынок США/ЕС выделяется ровно месяц и минимальные вложения (средний бюджет на продвижение – $150).
3. В конце месяца – честный разбор полетов: что получилось и что нет.
По каждому проекту вы видите запуск, продвижение и доход в реальном времени. Это идеальный набор, чтобы тренировать насмотренность и отмечать для себя работающие и неудачные подходы (даже если вы инженер, а не стартапер).
В будущем гарантировано набьете меньше шишек
Подписаться: @its_capitan
Реклама. ИП Зуев, ИНН 360408359441, erid: 2Vtzqxm1SKY
Please open Telegram to view this post
VIEW IN TELEGRAM
🗿40🤨15❤10🔥5👍3🤯3😁2🤔1 1
Бу!
Поздравляем всех с Хэллоуином🎃
И помните, в жизни есть только одна вещь, которой стоит бояться, и этоCUDA out of memory
Поздравляем всех с Хэллоуином
И помните, в жизни есть только одна вещь, которой стоит бояться, и это
Please open Telegram to view this post
VIEW IN TELEGRAM
😁282 89☃28❤14🔥7🍾7🤯4👍3 2
Data Secrets
Исследователи из Tsinghua University разработали первый в мире оптический вычислительный модуль OFE² Optical Feature Extraction Engine – это устройство, которое использует для вычислений фотоны вместо электронов. Световые сигналы проходят через систему дифракционных…
Вчера рассказывали вам про оптические чипы, а сегодня на очереди термодинамические
(Да, чего только не придумают)
Ну так вот. Стартап Extropic представил XTR-0 – аппаратную платформу, в которой вычисления происходят не в порядке строгой цифровой логики, а на основе стохастических тепловых процессов.
Чип состоит из так называемых Thermodynamic Sampling Unit (TSU). Это блоки, построенные на p-битах. Суть в том, что в отличие от обычных битов, р-биты не просто принимают значения 0 или 1, а колеблются между ними с заданным распределением вероятностей.
Звучит как бред, но идея за этим стоит следующая. Все современные модели упираются в вероятностные принципы. Например, LLM во время генерации, по факту, выбирают просто самые вероятные следующие токены.
И если мы хотим работать с вероятностными системами, зачем исполнять их на детерминированном железе? Extropic считают, что сэмплинг можно перенести на аппаратный уровень, и это будет в разы эффективнее.
По предварительной оценке, такая система может оказаться в 10 000 раз более энергоэффективной, чем GPU. Но пока это только прототип, увы.
И, кстати, обратите внимание на дизайн ускорителя. Его, видимо, закастомили под кортильный стэк из книги Altered Carbon. В произведении это устройство хранило личность и память человека и представляло из себя, фактический, флешку с сознанием. Так что (как минимум) за отсылку ребятам респект, конечно.
extropic.ai/writing/inside-x0-and-xtr-0
(Да, чего только не придумают)
Ну так вот. Стартап Extropic представил XTR-0 – аппаратную платформу, в которой вычисления происходят не в порядке строгой цифровой логики, а на основе стохастических тепловых процессов.
Чип состоит из так называемых Thermodynamic Sampling Unit (TSU). Это блоки, построенные на p-битах. Суть в том, что в отличие от обычных битов, р-биты не просто принимают значения 0 или 1, а колеблются между ними с заданным распределением вероятностей.
Звучит как бред, но идея за этим стоит следующая. Все современные модели упираются в вероятностные принципы. Например, LLM во время генерации, по факту, выбирают просто самые вероятные следующие токены.
И если мы хотим работать с вероятностными системами, зачем исполнять их на детерминированном железе? Extropic считают, что сэмплинг можно перенести на аппаратный уровень, и это будет в разы эффективнее.
По предварительной оценке, такая система может оказаться в 10 000 раз более энергоэффективной, чем GPU. Но пока это только прототип, увы.
И, кстати, обратите внимание на дизайн ускорителя. Его, видимо, закастомили под кортильный стэк из книги Altered Carbon. В произведении это устройство хранило личность и память человека и представляло из себя, фактический, флешку с сознанием. Так что (как минимум) за отсылку ребятам респект, конечно.
extropic.ai/writing/inside-x0-and-xtr-0
❤103👍39🔥25😁6 6 4🤯3 2
Please open Telegram to view this post
VIEW IN TELEGRAM
😁304 38👍24❤6😎4☃2🕊1🤨1
AIJ Deep Dive – must-attend событие для профессионалов в AI!
Специальный очный трек международной конференции AI Journey для инженеров будущего — для тех, кто создаёт AI своими руками.
Будет два тематических дня:
Почему это событие нельзя пропустить?
Локация: офис Сбера, Кутузовский проспект, д. 32, к. 1 (Е)
Дата: 20–21 ноября 2025 года
Подробности и регистрация: https://aij.ru/deepdive
Приходи и стань частью сообщества, которое пишет будущее!
Специальный очный трек международной конференции AI Journey для инженеров будущего — для тех, кто создаёт AI своими руками.
Будет два тематических дня:
1️⃣ День Бизнеса (20 ноября) — реальные кейсы внедрения AI, практические результаты и оценка эффективности.
2️⃣ День Науки (21 ноября) — прорывные исследования, передовые R&D-разработки и глубокий технический разбор решений.
Почему это событие нельзя пропустить?
✔️ Сообщество тех, кто уже сегодня формирует технологические стандарты завтрашнего дня
✔️ Только реальные кейсы, инсайды и решения
✔️ Нетворкинг и возможность установить контакты с ключевыми игроками рынка и перспективными коллегами
✔️ Постерная сессия научных статей, в том числе уровня А/А*
✔️ Возможность увидеть изнутри, как рождаются прорывные технологии
Локация: офис Сбера, Кутузовский проспект, д. 32, к. 1 (Е)
Дата: 20–21 ноября 2025 года
Подробности и регистрация: https://aij.ru/deepdive
Приходи и стань частью сообщества, которое пишет будущее!
🔥12🗿10😁7❤5❤🔥1🕊1 1
О, Гарвард опубликовал отличную книгу по ML-системам
Это не совсем обычный учебник по ML: акцент сделан не на моделях, а на инженерной стороне.
Тут найдете все про то, как строить, оптимизировать и поддерживать ML-решения на всех этапах – от данных и инфраструктуры до развёртывания и эксплуатации. Авторы объясняют, как связаны между собой алгоритмы, данные и железо, и почему одни пайплайны масштабируются, а другие ломаются под нагрузкой.
В общем, очень полезная и довольно редкая литература (особенно учитывая, что книга бесплатная). Забираем на долгие выходные.
pdf-ка и онлайн версия доступны здесь, репозиторий тут
Это не совсем обычный учебник по ML: акцент сделан не на моделях, а на инженерной стороне.
Тут найдете все про то, как строить, оптимизировать и поддерживать ML-решения на всех этапах – от данных и инфраструктуры до развёртывания и эксплуатации. Авторы объясняют, как связаны между собой алгоритмы, данные и железо, и почему одни пайплайны масштабируются, а другие ломаются под нагрузкой.
В общем, очень полезная и довольно редкая литература (особенно учитывая, что книга бесплатная). Забираем на долгие выходные.
pdf-ка и онлайн версия доступны здесь, репозиторий тут
2🔥109❤46😍9👍7😁1🕊1
This media is not supported in your browser
VIEW IN TELEGRAM
А вот так Tesla поздравила всех с Хэллоуином 😐
Please open Telegram to view this post
VIEW IN TELEGRAM
😁124 44🗿10❤5 3☃1🔥1🍓1
This media is not supported in your browser
VIEW IN TELEGRAM
Как прошла CVPR 2025: главные выводы
CVPR – это главная мировая конференция по ИИ и компьтерному зрению. В этом году на нее подали около 13000 работ (accept rate составил ~ 22% процентов). Доклады точно стоят внимания, но изучить 2800+ работ самостоятельно...🪢
Мы нашли прекрасную презентацию на русском языке, в которой оказались собраны и разжеваны все главные идеи и выводы с конференции. Ее представил на встрече ComDS (Community of data scientists ВТБ) Олег Милосердов – Lead DS Лаборатории компьютерного зрения ВТБ.
Каждое направление (диффузионки, animation, editing, VLM и тд) в презентации разобрано отдельно, а в конце перечислены как новые, так и угасающие тренды. Главное:
➖ Технологии, ориентированные на узкие задачи, теряют актуальность. На смену приходят универсальные, мультимодальные, архитектурно адаптивные модели, способные к обобщению и логике.
➖ Генеративки в целом дешевеют. Появляется все больше подходов, которые позволяют эффективно "сжимать" навыки модели, сохраняя высокое качество.
➖ Рабочий автопилот становится реальнее: в этом году четко видно, что исследователями уже заложена хорошая база для Embodied AI, так что скоро ожидаем прорывов.
На эти тренды можно ориентироваться как на глобальные, потому что CVPR уже давно считается главным термометром по ИИ и CV и ежегодно формирует векторы развития области.
Изучаем полную презентацию по ссылке и берем на заметку
CVPR – это главная мировая конференция по ИИ и компьтерному зрению. В этом году на нее подали около 13000 работ (accept rate составил ~ 22% процентов). Доклады точно стоят внимания, но изучить 2800+ работ самостоятельно...
Мы нашли прекрасную презентацию на русском языке, в которой оказались собраны и разжеваны все главные идеи и выводы с конференции. Ее представил на встрече ComDS (Community of data scientists ВТБ) Олег Милосердов – Lead DS Лаборатории компьютерного зрения ВТБ.
Каждое направление (диффузионки, animation, editing, VLM и тд) в презентации разобрано отдельно, а в конце перечислены как новые, так и угасающие тренды. Главное:
На эти тренды можно ориентироваться как на глобальные, потому что CVPR уже давно считается главным термометром по ИИ и CV и ежегодно формирует векторы развития области.
Изучаем полную презентацию по ссылке и берем на заметку
Please open Telegram to view this post
VIEW IN TELEGRAM
1❤32👍12😁7🤨2🤯1🕊1
Media is too big
VIEW IN TELEGRAM
Илон Маск говорит, что скоро смартфоны уйдут в прошлое
Их подвинет ИИ, и вместо привычного телефона уже через 5-10 у нас в руках будет простой дисплей, который будет связывать ваши локальные LLM с облачными, и все.
Посредством таких дисплеев люди будут общаться и потреблять мгновенно сгенерированный персонализированный контент. Не будет ни операционных систем, ни приложений.
Как вам идея, а?
Их подвинет ИИ, и вместо привычного телефона уже через 5-10 у нас в руках будет простой дисплей, который будет связывать ваши локальные LLM с облачными, и все.
Посредством таких дисплеев люди будут общаться и потреблять мгновенно сгенерированный персонализированный контент. Не будет ни операционных систем, ни приложений.
Как вам идея, а?
1🤨238 74😁46🗿30👍23 17 7❤6🤔6⚡5🤩1
Илья Суцкевер поделился некоторыми новыми подробностями увольнения Альтмана осенью 2023 года
Да, прошло два года, а интересные детали все продолжают всплывать. В этот раз новая информация утекла в СМИ благодаря Маску. Он продолжает судиться с OpenAI, обвиняя их в том, что стартап ушел от своей изначальной некоммерческой миссии «разработать AGI ради блага человечества» и превратился в коммерческую машину.
В ходе расследования стороны привлекают свидетелей, и недавно в судебный реестр попала стенограмма почти десятичасовой депозиции Ильи Суцкевера по поводу того, что происходило в OpenAI в 2023, и как управлялась компания.
Прямо о своей роли в тех событиях Илья не говорит, но оказывается, тогда именно он подготовил для совета директоров 52-страничный внутренний меморандум, в котором объяснял, почему Сэму больше нельзя доверять + прикладывал доказательства.
Дело было не в какой-то фатальной тайне и не в споре по поводу безопасности ИИ. Просто Альтман, по словам Суцкевера, систематически вёл себя так, что совету было уже невозможно было контролировать ситуацию: скрывал критически важную информацию, сталкивал руководителей между собой, создавал внутри компании противоречивые версии реальности.
Все это привело компанию к внутреннему кризису управления, и дошло до того, что начало обсуждаться даже слияние OpenAI и Anthropic (да-да). При этом Дарио Амодеи рассматривался как возможный новый CEO объединенной структуры. Сделка в итоге не состоялась, потому что это было крайне сложно с юридической и финансовой точки зрения, но сам факт переговоров уже о многом говорит.
Несмотря на все это, непосредственно после увольнения Сэма, за которым собрались уйти не менее 700 сотруднников, мнение Суцкевера изменилось. В итоге он, как и Мира Мурати, поддерржали совет в решении восстановить Альтмана в должности.
Сейчас суд дополнительно требует от Илья текст той самой 52-страничной записки об Альтмане. Как известно, примерно такой же донос был составлен и на Грега Брокмана. Этот документ судья также требует предоставить, чтобы сопоставить версии разных членов совета.
https://www.theinformation.com/articles/openai-founder-discusses-anthropic-merger-talks-internal-beefs-deposition
Да, прошло два года, а интересные детали все продолжают всплывать. В этот раз новая информация утекла в СМИ благодаря Маску. Он продолжает судиться с OpenAI, обвиняя их в том, что стартап ушел от своей изначальной некоммерческой миссии «разработать AGI ради блага человечества» и превратился в коммерческую машину.
В ходе расследования стороны привлекают свидетелей, и недавно в судебный реестр попала стенограмма почти десятичасовой депозиции Ильи Суцкевера по поводу того, что происходило в OpenAI в 2023, и как управлялась компания.
Прямо о своей роли в тех событиях Илья не говорит, но оказывается, тогда именно он подготовил для совета директоров 52-страничный внутренний меморандум, в котором объяснял, почему Сэму больше нельзя доверять + прикладывал доказательства.
Дело было не в какой-то фатальной тайне и не в споре по поводу безопасности ИИ. Просто Альтман, по словам Суцкевера, систематически вёл себя так, что совету было уже невозможно было контролировать ситуацию: скрывал критически важную информацию, сталкивал руководителей между собой, создавал внутри компании противоречивые версии реальности.
Все это привело компанию к внутреннему кризису управления, и дошло до того, что начало обсуждаться даже слияние OpenAI и Anthropic (да-да). При этом Дарио Амодеи рассматривался как возможный новый CEO объединенной структуры. Сделка в итоге не состоялась, потому что это было крайне сложно с юридической и финансовой точки зрения, но сам факт переговоров уже о многом говорит.
Несмотря на все это, непосредственно после увольнения Сэма, за которым собрались уйти не менее 700 сотруднников, мнение Суцкевера изменилось. В итоге он, как и Мира Мурати, поддерржали совет в решении восстановить Альтмана в должности.
Сейчас суд дополнительно требует от Илья текст той самой 52-страничной записки об Альтмане. Как известно, примерно такой же донос был составлен и на Грега Брокмана. Этот документ судья также требует предоставить, чтобы сопоставить версии разных членов совета.
https://www.theinformation.com/articles/openai-founder-discusses-anthropic-merger-talks-internal-beefs-deposition
1 62🔥42👍13❤10😁3👀3🤔1