Google продолжают радовать прикладными модельками: они выпустили диагностическую медицинскую ИИ-систему
Особенность guardrailed-AMIE (g-AMIE) в том, что она создана именно как помощник врача, а не его замена. Вместо того, чтобы давать какие-то медицинские рекомендации, модель просто формирует для живого специалиста информационную сводку и гипотезы, которые стоит проверить.
В основе Gemini 2.0 Flash, но тут важнее форма процесса. За все отвечают три агента:
1. Диалоговый. Он опрашивает пациента, запрашивает какие-то необходимые документы и делает краткое заключение с гипотезами и описанием случая.
2. Проверяющий. Чекает, чтобы ничего из того, что написал диалоговый, не представляло из себя медицинскую рекомендацию (такую дать может только врач)
3. SOAP-агент. Генерирует итоговый отчет. Сначала объективные заключения, потом гипотезы и план их проверки, зачем черновик заключения для пациента.
Результаты передаются в руки врачу. Тот в специальном интерфейсе все просматривает, редактирует и решает, какой окончательный диагноз поставить и что делать с пациентом.
Google тут молодцы именно в том, что не пытаются бежать вперед паровоза и заменить врача, а ориентируются на реальную ситуацию в сфере. Понятно, что ставить полностью автономного агента в клинике никто не будет, но вот такая система, которая просто помогает врачу, не снимая с него основную ответственность за принятие решений, вполне может работать в любой больнице уже завтра почти без рисков.
Ну и да: по точности предлагаемых диагнозов и плана лечения (а еще по уровню эмпатии) g-AMIE обошла и врачей, и младший мед.персонал.
research.google/blog/enabling-physician-centered-oversight-for-amie/
Особенность guardrailed-AMIE (g-AMIE) в том, что она создана именно как помощник врача, а не его замена. Вместо того, чтобы давать какие-то медицинские рекомендации, модель просто формирует для живого специалиста информационную сводку и гипотезы, которые стоит проверить.
В основе Gemini 2.0 Flash, но тут важнее форма процесса. За все отвечают три агента:
1. Диалоговый. Он опрашивает пациента, запрашивает какие-то необходимые документы и делает краткое заключение с гипотезами и описанием случая.
2. Проверяющий. Чекает, чтобы ничего из того, что написал диалоговый, не представляло из себя медицинскую рекомендацию (такую дать может только врач)
3. SOAP-агент. Генерирует итоговый отчет. Сначала объективные заключения, потом гипотезы и план их проверки, зачем черновик заключения для пациента.
Результаты передаются в руки врачу. Тот в специальном интерфейсе все просматривает, редактирует и решает, какой окончательный диагноз поставить и что делать с пациентом.
Google тут молодцы именно в том, что не пытаются бежать вперед паровоза и заменить врача, а ориентируются на реальную ситуацию в сфере. Понятно, что ставить полностью автономного агента в клинике никто не будет, но вот такая система, которая просто помогает врачу, не снимая с него основную ответственность за принятие решений, вполне может работать в любой больнице уже завтра почти без рисков.
Ну и да: по точности предлагаемых диагнозов и плана лечения (а еще по уровню эмпатии) g-AMIE обошла и врачей, и младший мед.персонал.
research.google/blog/enabling-physician-centered-oversight-for-amie/
2❤161❤🔥34👍34🕊18👏6🗿1
Data Secrets
Пекин вызвал Дженсена Хуанга на ковер из-за проблем с безопасностью в чипах Nvidia Сообщается, что какие-то американские эксперты (кто именно, не уточняется) нашли в видеокартах H20 некие уязвимости (какие именно, также не уточняется), из-за которых можно…
Ну мем: сразу после того, как Хуанг согласился отстегивать правительству США 15% прибыли на лицензию за продажу в Китае, китайское правительство решило, что они больше не хотят покупать видеокарты Nvidia
Они распорядились крупнейшим местным технологическим компаниям – ByteDance, Alibaba и Tencent – приостановить закупки чипов Nvidia, в первую очередь модели H20 (той самой, на которую Дженсен так выбивал лицензию).
Все из-за опасений по поводу национальной безопасности и угроз информационной безопасности. Помните же историю, когда некие американские исследователи распустили сплетню о том, что Nvidia зашивает в свои китайские чипы локаторы и устройства удаленного управления? Так вот хоть это был и фейк, в Китае все-таки не на шутку разволновались по этому поводу.
Сюжет для сериала, и только
Они распорядились крупнейшим местным технологическим компаниям – ByteDance, Alibaba и Tencent – приостановить закупки чипов Nvidia, в первую очередь модели H20 (той самой, на которую Дженсен так выбивал лицензию).
Все из-за опасений по поводу национальной безопасности и угроз информационной безопасности. Помните же историю, когда некие американские исследователи распустили сплетню о том, что Nvidia зашивает в свои китайские чипы локаторы и устройства удаленного управления? Так вот хоть это был и фейк, в Китае все-таки не на шутку разволновались по этому поводу.
Сюжет для сериала, и только
1😁133 44👍31❤9🔥9🤔3🗿3🤨2 1
Perplexity в очередной раз сделали маркетинговый ход конем и заявили, что собираются купить Google Chrome
Чтобы вы понимали:
– Perplexity целиком оценивается примерно в 18 миллиардов долларов
– Chrome стоит 34.5 миллиарда
Даже при привлечении огромных денег от инвесторов стартап вряд ли потянет покупку (а там еще огромный штаб разработчиков, которым надо платить зп, и гигантские траты на серверы). На рынке, где есть OpenAI и остальные, такой лакомый кусочек вряд ли достанется Perplexity.
Зато сколько шума они навели и сколько внимания к себе привлекли. Абсолютно все СМИ сегодня пишут об этой новости, а Perplexity, вероятно, только это и надо было: создать себе репутацию сильной богатой компании, которая может себе позволить даже Chrome
Респект
Чтобы вы понимали:
– Perplexity целиком оценивается примерно в 18 миллиардов долларов
– Chrome стоит 34.5 миллиарда
Даже при привлечении огромных денег от инвесторов стартап вряд ли потянет покупку (а там еще огромный штаб разработчиков, которым надо платить зп, и гигантские траты на серверы). На рынке, где есть OpenAI и остальные, такой лакомый кусочек вряд ли достанется Perplexity.
Зато сколько шума они навели и сколько внимания к себе привлекли. Абсолютно все СМИ сегодня пишут об этой новости, а Perplexity, вероятно, только это и надо было: создать себе репутацию сильной богатой компании, которая может себе позволить даже Chrome
Респект
1 246😁83👍53❤19🦄8🔥6🗿6 6👾3🐳2💯1
Что спрашивают на собеседовании в OpenAI
Мы тут бороздили Интернет и нашли золото: инженер, который только что вышел на работу в OpenAI, написал огромный блог-пост про процесс отбора в стартап. И выглядит это как ультимативный гайд по тому, как прокачаться в прохождении собесов на любую ML-роль.
Итак, пересказываем максимально кратко:
1 этап – Recruiter intro (15–30 мин).
Это просто базовый скрин: вам рассказывают про команду, этапы, сроки, правила прохождения интервью и тд. Вы рассказываете о себе. Обязательно нужно подготовиться, порепетировать с друзьями, быть кратким, задать вопросы и все записать.
2 этап – Hiring Manager chat. Вопросы в духе почему вы подходите этой команде и тд. На этом этапе уже важно понимать цели компании, показать предметный интерес и соблюдать баланс скромности и уверенности.
3 этап – Кодинг.
Начинается самое интересное. Вот что могут спросить, например:
– дебаггинг трансформера (ошибка может быть в механизме внимания, например, или в форме тензоров)
– реализация KV-cache, BPE или обратного распространения с нуля
– классика алгоритмов: Дейкстра, кучи, сортировки, бинарный поиск
Автор пишет, что тут важнее делать быстро, чем идеально качественно. Лучше оставлять #todo и assert, чем путаться и тормозить. Ну а с подготовкой все просто: 100+ часов на LeetCode и столько же на чтение и имплементацию статей.
4 этап – ML.
Проверяют фундамент + какие-то актуальные знания. Например, могут спросить: supervised vs unsupervised, математика линейной регрессии, как обучить модель с контекстом 10М токенов, GRPO vs PPO, методы интерпретируемости. Тут опять же: читаем много статей и базовые книги.
5 этап – Поведенческое интервью.
Проверяют, как вы действуете в сложных ситуациях. К этому интервью тоже не забываем готовиться и отвечаем всегда по методу STAR(I): Situation, Task, Action, Result, Insight. Отдельно готовимся к вопросам про провал и конфликты, они будут обязательно.
Вот так как-то, за деталями – в сам блогпост. Там еще кучу полезного можно найти: инсайты, полезные ресурсы, советы по тому, как выбивать себе зп и так далее.
Уловом с утра – довольны 🍯
Мы тут бороздили Интернет и нашли золото: инженер, который только что вышел на работу в OpenAI, написал огромный блог-пост про процесс отбора в стартап. И выглядит это как ультимативный гайд по тому, как прокачаться в прохождении собесов на любую ML-роль.
Итак, пересказываем максимально кратко:
1 этап – Recruiter intro (15–30 мин).
Это просто базовый скрин: вам рассказывают про команду, этапы, сроки, правила прохождения интервью и тд. Вы рассказываете о себе. Обязательно нужно подготовиться, порепетировать с друзьями, быть кратким, задать вопросы и все записать.
2 этап – Hiring Manager chat. Вопросы в духе почему вы подходите этой команде и тд. На этом этапе уже важно понимать цели компании, показать предметный интерес и соблюдать баланс скромности и уверенности.
3 этап – Кодинг.
Начинается самое интересное. Вот что могут спросить, например:
– дебаггинг трансформера (ошибка может быть в механизме внимания, например, или в форме тензоров)
– реализация KV-cache, BPE или обратного распространения с нуля
– классика алгоритмов: Дейкстра, кучи, сортировки, бинарный поиск
Автор пишет, что тут важнее делать быстро, чем идеально качественно. Лучше оставлять #todo и assert, чем путаться и тормозить. Ну а с подготовкой все просто: 100+ часов на LeetCode и столько же на чтение и имплементацию статей.
4 этап – ML.
Проверяют фундамент + какие-то актуальные знания. Например, могут спросить: supervised vs unsupervised, математика линейной регрессии, как обучить модель с контекстом 10М токенов, GRPO vs PPO, методы интерпретируемости. Тут опять же: читаем много статей и базовые книги.
5 этап – Поведенческое интервью.
Проверяют, как вы действуете в сложных ситуациях. К этому интервью тоже не забываем готовиться и отвечаем всегда по методу STAR(I): Situation, Task, Action, Result, Insight. Отдельно готовимся к вопросам про провал и конфликты, они будут обязательно.
Вот так как-то, за деталями – в сам блогпост. Там еще кучу полезного можно найти: инсайты, полезные ресурсы, советы по тому, как выбивать себе зп и так далее.
Уловом с утра – довольны 🍯
2❤209🔥69👍48🤯9 7😁6🕊4🤔1💯1
Пошел слух, что скоро выйдет DeepSeek R2
Якобы из внутренних каналов стартапа в сеть просочились упоминания о релизе между 15 и 30 августа и даже некоторые технические детали модели.
Говорят, что это MoE на 1.2 триллиона параметров с новой техникой роутинга, которая будет бегать исключительно на китайских чипах Huawei Ascend 910B (из-за перехода на которые и возникла задержка с выпуском).
Сама компания, по словам инсайдеров, слухи опровергает и не называет точных дат релиза. Такое повторяется уже не первый раз (сначала журналисты обещали 17 марта, потом конец мая, а сейчас вот август).
Но воз и ныне там. А жаль. По DeepSeek мы уже успели соскучиться
Якобы из внутренних каналов стартапа в сеть просочились упоминания о релизе между 15 и 30 августа и даже некоторые технические детали модели.
Говорят, что это MoE на 1.2 триллиона параметров с новой техникой роутинга, которая будет бегать исключительно на китайских чипах Huawei Ascend 910B (из-за перехода на которые и возникла задержка с выпуском).
Сама компания, по словам инсайдеров, слухи опровергает и не называет точных дат релиза. Такое повторяется уже не первый раз (сначала журналисты обещали 17 марта, потом конец мая, а сейчас вот август).
Но воз и ныне там. А жаль. По DeepSeek мы уже успели соскучиться
1👍110🐳86🔥28❤4😁4 3😍2
Игорь Бабушкин, сооснователь xAI и один из главных архитекторов команды, объявил об уходе из компании
Бывший инженер DeepMind и OpenAI (а теперь уже и xAI) запускает фонд Babuschkin Ventures🧖 . Задача — инвестировать в проекты по AI-safety и агентные системы, которые, по его словам, «помогут продвигать человечество и раскрывать тайны Вселенной».
В прощальном посте он выделил два принципа, которым научился у Маска: лично вникать в технические задачи и работать с маниакальным чувством срочности.
Для xAI это уже третья заметная потеря топ-кадров за последние месяцы — на фоне жёсткой конкуренции с OpenAI, Google и Anthropic такие новости явно не добавляют спокойствия Илону
Бывший инженер DeepMind и OpenAI (а теперь уже и xAI) запускает фонд Babuschkin Ventures
В прощальном посте он выделил два принципа, которым научился у Маска: лично вникать в технические задачи и работать с маниакальным чувством срочности.
Для xAI это уже третья заметная потеря топ-кадров за последние месяцы — на фоне жёсткой конкуренции с OpenAI, Google и Anthropic такие новости явно не добавляют спокойствия Илону
Please open Telegram to view this post
VIEW IN TELEGRAM
1 193🔥35❤24 13👍10 7😁6🦄5 4🤔3
Data Secrets
Юра Борисов может сыграть Илью Суцкевера в фильме про увольнение Альтмана Фильм снимает режиссер «Претендентов». В сюжете – события осени 2023, когда Сэма драматически уволили, а потом восстановили на позицию CEO OpenAI. На роль Альтмана, кстати, хотят…
Папарацци сняли Эндрю Гарфилда в образе Альтмана и Юру Борисова в образе Суцкевера на съемках фильма Artificial (про события осени 2023 и увольнение Сэма из OpenAI)
Лучше второй фотографии вы сегодня точно ничего не увидите🐘
Лучше второй фотографии вы сегодня точно ничего не увидите
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
3😁320 42 38 21❤20👍16🔥5🐳3🗿3👻2
Google выпустили Gemma 3 270М – одну из самых компактных моделей индустрии
Да, именно 270M, а не B. Совсем кроха, которую запустить действительно можно чуть ли не на утюге. Она и создана специально для этого, и даже оптимизирована с точки зрения энергоэффективности: в INT4 квантизации на Pixel 9 Pro съедает всего 0.75% батареи за 25 диалогов.
И кстати, для такого размера очень неплохие показатели следования инструкциям: на IF-Eval 51.2%. По этому показателю модель обходит даже Qwen 2.5 0.5В, который почти в два раза больше.
Для чего использовать:
1. Конечно, локальный запуск. Для кода не подойдет, но для генерации простого текста сгодится.
2. Быстрое простое дообучение под вашу задачу (например, под entity extraction или какой-нибудь sentiment-анализ подойдет отлично).
3. Edge/Internet of Things. Модельку реально можно встроить в колонку, чайник или холодильник и развлекаться👉
Отличная штука для экспериментов, в общем
Веса
Да, именно 270M, а не B. Совсем кроха, которую запустить действительно можно чуть ли не на утюге. Она и создана специально для этого, и даже оптимизирована с точки зрения энергоэффективности: в INT4 квантизации на Pixel 9 Pro съедает всего 0.75% батареи за 25 диалогов.
И кстати, для такого размера очень неплохие показатели следования инструкциям: на IF-Eval 51.2%. По этому показателю модель обходит даже Qwen 2.5 0.5В, который почти в два раза больше.
Для чего использовать:
1. Конечно, локальный запуск. Для кода не подойдет, но для генерации простого текста сгодится.
2. Быстрое простое дообучение под вашу задачу (например, под entity extraction или какой-нибудь sentiment-анализ подойдет отлично).
3. Edge/Internet of Things. Модельку реально можно встроить в колонку, чайник или холодильник и развлекаться
Отличная штука для экспериментов, в общем
Веса
Please open Telegram to view this post
VIEW IN TELEGRAM
2🔥203👍55❤29🤩4👌4❤🔥2😁1🤝1
Media is too big
VIEW IN TELEGRAM
В Китае прошел забег роботов
Там сейчас проходят World Humanoid Robot Games, сегодня первый день. Это буквально олимпийские игры для роботов. 280 команд из 16 стран приехали посоревноваться в 26 дисциплинах. В их числе – бег.
Победил робот от Unitree, модель H1. Он пробежал достаточно бодро: 1500 метров за 6 минут 34 секунды. Человеческий рекорд на такой трассе – 3:26.
Правда, по пути гуманоид успел кого-то сбить, но, как говорится, и так сойдет😳
Там сейчас проходят World Humanoid Robot Games, сегодня первый день. Это буквально олимпийские игры для роботов. 280 команд из 16 стран приехали посоревноваться в 26 дисциплинах. В их числе – бег.
Победил робот от Unitree, модель H1. Он пробежал достаточно бодро: 1500 метров за 6 минут 34 секунды. Человеческий рекорд на такой трассе – 3:26.
Правда, по пути гуманоид успел кого-то сбить, но, как говорится, и так сойдет
Please open Telegram to view this post
VIEW IN TELEGRAM
😁162❤60🔥24 14👾8👍4⚡3🤯3🗿3👀1
This media is not supported in your browser
VIEW IN TELEGRAM
MetaAI выпустили DINOv3 – первую в мире vision foundation модель, которая обходит по качеству специализированные решения
Это универсальная открытая модель, которая подходит почти для любых задач компьютерного зрения: детекция, сегментация, depth estimation, dense prediction.
При этом на всех этих задачах она стабильно превосходит не только предыдущие foundation-модели, но и узкоспециализированные решения, заточенные на отдельные задачи (даже CLIP-based, SigLIP 2 и Perception Encoder). Это фактически исторический сдвиг.
Но это не единственная особенность DINOv3. Модель (внимание!) обучена вообще без разметки, то есть в режиме self-supervised learning. Собственно, это заложено в названии: DINO – DIstillation with NO labels.
Ядро – Vision Transformer. На вход огромный корпус изображений (более 2 миллиардов снимков) и ни одной аннотации, чистые пиксели. Обучение происходило по схеме студент/учитель:
Выглядит витиевато, но суть в том, что в процессе студент учится находить инвариантные признаки, устойчивые к преобразованиям. Например, модель понимает, что кошка на разных участках фотографии – всё та же кошка, а не новые объекты.
Как использовать на практике:
➖ Вот тут лежит бэкбон. Это основная часть сетки, которую в большинстве случаев вам дообучать не придется. Он уже заморожен и готов к применению.
➖ К нему цепляем адаптер. Это обычно небольшой дополнительный линейный слой или линейная голова. Адаптер преобразует фичи из бэкбона под конкретную задачу: классификацию, сегментацию, детекцию, depth estimation и тд.
➖ Если задач сразу несколько, можно шарить фичи на лету. То есть стоимость и время инференса почти не увеличатся, а сетка будет выполнять для вас сразу несколько тасок.
Спасибо, Цукер, сегодня порадовал
Блогпост
Это универсальная открытая модель, которая подходит почти для любых задач компьютерного зрения: детекция, сегментация, depth estimation, dense prediction.
При этом на всех этих задачах она стабильно превосходит не только предыдущие foundation-модели, но и узкоспециализированные решения, заточенные на отдельные задачи (даже CLIP-based, SigLIP 2 и Perception Encoder). Это фактически исторический сдвиг.
Но это не единственная особенность DINOv3. Модель (внимание!) обучена вообще без разметки, то есть в режиме self-supervised learning. Собственно, это заложено в названии: DINO – DIstillation with NO labels.
Ядро – Vision Transformer. На вход огромный корпус изображений (более 2 миллиардов снимков) и ни одной аннотации, чистые пиксели. Обучение происходило по схеме студент/учитель:
1. На каждое изображение применяют набор аугментаций. Например, вырезают из него какие-то части (кропы).
2. Разные варианты изображения (разные кропы) поступают на вход студенту и учителю. Это две копии одной нейросети, но изначально с разными весами.
3. Студента учат воспроизводить предсказания учителя для кропов из одного и того же изображения, даже если сами кропы абсолютно разные. Лосс – кросс-энтропия между выходом студента и учителя, но градиент считают только по студенту.
Выглядит витиевато, но суть в том, что в процессе студент учится находить инвариантные признаки, устойчивые к преобразованиям. Например, модель понимает, что кошка на разных участках фотографии – всё та же кошка, а не новые объекты.
Как использовать на практике:
Спасибо, Цукер, сегодня порадовал
Блогпост
Please open Telegram to view this post
VIEW IN TELEGRAM
3🤯132👍77🔥47❤32 6☃1👏1😁1
В Claude Code добавили два новых режима работы
1. Пояснительный, когда агент объясняет свои действия шаг за шагом. Поможет разобраться, что он делает и почему. Полезно, если не хотите, чтобы после вайб-кодинга ваш проект стал для вас темным лесом.
2. Обучающий, когда модель пишет код с вами пошагово, а не генерирует готовый скрипт целиком сразу. Похоже на парное программирование с ментором.
Переключить режим можно в настройках или с помощью команды /output-style. Обучающий стиль также завезли в основной чат, там он доступен всем пользователям бесплатно.
Приятно 🍯
Документация
1. Пояснительный, когда агент объясняет свои действия шаг за шагом. Поможет разобраться, что он делает и почему. Полезно, если не хотите, чтобы после вайб-кодинга ваш проект стал для вас темным лесом.
2. Обучающий, когда модель пишет код с вами пошагово, а не генерирует готовый скрипт целиком сразу. Похоже на парное программирование с ментором.
Переключить режим можно в настройках или с помощью команды /output-style. Обучающий стиль также завезли в основной чат, там он доступен всем пользователям бесплатно.
Приятно 🍯
Документация
3❤205🔥68👍22🤔4🤯4😁2
В ближайшем будущем рекомендации в X могут начать работать на Grok 4 Mini
Об этом написал Илон Маск. Он говорит, что они прямо сейчас тестируют новый алгоритм, и что он работают явно лучше.
Есть нюанс: чтобы раскатить такое на всех пользователей, потребуется около 20000 GPU, и даже при этом задержка обновления ленты значительно увеличится. Но Маск говорит, что игра «может стоить свеч».
Об этом написал Илон Маск. Он говорит, что они прямо сейчас тестируют новый алгоритм, и что он работают явно лучше.
Есть нюанс: чтобы раскатить такое на всех пользователей, потребуется около 20000 GPU, и даже при этом задержка обновления ленты значительно увеличится. Но Маск говорит, что игра «может стоить свеч».
👍105 59🤯18❤10🗿5😁3🔥1
Хаха, зацените: внутренний мерч Anthropic
Кстати, дизайн придумал и реализовал агент Claudius (тот самый, который работал у них в офисе в вендинговом автомате)
Теперь срочно надо такую же😛
Кстати, дизайн придумал и реализовал агент Claudius (тот самый, который работал у них в офисе в вендинговом автомате)
Теперь срочно надо такую же
Please open Telegram to view this post
VIEW IN TELEGRAM
3😁316🔥73❤37👍14🦄9🗿7👀5❤🔥1👌1
Data Secrets
Пошел слух, что скоро выйдет DeepSeek R2 Якобы из внутренних каналов стартапа в сеть просочились упоминания о релизе между 15 и 30 августа и даже некоторые технические детали модели. Говорят, что это MoE на 1.2 триллиона параметров с новой техникой роутинга…
Оказалось, что DeepSeek откладывают запуск R2 не просто так, а как раз из-за перехода на те самые чипы Huawei Ascend 910
Об этом пишет FT со ссылкой на анонимные источники. Говорят, после бума релиза R1 китайские власти плотно взялись за DeepSeek и буквально заставили их перейти на отечественные чипы.
И вроде бы все ничего: на бумаге Ascend выглядят даже лучше H20 от Nvidia. Там и памяти побольше, и производительность заявлена неплохая. Но это все, видимо, в теории.
А на практике дипсику даже выделили команду инженеров Huawei, чтобы те помогли адаптировать всю инфру под новое железо, НО ни одного трейнлупа на этих чипах завершить так и не удалось.
Во-первых, из-за низкой надежности видеокарт, медленного соединения и хромого ПО. Во-вторых, из-за того что вся экосистема DeepSeek годами оптимизировалась именно под Nvidia. Например, у них там все на fp8, а 910 этот формат даже не поддерживает🤷♂️
Короче сейчас, вроде как, Ascend оставили только для инференса, а обучать будут-таки на H20. Вот только жаль, что пока сыр до бор, время уже ушло…
Об этом пишет FT со ссылкой на анонимные источники. Говорят, после бума релиза R1 китайские власти плотно взялись за DeepSeek и буквально заставили их перейти на отечественные чипы.
И вроде бы все ничего: на бумаге Ascend выглядят даже лучше H20 от Nvidia. Там и памяти побольше, и производительность заявлена неплохая. Но это все, видимо, в теории.
А на практике дипсику даже выделили команду инженеров Huawei, чтобы те помогли адаптировать всю инфру под новое железо, НО ни одного трейнлупа на этих чипах завершить так и не удалось.
Во-первых, из-за низкой надежности видеокарт, медленного соединения и хромого ПО. Во-вторых, из-за того что вся экосистема DeepSeek годами оптимизировалась именно под Nvidia. Например, у них там все на fp8, а 910 этот формат даже не поддерживает
Короче сейчас, вроде как, Ascend оставили только для инференса, а обучать будут-таки на H20. Вот только жаль, что пока сыр до бор, время уже ушло…
Please open Telegram to view this post
VIEW IN TELEGRAM
👍100 79🫡33 25❤22 16😁14🤯5✍1🔥1🤩1
This media is not supported in your browser
VIEW IN TELEGRAM
Мы как-то пропустили, но оказывается Hugging Face недавно тихо выпустили так называемые AI sheets
Это ни много ни мало мечта ML-инженера: инструмент позволяет интерактивно и очень быстро создавать и размечать датасеты почти под любую задачу.
Для этого надо просто выбрать доступную открытую модель (а вообще проект опенсорс, так что можно и закрытую, и свою собственную прикрутить при желании), задать текстовый промпт и получить готовый датасет. Затем его можно еще и отредактировать.
Ну и, конечно, можно загружать уже готовые датасеты, расширять их или менять. С мультимодальностью все тоже работает.
Легко запускается локально, инструкция лежит у них на гите.
github.com/huggingface/aisheets
Это ни много ни мало мечта ML-инженера: инструмент позволяет интерактивно и очень быстро создавать и размечать датасеты почти под любую задачу.
Для этого надо просто выбрать доступную открытую модель (а вообще проект опенсорс, так что можно и закрытую, и свою собственную прикрутить при желании), задать текстовый промпт и получить готовый датасет. Затем его можно еще и отредактировать.
Ну и, конечно, можно загружать уже готовые датасеты, расширять их или менять. С мультимодальностью все тоже работает.
Легко запускается локально, инструкция лежит у них на гите.
github.com/huggingface/aisheets
5❤163🔥69👍32😁3🤔2