Кому выгодно лидерство #DeepSeek? Какой ИТ-гигант помог ему и зачем?
В то время как технологическое сообщество пытается осмыслить прорыв DeepSeek, аналитики спорят о будущем #NVIDIA, а инвесторы переоценивают миллиардные вложения в ИИ-инфраструктуру, #Meta* сохраняет удивительное спокойствие. А Андрей Карпатый, со-основатель OpenAI может объяснить это спокойствие.
Мы @blockchainrf стараемся проанализировать все происходящее вокруг #DeepSeek, а также сопоставить с тем, что говорили и делали ИТ-гиганты в части open source. И отмечаем, что среди гигантов Meta первая продвигала открытый исходный код. Потом присоединились #Google, #Microsoft и др.
Только что Андрей #Карпатый написал большой пост про DeepSeek и отметил 2 ключевых момента:
1. Глубокое обучение имеет "ненасытный аппетит" к вычислениям
2. Существует два типа обучения:
- Имитационное (как текущие LLM)
- Обучение с подкреплением (RL) - значительно более мощное.
Анализируя хронологию событий и заявлений Meta за последние 2 года, мы видим признаки тщательно спланированной стратегии. Это наша @blockchainrf интерпретация, основанная на открытых данных.
Вот, на что мы обращаем внимание:
1. 2023: Первые намеки
Летом Ян #ЛеКун шокирует сообщество заявлением "Machine Learning sucks!"на симпозиуме в Гонконге. Он не критикует, он намекает на необходимость принципиально нового подхода.
В ноябре Meta представляет I-JEPA - альтернативу трансформерам. Это не эксперимент, а первый шаг к чему-то большему. Фокус на обучении с подкреплением вместо имитации.
2. 2024: Подготовка почвы.
ЛеКун методично формирует новую повестку:
- Март: "Не тратьте время на LLM"
- Май: Концепция "objective-driven" архитектуры
- Июль: Партнерство с Groq (новые LPU чипы)
- Октябрь: Детальное видение Objective-Driven AI
Неожиданный ход летом 2024 -
Meta делает то, чего никто не ожидал - открывает исходный код Llama и активно продвигает идею открытого ИИ. На первый взгляд, это кажется рискованным. Но был ли это риск?
- Открытие исходного кода Llama
- Активное продвижение открытого ИИ
- На первый взгляд - риск, на деле - расчет
Карты раскрываются (январь 2025).
DeepSeek, используя наработки Meta:
- Снижает стоимость обучения в 20 раз
- Работает на обычных GPU
- Достигает уровня закрытых моделей
Реакция ЛеКуна на работу DeepSeek - короткий твит: "Nice job! Open research / open source accelerates progress." За этой сдержанностью - триумф стратегии.
На прошлой неделе было заявление ЛеКуна в Давосе о "новой парадигме ИИ в ближайшие 3-5 лет" читается теперь совсем иначе. Meta не просто предсказывает будущее - она методично его создает.
Гениальная стратегия Meta:
1. Открыли код -> DeepSeek использовал и улучшил
2. Создали конкуренцию закрытым моделям
3. Сами готовят следующий прорыв.
Если объединить наблюдения Карпати о природе глубокого обучения, последовательные заявления ЛеКуна и действия Meta, складывается картина удивительно продуманной стратегии. Пока все обсуждают эффективность текущих подходов, Meta, похоже, готовит следующий ход в ИИ.
*Запрещенная организация в России.
В то время как технологическое сообщество пытается осмыслить прорыв DeepSeek, аналитики спорят о будущем #NVIDIA, а инвесторы переоценивают миллиардные вложения в ИИ-инфраструктуру, #Meta* сохраняет удивительное спокойствие. А Андрей Карпатый, со-основатель OpenAI может объяснить это спокойствие.
Мы @blockchainrf стараемся проанализировать все происходящее вокруг #DeepSeek, а также сопоставить с тем, что говорили и делали ИТ-гиганты в части open source. И отмечаем, что среди гигантов Meta первая продвигала открытый исходный код. Потом присоединились #Google, #Microsoft и др.
Только что Андрей #Карпатый написал большой пост про DeepSeek и отметил 2 ключевых момента:
1. Глубокое обучение имеет "ненасытный аппетит" к вычислениям
2. Существует два типа обучения:
- Имитационное (как текущие LLM)
- Обучение с подкреплением (RL) - значительно более мощное.
Анализируя хронологию событий и заявлений Meta за последние 2 года, мы видим признаки тщательно спланированной стратегии. Это наша @blockchainrf интерпретация, основанная на открытых данных.
Вот, на что мы обращаем внимание:
1. 2023: Первые намеки
Летом Ян #ЛеКун шокирует сообщество заявлением "Machine Learning sucks!"на симпозиуме в Гонконге. Он не критикует, он намекает на необходимость принципиально нового подхода.
В ноябре Meta представляет I-JEPA - альтернативу трансформерам. Это не эксперимент, а первый шаг к чему-то большему. Фокус на обучении с подкреплением вместо имитации.
2. 2024: Подготовка почвы.
ЛеКун методично формирует новую повестку:
- Март: "Не тратьте время на LLM"
- Май: Концепция "objective-driven" архитектуры
- Июль: Партнерство с Groq (новые LPU чипы)
- Октябрь: Детальное видение Objective-Driven AI
Неожиданный ход летом 2024 -
Meta делает то, чего никто не ожидал - открывает исходный код Llama и активно продвигает идею открытого ИИ. На первый взгляд, это кажется рискованным. Но был ли это риск?
- Открытие исходного кода Llama
- Активное продвижение открытого ИИ
- На первый взгляд - риск, на деле - расчет
Карты раскрываются (январь 2025).
DeepSeek, используя наработки Meta:
- Снижает стоимость обучения в 20 раз
- Работает на обычных GPU
- Достигает уровня закрытых моделей
Реакция ЛеКуна на работу DeepSeek - короткий твит: "Nice job! Open research / open source accelerates progress." За этой сдержанностью - триумф стратегии.
На прошлой неделе было заявление ЛеКуна в Давосе о "новой парадигме ИИ в ближайшие 3-5 лет" читается теперь совсем иначе. Meta не просто предсказывает будущее - она методично его создает.
Гениальная стратегия Meta:
1. Открыли код -> DeepSeek использовал и улучшил
2. Создали конкуренцию закрытым моделям
3. Сами готовят следующий прорыв.
Если объединить наблюдения Карпати о природе глубокого обучения, последовательные заявления ЛеКуна и действия Meta, складывается картина удивительно продуманной стратегии. Пока все обсуждают эффективность текущих подходов, Meta, похоже, готовит следующий ход в ИИ.
*Запрещенная организация в России.
Ян ЛеКун, главный по ИИ в Meta* o #DeepSeek
Ян #ЛеКун опубликовал серию постов, раскрывающих его видение ситуации. Он говорит о смене парадигмы:
1. От конкуренции моделей к конкуренции экосистем
2. От закрытых разработок к открытым инновациям
3. От количества параметров к качеству архитектуры.
«Реакция рынка на DeepSeek совершенно неоправданна», - заявляет ЛеКун, наблюдая панику инвесторов. По словам ЛеКуна, рынок упускает несколько ключевых моментов:
1. Тренировка vs использование моделей:
- Миллиарды $ идут не на обучение моделей
- Основные затраты — на инфраструктуру для использования ИИ
- Обслуживание ИИ-агентов для миллиардов людей требует огромных вычислительных мощностей
2. Будущие затраты только вырастут, когда мы добавим:
- Понимание видео
- Способность рассуждать
- Масштабную память
- Другие продвинутые возможности
стоимость инференса значительно увеличится
#ЛеКун описывает 4 ключевые характеристики будущих систем:
1. Понимание физического мира (не просто текста и изображений)
2. Постоянная память (способность помнить и учитывать контекст)
3. Возможность рассуждать (не просто предсказывать следующее слово)
4. Иерархическое планирование (способность разбивать сложные задачи)
"Открытые исследования и открытый код ускоряют прогресс для всех", - подчеркивает ЛеКун. В подтверждение он приводит историю Residual Connections:
- Разработана в Microsoft Research Beijing
- Стала самой цитируемой научной работой (253,000 цитирований)
- Используется во всех современных нейросетях
ЛеКун раскрывает важный технический принцип:
- Большинство уровней в современных системах глубокого обучения построены по принципу y=x+f(x,w)
- Это позволяет создавать очень глубокие системы
- Предотвращает катастрофические сбои при проблемах на одном из уровней
Что это значит?
1. Для индустрии:
- Паника по поводу снижения стоимости обучения преждевременна
- Реальные вызовы связаны с инфраструктурой для использования ИИ
- Открытый код не угроза, а катализатор прогресса
2. Для инвесторов:
- Нужно смотреть на способность компаний масштабировать инференс
- Оценивать готовность пользователей платить за ИИ-сервисы
- Учитывать растущие операционные затраты
3. Для разработчиков:
- Фокус смещается на новые архитектуры
- Важность понимания физического мира
- Приоритет рассуждений и долговременной памяти
«Единственный реальный вопрос — будут ли пользователи готовы платить достаточно (прямо или косвенно), чтобы оправдать капитальные и операционные затраты», - заключает ЛеКун.
Напомним, что Лекун всегда поддерживает #DeepSeek
*запрещенная в РФ организация.
Ян #ЛеКун опубликовал серию постов, раскрывающих его видение ситуации. Он говорит о смене парадигмы:
1. От конкуренции моделей к конкуренции экосистем
2. От закрытых разработок к открытым инновациям
3. От количества параметров к качеству архитектуры.
«Реакция рынка на DeepSeek совершенно неоправданна», - заявляет ЛеКун, наблюдая панику инвесторов. По словам ЛеКуна, рынок упускает несколько ключевых моментов:
1. Тренировка vs использование моделей:
- Миллиарды $ идут не на обучение моделей
- Основные затраты — на инфраструктуру для использования ИИ
- Обслуживание ИИ-агентов для миллиардов людей требует огромных вычислительных мощностей
2. Будущие затраты только вырастут, когда мы добавим:
- Понимание видео
- Способность рассуждать
- Масштабную память
- Другие продвинутые возможности
стоимость инференса значительно увеличится
#ЛеКун описывает 4 ключевые характеристики будущих систем:
1. Понимание физического мира (не просто текста и изображений)
2. Постоянная память (способность помнить и учитывать контекст)
3. Возможность рассуждать (не просто предсказывать следующее слово)
4. Иерархическое планирование (способность разбивать сложные задачи)
"Открытые исследования и открытый код ускоряют прогресс для всех", - подчеркивает ЛеКун. В подтверждение он приводит историю Residual Connections:
- Разработана в Microsoft Research Beijing
- Стала самой цитируемой научной работой (253,000 цитирований)
- Используется во всех современных нейросетях
ЛеКун раскрывает важный технический принцип:
- Большинство уровней в современных системах глубокого обучения построены по принципу y=x+f(x,w)
- Это позволяет создавать очень глубокие системы
- Предотвращает катастрофические сбои при проблемах на одном из уровней
Что это значит?
1. Для индустрии:
- Паника по поводу снижения стоимости обучения преждевременна
- Реальные вызовы связаны с инфраструктурой для использования ИИ
- Открытый код не угроза, а катализатор прогресса
2. Для инвесторов:
- Нужно смотреть на способность компаний масштабировать инференс
- Оценивать готовность пользователей платить за ИИ-сервисы
- Учитывать растущие операционные затраты
3. Для разработчиков:
- Фокус смещается на новые архитектуры
- Важность понимания физического мира
- Приоритет рассуждений и долговременной памяти
«Единственный реальный вопрос — будут ли пользователи готовы платить достаточно (прямо или косвенно), чтобы оправдать капитальные и операционные затраты», - заключает ЛеКун.
Напомним, что Лекун всегда поддерживает #DeepSeek
*запрещенная в РФ организация.
Threads
Yann LeCun (@yannlecun) on Threads
Major misunderstanding about AI infrastructure investments:
Much of those billions are going into infrastructure for *inference*, not training.
Running AI assistant services for billions of people...
Much of those billions are going into infrastructure for *inference*, not training.
Running AI assistant services for billions of people...