Откуда появился самый влиятельный китайский стартап #DeepSeek? И как он связан одним из крупнейших квантовых хедж-фондов Китая? История и развитие компании.
В конце 2024 малоизвестная китайская компания #DeepSeek внезапно оказалась в центре внимания мирового ИИ-сообщества, выпустив модель, сравнимую по возможностям с продуктами OpenAI и Anthropic, но при этом значительно более эффективную по стоимости.
Телеграм-канал @blockchainrf разбирается, как небольшой стартап из 100 человек достиг таких результатов и почему его подход к развитию ИИ может поменять правила игры. #историяdeepseek
Происхождение капитала
История DeepSeek неразрывно связана с High-Flyer - одним из крупнейших квантовых хедж-фондов Китая. В 2015 три инженера - Сюй Цзинь, Чжэн Давэй и Лян Вэньфэн (CEO) - основали High-Flyer после 8 лет разработки алгоритмических торговых систем. К 2021 фонд управлял активами в $15 млрд и владел внушительной инфраструктурой, включающей 10,000 GPU NVIDIA A100.
Однако в 2022 ситуация резко изменилась. На фоне экономического спада китайское правительство начало ужесточать регулирование высокочастотной торговли. Фонды High-Flyer показали значительные убытки. Правительство ввело ряд ограничений, включая запреты на торговлю и требования раскрытия стратегий.
Трансформация в ИИ-компанию
Вместо сворачивания бизнеса руководство приняло неожиданное решение - в 2023 была создана DeepSeek. Компания унаследовала от материнской структуры не только технологическую инфраструктуру, но и уникальный подход к управлению и найму персонала.
Кадровая политика - ставка на молодых пока неизвестных инженеров
Команда DeepSeek состоит преимущественно из недавних выпускников ведущих китайских университетов, аспирантов и молодых специалистов с небольшим опытом работы. Компания намеренно избегает найма признанных экспертов, делая ставку на энтузиазм и свежий взгляд.
Организационная структура построена на принципах максимальной свободы: отсутствуют формальные иерархии, сотрудники самостоятельно формируют команды под проекты, а доступ к вычислительным ресурсам предоставляется без бюрократических согласований.
Особый интерес представляет фигура CEO компании - Лян Вэньфэна. В отличие от многих руководителей китайских фондов, он не имеет опыта работы в западных компаниях. Выпускник факультета электронной инженерии Чжэцзянского университета, он с самого начала фокусировался на ИИ. Коллеги отмечают его уникальное сочетание технических компетенций с организационными способностями.
Бизнес-модель будущего
DeepSeek отличается от других ИИ-стартапов принципиальным отказом от венчурного финансирования и фокусом на открытом исходном коде. Компания видит свою роль в создании базовой технологической инфраструктуры для экосистемы ИИ-приложений, а не в прямой конкуренции на рынке конечных продуктов.
Видение будущего ИИ
Лян Вэньфэн обозначает 3 ключевых направления развития ИИ:
- Математика и программирование как "полигон" для тестирования AI
- Мультимодальные модели
- Углубленное развитие обработки естественного языка
Он ожидает достижения AGI в горизонте 2-10 лет, хотя признает, что даже внутри компании нет единого мнения о точном пути к этой цели.
Хотя компания возникла как побочный эффект государственного регулирования финансового сектора, прямых свидетельств государственного участия в DeepSeek нет. Компания подчеркивает свою независимость и открытость, что нетипично для китайского технологического сектора.
В конце 2024 малоизвестная китайская компания #DeepSeek внезапно оказалась в центре внимания мирового ИИ-сообщества, выпустив модель, сравнимую по возможностям с продуктами OpenAI и Anthropic, но при этом значительно более эффективную по стоимости.
Телеграм-канал @blockchainrf разбирается, как небольшой стартап из 100 человек достиг таких результатов и почему его подход к развитию ИИ может поменять правила игры. #историяdeepseek
Происхождение капитала
История DeepSeek неразрывно связана с High-Flyer - одним из крупнейших квантовых хедж-фондов Китая. В 2015 три инженера - Сюй Цзинь, Чжэн Давэй и Лян Вэньфэн (CEO) - основали High-Flyer после 8 лет разработки алгоритмических торговых систем. К 2021 фонд управлял активами в $15 млрд и владел внушительной инфраструктурой, включающей 10,000 GPU NVIDIA A100.
Однако в 2022 ситуация резко изменилась. На фоне экономического спада китайское правительство начало ужесточать регулирование высокочастотной торговли. Фонды High-Flyer показали значительные убытки. Правительство ввело ряд ограничений, включая запреты на торговлю и требования раскрытия стратегий.
Трансформация в ИИ-компанию
Вместо сворачивания бизнеса руководство приняло неожиданное решение - в 2023 была создана DeepSeek. Компания унаследовала от материнской структуры не только технологическую инфраструктуру, но и уникальный подход к управлению и найму персонала.
Кадровая политика - ставка на молодых пока неизвестных инженеров
Команда DeepSeek состоит преимущественно из недавних выпускников ведущих китайских университетов, аспирантов и молодых специалистов с небольшим опытом работы. Компания намеренно избегает найма признанных экспертов, делая ставку на энтузиазм и свежий взгляд.
Организационная структура построена на принципах максимальной свободы: отсутствуют формальные иерархии, сотрудники самостоятельно формируют команды под проекты, а доступ к вычислительным ресурсам предоставляется без бюрократических согласований.
Особый интерес представляет фигура CEO компании - Лян Вэньфэна. В отличие от многих руководителей китайских фондов, он не имеет опыта работы в западных компаниях. Выпускник факультета электронной инженерии Чжэцзянского университета, он с самого начала фокусировался на ИИ. Коллеги отмечают его уникальное сочетание технических компетенций с организационными способностями.
Бизнес-модель будущего
DeepSeek отличается от других ИИ-стартапов принципиальным отказом от венчурного финансирования и фокусом на открытом исходном коде. Компания видит свою роль в создании базовой технологической инфраструктуры для экосистемы ИИ-приложений, а не в прямой конкуренции на рынке конечных продуктов.
Видение будущего ИИ
Лян Вэньфэн обозначает 3 ключевых направления развития ИИ:
- Математика и программирование как "полигон" для тестирования AI
- Мультимодальные модели
- Углубленное развитие обработки естественного языка
Он ожидает достижения AGI в горизонте 2-10 лет, хотя признает, что даже внутри компании нет единого мнения о точном пути к этой цели.
Хотя компания возникла как побочный эффект государственного регулирования финансового сектора, прямых свидетельств государственного участия в DeepSeek нет. Компания подчеркивает свою независимость и открытость, что нетипично для китайского технологического сектора.
Telegram
Все о блокчейн/мозге/space/WEB 3.0 в России и мире
❗️Дорожная карта лучшего китайского ИИ-стартапа #DeepSeek акцентируется на 3 ключевых направлениях:
1. Математика и программирование как "чистая среда" для развития интеллекта
2. Мультимодальное восприятие мира
3. Глубокое понимание естественного языка…
1. Математика и программирование как "чистая среда" для развития интеллекта
2. Мультимодальное восприятие мира
3. Глубокое понимание естественного языка…
Ст.исследователь #NVIDIA: #DeepSeek доказал, что ИИ инфраструктура и базовые ИИ-модели станут товаром
Джим Фан,NVIDIA, говорит: «Нравится вам это или нет,
будущее ИИ - это его демократизация, каждый пользователь интернета сможет запускать продвинутые модели даже на слабых устройствах.
Это исторический тренд, против которого бессмысленно бороться».
О прорыве #DeepSeek:
1. #DeepSeek показала лучшие результаты в нескольких независимых тестах.
2. Особенно важно, что они достигли этого с гораздо меньшими вычислительными ресурсами.
#DeepSeek доказывает, что можно получить тот же уровень интеллекта при затратах в 10 раз меньше. Это означает, что с текущими вычислительными мощностями можно создать в 10 раз более мощный ИИ. Временная шкала развития ИИ сжимается.
Предложение Фана на 2025 год:
1. Прекратить распространение мифов об AGI/ASI
2. Прекратить нагнетание страха
3. Сосредоточиться на написании кода
4. Максимально поддерживать open source
5. Ускорение - единственный путь вперед
Все это сходится с нашим предыдущим постом.
Джим Фан,NVIDIA, говорит: «Нравится вам это или нет,
будущее ИИ - это его демократизация, каждый пользователь интернета сможет запускать продвинутые модели даже на слабых устройствах.
Это исторический тренд, против которого бессмысленно бороться».
О прорыве #DeepSeek:
1. #DeepSeek показала лучшие результаты в нескольких независимых тестах.
2. Особенно важно, что они достигли этого с гораздо меньшими вычислительными ресурсами.
#DeepSeek доказывает, что можно получить тот же уровень интеллекта при затратах в 10 раз меньше. Это означает, что с текущими вычислительными мощностями можно создать в 10 раз более мощный ИИ. Временная шкала развития ИИ сжимается.
Предложение Фана на 2025 год:
1. Прекратить распространение мифов об AGI/ASI
2. Прекратить нагнетание страха
3. Сосредоточиться на написании кода
4. Максимально поддерживать open source
5. Ускорение - единственный путь вперед
Все это сходится с нашим предыдущим постом.
Telegram
Все о блокчейн/мозге/space/WEB 3.0 в России и мире
Китайцы сделали 2 прорыва в ИИ-модели #DeepSeek-R1
Как пишут сами авторы, их текущие модели размером 7-70 млрд параметров даже близко не достигли своего максимума эффективности — и это без необходимости в новых данных для обучения.
"Мы даже близко не достигли…
Как пишут сами авторы, их текущие модели размером 7-70 млрд параметров даже близко не достигли своего максимума эффективности — и это без необходимости в новых данных для обучения.
"Мы даже близко не достигли…
Итоги уходящей недели, что имеет значение в России и мире
Текст недели: не ИТ-железо и не базовые ИИ-модели будут иметь долгосрочную ценность. А что? Читайте здесь.
1. Павел Дуров создает монополию вокруг Telegram и блокчейна TON. Подробности тут.
2. Китайский стартап #DeepSeek поднял на уши, выпустив ИИ-модель DeepSeek-R1. Команда сделала 2 важных прорыва.
Откуда появился вообще этот стартап, читайте тут.
3. На этом фоне OpenAI объявил, что делает свою модель о3 mini бесплатной.
4. Между тем, госкорпорации продолжают закупать иностранное ИТ-железо, причём закупки выросли до ₽28 млрд.
5. Свежий отчет о состоянии микроэлектроники в России.
6. Россети хотят получить контроль по размещению майнинг-центров и новые тарифные механизмы.
7. Разгорелся серьезный скандал вокруг одного из ключевых инструментов оценки математических способностей языковых моделей. Выяснилось, что OpenAI тайно финансировала его разработку и имела эксклюзивный доступ к данным.
Подробности тут.
8. Китайцы выпустили ИИ-модель #Kimi, и она превосходит GPT-4 и Claude 3.5 в некоторых задачах более чем на 550%.
9. Дарио Амодей, со-основатель Anthropic заявил, что к 2027 ИИ превзойдет интеллект человека. А также объявил о новых запусках.
10. Великобритания выделила проектам £69 млн на развитие нейротехнологий.
11. OpenAI+Softbank+Oracle создают СП Stargate с объемом инвестиций $500 млрд.
12. Что стоит на самом деле за проектом OpenAI - Stargate на $500млрд? Разбор проекта здесь.
13. Microsoft и OpenAI меняют условия эксклюзивности партнерства.
14. ByteDance представили ИИ-агента,который превзошел GPT-4 в работе с компьютерными интерфейсами.
15. Компания Трампа становится ключевым игроком на крипто рынке.
16. ИИ-агент от OpenAI выпущен. Все подробности здесь.
17. В Шанхае открылся 1-й в Китае центр подготовки роботов -гуманоидов.
18. Xanadu представила 1-й в мире модульный фотонный квантовый компьютер под названием Aurora.
19. 1-й в мире кейс, когда квантовые вычисления, машинное обучение создают реальных кандидатов в лекарства, подтвержденных экспериментально.
20. Трамп подписал указ о создании стратегического запаса биткоинов для США.
21. Какие страны владеют биткоинами? Карта.
22. DeepMind работает над проектом «Виртуальная клетка», позволяющая симуляцию биологических клеток с помощью ИИ.
23. Ст.исследователь NVIDIA: #DeepSeek доказал, что ИИ инфраструктура и базовые ИИ-модели станут товаром.
24. Маск внедряет блокчейн в правительстве США для повышения эффективности работы.
25. Обзор Agentic RAG.
26. Как создать хедж-фонд на базе ИИ, использующий множество агентов для принятия торговых решений. Ответ тут.
27. Google инвестировал $1млрд в Anthropic.
28. ByteDance выпустила конкурента Cursor IDE.
29. Свежая статья под названием Mona о безопасности ИИ от Google.
30. Perplexity запустил ИИ-ассистента для своего поисковика. Функционал работает пока для пользователей Android.
31. Mistral идет на IPO.
Текст недели: не ИТ-железо и не базовые ИИ-модели будут иметь долгосрочную ценность. А что? Читайте здесь.
1. Павел Дуров создает монополию вокруг Telegram и блокчейна TON. Подробности тут.
2. Китайский стартап #DeepSeek поднял на уши, выпустив ИИ-модель DeepSeek-R1. Команда сделала 2 важных прорыва.
Откуда появился вообще этот стартап, читайте тут.
3. На этом фоне OpenAI объявил, что делает свою модель о3 mini бесплатной.
4. Между тем, госкорпорации продолжают закупать иностранное ИТ-железо, причём закупки выросли до ₽28 млрд.
5. Свежий отчет о состоянии микроэлектроники в России.
6. Россети хотят получить контроль по размещению майнинг-центров и новые тарифные механизмы.
7. Разгорелся серьезный скандал вокруг одного из ключевых инструментов оценки математических способностей языковых моделей. Выяснилось, что OpenAI тайно финансировала его разработку и имела эксклюзивный доступ к данным.
Подробности тут.
8. Китайцы выпустили ИИ-модель #Kimi, и она превосходит GPT-4 и Claude 3.5 в некоторых задачах более чем на 550%.
9. Дарио Амодей, со-основатель Anthropic заявил, что к 2027 ИИ превзойдет интеллект человека. А также объявил о новых запусках.
10. Великобритания выделила проектам £69 млн на развитие нейротехнологий.
11. OpenAI+Softbank+Oracle создают СП Stargate с объемом инвестиций $500 млрд.
12. Что стоит на самом деле за проектом OpenAI - Stargate на $500млрд? Разбор проекта здесь.
13. Microsoft и OpenAI меняют условия эксклюзивности партнерства.
14. ByteDance представили ИИ-агента,который превзошел GPT-4 в работе с компьютерными интерфейсами.
15. Компания Трампа становится ключевым игроком на крипто рынке.
16. ИИ-агент от OpenAI выпущен. Все подробности здесь.
17. В Шанхае открылся 1-й в Китае центр подготовки роботов -гуманоидов.
18. Xanadu представила 1-й в мире модульный фотонный квантовый компьютер под названием Aurora.
19. 1-й в мире кейс, когда квантовые вычисления, машинное обучение создают реальных кандидатов в лекарства, подтвержденных экспериментально.
20. Трамп подписал указ о создании стратегического запаса биткоинов для США.
21. Какие страны владеют биткоинами? Карта.
22. DeepMind работает над проектом «Виртуальная клетка», позволяющая симуляцию биологических клеток с помощью ИИ.
23. Ст.исследователь NVIDIA: #DeepSeek доказал, что ИИ инфраструктура и базовые ИИ-модели станут товаром.
24. Маск внедряет блокчейн в правительстве США для повышения эффективности работы.
25. Обзор Agentic RAG.
26. Как создать хедж-фонд на базе ИИ, использующий множество агентов для принятия торговых решений. Ответ тут.
27. Google инвестировал $1млрд в Anthropic.
28. ByteDance выпустила конкурента Cursor IDE.
29. Свежая статья под названием Mona о безопасности ИИ от Google.
30. Perplexity запустил ИИ-ассистента для своего поисковика. Функционал работает пока для пользователей Android.
31. Mistral идет на IPO.
#DeepSeek вызвал раскол среди крупнейших инвест аналитиков: одни видят крах рынка ИИ, другие - новые возможности
Прорыв китайской ИИ-компании DeepSeek, сократившей стоимость обучения ИИ моделей в 20 раз и уменьшившей требования к GPU с 100,000 до 2,000, вызвал острые дебаты на Уолл-стрит.
Вот, что говорят аналитики.
1. Медведи - конец эпохи дорогого ИИ-железа
#JPMorgan предупреждает о возможной переоценке всего инвестиционного цикла в ИИ. DeepSeek показывает, что будущее за эффективностью, а не за наращиванием мощностей.
#Raymond James отмечает, что если инновации DeepSeek будут широко приняты, потребность в огромных GPU-кластерах может существенно снизиться. Это прямой удар по бизнес-модели NVIDIA и других производителей.
#Jefferies уже прогнозирует снижение капитальных затрат на ИИ к 2026 году и предлагает инвесторам выбирать между двумя стратегиями: продолжать инвестировать в вычислительные мощности или сделать ставку на эффективность.
2. Быки - новые возможности для роста
В противоположном лагере:
#Cantor утверждает, что разработки DeepSeek приведут к увеличению, а не уменьшению спроса на GPU. Они рекомендуют покупать акции NVIDIA на любых падениях.
#Bernstein считает панику преувеличенной и сохраняет позитивные рейтинги для NVIDIA и Broadcom.
#Citi, признавая вызов американскому доминированию, подчеркивает сохраняющееся преимущество в доступе к передовым чипам.
Такой раскол мнений среди ведущих аналитиков показывает, что рынок пока не может точно оценить последствия инноваций #DeepSeek. Это создает повышенную волатильность и неопределенность в секторе.
История показывает, что в таких случаях правы могут оказаться обе стороны - в краткосрочной перспективе мы можем увидеть коррекцию, но в долгосрочной - рост всего рынка за счет расширения доступности технологии.
Ключевым фактором станет скорость, с которой рынок сможет адаптироваться к новой реальности более эффективных ИИ-моделей. Возможно, мы стоим на пороге фундаментальной перестройки всей индустрии ИИ, где акцент сместится с железа на программные решения и эффективность использования ресурсов.
Прорыв китайской ИИ-компании DeepSeek, сократившей стоимость обучения ИИ моделей в 20 раз и уменьшившей требования к GPU с 100,000 до 2,000, вызвал острые дебаты на Уолл-стрит.
Вот, что говорят аналитики.
1. Медведи - конец эпохи дорогого ИИ-железа
#JPMorgan предупреждает о возможной переоценке всего инвестиционного цикла в ИИ. DeepSeek показывает, что будущее за эффективностью, а не за наращиванием мощностей.
#Raymond James отмечает, что если инновации DeepSeek будут широко приняты, потребность в огромных GPU-кластерах может существенно снизиться. Это прямой удар по бизнес-модели NVIDIA и других производителей.
#Jefferies уже прогнозирует снижение капитальных затрат на ИИ к 2026 году и предлагает инвесторам выбирать между двумя стратегиями: продолжать инвестировать в вычислительные мощности или сделать ставку на эффективность.
2. Быки - новые возможности для роста
В противоположном лагере:
#Cantor утверждает, что разработки DeepSeek приведут к увеличению, а не уменьшению спроса на GPU. Они рекомендуют покупать акции NVIDIA на любых падениях.
#Bernstein считает панику преувеличенной и сохраняет позитивные рейтинги для NVIDIA и Broadcom.
#Citi, признавая вызов американскому доминированию, подчеркивает сохраняющееся преимущество в доступе к передовым чипам.
Такой раскол мнений среди ведущих аналитиков показывает, что рынок пока не может точно оценить последствия инноваций #DeepSeek. Это создает повышенную волатильность и неопределенность в секторе.
История показывает, что в таких случаях правы могут оказаться обе стороны - в краткосрочной перспективе мы можем увидеть коррекцию, но в долгосрочной - рост всего рынка за счет расширения доступности технологии.
Ключевым фактором станет скорость, с которой рынок сможет адаптироваться к новой реальности более эффективных ИИ-моделей. Возможно, мы стоим на пороге фундаментальной перестройки всей индустрии ИИ, где акцент сместится с железа на программные решения и эффективность использования ресурсов.
#DeepSeek только что выпустили еще одну ИИ-модель, которая не хуже DaLLE-3 от OpenAI, бесплатна и с открытым исходным кодом для генерации изображений
И это все происходит на фоне того, что они сегодня ограничили регистрацию новых пользователей и на фоне хакерской атаки.
И это все происходит на фоне того, что они сегодня ограничили регистрацию новых пользователей и на фоне хакерской атаки.
Telegram
All about AI, Web 3.0, BCI
DeepSeek just dropped another open-source AI model, Janus-Pro-7B
It's multimodal (can generate images) and beats OpenAI's DALL-E 3 and Stable Diffusion across GenEval and DPG-Bench benchmarks.
This comes on top of all the R1 hype.
It's multimodal (can generate images) and beats OpenAI's DALL-E 3 and Stable Diffusion across GenEval and DPG-Bench benchmarks.
This comes on top of all the R1 hype.
Кому выгодно лидерство #DeepSeek? Какой ИТ-гигант помог ему и зачем?
В то время как технологическое сообщество пытается осмыслить прорыв DeepSeek, аналитики спорят о будущем #NVIDIA, а инвесторы переоценивают миллиардные вложения в ИИ-инфраструктуру, #Meta* сохраняет удивительное спокойствие. А Андрей Карпатый, со-основатель OpenAI может объяснить это спокойствие.
Мы @blockchainrf стараемся проанализировать все происходящее вокруг #DeepSeek, а также сопоставить с тем, что говорили и делали ИТ-гиганты в части open source. И отмечаем, что среди гигантов Meta первая продвигала открытый исходный код. Потом присоединились #Google, #Microsoft и др.
Только что Андрей #Карпатый написал большой пост про DeepSeek и отметил 2 ключевых момента:
1. Глубокое обучение имеет "ненасытный аппетит" к вычислениям
2. Существует два типа обучения:
- Имитационное (как текущие LLM)
- Обучение с подкреплением (RL) - значительно более мощное.
Анализируя хронологию событий и заявлений Meta за последние 2 года, мы видим признаки тщательно спланированной стратегии. Это наша @blockchainrf интерпретация, основанная на открытых данных.
Вот, на что мы обращаем внимание:
1. 2023: Первые намеки
Летом Ян #ЛеКун шокирует сообщество заявлением "Machine Learning sucks!"на симпозиуме в Гонконге. Он не критикует, он намекает на необходимость принципиально нового подхода.
В ноябре Meta представляет I-JEPA - альтернативу трансформерам. Это не эксперимент, а первый шаг к чему-то большему. Фокус на обучении с подкреплением вместо имитации.
2. 2024: Подготовка почвы.
ЛеКун методично формирует новую повестку:
- Март: "Не тратьте время на LLM"
- Май: Концепция "objective-driven" архитектуры
- Июль: Партнерство с Groq (новые LPU чипы)
- Октябрь: Детальное видение Objective-Driven AI
Неожиданный ход летом 2024 -
Meta делает то, чего никто не ожидал - открывает исходный код Llama и активно продвигает идею открытого ИИ. На первый взгляд, это кажется рискованным. Но был ли это риск?
- Открытие исходного кода Llama
- Активное продвижение открытого ИИ
- На первый взгляд - риск, на деле - расчет
Карты раскрываются (январь 2025).
DeepSeek, используя наработки Meta:
- Снижает стоимость обучения в 20 раз
- Работает на обычных GPU
- Достигает уровня закрытых моделей
Реакция ЛеКуна на работу DeepSeek - короткий твит: "Nice job! Open research / open source accelerates progress." За этой сдержанностью - триумф стратегии.
На прошлой неделе было заявление ЛеКуна в Давосе о "новой парадигме ИИ в ближайшие 3-5 лет" читается теперь совсем иначе. Meta не просто предсказывает будущее - она методично его создает.
Гениальная стратегия Meta:
1. Открыли код -> DeepSeek использовал и улучшил
2. Создали конкуренцию закрытым моделям
3. Сами готовят следующий прорыв.
Если объединить наблюдения Карпати о природе глубокого обучения, последовательные заявления ЛеКуна и действия Meta, складывается картина удивительно продуманной стратегии. Пока все обсуждают эффективность текущих подходов, Meta, похоже, готовит следующий ход в ИИ.
*Запрещенная организация в России.
В то время как технологическое сообщество пытается осмыслить прорыв DeepSeek, аналитики спорят о будущем #NVIDIA, а инвесторы переоценивают миллиардные вложения в ИИ-инфраструктуру, #Meta* сохраняет удивительное спокойствие. А Андрей Карпатый, со-основатель OpenAI может объяснить это спокойствие.
Мы @blockchainrf стараемся проанализировать все происходящее вокруг #DeepSeek, а также сопоставить с тем, что говорили и делали ИТ-гиганты в части open source. И отмечаем, что среди гигантов Meta первая продвигала открытый исходный код. Потом присоединились #Google, #Microsoft и др.
Только что Андрей #Карпатый написал большой пост про DeepSeek и отметил 2 ключевых момента:
1. Глубокое обучение имеет "ненасытный аппетит" к вычислениям
2. Существует два типа обучения:
- Имитационное (как текущие LLM)
- Обучение с подкреплением (RL) - значительно более мощное.
Анализируя хронологию событий и заявлений Meta за последние 2 года, мы видим признаки тщательно спланированной стратегии. Это наша @blockchainrf интерпретация, основанная на открытых данных.
Вот, на что мы обращаем внимание:
1. 2023: Первые намеки
Летом Ян #ЛеКун шокирует сообщество заявлением "Machine Learning sucks!"на симпозиуме в Гонконге. Он не критикует, он намекает на необходимость принципиально нового подхода.
В ноябре Meta представляет I-JEPA - альтернативу трансформерам. Это не эксперимент, а первый шаг к чему-то большему. Фокус на обучении с подкреплением вместо имитации.
2. 2024: Подготовка почвы.
ЛеКун методично формирует новую повестку:
- Март: "Не тратьте время на LLM"
- Май: Концепция "objective-driven" архитектуры
- Июль: Партнерство с Groq (новые LPU чипы)
- Октябрь: Детальное видение Objective-Driven AI
Неожиданный ход летом 2024 -
Meta делает то, чего никто не ожидал - открывает исходный код Llama и активно продвигает идею открытого ИИ. На первый взгляд, это кажется рискованным. Но был ли это риск?
- Открытие исходного кода Llama
- Активное продвижение открытого ИИ
- На первый взгляд - риск, на деле - расчет
Карты раскрываются (январь 2025).
DeepSeek, используя наработки Meta:
- Снижает стоимость обучения в 20 раз
- Работает на обычных GPU
- Достигает уровня закрытых моделей
Реакция ЛеКуна на работу DeepSeek - короткий твит: "Nice job! Open research / open source accelerates progress." За этой сдержанностью - триумф стратегии.
На прошлой неделе было заявление ЛеКуна в Давосе о "новой парадигме ИИ в ближайшие 3-5 лет" читается теперь совсем иначе. Meta не просто предсказывает будущее - она методично его создает.
Гениальная стратегия Meta:
1. Открыли код -> DeepSeek использовал и улучшил
2. Создали конкуренцию закрытым моделям
3. Сами готовят следующий прорыв.
Если объединить наблюдения Карпати о природе глубокого обучения, последовательные заявления ЛеКуна и действия Meta, складывается картина удивительно продуманной стратегии. Пока все обсуждают эффективность текущих подходов, Meta, похоже, готовит следующий ход в ИИ.
*Запрещенная организация в России.
Сэм Альтман обещает скорый релиз следующего поколения ИИ-моделей - это реакция на успех #DeepSeek
СЕО OpenAI признал впечатляющие результаты DeepSeek R1, особенно отмечая соотношение цена/качество.
Одновременно с этим он обещает представить лучшие модели от OpenAI в скором времени, ускоряет релизы.
Также Сэм заявил, что OpenAI делает ставку на масштаб вычислений. Они видят преимущество в количестве ресурсов и в их исследовательской работе. Это их ответ на эффективность #DeepSeek.
Он намекнул на появление следующего поколения моделей.
Мир будет поражен следующим поколением моделей
«Мы принесем вам AGI и даже больше», - написал Сэм Альтман.
СЕО OpenAI признал впечатляющие результаты DeepSeek R1, особенно отмечая соотношение цена/качество.
Одновременно с этим он обещает представить лучшие модели от OpenAI в скором времени, ускоряет релизы.
Также Сэм заявил, что OpenAI делает ставку на масштаб вычислений. Они видят преимущество в количестве ресурсов и в их исследовательской работе. Это их ответ на эффективность #DeepSeek.
Он намекнул на появление следующего поколения моделей.
Мир будет поражен следующим поколением моделей
«Мы принесем вам AGI и даже больше», - написал Сэм Альтман.
#ByteDance представили ИИ-модель #Doubao-1.5-pro, вот её характеристики и сравнение с DeepSeek-R1
Doubao-1.5-pro - закрытая ИИ-модель с акцентом на оптимальный баланс производительности и эффективности использования ресурсов.
1. Архитектурные характеристики :
- Использует разреженную MoE (Mixture of Experts) архитектуру
- Достигает 7-кратного увеличения эффективности параметров по сравнению с плотными моделями
- Требует значительно меньше активных параметров при сохранении высокой производительности
- Превосходит показатели Llama3.1-405B при меньших вычислительных затратах
2. Мультимодальные возможности:
- Встроенная поддержка обработки изображений и речи
- Оригинальная система динамического разрешения для работы с изображениями
- Улучшенное понимание визуального контекста
- Интеграция речевых возможностей на уровне архитектуры
3. Производительность:
- На MMLU: 88.6%
- GPQA: 65.0%
- Показывает сильные результаты в задачах рассуждения (BBH: 91.6)
Сравнение с DeepSeek-R1.
Ключевые различия в подходах:
1. Doubao-1.5-pro фокусируется на эффективности и мультимодальности, стремясь достичь максимальной производительности при минимальных ресурсах.
2. DeepSeek-R1 делает акцент на улучшении способностей к рассуждению через масштабное обучение с подкреплением.
Практические выводы:
- Doubao-1.5-pro может быть предпочтительнее для задач, требующих эффективного использования ресурсов и мультимодальных возможностей.
- #DeepSeek-R1 лучше подходит для сложных задач рассуждения и может быть легче интегрирован благодаря открытому исходному коду
Обе модели представляют собой значительный шаг вперёд в развитии языковых моделей, но с разными приоритетами в своей архитектуре и оптимизации.
Doubao-1.5-pro - закрытая ИИ-модель с акцентом на оптимальный баланс производительности и эффективности использования ресурсов.
1. Архитектурные характеристики :
- Использует разреженную MoE (Mixture of Experts) архитектуру
- Достигает 7-кратного увеличения эффективности параметров по сравнению с плотными моделями
- Требует значительно меньше активных параметров при сохранении высокой производительности
- Превосходит показатели Llama3.1-405B при меньших вычислительных затратах
2. Мультимодальные возможности:
- Встроенная поддержка обработки изображений и речи
- Оригинальная система динамического разрешения для работы с изображениями
- Улучшенное понимание визуального контекста
- Интеграция речевых возможностей на уровне архитектуры
3. Производительность:
- На MMLU: 88.6%
- GPQA: 65.0%
- Показывает сильные результаты в задачах рассуждения (BBH: 91.6)
Сравнение с DeepSeek-R1.
Ключевые различия в подходах:
1. Doubao-1.5-pro фокусируется на эффективности и мультимодальности, стремясь достичь максимальной производительности при минимальных ресурсах.
2. DeepSeek-R1 делает акцент на улучшении способностей к рассуждению через масштабное обучение с подкреплением.
Практические выводы:
- Doubao-1.5-pro может быть предпочтительнее для задач, требующих эффективного использования ресурсов и мультимодальных возможностей.
- #DeepSeek-R1 лучше подходит для сложных задач рассуждения и может быть легче интегрирован благодаря открытому исходному коду
Обе модели представляют собой значительный шаг вперёд в развитии языковых моделей, но с разными приоритетами в своей архитектуре и оптимизации.
Telegram
All about AI, Web 3.0, BCI
ByteDance unveils Doubao-1.5-pro that seems to be world class, comparable or better to GPT-4o, latest Gemini, DS & Claude.
Its MoE architecture explores balance bw model & reasoning.
It build highly autonomous data production system & not using data from…
Its MoE architecture explores balance bw model & reasoning.
It build highly autonomous data production system & not using data from…
О том, что #DeepSeek дизраптит развитие ИИ мы писали ещё в ноябре 2024 https://tttttt.me/blockchainRF/10885
Все то, что вы видите сейчас, наш канал @blockchainrf написал прогноз 2 месяца назад.
Все посты с #DeepSeek теперь с хэштегами, так вам будет удобнее ориентироваться в релизах и их таймлайне.
Все то, что вы видите сейчас, наш канал @blockchainrf написал прогноз 2 месяца назад.
Все посты с #DeepSeek теперь с хэштегами, так вам будет удобнее ориентироваться в релизах и их таймлайне.
Telegram
Все о блокчейн/мозге/space/WEB 3.0 в России и мире
Открытый исходный код новой китайской модели может стать катализатором больших изменений в развитии ИИ.
Хронология событий:
В сентябре 2024 года OpenAI представила превью своих новых моделей o1-preview и o1-mini, демонстрирующих революционные способности…
Хронология событий:
В сентябре 2024 года OpenAI представила превью своих новых моделей o1-preview и o1-mini, демонстрирующих революционные способности…
Ян ЛеКун, главный по ИИ в Meta* o #DeepSeek
Ян #ЛеКун опубликовал серию постов, раскрывающих его видение ситуации. Он говорит о смене парадигмы:
1. От конкуренции моделей к конкуренции экосистем
2. От закрытых разработок к открытым инновациям
3. От количества параметров к качеству архитектуры.
«Реакция рынка на DeepSeek совершенно неоправданна», - заявляет ЛеКун, наблюдая панику инвесторов. По словам ЛеКуна, рынок упускает несколько ключевых моментов:
1. Тренировка vs использование моделей:
- Миллиарды $ идут не на обучение моделей
- Основные затраты — на инфраструктуру для использования ИИ
- Обслуживание ИИ-агентов для миллиардов людей требует огромных вычислительных мощностей
2. Будущие затраты только вырастут, когда мы добавим:
- Понимание видео
- Способность рассуждать
- Масштабную память
- Другие продвинутые возможности
стоимость инференса значительно увеличится
#ЛеКун описывает 4 ключевые характеристики будущих систем:
1. Понимание физического мира (не просто текста и изображений)
2. Постоянная память (способность помнить и учитывать контекст)
3. Возможность рассуждать (не просто предсказывать следующее слово)
4. Иерархическое планирование (способность разбивать сложные задачи)
"Открытые исследования и открытый код ускоряют прогресс для всех", - подчеркивает ЛеКун. В подтверждение он приводит историю Residual Connections:
- Разработана в Microsoft Research Beijing
- Стала самой цитируемой научной работой (253,000 цитирований)
- Используется во всех современных нейросетях
ЛеКун раскрывает важный технический принцип:
- Большинство уровней в современных системах глубокого обучения построены по принципу y=x+f(x,w)
- Это позволяет создавать очень глубокие системы
- Предотвращает катастрофические сбои при проблемах на одном из уровней
Что это значит?
1. Для индустрии:
- Паника по поводу снижения стоимости обучения преждевременна
- Реальные вызовы связаны с инфраструктурой для использования ИИ
- Открытый код не угроза, а катализатор прогресса
2. Для инвесторов:
- Нужно смотреть на способность компаний масштабировать инференс
- Оценивать готовность пользователей платить за ИИ-сервисы
- Учитывать растущие операционные затраты
3. Для разработчиков:
- Фокус смещается на новые архитектуры
- Важность понимания физического мира
- Приоритет рассуждений и долговременной памяти
«Единственный реальный вопрос — будут ли пользователи готовы платить достаточно (прямо или косвенно), чтобы оправдать капитальные и операционные затраты», - заключает ЛеКун.
Напомним, что Лекун всегда поддерживает #DeepSeek
*запрещенная в РФ организация.
Ян #ЛеКун опубликовал серию постов, раскрывающих его видение ситуации. Он говорит о смене парадигмы:
1. От конкуренции моделей к конкуренции экосистем
2. От закрытых разработок к открытым инновациям
3. От количества параметров к качеству архитектуры.
«Реакция рынка на DeepSeek совершенно неоправданна», - заявляет ЛеКун, наблюдая панику инвесторов. По словам ЛеКуна, рынок упускает несколько ключевых моментов:
1. Тренировка vs использование моделей:
- Миллиарды $ идут не на обучение моделей
- Основные затраты — на инфраструктуру для использования ИИ
- Обслуживание ИИ-агентов для миллиардов людей требует огромных вычислительных мощностей
2. Будущие затраты только вырастут, когда мы добавим:
- Понимание видео
- Способность рассуждать
- Масштабную память
- Другие продвинутые возможности
стоимость инференса значительно увеличится
#ЛеКун описывает 4 ключевые характеристики будущих систем:
1. Понимание физического мира (не просто текста и изображений)
2. Постоянная память (способность помнить и учитывать контекст)
3. Возможность рассуждать (не просто предсказывать следующее слово)
4. Иерархическое планирование (способность разбивать сложные задачи)
"Открытые исследования и открытый код ускоряют прогресс для всех", - подчеркивает ЛеКун. В подтверждение он приводит историю Residual Connections:
- Разработана в Microsoft Research Beijing
- Стала самой цитируемой научной работой (253,000 цитирований)
- Используется во всех современных нейросетях
ЛеКун раскрывает важный технический принцип:
- Большинство уровней в современных системах глубокого обучения построены по принципу y=x+f(x,w)
- Это позволяет создавать очень глубокие системы
- Предотвращает катастрофические сбои при проблемах на одном из уровней
Что это значит?
1. Для индустрии:
- Паника по поводу снижения стоимости обучения преждевременна
- Реальные вызовы связаны с инфраструктурой для использования ИИ
- Открытый код не угроза, а катализатор прогресса
2. Для инвесторов:
- Нужно смотреть на способность компаний масштабировать инференс
- Оценивать готовность пользователей платить за ИИ-сервисы
- Учитывать растущие операционные затраты
3. Для разработчиков:
- Фокус смещается на новые архитектуры
- Важность понимания физического мира
- Приоритет рассуждений и долговременной памяти
«Единственный реальный вопрос — будут ли пользователи готовы платить достаточно (прямо или косвенно), чтобы оправдать капитальные и операционные затраты», - заключает ЛеКун.
Напомним, что Лекун всегда поддерживает #DeepSeek
*запрещенная в РФ организация.
Threads
Yann LeCun (@yannlecun) on Threads
Major misunderstanding about AI infrastructure investments:
Much of those billions are going into infrastructure for *inference*, not training.
Running AI assistant services for billions of people...
Much of those billions are going into infrastructure for *inference*, not training.
Running AI assistant services for billions of people...
Новый флагман от Alibaba - Qwen2.5-Max, которая превосходит #Deepseek-V3 в нескольких ключевых бенчмарках
В день китайского Нового года команда Alibaba представила свою новую языковую модель Qwen2.5-Max, которая не просто конкурирует с последними достижениями в области AI, но и превосходит их по ряду показателей.
Qwen2.5-Max — это масштабная MoE (Mixture-of-Experts) ИИ-модель, обученная на более 20 триллионов токенов.
В сравнительных тестах Qwen2.5-Max показывает выдающиеся результаты, превосходя DeepSeek V3 в ключевых бенчмарках:
- Arena-Hard (тест на соответствие человеческим предпочтениям)
- LiveBench (оценка общих возможностей)
- LiveCodeBench (тестирование навыков программирования)
- GPQA-Diamond
Qwen2.5-Max доступна через несколько каналов:
1. Qwen Chat — для прямого взаимодействия с моделью
2. API Alibaba Cloud — для интеграции в собственные проекты
3. Демо-версия на платформе Hugging Face
Paper здесь.
API Qwen полностью совместим с OpenAI API.
В день китайского Нового года команда Alibaba представила свою новую языковую модель Qwen2.5-Max, которая не просто конкурирует с последними достижениями в области AI, но и превосходит их по ряду показателей.
Qwen2.5-Max — это масштабная MoE (Mixture-of-Experts) ИИ-модель, обученная на более 20 триллионов токенов.
В сравнительных тестах Qwen2.5-Max показывает выдающиеся результаты, превосходя DeepSeek V3 в ключевых бенчмарках:
- Arena-Hard (тест на соответствие человеческим предпочтениям)
- LiveBench (оценка общих возможностей)
- LiveCodeBench (тестирование навыков программирования)
- GPQA-Diamond
Qwen2.5-Max доступна через несколько каналов:
1. Qwen Chat — для прямого взаимодействия с моделью
2. API Alibaba Cloud — для интеграции в собственные проекты
3. Демо-версия на платформе Hugging Face
Paper здесь.
API Qwen полностью совместим с OpenAI API.
Qwen
Qwen2.5-Max: Exploring the Intelligence of Large-scale MoE Model
QWEN CHAT API DEMO DISCORD
It is widely recognized that continuously scaling both data size and model size can lead to significant improvements in model intelligence. However, the research and industry community has limited experience in effectively scaling…
It is widely recognized that continuously scaling both data size and model size can lead to significant improvements in model intelligence. However, the research and industry community has limited experience in effectively scaling…
Это бомба - полностью открытый датасет для обучения небольших моделей рассуждений, которые смогут превзойти #DeepSeek-R1-Distill-32B и DeepSeek-R1-Distill-7B в задачах математического и программного мышления.
Open Thoughts initiative - 1-й такой проект, где открыто всё: от данных для обучения до конечных моделей.
Open Thoughts initiative - 1-й такой проект, где открыто всё: от данных для обучения до конечных моделей.
Hugging Face vs DeepSeek: как битва за открытость ИИ раскрывает будущее вычислений
Исследовательская команда Hugging Face объявила, что создает полностью открытую версию #DeepSeek R1 со всеми составляющими модели, подчеркивая недостаточную открытость текущей версии.
Этот шаг интересен не только намерением задействовать мощный кластер из 768 GPU Nvidia H100, но и тем, что он высвечивает более глубокие изменения в индустрии ИИ.
Катализатором дискуссии стало недавнее достижение #DeepSeek: компания продемонстрировала возможность запуска своей модели R1 на локальном оборудовании стоимостью всего $6000. Решение, построенное на архитектуре с двумя процессорами AMD EPYC и 768 ГБ оперативной памяти, полностью исключает необходимость в дорогостоящих GPU.
Это достижение указывает на важный сдвиг в индустрии: большинство вычислительных потребностей ИИ в будущем будет связано не с обучением моделей, а с их использованием (инференсом).
Как отмечают эксперты, крупным корпоративным пользователям предстоит сделать выбор: продолжать полагаться на дорогостоящие гиперскейлерные дата-центры или перейти на более экономичные локальные решения.
Локальное развертывание позволяет компаниям заменить постоянные платежи за облачные API единоразовыми инвестициями в оборудование.
Главный научный сотрудник Meta(запрещенная в РФ) по ИИ Ян ЛеКун считает, что индустрия ИИ стоит на пороге новой революции: будущие системы будут не только обрабатывать текст, но и понимать физический мир, обладать постоянной памятью, способностью к рассуждению и иерархическому планированию. Это неизбежно увеличит требования к вычислительной инфраструктуре для инференса.
Однако ЛеКун подчеркивает, что успех таких инноваций зависит не от конкуренции, а от сотрудничества: "Идея в том, что все получают пользу от идей друг друга. Никто не 'обгоняет' других, и ни одна страна не 'проигрывает' другой".
Складывающаяся ситуация позволяет сделать несколько важных выводов:
1. Будущее ИИ-вычислений смещается в сторону оптимизации инференса, а не обучения моделей.
2. Локальные решения могут оказаться более привлекательными для бизнеса, чем облачные сервисы.
3. Успех развития ИИ зависит от баланса между открытостью исследований и практической применимостью решений.
4. Ключевым фактором становится не столько технологическое лидерство, сколько экономическая эффективность и удобство внедрения.
Исследовательская команда Hugging Face объявила, что создает полностью открытую версию #DeepSeek R1 со всеми составляющими модели, подчеркивая недостаточную открытость текущей версии.
Этот шаг интересен не только намерением задействовать мощный кластер из 768 GPU Nvidia H100, но и тем, что он высвечивает более глубокие изменения в индустрии ИИ.
Катализатором дискуссии стало недавнее достижение #DeepSeek: компания продемонстрировала возможность запуска своей модели R1 на локальном оборудовании стоимостью всего $6000. Решение, построенное на архитектуре с двумя процессорами AMD EPYC и 768 ГБ оперативной памяти, полностью исключает необходимость в дорогостоящих GPU.
Это достижение указывает на важный сдвиг в индустрии: большинство вычислительных потребностей ИИ в будущем будет связано не с обучением моделей, а с их использованием (инференсом).
Как отмечают эксперты, крупным корпоративным пользователям предстоит сделать выбор: продолжать полагаться на дорогостоящие гиперскейлерные дата-центры или перейти на более экономичные локальные решения.
Локальное развертывание позволяет компаниям заменить постоянные платежи за облачные API единоразовыми инвестициями в оборудование.
Главный научный сотрудник Meta(запрещенная в РФ) по ИИ Ян ЛеКун считает, что индустрия ИИ стоит на пороге новой революции: будущие системы будут не только обрабатывать текст, но и понимать физический мир, обладать постоянной памятью, способностью к рассуждению и иерархическому планированию. Это неизбежно увеличит требования к вычислительной инфраструктуре для инференса.
Однако ЛеКун подчеркивает, что успех таких инноваций зависит не от конкуренции, а от сотрудничества: "Идея в том, что все получают пользу от идей друг друга. Никто не 'обгоняет' других, и ни одна страна не 'проигрывает' другой".
Складывающаяся ситуация позволяет сделать несколько важных выводов:
1. Будущее ИИ-вычислений смещается в сторону оптимизации инференса, а не обучения моделей.
2. Локальные решения могут оказаться более привлекательными для бизнеса, чем облачные сервисы.
3. Успех развития ИИ зависит от баланса между открытостью исследований и практической применимостью решений.
4. Ключевым фактором становится не столько технологическое лидерство, сколько экономическая эффективность и удобство внедрения.
Telegram
All about AI, Web 3.0, BCI
Hugging Face wants to reverse engineer DeepSeek’s R1 reasoning model
Hugging Face researchers say the Open-R1 project aims to create a fully open-source duplicate of the R1 model and make all of its components available to the AI community.
Elie Bakouch…
Hugging Face researchers say the Open-R1 project aims to create a fully open-source duplicate of the R1 model and make all of its components available to the AI community.
Elie Bakouch…
Дарио Амодей, основатель Anthropic: #DeepSeek создала модель, близкую к производительности американских моделей 7-10 месячной давности
Амодей пишет, что #DeepSeek не сделал за $6 млн то, что стоило американским компаниям ИИ миллиарды. «Я могу говорить только за Anthropic, но Claude 3.5 Sonnet стоила несколько десятков миллионов долларов в обучении. Кроме того, 3.5 Sonnet не обучался каким-либо образом, который включал бы более крупную или более дорогую модель. Обучение Sonnet проводилось 9-12 месяцев назад, а модель DeepSeek была обучена в ноябре/декабре, при этом Sonnet остается заметно впереди во многих внутренних и внешних оценках. Таким образом, я думаю, справедливое утверждение будет: "DeepSeek создала модель, близкую к производительности американских моделей 7-10 месячной давности, за значительно меньшую стоимость (но не в тех пропорциях, которые люди предполагали)», - пишет Амодей.
Амодей продолжает: «Как я упомянул выше, Claude чрезвычайно хорош в программировании и в хорошо продуманном стиле взаимодействия с людьми (многие люди используют его для личных советов или поддержки). По этим и некоторым дополнительным задачам просто нет сравнения с DeepSeek. Эти факторы не появляются в числах масштабирования.
R1, которая является моделью, выпущенной на прошлой неделе и которая вызвала взрыв общественного внимания (включая ~17% падение акций Nvidia), гораздо менее интересна с точки зрения инноваций или инженерии, чем V3. Она добавляет второй этап обучения — обучение с подкреплением, и по существу повторяет то, что OpenAI сделала с o1 (они, похоже, находятся на схожем масштабе с похожими результатами). Однако, поскольку мы находимся на ранней части кривой масштабирования, возможно, чтобы несколько компаний производили модели этого типа, если они начинают с сильной предварительно обученной модели. Производство R1 при наличии V3, вероятно, было очень дешевым. Поэтому мы находимся в интересной "точке пересечения", где временно несколько компаний могут производить хорошие модели рассуждения. Это быстро перестанет быть правдой, когда все продвинутся дальше по кривой масштабирования на этих моделях».
Если исторический тренд снижения стоимости составляет ~4x в год, это означает, что в обычном ходе бизнеса — в нормальных трендах исторического снижения стоимости, как те, что происходили в 2023 и 2024 годах — мы бы ожидали модель в 3-4 раза дешевле, чем 3.5 Sonnet/GPT-4o около сейчас.
Однако американские компании скоро последуют — и они сделают это не копируя DeepSeek, а потому что они тоже достигают обычного тренда в снижении стоимости.
И DeepSeek, и американские компании ИИ имеют гораздо больше денег и чипов, чем они использовали для обучения своих флагманских моделей.
Амодей пишет, что #DeepSeek не сделал за $6 млн то, что стоило американским компаниям ИИ миллиарды. «Я могу говорить только за Anthropic, но Claude 3.5 Sonnet стоила несколько десятков миллионов долларов в обучении. Кроме того, 3.5 Sonnet не обучался каким-либо образом, который включал бы более крупную или более дорогую модель. Обучение Sonnet проводилось 9-12 месяцев назад, а модель DeepSeek была обучена в ноябре/декабре, при этом Sonnet остается заметно впереди во многих внутренних и внешних оценках. Таким образом, я думаю, справедливое утверждение будет: "DeepSeek создала модель, близкую к производительности американских моделей 7-10 месячной давности, за значительно меньшую стоимость (но не в тех пропорциях, которые люди предполагали)», - пишет Амодей.
Амодей продолжает: «Как я упомянул выше, Claude чрезвычайно хорош в программировании и в хорошо продуманном стиле взаимодействия с людьми (многие люди используют его для личных советов или поддержки). По этим и некоторым дополнительным задачам просто нет сравнения с DeepSeek. Эти факторы не появляются в числах масштабирования.
R1, которая является моделью, выпущенной на прошлой неделе и которая вызвала взрыв общественного внимания (включая ~17% падение акций Nvidia), гораздо менее интересна с точки зрения инноваций или инженерии, чем V3. Она добавляет второй этап обучения — обучение с подкреплением, и по существу повторяет то, что OpenAI сделала с o1 (они, похоже, находятся на схожем масштабе с похожими результатами). Однако, поскольку мы находимся на ранней части кривой масштабирования, возможно, чтобы несколько компаний производили модели этого типа, если они начинают с сильной предварительно обученной модели. Производство R1 при наличии V3, вероятно, было очень дешевым. Поэтому мы находимся в интересной "точке пересечения", где временно несколько компаний могут производить хорошие модели рассуждения. Это быстро перестанет быть правдой, когда все продвинутся дальше по кривой масштабирования на этих моделях».
Если исторический тренд снижения стоимости составляет ~4x в год, это означает, что в обычном ходе бизнеса — в нормальных трендах исторического снижения стоимости, как те, что происходили в 2023 и 2024 годах — мы бы ожидали модель в 3-4 раза дешевле, чем 3.5 Sonnet/GPT-4o около сейчас.
Однако американские компании скоро последуют — и они сделают это не копируя DeepSeek, а потому что они тоже достигают обычного тренда в снижении стоимости.
И DeepSeek, и американские компании ИИ имеют гораздо больше денег и чипов, чем они использовали для обучения своих флагманских моделей.
Darioamodei
Dario Amodei — On DeepSeek and Export Controls
Почему Дарио Амодей считает, что успех #DeepSeek не меняет правила игры, и что нас ждет дальше?
В развернутом анализе CEO Anthropic объясняет, почему кажущийся прорыв китайской компании вписывается в обычную траекторию развития ИИ, и что нас ждет дальше.
Амодей сначала говорит о 3-х фундаментальных закона развития ИИ:
1. Закон масштабирования:
- Чем больше ресурсов, тем лучше результаты
- Прогресс плавный и предсказуемый
- $1M = 20% задач, $10M = 40%, $100M = 60%
2. Закон смещения кривой:
- Инновации делают процесс эффективнее
- Улучшения могут быть:
* Небольшие (1.2x)
* Средние (2x)
* Значительные (10x)
- Общий темп улучшений: примерно 4x в год
3. Закон смены парадигмы:
- 2020-2023: обучение на текстах
- 2024: добавление Reinforcement Learning
- Сейчас: уникальная "точка перехода"
Что на самом деле сделал DeepSeek?
- Создал модель близкую к американским моделям 7-10 месячной давности
- Потратил меньше, но в рамках обычного тренда снижения затрат
- Имел доступ к серьезным ресурсам (~50,000 чипов, ~$1B)
Почему это не революция?
- Снижение затрат соответствует обычному тренду (4x в год)
- V3 более инновационна чем нашумевший R1
- Общие затраты компании сопоставимы с US лабораториями
По мнению Амодея, для создания действительно продвинутого ИИ потребуется:
- Миллионы чипов
- Десятки миллиардов долларов
- 2-3 года работы
Почему это важно понимать?
1. Для инвесторов:
- Падение акций NVIDIA на 17% необоснованно
- Потребность в чипах будет только расти
- Эффективность не снижает общие затраты
2. Для индустрии:
- Мы в точке перехода, где несколько компаний могут показывать хорошие результаты
- Это временное явление
- Скоро начнется новая фаза масштабирования
3. Для будущего ИИ:
- Повышение эффективности ведет к большим, а не меньшим затратам
- Компании инвестируют любую экономию в более мощные модели
- Конечная цель: ИИ умнее большинства людей почти во всем
DeepSeek демонстрирует не революционный прорыв, а ожидаемую точку на кривой прогресса. Настоящая гонка за создание сверхчеловеческого ИИ только начинается, и она потребует беспрецедентных ресурсов.
В развернутом анализе CEO Anthropic объясняет, почему кажущийся прорыв китайской компании вписывается в обычную траекторию развития ИИ, и что нас ждет дальше.
Амодей сначала говорит о 3-х фундаментальных закона развития ИИ:
1. Закон масштабирования:
- Чем больше ресурсов, тем лучше результаты
- Прогресс плавный и предсказуемый
- $1M = 20% задач, $10M = 40%, $100M = 60%
2. Закон смещения кривой:
- Инновации делают процесс эффективнее
- Улучшения могут быть:
* Небольшие (1.2x)
* Средние (2x)
* Значительные (10x)
- Общий темп улучшений: примерно 4x в год
3. Закон смены парадигмы:
- 2020-2023: обучение на текстах
- 2024: добавление Reinforcement Learning
- Сейчас: уникальная "точка перехода"
Что на самом деле сделал DeepSeek?
- Создал модель близкую к американским моделям 7-10 месячной давности
- Потратил меньше, но в рамках обычного тренда снижения затрат
- Имел доступ к серьезным ресурсам (~50,000 чипов, ~$1B)
Почему это не революция?
- Снижение затрат соответствует обычному тренду (4x в год)
- V3 более инновационна чем нашумевший R1
- Общие затраты компании сопоставимы с US лабораториями
По мнению Амодея, для создания действительно продвинутого ИИ потребуется:
- Миллионы чипов
- Десятки миллиардов долларов
- 2-3 года работы
Почему это важно понимать?
1. Для инвесторов:
- Падение акций NVIDIA на 17% необоснованно
- Потребность в чипах будет только расти
- Эффективность не снижает общие затраты
2. Для индустрии:
- Мы в точке перехода, где несколько компаний могут показывать хорошие результаты
- Это временное явление
- Скоро начнется новая фаза масштабирования
3. Для будущего ИИ:
- Повышение эффективности ведет к большим, а не меньшим затратам
- Компании инвестируют любую экономию в более мощные модели
- Конечная цель: ИИ умнее большинства людей почти во всем
DeepSeek демонстрирует не революционный прорыв, а ожидаемую точку на кривой прогресса. Настоящая гонка за создание сверхчеловеческого ИИ только начинается, и она потребует беспрецедентных ресурсов.
Telegram
Все о блокчейн/мозге/space/WEB 3.0 в России и мире
Дарио Амодей, основатель Anthropic: #DeepSeek создала модель, близкую к производительности американских моделей 7-10 месячной давности
Амодей пишет, что #DeepSeek не сделал за $6 млн то, что стоило американским компаниям ИИ миллиарды. «Я могу говорить только…
Амодей пишет, что #DeepSeek не сделал за $6 млн то, что стоило американским компаниям ИИ миллиарды. «Я могу говорить только…
❗️CEO Anthropic тонко намекает, что гонка идет за то, кто 1-м в мире достигнет порога рекурсивного улучшения, то есть, когда ИИ сможет помогать в создании более совершенного ИИ
Что на самом деле говорит основатель Anthropic? Разбираем детально.
Амодей намекает на критический момент, когда ИИ сможет помогать в создании более совершенного ИИ. Это объясняет срочность в наращивании вычислительных мощностей: кто первым достигнет этой точки, может получить долгосрочное преимущество.
Ключевое понимание: гонка идет не только за текущие возможности, она идет за то, кто первым достигнет порога рекурсивного улучшения.
Говорит о точке перехода.
Сейчас временно несколько компаний могут создавать хорошие модели для рассуждений. Указывает на короткое окно возможностей. Предупреждает о скором закрытии этого окна.
❗️Намекает на непубличные возможности моделей:
- Предполагает существование более продвинутых версий
- Указывает на социальный аспект ИИ.
Намекает на подготовку нового поколения инфраструктуры
- Предполагает существование планов по значительному масштабированию
- Указывает на неизбежное увеличение разрыва между лидерами и остальными
Намекает на существование секретных методов обработки данных.
Указывает на критическую важность скорости развития.
Что на самом деле говорит основатель Anthropic? Разбираем детально.
Амодей намекает на критический момент, когда ИИ сможет помогать в создании более совершенного ИИ. Это объясняет срочность в наращивании вычислительных мощностей: кто первым достигнет этой точки, может получить долгосрочное преимущество.
Ключевое понимание: гонка идет не только за текущие возможности, она идет за то, кто первым достигнет порога рекурсивного улучшения.
Говорит о точке перехода.
Сейчас временно несколько компаний могут создавать хорошие модели для рассуждений. Указывает на короткое окно возможностей. Предупреждает о скором закрытии этого окна.
❗️Намекает на непубличные возможности моделей:
- Предполагает существование более продвинутых версий
- Указывает на социальный аспект ИИ.
Намекает на подготовку нового поколения инфраструктуры
- Предполагает существование планов по значительному масштабированию
- Указывает на неизбежное увеличение разрыва между лидерами и остальными
Намекает на существование секретных методов обработки данных.
Указывает на критическую важность скорости развития.
Telegram
Все о блокчейн/мозге/space/WEB 3.0 в России и мире
Почему Дарио Амодей считает, что успех #DeepSeek не меняет правила игры, и что нас ждет дальше?
В развернутом анализе CEO Anthropic объясняет, почему кажущийся прорыв китайской компании вписывается в обычную траекторию развития ИИ, и что нас ждет дальше.…
В развернутом анализе CEO Anthropic объясняет, почему кажущийся прорыв китайской компании вписывается в обычную траекторию развития ИИ, и что нас ждет дальше.…
Цукерберг говорит, что #DeepSeek принес пользу Meta*, и они планируют внедрить некоторые их инновации у себя
Все это еще одна весомая составляющая мнения нашего канала @blockchainrf, о котором мы говорили 4 дня назад - кому выгоден успех DeepSeek.
Единственный среди американских основателей, который не обесценивает китайцев, а наоборот - гладит их по голове оказался Марк Цукерберг. Надо отметить, что еще Google не сказали плохо в адрес китайцев, там ребята работают. И кстати, их Gemini Flash 2.0 Thinking превосходит R1. Причем модель вышла на месяц раньше DeepSeek R1. Намного дешевле, предлагает даже большую длину контекста через API, чем R1.
А у Марка Цукерберга мудрость Макиавелли, а стратегия - Медичи. Смотрите, макиавеллиевская мудрость Цукерберга - разделяй и властвуй выглядит так:
- Открывает Llama → создает конкуренцию OpenAI и Anthropic.
- Хвалит DeepSeek → подрывает бизнес-модель закрытых систем
- Поддерживает открытый код → становится архитектором экосистемы.
У Марка стратегия Медичи:
- Публично поддерживает конкурентов.
- Тайно готовит революционные изменения. Об этом мы писали здесь.
- Использует ресурсы других для усиления своей позиции.
- Не стремится к явной власти
- Действует через влияние и экосистему.
- Создает условия, где все зависят от его платформы.
- Не борется с неизбежным (как с DeepSeek).
- Превращает угрозы в возможности.
- Выстраивает систему, где даже конкуренты работают на его цель.
По сути, Цукерберг играет не в шахматы, а создает саму шахматную доску, по правилам которой будут играть остальные.
*запрещенная организация в РФ.
Все это еще одна весомая составляющая мнения нашего канала @blockchainrf, о котором мы говорили 4 дня назад - кому выгоден успех DeepSeek.
Единственный среди американских основателей, который не обесценивает китайцев, а наоборот - гладит их по голове оказался Марк Цукерберг. Надо отметить, что еще Google не сказали плохо в адрес китайцев, там ребята работают. И кстати, их Gemini Flash 2.0 Thinking превосходит R1. Причем модель вышла на месяц раньше DeepSeek R1. Намного дешевле, предлагает даже большую длину контекста через API, чем R1.
А у Марка Цукерберга мудрость Макиавелли, а стратегия - Медичи. Смотрите, макиавеллиевская мудрость Цукерберга - разделяй и властвуй выглядит так:
- Открывает Llama → создает конкуренцию OpenAI и Anthropic.
- Хвалит DeepSeek → подрывает бизнес-модель закрытых систем
- Поддерживает открытый код → становится архитектором экосистемы.
У Марка стратегия Медичи:
- Публично поддерживает конкурентов.
- Тайно готовит революционные изменения. Об этом мы писали здесь.
- Использует ресурсы других для усиления своей позиции.
- Не стремится к явной власти
- Действует через влияние и экосистему.
- Создает условия, где все зависят от его платформы.
- Не борется с неизбежным (как с DeepSeek).
- Превращает угрозы в возможности.
- Выстраивает систему, где даже конкуренты работают на его цель.
По сути, Цукерберг играет не в шахматы, а создает саму шахматную доску, по правилам которой будут играть остальные.
*запрещенная организация в РФ.
Business Insider
Meta CEO Mark Zuckerberg says DeepSeek will 'benefit' the company and the future of its AI business
Meta CEO Mark Zuckerberg and CFO Susan Li spoke of the benefits of DeepSeek's flagship AI model to its company in a leaked all-hands.
Слушайте, тема #DeepSeek раскрыта не до конца, найдена модель всего за $450 вместо $6млн, как у DeepSeek
Исследователи из UC Berkeley представили Sky-T1-32B-Preview - модель, которая на уровне o1-preview в тестах на рассуждения и кодинг, а стоит всего $450 за обучение (19 часов на 8 GPU H100).
Полностью открытый исходный код и данные.
Создана модель на основе китайской Qwen2.5-32B-Instruct, 17K примеров, прямое обучение без сложных RL-пайплайнов.
Сравнение с DeepSeek-R1:
- Sky-T1: простота, доступность, быстрое обучение
- DeepSeek-R1: сложный RL, лучшая производительность, больше ресурсов.
Оба проекта полностью открыты и демонстрируют разные подходы к созданию рассуждающих ИИ.
Исследователи из UC Berkeley представили Sky-T1-32B-Preview - модель, которая на уровне o1-preview в тестах на рассуждения и кодинг, а стоит всего $450 за обучение (19 часов на 8 GPU H100).
Полностью открытый исходный код и данные.
Создана модель на основе китайской Qwen2.5-32B-Instruct, 17K примеров, прямое обучение без сложных RL-пайплайнов.
Сравнение с DeepSeek-R1:
- Sky-T1: простота, доступность, быстрое обучение
- DeepSeek-R1: сложный RL, лучшая производительность, больше ресурсов.
Оба проекта полностью открыты и демонстрируют разные подходы к созданию рассуждающих ИИ.
Telegram
All about AI, Web 3.0, BCI
AI Distillation Race: From $450 Berkeley Experiment to Industry Disruption
In a fascinating turn of events in AI development, UC Berkeley doctoral students demonstrated that advanced AI capabilities can be replicated for just $450 in computing costs.
This…
In a fascinating turn of events in AI development, UC Berkeley doctoral students demonstrated that advanced AI capabilities can be replicated for just $450 in computing costs.
This…
Итоги уходящей недели, что имеет значение в России и мире
Появилась обновленная база данных из 1.2 млн транскриптомов стареющего мозга мыши.
1. Российские ученые в составе международной группы сделали открытие для создания нейроморфных процессоров.
2. Маск объявил о массовом производстве роботов-100млн/год.
3. Перед РФ сейчас стоит вызов не только в ИИ, но и в криптовалютах, заявила газете «Ведомости» основатель @blockchainrf Ани Асланян. Подробности тут.
4. Y Combinator объявил тренды, которые интересны для инвестиций в стартапы на 2025 год.
5. Карта рынка голосовых ИИ-агентов в b2b.
6. Цукерберг: кто 1-м получит 1млрд пользователей ИИ-агента, у того будет долгосрочное преимущество над одним из важнейших продуктов в истории.
7. Полностью открытый датасет для обучения небольших моделей рассуждений, которые смогут превзойти #DeepSeek-R1-Distill-32B и DeepSeek-R1-Distill-7B в задачах математического и программного мышления.
8. Банк Китая выделяет 1трлн юаней (~$140млрд) на ИИ.
9. OpenAI выпустил модель o3-mini бесплатно.
10. Все главные новости о #DeepSeek :
- приложение #DeepSeek обошло OpenAI в App Store.
- #DeepSeek вызвал раскол среди крупнейших инвест компаний, подробнее тут.
- #DeepSeek выпустили ИИ-модель, которая не хуже DaLLE-3 от OpenAI, бесплатна и с открытым исходным кодом для генерации изображений.
- Кому выгодно лидерство #DeepSeek? Подробнее здесь.
- Ян ЛеКун, главный по ИИ в Meta* высказался о #DeepSeek
- OpenAI утверждает, что #DeepSeek украла у них данные
11. Основатель твиттера выпустил ИИ-агента с открытым исходным кодом.
12. ByteDance представили ИИ-модель Doubao-1.5-pro.
13. Отчет Accenture о внедрении ген ИИ в финансовом секторе.
14. Alibaba выпустила ИИ-модель Qwen2.5-Max, которая превосходит #Deepseek-V3 в нескольких ключевых бенчмарках.
15. Маск создает свою финансовую экосистему на базе Twitter.
16. Глава ЦБ Чехии предлагает инвестировать до 5% резервов банка в биткоин.
17. Hugging Face объявила, что создает полностью открытую версию #DeepSeek R1 со всеми составляющими модели.
18. Йошуа Бенжио представил 1-й в истории глобальный отчет безопасности ИИ, поддержанный 30 странами, а также ОЭСР, ООН и ЕС.
19. Дарио Амодей, основатель Anthropic высказал свою позицию о #DeepSeek, а тут мы рассказываем, о том, в чем он видит реальную гонку в ИИ.
20. Сын Трампа лоббирует для американских криптовалют(XRP и HBAR) освобождение от налога с прибыли от инвестиций.
21. Цукерберг заявил, что #DeepSeek принес пользу Meta*, и они планируют внедрить некоторые их инновации у себя.
22. Маск монетизирует свой департамент DOGE в правительстве США через мемкоин и инвестфонды.
23. Создана модель Sky-T1-32B-Preview - модель, которая на уровне o1-preview в тестах на рассуждения и кодинг, а стоит всего $450 за обучение (19 часов на 8 GPU H100).
24. Mistral AI выпустили новую маленькую модель ИИ.
25. EmbodiedEval - комплексный инструмент для оценки мультимодальных языковых моделей в качестве воплощенных агентов.
26. OpenAI выпустила ChatGPT Gov для госсектора.
27. Blackrock Neurotech создали систему, которая позволяет парализованному человеку управлять отдельными пальцами с высокой точностью силой мысли.
*запрещенная в России организация.
Появилась обновленная база данных из 1.2 млн транскриптомов стареющего мозга мыши.
1. Российские ученые в составе международной группы сделали открытие для создания нейроморфных процессоров.
2. Маск объявил о массовом производстве роботов-100млн/год.
3. Перед РФ сейчас стоит вызов не только в ИИ, но и в криптовалютах, заявила газете «Ведомости» основатель @blockchainrf Ани Асланян. Подробности тут.
4. Y Combinator объявил тренды, которые интересны для инвестиций в стартапы на 2025 год.
5. Карта рынка голосовых ИИ-агентов в b2b.
6. Цукерберг: кто 1-м получит 1млрд пользователей ИИ-агента, у того будет долгосрочное преимущество над одним из важнейших продуктов в истории.
7. Полностью открытый датасет для обучения небольших моделей рассуждений, которые смогут превзойти #DeepSeek-R1-Distill-32B и DeepSeek-R1-Distill-7B в задачах математического и программного мышления.
8. Банк Китая выделяет 1трлн юаней (~$140млрд) на ИИ.
9. OpenAI выпустил модель o3-mini бесплатно.
10. Все главные новости о #DeepSeek :
- приложение #DeepSeek обошло OpenAI в App Store.
- #DeepSeek вызвал раскол среди крупнейших инвест компаний, подробнее тут.
- #DeepSeek выпустили ИИ-модель, которая не хуже DaLLE-3 от OpenAI, бесплатна и с открытым исходным кодом для генерации изображений.
- Кому выгодно лидерство #DeepSeek? Подробнее здесь.
- Ян ЛеКун, главный по ИИ в Meta* высказался о #DeepSeek
- OpenAI утверждает, что #DeepSeek украла у них данные
11. Основатель твиттера выпустил ИИ-агента с открытым исходным кодом.
12. ByteDance представили ИИ-модель Doubao-1.5-pro.
13. Отчет Accenture о внедрении ген ИИ в финансовом секторе.
14. Alibaba выпустила ИИ-модель Qwen2.5-Max, которая превосходит #Deepseek-V3 в нескольких ключевых бенчмарках.
15. Маск создает свою финансовую экосистему на базе Twitter.
16. Глава ЦБ Чехии предлагает инвестировать до 5% резервов банка в биткоин.
17. Hugging Face объявила, что создает полностью открытую версию #DeepSeek R1 со всеми составляющими модели.
18. Йошуа Бенжио представил 1-й в истории глобальный отчет безопасности ИИ, поддержанный 30 странами, а также ОЭСР, ООН и ЕС.
19. Дарио Амодей, основатель Anthropic высказал свою позицию о #DeepSeek, а тут мы рассказываем, о том, в чем он видит реальную гонку в ИИ.
20. Сын Трампа лоббирует для американских криптовалют(XRP и HBAR) освобождение от налога с прибыли от инвестиций.
21. Цукерберг заявил, что #DeepSeek принес пользу Meta*, и они планируют внедрить некоторые их инновации у себя.
22. Маск монетизирует свой департамент DOGE в правительстве США через мемкоин и инвестфонды.
23. Создана модель Sky-T1-32B-Preview - модель, которая на уровне o1-preview в тестах на рассуждения и кодинг, а стоит всего $450 за обучение (19 часов на 8 GPU H100).
24. Mistral AI выпустили новую маленькую модель ИИ.
25. EmbodiedEval - комплексный инструмент для оценки мультимодальных языковых моделей в качестве воплощенных агентов.
26. OpenAI выпустила ChatGPT Gov для госсектора.
27. Blackrock Neurotech создали систему, которая позволяет парализованному человеку управлять отдельными пальцами с высокой точностью силой мысли.
*запрещенная в России организация.