AWS Notes

DeepSeek — что за шум, простыми словами

DeepSeek — китайская компания, выпустившая в конце января Open Source модель DeepSeek-R1:

https://github.com/deepseek-ai/DeepSeek-R1

R1 — это "думающая" (reasoning) модель, прямой конкурент OpenAI o1, условно самой крутой на сегодняшний момент.

Собственно она и наделала столько шуму, потому что показала очень близкие результаты, где-то даже лучше. При этом она Open Source и резко выбивается из общего ряда способом "размышления" и потрясающей скоростью работы. А также ценой, которая в десятки раз меньше текущих на рынке.

При этом месяцем раньше компания выпустила DeepSeek-V3 — прямой конкурент GPT-4o:

https://github.com/deepseek-ai/DeepSeek-V3

Она круче его на голову, но все дружно проигнорили это, т.к. Claude 3.5 Sonnet тоже лучше и все давно привыкли, что тут ничего нового.

К модели R1 прилагается детальный процесс, как она была получена из которого следует, что стоимость обучения модели на порядок меньше, чем у OpenAI сотоварищи.

Как же им это удалось? Если говорить максимально упрощённо, они тупо пропустили самый дорогой и долгий этап проверки результатов работы модели живыми людьми. Берём запрос, генерируем ответ, смотрим, чтобы он был не хуже того, что генерит OpenAI или Claude. Если хуже, переделываем. Всё.

Нет людей, машины учатся у машин.

Можно сравнить с AlphaGo, которая сначал обучалась на партиях профи, а после тренировалась сама с собой методом проб и ошибок.

Ну, а дальше уже подключились политические аспекты противостояния USA-China, что отразилось и на рынке, вызвав резкое снижение акций NVIDIA.

Из некоторых сообщений можно было сделать вывод, что какая-то неизвестная компания с минимальными ресурсами уделала лидеров рынка, что приведёт к крушению AI индустрии вообще и NVIDIA в частности.

Это не так. Любое удешевление технологии приводит к увеличению спроса на железо, а не уменьшению. Все хотят этим воспользоваться, так что DeepSeek это спонсор NVIDIA, просто в будущем.

Касаемо ресурсов, то известно, что материнская компания DeepSeek владеет многими десятками тысяч карт AI ускорителей от NVIDIA, которые при этом запрещено экспортировать в Китай.

Подытожу, DeepSeek получил такую вирусность благодаря тому, что это Open Source. Почему такое эффективное решение сделали сделали Open Source, это уже второй вопрос. И время для этого получилось очень удачное — Lllama 4 ещё не вышла и на сейчас R1 на вершине хайпа.

R1 прямо сейчас уже есть и в AWS, и в Perplexity Pro.
Все спешат его поставить, можно даже поставить и себе локально на компьютер, ведь это Open Source.

Open Source is the way!

#AI #OpenSource #DeepSeek

GitHub

GitHub - deepseek-ai/DeepSeek-R1

Contribute to deepseek-ai/DeepSeek-R1 development by creating an account on GitHub.

🔥24👍9❤4

2.88K views20:52

AWS Notes

Знаю, что устали, но нужно ж закрыть гештальт:

https://aws.amazon.com/blogs/aws/deepseek-r1-models-now-available-on-aws/

#Bedrock #Sagemaker #DeepSeek

Amazon

DeepSeek-R1 models now available on AWS | Amazon Web Services

DeepSeek-R1, a powerful large language model featuring reinforcement learning and chain-of-thought capabilities, is now available for deployment via Amazon Bedrock and Amazon SageMaker AI, enabling users to build and scale their generative AI applications…

😁14

2.78K views09:48

About

Blog

Apps

Platform