duangsuse::Echo
583 subscribers
4.12K photos
118 videos
579 files
6.13K links
import this:
美而不丑、明而不暗、短而不凡、长而不乱,扁平不宽,读而后码,行之天下,勿托地上天国。
异常勿吞,难过勿过,叹一真理。效率是很重要,盲目最是低效。
简明是可靠的先验,不是可靠的祭品。
知其变,守其恒,为天下式;穷其变,知不穷,得地上势。知变守恒却穷变知新,我认真理,我不认真。

技术相干订阅~
另外有 throws 闲杂频道 @dsuset
转载频道 @dsusep
极小可能会有批评zf的消息 如有不适可退出
suse小站(面向运气编程): https://WOJS.org/#/
Download Telegram
duangsuse::Echo
#ai #tool #news https://platform.deepseek.com/api_keys +86可直接登录,免费10Y额度,需要实名认证后再充值 与OpenAI兼容,但需要配置为 https://api.deepseek.com?model='deepseek-chat' >当o1、Claude、Gemini和Llama 3等模型还在为数亿美元的训练成本苦恼时, DeepSeek-V3用557.6万美元的预算,在2048个H800 GPU集群上仅花费3.7天/万亿tokens的训练…
#AI 最近听到几个亲戚都开始议论「DeepSeek 又赢了,让资本抛弃了看扁中国的英伟达」 的这回事

抛开「赢学」不谈, 深度求索的这个突破(400w刀比肩GPT4、 多轮对话补齐减免重复收费、开源、开辟国内市场。。。) 非常有讨论的价值

过去,我们作为外行也一直认为, AI=优质数据+海量算力+DNN强化训练和精调大模型

GPU的暴力,对未来的AI一定是不可或缺的,本地部署的模型,一定不如集群可部署的

确实,算力越多iter越方便,但低算力、高数据质量、更能fit的模型, 是否能打破这个「IQ越高才越聪明」的魔咒呢? AI炒股有个著名的定律是,无输入=无效输出,AI不能无中生有,现在看来也不一定?

#statememt
即便从IT来看,「算力为王」也是站不住脚的: 1G 2G 4G 16G, 手机内存和CPU越来越大, 实现的功能(包括较之PC)却没有指数型的提升!(说的就是你,微信)
同样,流量带宽4G、5G 进化,却被HEVC,AV1等有损压缩的进化打回原形。
同样,对微电子行业「摩尔定律」,也被GPU等异构计算打破了,GPU这一群野🐔 确实超越了CPU这一位“博士后”。

- 力大砖飞+大数据 不是唯一,数据质量更重要,这毋庸置疑。
- DeepSeek 真的突破了算力封锁,而不是踩着GPT填的坑,弯道超车的吗? 是否可复制?能否再生产?
- 除了LLM,随着算法的迭代,任何DNN的应用,都可以在RTX等消费级显卡上运行乃至训练吗?
- AI算力需求真的能无限压缩,「树真的能长到天上去」吗? 未来,常人的脑力换算成GPU是R几?
- nVIDIA/BTC 的价值投资还会有多少波动? 虽然我不清楚BTC是怎么借显卡炒高的,毕竟算力廉价=挖矿容易。
>
现在deepseek给出的模型大小是19GB。 如果大模型的大小被压缩到了1GB,你猜会发生什么?
国内外互联网,脑子正常的从业者都知道ai模型虚胖的秘密。但是把价格打下来,等于是自己砸自己饭碗。本来大厂优势会被挤压殆尽,大裁员。
大厂的优势是啥?不就是钱么?但,一个搞金融的企业把互联网的碗砸了,可以说对业务没有根本波及,甚至还能靠做空,大赚一笔。
>https://livebench.ai/#/ r1-14B/32b,4090显卡24g显存。离官网的671b差远了,蒸馏过的本质上依然是千问。 dsv3会说自己是gpt4,而dsr1的基座是dsv3语料库,大概率是有gpt4生成出来的内容, 但让ds跑llama70b效果很拉,说明ds是有优化本事的
>
编程来说,gpt4o更好用,claude3.5就更好了,deepseek完全不行。我是在本地电脑运行的,比较chatgpt和deepseek就像比较windows和Linux,它参数小并且开源,openAI早就不open了。

https://m.youtube.com/watch?v=xXmbLf4MyBs
https://m.youtube.com/watch?v=5L0KPqNxCmE
https://m.youtube.com/watch?v=QGGHPIZoLgc
https://m.youtube.com/watch?v=ZxX4LRqgK2U #dalao 翟老、Leonard、文昭 三大经济鉴证宗师

以下是投票