Forwarded from RSS to Telegram Bot
药名趣谈:如何通过药名判断一款药品治什么病?
上周末回家,我看到爸爸在日历上标注了一款「XX 他汀」的药,直接问他:「你咋开始吃降血脂的药了?」
后来和朋友聊起这个事儿,朋友好奇我都没有看到药盒,是怎么判断药效的。我意识到,根据药名判断其针对的病症,是个很实用且很有意思的事,于是决定记录一下。
药名与药效
如果你只是想了解一些常见药名前缀、后缀与针对病症的关系,看这一部分就够了。下面是我根据自己过往的经验,总结的一些常见药物,并不全。
药物命名趣事
首先啊,说一个目前还有用、以后可能没用的规律——
例子太多,我就不讲了。
好,下面我们再聊药名的事。剩下的应该是以化学药品为主了。在相当长的一段时间里,我国医生在开化学药品的时候,是混用商品名与通用名(也就是上面讲的那些词缀)是混用的,比如「扑热息痛(对乙酰氨基酚)」「红药水(汞溴红溶液)」「紫药水(甲紫溶液)」「扑尔敏(氯苯那敏)」这些,都是商品名。但普通人是很难区分商品名和通用名的,于是就很容易出现重复用药的情况。
2006 年,原卫生部出台了一个规定《处方管理办法》,要求医生的处方只能写通用名;再后来药监局又要求药企在药盒上,也得区分药品的双名称。
药品的商品名就是药厂自己起的;通用名则是要尽量与外文名相对应,外文名又来自世卫组织,在翻译成中文时,要做到音对应。
而按照世卫组织的要求,这些药物在命名时要成体系,也就是说治疗同一种病,或者主要成分相似的药,外文名的词干往往是一致的。这样在翻译成中文时,就会出现同样词缀的药物治疗相似疾病的情况。
比如抗病毒药物,往往外文名里都会带一个 vir,这个词缀就是 Virus(病毒)的缩写,像抗流感病毒的 Oseltamivir(奥司他韦)和 Baloxavir marboxil(玛巴洛沙韦)、 抗疱疹病毒的 Aciclovir(阿昔洛韦)。
再比如青霉素(及衍生物)类抗生素,由于青霉素原名盘尼西林,是根据英文名 Penicillin 音译过来的,所以现在青霉素类抗生素的末尾往往就会带一个 cillin(西林),比如 Amoxicillin(阿莫西林)、Mezlocillin(美洛西林)。
正是因为这些原因,我前面才总结出来一份表格。
至于为什么不让化学药也取那些一看就能治什么病的名字……原则上,是根据原卫生部药典委员会于 1991 年发布的《西药(原料药)命名原则》,其中第二条就规定了:
药名用字为啥都不认识?
如果你发现,前面那张表格里,你有很多字不认识,或者不确定怎么读,那么恭喜你,是个正常人。
据 2021 年发表的论文《国内西药双名使用形音义考察》统计,如果我们以《现代汉语 3500 个常用字表》为标准,超出字表的都算非常用字的话,那么《中国药品通用名称》中一共有 6886 个化学药通用名,其中有 3738 个通用名中使用了 135 个非常用字,比例超过一半。
所以,不认识也正常。
至于为什么会这样,据另一篇叫《西药英文名称的命名和翻译》的论文,在音译化学药品时:
虽然看上去有点自己给自己找罪受的意思,但普通人这么一看,直觉上就能感受到药品的专业性。正如前面所讲,化学药品的通用名往往需要标示出药理、结构、靶点等等专业信息,涉及到医学、药学、化学等多个学科,再加上又得是音译,就得看着专业才行。
而那些一看就知道能有啥用的药……算了,不多说了。
via 很少明白 (author: p0werdown)
上周末回家,我看到爸爸在日历上标注了一款「XX 他汀」的药,直接问他:「你咋开始吃降血脂的药了?」
后来和朋友聊起这个事儿,朋友好奇我都没有看到药盒,是怎么判断药效的。我意识到,根据药名判断其针对的病症,是个很实用且很有意思的事,于是决定记录一下。
药名与药效
如果你只是想了解一些常见药名前缀、后缀与针对病症的关系,看这一部分就够了。下面是我根据自己过往的经验,总结的一些常见药物,并不全。
药物命名趣事
首先啊,说一个目前还有用、以后可能没用的规律——
凡是在药名里就写明疗效的药,可以默认没用。
例子太多,我就不讲了。
好,下面我们再聊药名的事。剩下的应该是以化学药品为主了。在相当长的一段时间里,我国医生在开化学药品的时候,是混用商品名与通用名(也就是上面讲的那些词缀)是混用的,比如「扑热息痛(对乙酰氨基酚)」「红药水(汞溴红溶液)」「紫药水(甲紫溶液)」「扑尔敏(氯苯那敏)」这些,都是商品名。但普通人是很难区分商品名和通用名的,于是就很容易出现重复用药的情况。
2006 年,原卫生部出台了一个规定《处方管理办法》,要求医生的处方只能写通用名;再后来药监局又要求药企在药盒上,也得区分药品的双名称。
药品的商品名就是药厂自己起的;通用名则是要尽量与外文名相对应,外文名又来自世卫组织,在翻译成中文时,要做到音对应。
而按照世卫组织的要求,这些药物在命名时要成体系,也就是说治疗同一种病,或者主要成分相似的药,外文名的词干往往是一致的。这样在翻译成中文时,就会出现同样词缀的药物治疗相似疾病的情况。
比如抗病毒药物,往往外文名里都会带一个 vir,这个词缀就是 Virus(病毒)的缩写,像抗流感病毒的 Oseltamivir(奥司他韦)和 Baloxavir marboxil(玛巴洛沙韦)、 抗疱疹病毒的 Aciclovir(阿昔洛韦)。
再比如青霉素(及衍生物)类抗生素,由于青霉素原名盘尼西林,是根据英文名 Penicillin 音译过来的,所以现在青霉素类抗生素的末尾往往就会带一个 cillin(西林),比如 Amoxicillin(阿莫西林)、Mezlocillin(美洛西林)。
正是因为这些原因,我前面才总结出来一份表格。
至于为什么不让化学药也取那些一看就能治什么病的名字……原则上,是根据原卫生部药典委员会于 1991 年发布的《西药(原料药)命名原则》,其中第二条就规定了:
避免采用可能给患者以暗示的有关药理学、 治疗学或病理学的药品名称。
药名用字为啥都不认识?
如果你发现,前面那张表格里,你有很多字不认识,或者不确定怎么读,那么恭喜你,是个正常人。
据 2021 年发表的论文《国内西药双名使用形音义考察》统计,如果我们以《现代汉语 3500 个常用字表》为标准,超出字表的都算非常用字的话,那么《中国药品通用名称》中一共有 6886 个化学药通用名,其中有 3738 个通用名中使用了 135 个非常用字,比例超过一半。
所以,不认识也正常。
至于为什么会这样,据另一篇叫《西药英文名称的命名和翻译》的论文,在音译化学药品时:
作为专有名词药名的文字,中文翻译时加上某个偏旁部首,尽量与普通汉字区分开来。 如「-zole」 翻译成「唑 (zuò)」而不用「坐」 , 又如「-done」翻译成「酮」而不译成「同」 。 音译较为方便, 但不能表意。
虽然看上去有点自己给自己找罪受的意思,但普通人这么一看,直觉上就能感受到药品的专业性。正如前面所讲,化学药品的通用名往往需要标示出药理、结构、靶点等等专业信息,涉及到医学、药学、化学等多个学科,再加上又得是音译,就得看着专业才行。
而那些一看就知道能有啥用的药……算了,不多说了。
via 很少明白 (author: p0werdown)
Forwarded from 即刻精选
Forwarded from 噫~這世界
Telegraph
贾樟柯专访:我们不是真理的拥有者
端传媒记者 张书玮
Forwarded from 噫~這世界
【@jiamimao 猫叔】从心理学上来说,小时候越乖、越懂事的孩子,长大以后心理问题越多。
原因就在于,乖巧懂事的孩子因为过多扮演了外界期许的某个角色,导致自我发展停滞。
一个经典的例子就是孩子从小就学会察言观色,即使在街上遇到了想要的东西,但是母亲一个眼神过来,孩子就主动表示自己不想要。
这里孩子就发展出了一种生存策略,即为了让父母满意,或者得到夸奖,选择抑制真实的自我,而是扮演一个“乖巧的角色”。
注意,这可能是两种原因导致的。
第一种就是父母对孩子过去表达出的需求,经常选择责骂,所以孩子恐惧父母。
第二种是孩子过早意识到父母的不容易,因此体谅父母。
这就会导致长大后出现两个常见的心理问题。
第一,在关系中没有安全感,比如害怕表达真实的自我,害怕被抛弃,时刻担心自己不够好。
第二,过早承担了家庭中的责任,因此真实自我的成长被剥夺,只发现出了工具性的自我,长大后过于理智化,很难从生活中得到乐趣。
所以说到底人的心理问题都是自我发展的问题。
当某个阶段的自我被抑制了以后,即使表面上长大了,未来依旧需要补课。
一个成年人应当是理性+感性充分发展起来,才是完整的自我。
过早乖巧的孩子,也过早失去了自我表达情绪、爱和被爱的能力。
原因就在于,乖巧懂事的孩子因为过多扮演了外界期许的某个角色,导致自我发展停滞。
一个经典的例子就是孩子从小就学会察言观色,即使在街上遇到了想要的东西,但是母亲一个眼神过来,孩子就主动表示自己不想要。
这里孩子就发展出了一种生存策略,即为了让父母满意,或者得到夸奖,选择抑制真实的自我,而是扮演一个“乖巧的角色”。
注意,这可能是两种原因导致的。
第一种就是父母对孩子过去表达出的需求,经常选择责骂,所以孩子恐惧父母。
第二种是孩子过早意识到父母的不容易,因此体谅父母。
这就会导致长大后出现两个常见的心理问题。
第一,在关系中没有安全感,比如害怕表达真实的自我,害怕被抛弃,时刻担心自己不够好。
第二,过早承担了家庭中的责任,因此真实自我的成长被剥夺,只发现出了工具性的自我,长大后过于理智化,很难从生活中得到乐趣。
所以说到底人的心理问题都是自我发展的问题。
当某个阶段的自我被抑制了以后,即使表面上长大了,未来依旧需要补课。
一个成年人应当是理性+感性充分发展起来,才是完整的自我。
过早乖巧的孩子,也过早失去了自我表达情绪、爱和被爱的能力。
Forwarded from 噫~這世界
【阑夕】这几天刷推很明显的感觉到英文技术社区对中国AI产业的进步速度处于一种半震动半懵逼的状态,应激来源主要是两个,一个是宇树(Unitree)的轮足式机器狗B2-W,另一个是开源MoE模型DeepSeek-V3。
宇树在早年基本上属于是波士顿动力的跟班,产品形态完全照猫画虎,商业上瞄准的也是低配平替生态位,没有太大的吸引力,但从B系列型号开始,宇树的机器狗就在灵活性上可以和波士顿动力平起平坐了。
B2-W的意外在于切换了技术线,用运动性更高但平衡性同时也更难的动轮方案取代了B2还在沿用四足方案,然后在一年时间里完成了能在户外环境里跋山涉水的训练,很多美国人在视频底下说这一定是CGI的画面,不知道是真串还是心态炸了。
波士顿在机器狗身上也曾短暂用过动轮方案,或者说它测过的方案远比宇树要多——公司成立时长摆在那里——但是作为行业先驱,它连保持一家美国公司的实体都办不到了。
现代汽车2020年以打折价从软银手里买了波士顿动力,正值软银账面巨亏需要回血,而软银当初又是在2017年从Google那里买到手的,Google为什么卖呢,因为觉得太烧钱了,亏不起。
这理由就很离谱,美国的风险资本系统对于亏损的容忍度本来就是全球最高的,没有之一,对于前沿性的研究,砸钱画饼是再寻常不过了的——看这两年硅谷在AI上的投入产出比就知道了——但波士顿动力何以在独一档的地位上被当成不良资产卖来卖去?
那头房间里的大象,美国的科技行业普遍都装作看不到:美国人,如今的美国人,从投行到企业,从CEO到程序员,从纽约到湾区,对制造业的厌弃已经成为本能了。
A16Z的合伙人马克·安德森2011年在「华尔街日报」写了那篇流传甚广的代表作「软件吞噬世界」,大概意思是,边际成本极低的软件公司注定接管一切水草繁盛之地,和这种可以提供指数级增长的生意比起来,其他的行业都不够看。
并不是说马克·安德森的表达有问题,后面这十几年来的现实走向,也确实在证明这条攫取规模化利润的回报是最高的,但美国人的路径依赖到最后必然带来一整代人丧失制造能力的结果。
这里说的丧失制造能力,并不是说丧失制造兴趣或是热情,我前段时间拜访了深圳一家逆向海淘公司,业务就是把华强北的电子配件做成可索引的结构化目录,然后提供从采购到验货再到发包的全流程服务,最大的买方就是美国的DIY市场和高校学生,他们之所以要不远万里的等上几个星期委托中国人来买东西,就是因为在诺大的美国本土,根本找不到供应链。
然后那些学生也只有在读书时才有真正尝试制造某些东西的机会,到了要去大公司里上班领薪后,再也没人愿意把手弄脏了。
但软件终究不能脱离硬件运行,哪怕硬件生产的附加值再不够看,基于采集一手物理数据的入口,制造商腰板硬起来后去做全套解决方案,只取决于能不能组建好的工程师团队,反过来却不一样,制造订单长期外包出去,它就变成产业链配套回不来了。
所以像是多旋翼无人机和四足机器狗这类新兴科技萌芽的原型机一般都还是产自有着试错资本的欧美,也就是所谓「从零到一」的过程,而在「从一到十」的落地阶段,中国的追赶成果就会开始密集呈现,进入「从十到百」的量产之后,中国的供应链成本直接杀死比赛。
波士顿动力的机器人最早在网上爆火的时候,Google X的负责人在内部备忘录里说他已经和媒体沟通了,希望不要让视频和Google扯上太大关系,是不是很迷惑,这么牛逼的事情,你作为母公司非但不高兴,还想躲起来,现在你们懂得这种顾虑从何而来了,就是觉得贵为软件巨头的Google去卷袖子干制造的活儿太卑贱了呗。
当然美国也还有马斯克这样的建设者(Builder),但你要知道马斯克的故事之所以动人,是因为他这样的人现在是极度稀缺的,而且长期以来不受主流科技业界待见,完全是靠逆常识的成就——造汽车,造火箭,造隧道,这都是硅谷唯恐避之不及的事情——去一步步打脸打出来的名声。
如果说宇树是在硬件上引起了一波怀疑现实的热度,那么DeepSeek则在软件的原生地盘,把大模型厂商都给硬控住了。
在微软、Meta、Google都在奔着10万卡集群去做大模型训练时,DeepSeek在2000个GPU上,花了不到600万美金和2个月的时间,就实现了对齐GPT-4o和Claude 3.5 Sonnet的测试结果。
DeepSeek-V2在半年前就火过一波,但那会儿的叙事还相对符合旧版本的预期:中国AI公司推出了低成本的开源模型,想要成为行业里的价格屠夫,中国人就擅长做这种便宜耐用的东西,只要不去和顶级产品比较,能用是肯定的。
但V3则完全不同了,它把成本降了10倍以上,同时质量却能比肩t1阵营,关键还是开源的,相关推文的评论区全是「中国人咋做到的?」
虽然但是,后发的大模型可以通过知识蒸馏等手段实现性价比更高的训练——类似你学习牛顿三定律的速度降低的斜率也在有利于追赶者,肯定比牛顿本人琢磨出定律的速度要快——成本,但匪夷所思的效率提升,是很难用已知训练方法来归纳的,它一定是是在底层架构上做了不同于其他巨头的创新。
另一个角度更有意思,如果针对中国的AI芯片禁售政策最后产生的后果,是让中国的大模型公司不得不在算力受限的约束下实现了效率更高的解决方案,这种适得其反的剧情就太讽刺了。
DeepSeek的创始人梁文锋之前也说过,公司差的从来都不是钱,而是高端芯片被禁运。
所以中国的大模型公司,像是字节和阿里这样的大厂,卡能管够,把年收入的1/10拿出来卷AI,问题不大,但初创公司没这么多弹药,保持不下牌桌的唯一方法就是玩命创新。
李开复今年也一直在表达一个观点,中国做AI的优势从来不是在不设预算上限的情况下去做突破性研究,而是在好、快、便宜和可靠性之间找出最优解。
零一和DeepSeek用的都是MoE(混合专家)模式,相当于是在事先准备的高质量数据集上去做特定训练,不能说在跑分上完全没有水分,但市场并不关心原理,只要质价比够看,就一定会有竞争力。
当然DeepSeek不太一样的是,它不太缺卡,2021年就囤了1万张英伟达A100,那会儿ChatGPT还没影呢,和Meta为了元宇宙囤卡却阴差阳错的赶上AI浪潮很像,DeepSeek买那么多卡,是为了做量化交易⋯⋯
我最早对梁文锋有印象,是「西蒙斯传」里有他写的序,西蒙斯是文艺复兴科技公司的创始人,用算法模型去做自动化投资的开创者,梁文锋当时管着600亿人民币的量化私募,写序属于顺理成章的给行业祖师爷致敬。
交待这个背景,是想说,梁文锋的几家公司,从量化交易做到大模型开发,并不是一个金融转为科技的过程,而是数学技能在两个应用场景之间的切换,投资的目的是预测市场,大模型的原理也是预测Token。
后来看过几次梁文锋的采访,对他的印象很好,非常清醒和聪明的一个人,我贴几段你们感受一下:
「暗涌」:大部分中国公司都选择既要模型又要应用,为什么DeepSeek目前选择只做研究探索?
梁文锋:因为我们觉得现在最重要的是参与到全球创新的浪潮里去。过去很多年,中国公司习惯了别人做技术创新,我们拿过来做应用变现,但这并非是一种理所当然。这一波浪潮里,我们的出发点,就不是趁机赚一笔,而是走到技术的前沿,去推动整个生态发展。
「暗涌」:互联网和移动互联网时代留给大部分人的惯性认知是,美国擅长搞技术创新,中国更擅长做应用。
梁文锋:我们认为随着经济发展,中国也要逐步成为贡献者,而不是一直搭便车。过去三十多年IT浪潮里,我们基本没有参与到真正的技术创新里。我们已经习惯摩尔定律从天而降,躺在家里18个月就会出来更好的硬件和软件。Scaling Law也在被如此对待。但其实,这是西方主导的技术社区一代代孜孜不倦创造出来的,只因为之前我们没有参与这个过程,以至于忽视了它的存在。
「暗涌」:但这种选择放在中国语境里,也过于奢侈。大模型是一个重投入游戏,不是所有公司都有资本只去研究创新,而不是先考虑商业化。
梁文锋:创新的成本肯定不低,过去那种拿来主义的惯性也和过去的国情有关。但现在,你看无论中国的经济体量,还是字节、腾讯这些大厂的利润,放在全球都不低。我们创新缺的肯定不是资本,而是缺乏信心以及不知道怎么组织高密度的人才实现有效的创新。
「暗涌」:但做大模型,单纯的技术领先也很难形成绝对优势,你们赌的那个更大的东西是什么?
梁文锋:我们看到的是中国AI不可能永远处在跟随的位置。我们经常说中国AI和美国有一两年差距,但真实的gap是原创和模仿之差。如果这个不改变,中国永远只能是追随者,所以有些探索也是逃不掉的。英伟达的领先,不只是一个公司的努力,而是整个西方技术社区和产业共同努力的结果。他们能看到下一代的技术趋势,手里有路线图。中国AI的发展,同样需要这样的生态。很多国产芯片发展不起来,也是因为缺乏配套的技术社区,只有第二手消息,所以中国必然需要有人站到技术的前沿。
「暗涌」:很多大模型公司都执着地去海外挖人,很多人觉得这个领域前50名的顶尖人才可能都不在中国的公司,你们的人都来自哪里?
梁文锋:V2模型没有海外回来的人,都是本土的。前50名顶尖人才可能不在中国,但也许我们能自己打造这样的人。
「暗涌」:所以你对这件事也是乐观的?
梁文锋:我是八十年代在广东一个五线城市长大的。我的父亲是小学老师,九十年代,广东赚钱机会很多,当时有不少家长到我家里来,基本就是家长觉得读书没用。但现在回去看,观念都变了。因为钱不好赚了,连开出租车的机会可能都没了。一代人的时间就变了。以后硬核创新会越来越多。现在可能还不容易被理解,是因为整个社会群体需要被事实教育。当这个社会让硬核创新的人功成名就,群体性想法就会改变。我们只是还需要一堆事实和一个过程。
⋯⋯
宇树在早年基本上属于是波士顿动力的跟班,产品形态完全照猫画虎,商业上瞄准的也是低配平替生态位,没有太大的吸引力,但从B系列型号开始,宇树的机器狗就在灵活性上可以和波士顿动力平起平坐了。
B2-W的意外在于切换了技术线,用运动性更高但平衡性同时也更难的动轮方案取代了B2还在沿用四足方案,然后在一年时间里完成了能在户外环境里跋山涉水的训练,很多美国人在视频底下说这一定是CGI的画面,不知道是真串还是心态炸了。
波士顿在机器狗身上也曾短暂用过动轮方案,或者说它测过的方案远比宇树要多——公司成立时长摆在那里——但是作为行业先驱,它连保持一家美国公司的实体都办不到了。
现代汽车2020年以打折价从软银手里买了波士顿动力,正值软银账面巨亏需要回血,而软银当初又是在2017年从Google那里买到手的,Google为什么卖呢,因为觉得太烧钱了,亏不起。
这理由就很离谱,美国的风险资本系统对于亏损的容忍度本来就是全球最高的,没有之一,对于前沿性的研究,砸钱画饼是再寻常不过了的——看这两年硅谷在AI上的投入产出比就知道了——但波士顿动力何以在独一档的地位上被当成不良资产卖来卖去?
那头房间里的大象,美国的科技行业普遍都装作看不到:美国人,如今的美国人,从投行到企业,从CEO到程序员,从纽约到湾区,对制造业的厌弃已经成为本能了。
A16Z的合伙人马克·安德森2011年在「华尔街日报」写了那篇流传甚广的代表作「软件吞噬世界」,大概意思是,边际成本极低的软件公司注定接管一切水草繁盛之地,和这种可以提供指数级增长的生意比起来,其他的行业都不够看。
并不是说马克·安德森的表达有问题,后面这十几年来的现实走向,也确实在证明这条攫取规模化利润的回报是最高的,但美国人的路径依赖到最后必然带来一整代人丧失制造能力的结果。
这里说的丧失制造能力,并不是说丧失制造兴趣或是热情,我前段时间拜访了深圳一家逆向海淘公司,业务就是把华强北的电子配件做成可索引的结构化目录,然后提供从采购到验货再到发包的全流程服务,最大的买方就是美国的DIY市场和高校学生,他们之所以要不远万里的等上几个星期委托中国人来买东西,就是因为在诺大的美国本土,根本找不到供应链。
然后那些学生也只有在读书时才有真正尝试制造某些东西的机会,到了要去大公司里上班领薪后,再也没人愿意把手弄脏了。
但软件终究不能脱离硬件运行,哪怕硬件生产的附加值再不够看,基于采集一手物理数据的入口,制造商腰板硬起来后去做全套解决方案,只取决于能不能组建好的工程师团队,反过来却不一样,制造订单长期外包出去,它就变成产业链配套回不来了。
所以像是多旋翼无人机和四足机器狗这类新兴科技萌芽的原型机一般都还是产自有着试错资本的欧美,也就是所谓「从零到一」的过程,而在「从一到十」的落地阶段,中国的追赶成果就会开始密集呈现,进入「从十到百」的量产之后,中国的供应链成本直接杀死比赛。
波士顿动力的机器人最早在网上爆火的时候,Google X的负责人在内部备忘录里说他已经和媒体沟通了,希望不要让视频和Google扯上太大关系,是不是很迷惑,这么牛逼的事情,你作为母公司非但不高兴,还想躲起来,现在你们懂得这种顾虑从何而来了,就是觉得贵为软件巨头的Google去卷袖子干制造的活儿太卑贱了呗。
当然美国也还有马斯克这样的建设者(Builder),但你要知道马斯克的故事之所以动人,是因为他这样的人现在是极度稀缺的,而且长期以来不受主流科技业界待见,完全是靠逆常识的成就——造汽车,造火箭,造隧道,这都是硅谷唯恐避之不及的事情——去一步步打脸打出来的名声。
如果说宇树是在硬件上引起了一波怀疑现实的热度,那么DeepSeek则在软件的原生地盘,把大模型厂商都给硬控住了。
在微软、Meta、Google都在奔着10万卡集群去做大模型训练时,DeepSeek在2000个GPU上,花了不到600万美金和2个月的时间,就实现了对齐GPT-4o和Claude 3.5 Sonnet的测试结果。
DeepSeek-V2在半年前就火过一波,但那会儿的叙事还相对符合旧版本的预期:中国AI公司推出了低成本的开源模型,想要成为行业里的价格屠夫,中国人就擅长做这种便宜耐用的东西,只要不去和顶级产品比较,能用是肯定的。
但V3则完全不同了,它把成本降了10倍以上,同时质量却能比肩t1阵营,关键还是开源的,相关推文的评论区全是「中国人咋做到的?」
虽然但是,后发的大模型可以通过知识蒸馏等手段实现性价比更高的训练——类似你学习牛顿三定律的速度降低的斜率也在有利于追赶者,肯定比牛顿本人琢磨出定律的速度要快——成本,但匪夷所思的效率提升,是很难用已知训练方法来归纳的,它一定是是在底层架构上做了不同于其他巨头的创新。
另一个角度更有意思,如果针对中国的AI芯片禁售政策最后产生的后果,是让中国的大模型公司不得不在算力受限的约束下实现了效率更高的解决方案,这种适得其反的剧情就太讽刺了。
DeepSeek的创始人梁文锋之前也说过,公司差的从来都不是钱,而是高端芯片被禁运。
所以中国的大模型公司,像是字节和阿里这样的大厂,卡能管够,把年收入的1/10拿出来卷AI,问题不大,但初创公司没这么多弹药,保持不下牌桌的唯一方法就是玩命创新。
李开复今年也一直在表达一个观点,中国做AI的优势从来不是在不设预算上限的情况下去做突破性研究,而是在好、快、便宜和可靠性之间找出最优解。
零一和DeepSeek用的都是MoE(混合专家)模式,相当于是在事先准备的高质量数据集上去做特定训练,不能说在跑分上完全没有水分,但市场并不关心原理,只要质价比够看,就一定会有竞争力。
当然DeepSeek不太一样的是,它不太缺卡,2021年就囤了1万张英伟达A100,那会儿ChatGPT还没影呢,和Meta为了元宇宙囤卡却阴差阳错的赶上AI浪潮很像,DeepSeek买那么多卡,是为了做量化交易⋯⋯
我最早对梁文锋有印象,是「西蒙斯传」里有他写的序,西蒙斯是文艺复兴科技公司的创始人,用算法模型去做自动化投资的开创者,梁文锋当时管着600亿人民币的量化私募,写序属于顺理成章的给行业祖师爷致敬。
交待这个背景,是想说,梁文锋的几家公司,从量化交易做到大模型开发,并不是一个金融转为科技的过程,而是数学技能在两个应用场景之间的切换,投资的目的是预测市场,大模型的原理也是预测Token。
后来看过几次梁文锋的采访,对他的印象很好,非常清醒和聪明的一个人,我贴几段你们感受一下:
「暗涌」:大部分中国公司都选择既要模型又要应用,为什么DeepSeek目前选择只做研究探索?
梁文锋:因为我们觉得现在最重要的是参与到全球创新的浪潮里去。过去很多年,中国公司习惯了别人做技术创新,我们拿过来做应用变现,但这并非是一种理所当然。这一波浪潮里,我们的出发点,就不是趁机赚一笔,而是走到技术的前沿,去推动整个生态发展。
「暗涌」:互联网和移动互联网时代留给大部分人的惯性认知是,美国擅长搞技术创新,中国更擅长做应用。
梁文锋:我们认为随着经济发展,中国也要逐步成为贡献者,而不是一直搭便车。过去三十多年IT浪潮里,我们基本没有参与到真正的技术创新里。我们已经习惯摩尔定律从天而降,躺在家里18个月就会出来更好的硬件和软件。Scaling Law也在被如此对待。但其实,这是西方主导的技术社区一代代孜孜不倦创造出来的,只因为之前我们没有参与这个过程,以至于忽视了它的存在。
「暗涌」:但这种选择放在中国语境里,也过于奢侈。大模型是一个重投入游戏,不是所有公司都有资本只去研究创新,而不是先考虑商业化。
梁文锋:创新的成本肯定不低,过去那种拿来主义的惯性也和过去的国情有关。但现在,你看无论中国的经济体量,还是字节、腾讯这些大厂的利润,放在全球都不低。我们创新缺的肯定不是资本,而是缺乏信心以及不知道怎么组织高密度的人才实现有效的创新。
「暗涌」:但做大模型,单纯的技术领先也很难形成绝对优势,你们赌的那个更大的东西是什么?
梁文锋:我们看到的是中国AI不可能永远处在跟随的位置。我们经常说中国AI和美国有一两年差距,但真实的gap是原创和模仿之差。如果这个不改变,中国永远只能是追随者,所以有些探索也是逃不掉的。英伟达的领先,不只是一个公司的努力,而是整个西方技术社区和产业共同努力的结果。他们能看到下一代的技术趋势,手里有路线图。中国AI的发展,同样需要这样的生态。很多国产芯片发展不起来,也是因为缺乏配套的技术社区,只有第二手消息,所以中国必然需要有人站到技术的前沿。
「暗涌」:很多大模型公司都执着地去海外挖人,很多人觉得这个领域前50名的顶尖人才可能都不在中国的公司,你们的人都来自哪里?
梁文锋:V2模型没有海外回来的人,都是本土的。前50名顶尖人才可能不在中国,但也许我们能自己打造这样的人。
「暗涌」:所以你对这件事也是乐观的?
梁文锋:我是八十年代在广东一个五线城市长大的。我的父亲是小学老师,九十年代,广东赚钱机会很多,当时有不少家长到我家里来,基本就是家长觉得读书没用。但现在回去看,观念都变了。因为钱不好赚了,连开出租车的机会可能都没了。一代人的时间就变了。以后硬核创新会越来越多。现在可能还不容易被理解,是因为整个社会群体需要被事实教育。当这个社会让硬核创新的人功成名就,群体性想法就会改变。我们只是还需要一堆事实和一个过程。
⋯⋯
Forwarded from 噫~這世界
港府周五(27日)於《憲報》宣布,行政長官李家超根據《太平紳士條例》,撤銷資深大律師李柱銘的太平紳士身分,即日生效。他於1980年英殖時代被委任為太平紳士,至今44年。他與多位民主派人士涉參與「818流水式集會」,被控非法集結罪成被判監11個月、緩刑2年。今年8月,案中被告向終審法院提出上訴,同樣被駁回。
2019年「反修例運動」期間,李柱銘與黎智英、吳靄儀、何俊仁、李卓人、梁國雄、楊森及何秀蘭參與民陣在8月18日舉辦的流水式集會,要求時任行政長官林鄭月娥回應及落實「五大訴求」,被裁定「組織未經批准集結」及「明知而參與未經批准集結」兩罪罪成。區域法院法官胡雅文判刑時表示,李柱銘沒有案底,為香港服務多年,因此獲減刑4個月,判監11個月緩刑2年。
李柱銘今年86歲,是民主黨創黨主席。1979年獲港英政府委任為御用大律師,1980年當選香港大律師公會主席,同年獲委任為太平紳士,1985年開始從政並加入立法局,1994年創立民主黨。李柱銘退休後多次參與社會運動及「七一遊行」等。
根據《太平紳士條例》,若太平紳士在獲委任後,在香港或任何其他地方被定罪及判處監禁(不論是否獲得緩刑),行政長官可以撤銷其太平紳士身分。
2019年「反修例運動」期間,李柱銘與黎智英、吳靄儀、何俊仁、李卓人、梁國雄、楊森及何秀蘭參與民陣在8月18日舉辦的流水式集會,要求時任行政長官林鄭月娥回應及落實「五大訴求」,被裁定「組織未經批准集結」及「明知而參與未經批准集結」兩罪罪成。區域法院法官胡雅文判刑時表示,李柱銘沒有案底,為香港服務多年,因此獲減刑4個月,判監11個月緩刑2年。
李柱銘今年86歲,是民主黨創黨主席。1979年獲港英政府委任為御用大律師,1980年當選香港大律師公會主席,同年獲委任為太平紳士,1985年開始從政並加入立法局,1994年創立民主黨。李柱銘退休後多次參與社會運動及「七一遊行」等。
根據《太平紳士條例》,若太平紳士在獲委任後,在香港或任何其他地方被定罪及判處監禁(不論是否獲得緩刑),行政長官可以撤銷其太平紳士身分。
Forwarded from 噫~這世界
中国政府呼吁地方政府在新年期间发放现金补贴
中国中央政府呼吁各地政府在新年和即将到来的春节期间向生活成本压力较大的民众发放现金补贴。
据彭博社周六报道,上述通知由中国民政部发布。通知指出,有条件的地方政府应在新年和1月下旬的春节前提供经济援助,以缓解部分居民的生活困难。同时,地方政府部门应建立临时价格补贴机制,将社会救助与物价水平挂钩,确保补贴能够最大程度发挥效用。
报道称,这一举措是中国政府为刺激消费、修复经济所采取的一系列措施之一。面对潜在的美国关税压力,中国已释放出2025年将加大公共借贷和支出、并将政策重心转向促进消费的信号。
中国中央政府呼吁各地政府在新年和即将到来的春节期间向生活成本压力较大的民众发放现金补贴。
据彭博社周六报道,上述通知由中国民政部发布。通知指出,有条件的地方政府应在新年和1月下旬的春节前提供经济援助,以缓解部分居民的生活困难。同时,地方政府部门应建立临时价格补贴机制,将社会救助与物价水平挂钩,确保补贴能够最大程度发挥效用。
报道称,这一举措是中国政府为刺激消费、修复经济所采取的一系列措施之一。面对潜在的美国关税压力,中国已释放出2025年将加大公共借贷和支出、并将政策重心转向促进消费的信号。