Forwarded from Solidot
中国 AI 模型建立在美国模型基础上
2024-02-22 18:13 by 机器岛
李开复的 AI 初创公司 01.AI 去年 11 月跃居开源人工智能系统能力排行榜的榜首。它的部分技术是基于 Meta 公司开源的大模型 LLaMA。李开复对此在邮件中表示,他的初创公司的人工智能模型是建立在 LLaMA 上的,就像“其他大多数 AI 公司一样”,并补充说,使用开源技术是一种标准做法。他说,他的公司使用自己的数据和算法,从零开始训练人工智能模型。这些都是 01.AI“表现出色”的“主要决定因素”。Meta 发言人表示,公开分享该公司的 AI 模型有助于传播其价值观和标准,进而有助于确保美国的领导地位。一位投资公司的合伙人称,中国公司从零开始建立的 AI 模型“不是很好”,所以许多中国公司经常使用“西方模型的微调版”。
https://cn.nytimes.com/technology/20240222/china-united-states-artificial-intelligence/
#人工智能
2024-02-22 18:13 by 机器岛
李开复的 AI 初创公司 01.AI 去年 11 月跃居开源人工智能系统能力排行榜的榜首。它的部分技术是基于 Meta 公司开源的大模型 LLaMA。李开复对此在邮件中表示,他的初创公司的人工智能模型是建立在 LLaMA 上的,就像“其他大多数 AI 公司一样”,并补充说,使用开源技术是一种标准做法。他说,他的公司使用自己的数据和算法,从零开始训练人工智能模型。这些都是 01.AI“表现出色”的“主要决定因素”。Meta 发言人表示,公开分享该公司的 AI 模型有助于传播其价值观和标准,进而有助于确保美国的领导地位。一位投资公司的合伙人称,中国公司从零开始建立的 AI 模型“不是很好”,所以许多中国公司经常使用“西方模型的微调版”。
https://cn.nytimes.com/technology/20240222/china-united-states-artificial-intelligence/
#人工智能
Forwarded from Solidot
大模型如何工作仍然是个谜团
2024-03-06 23:02 by 霸主的影子
两年前 OpenAI 研究员 Yuri Burda 和 Harri Edwards 试图找到方法让大模型做基本算术。他们想知道需要多少两数相加的例子才能让大模型能完成任意两数相加的算术。一开始,他们进展不是很顺利。大模型能记住例子但无法解决新的加法。他们意外的让部分实验运行数天时间而不是预期的数小时。结果他们发现实验成功了,大模型能完成任意加法,只是所需的时间超出任何人的想象。他们和同事对这种现象展开了研究,发现在特定情况下大模型会突然从无法完成任务到能完成任务,他们称之为“领悟(grokking)”。领悟是让 AI 研究员摸不着头脑的多个现象之一。这突出了深度学习背后的一个引人注目的事实:没人知道它是如何工作,或为什么它能工作。现在最大的模型是如此复杂,以至于研究人员像研究奇特的自然现象那样研究它们,他们进行实验并试图解释结果。很多观察结果违背了经典统计学。
https://www.technologyreview.com/2024/03/04/1089403/large-language-models-amazing-but-nobody-knows-why/
#人工智能
2024-03-06 23:02 by 霸主的影子
两年前 OpenAI 研究员 Yuri Burda 和 Harri Edwards 试图找到方法让大模型做基本算术。他们想知道需要多少两数相加的例子才能让大模型能完成任意两数相加的算术。一开始,他们进展不是很顺利。大模型能记住例子但无法解决新的加法。他们意外的让部分实验运行数天时间而不是预期的数小时。结果他们发现实验成功了,大模型能完成任意加法,只是所需的时间超出任何人的想象。他们和同事对这种现象展开了研究,发现在特定情况下大模型会突然从无法完成任务到能完成任务,他们称之为“领悟(grokking)”。领悟是让 AI 研究员摸不着头脑的多个现象之一。这突出了深度学习背后的一个引人注目的事实:没人知道它是如何工作,或为什么它能工作。现在最大的模型是如此复杂,以至于研究人员像研究奇特的自然现象那样研究它们,他们进行实验并试图解释结果。很多观察结果违背了经典统计学。
https://www.technologyreview.com/2024/03/04/1089403/large-language-models-amazing-but-nobody-knows-why/
#人工智能