back

海外对 deepseek 的讨论,以及最近一周在读的东西

最近关于 deepseek 的讨论非常多,不管是简中互联网还是英文世界的噪音都非常之大,优质信息内容的获取和阅读就显得尤为重要了。

我这里分享几篇我读到的关于 deepseek 的内容,抛砖引玉,如果大家也有看到相关内容或有价值的讯息也可以加我讨论交流。

中文内容只推荐这几个:

Deepseek R1可能找到了超越人类的办法 - 碎瓜

作者是一位 ai 算法工程师,也是一位做过许多小产品的 indie hacker。这篇文章作者从 alphago 到 chatgpt,再到 deepSeek r1 和 r1-zero 底层原理的突破,解释了为什么 deepSeek 对 AGI 很重要。虽说是一篇科普文,但完全不失细节和深度。

DeepSeek 三重门:小天才们,军团平推,和哲学式思想 - Tao

作者是 Me.bot 心识宇宙 CEO 陶芳波,从“小天才们的胜利”到“华为式的军团平推”,再到“原创哲学思想”,探讨了 deepseek 是如何同时颠覆了中国人和美国人对创新的认识,以及它所带给世界的真正的启示。

AI宏大叙事的验证逻辑 - 共识粉碎机

从二级市场视角探讨了 gpu、模型、deepseek,以及硅谷最近热议的杰文斯悖论。

拾象 deepseek r1 闭门讨论 notes

英文内容如下,附带了一些我个人的总结:

it’s all one bubble - sequoia david cahn

美国红杉合伙人 david cahn 讨论了当下的 ai 可能处于另一个泡沫之中,他引用了 5 篇文章关于此前曾出现的泡沫如 dot com、2008 金融危机、2021 科技泡沫、以及当下可能会是泡沫的 ai 时代。“我们似乎处在一个泡沫经济之中,每当一个泡沫破裂,就会出现一个新的泡沫。”

david 更想强调的是,要看清泡沫下面存在的经济问题,即便 ai 可能不是泡沫,数百亿美金的投入会创造出数万亿美金的增长,ai 会重溯我们的经济、生活,甚至重溯财富分配制度。

但如果 ai 没有兑现这一切,当这些预期被打破,市场会急速地纠正和调整 (correction),随后在其它资产中再出现一个新的泡沫,我们就必须要面对泡沫所掩盖的真实经济问题。

capital, agi, and human ambition - rudolf

这是一篇对 e/acc (技术乐观主义) 的反驳,作者 rudolf 质疑 agi 必然走向乌托邦的假设,技术突破未必会消解或重溯现有制度的不平等,也可能会放大。

资本的重要性将超过人类劳动的价值,现有的财富和资源分配不平等将会加剧最终固化,但也有声音说 ai 会重溯财富分配制度,这个命题太大值得一辩。。。

之前通过资本很难撬动顶尖人才,但 agi 时代下资本可以无限购买顶尖 ai 劳动力,可能会改变游戏竞争规则。

agi 时代社会会降低对人类的关注度,人类通过劳动等手段更难实现一些人生目标,人类劳动的价值也将被大幅削弱,最终导致社会静态化。虽然也有人认为技术变革通常会打破现有权力机构,如工业革命终结了封建制度,但作者认为 ai 的资本垄断性或许会让这一规律失效。

on deepseek and export controls - dario amodei

抛开政治和对华态度等一切来看,dario 提了 3 个点:scaling laws, shifting the curve, shifting the paradigm,分别对应规模增长、效率优化、叙事,规模和效率的动态权衡推动 ai 模型的帕累托前沿不断向外拓展,前沿的拓展又为新的应用场景等叙事带来更多新的可能,形成技术、能力、叙事升级的正循环。

deepseek faq - ben thompson

读到的最好的关于 ds 的文章,挑几个点讲讲:

  • 微软为什么抛弃了 openai
  • 微软希望为客户提供推理服务,对投入 1000 亿美金建设模型数据中心并不感兴趣,因为在这些钱被折旧之前,推理模型会很快被商品化
  • 这也是短期内硅谷科技大厂股票价格下跌的原因之一,市场需要一段时间消化 ds r1 所带来的冲击
  • 但长期来看所有使用模型的人和企业都是受益者,因为推理模型会被更便宜地商品化,deepseek 证明了这一点
  • 微软能以极低的成本为客户提供推理服务,意味着微软可以减少自身在数据中心和 gpu 上的支出,另一方面由于推理成本如此之低,使用量也会大幅增加
  • aws 可以使用更高质量、且低于预期的成本的开源模型
  • 随着推理所需的内存需求大幅减少,使得边缘推理变得更加可行,apple 拥有最符合这类需求的硬件
  • meta 同理
  • 但谷歌可能会更糟,随着硬件需求降低,tpu 相对的优势减弱了,其次,一个推理成本为零的世界增加了替代搜索引擎产品的可能性
  • 关于英伟达
  • DeepSeek 证明了另一条途径是可行的:通过大量优化可以在较弱的硬件和较低的内存带宽下取得显著成果;仅仅向英伟达支付更多费用并不是提高模型质量的唯一途径
  • 但不代表英伟达就没优势了。更高效地使用计算资源并不意味着更多的计算资源就没有用,其次是 satya 也提到的杰文斯悖论:随着 ai 变得更高效和更易获取,使用量会急剧增加,使其成为一种我们无法满足的商品(较低的推理成本从长期来看会推动更大的使用量)

deepseek debates - semi analysis

半导体产业研究机构 semi analysis 对 deepseek 的拆解和分析,semi 也是海外最早关注和提到 deepseek 的研究机构,网上关于这篇的分析已经有很多编译版和讨论了,这里挑几个点记录下:

  • ds v3 的 600 万美金仅仅是预训练的成本,这只是模型总成本的一部分
  • 推理成本的大幅下降是 ai 改进的标志。据粗略估算,算法效率每年进步 4 倍,同时用于达到相同性能的计算资源将减少 4 倍,anthropic 的 dario 则认为不止会更快,是 10 倍的提升,从 gpt-3 水平的推理价格来看目前已经下降了 1200 倍
  • v3 是 r1 的基础模型,大多数架构上的成就都与 v3 有关
  • 多头潜在注意力 (mla, multi-head latent attention) 是使 ds 在推理成本上大幅降低的关键创新,最早于 24 年 5 月在 ds v2 上首次发布
  • 技术的竞争就是对定价权的争夺,率先取得突破的企业将掌握定价权,后来者则只能降低价格,依靠微薄的利润勉强维持。当年台积电首次突破技术节点推出创新产品时,便能优先获得定价权,后来者如三星和英特尔则只能在成本和性能之间去寻找一个平衡点
  • 虽然杰文斯悖论似乎也被过度 hype,但它也更接近现实,尤其是当把 ai token 与它进行类比,可以发现一些相似性。最初人们对晶体管体积能否持续缩小存疑,直到技术取得突破,整个行业便全力以赴推动晶体管向极限缩小,进而加速全球半导体的产能扩张

Trung Phan 整理好了的一些 info source

lex fridman e.459

all-in e.213

bg2 pod e.26

这几个播客还没听完,待我看完再看看有啥有趣的点。。。

deepseek, is this jevon’s cope? - fabricated knowledge

作者提到当前的市场情绪在“算法优化减少新基础设施需求”和“技术进步刺激弹性需求”之间摇摆,类似杰文斯悖论,效率提升带来的成本优势可能被市场扩张的规模效应抵消,最终导致算力和能源需求的非线性增长。尽管长期来看杰文斯悖论成立,但短期内供应过剩可能导致市场波动。

Eric Xu, hubspot ai 产品线负责人,前 meta, reddit, google 工程师

杰文斯悖论确实存在,但其影响并不均匀分布。

让我们回顾历史。

当蒸汽机的效率提升时,它的应用范围也随之扩展。

值得注意的是,真正的技术创新是蒸汽机,而不是煤炭。然而,杰文斯悖论讨论的对象是煤炭,而非蒸汽机。

早期制造固定式蒸汽机的企业,如博尔顿与瓦特,并未成为铁路和船运行业的霸主。相反,专门制造机车和船舶发动机的公司占据了主导地位。

计算行业也经历了类似的变迁:IBM 在大型机时代占据主导地位,但当计算需求爆炸式增长时,赢家却变成了英特尔、微软,随后是云计算巨头,如今则是英伟达。真正的技术进步源于摩尔定律,而非某个特定制造商。

未来,AI 的成本会降低,体积会缩小,应用将无处不在。但它会被集中部署在依赖核能的数据中心吗?杰文斯悖论无法给出明确答案。不过,有一点是确定的:更多的 AI 不仅意味着数据中心 GPU 数量的增加,还意味着 AI 将在各个场景中运行,并依托于优化后的专用芯片。

然而,与蒸汽机不同,计算技术具备更强的通用性。如果英伟达能够顺利转型——拓展至边缘 AI、消费级硬件以及去中心化计算(这本就是它的根基)——那么它或许能保持主导地位。

但如果它未能及时调整,那么 AI 的普及可能会重演历史:需求飙升,但最终受益者将是那些更适应新范式的新玩家。

杰文斯悖论再次被验证——增长是不可避免的。但更深层次的问题是:谁能真正捕获这部分增长?

Steve Hsu, 密歇根大学物理学教授,某 ai startup 创始人

关于杰文斯悖论和 NVDA 估值。

这个观点过于轻率,没有考虑时间尺度的错配。今天购买 NVDA 芯片的企业,只有几年时间能在芯片价值贬值 50% 或更多之前收回投资。因此,他们必须在短期内实现 ROI。但目前流向生成式 AI 的实际收入并不大,而且如果大部分市场最终被开源模型占据,这些模型不一定需要 NVDA 芯片运行,如 Groq,甚至是运行蒸馏模型的老旧硬件,并且推理效率可能高出 ~30 倍,那么今天对 NVDA 芯片的投资,最终可能会产生较低的 ROI。

同样,如果所有企业在训练 AI 模型时都能像 DeepSeek 那样高效,那么目前购买的 NVDA 芯片可能已经足够支撑未来的训练需求。

可以想象,在未来几年,DeepSeek V3、R1 以及其他高度优化的中国模型,如 Qwen 或字节跳动的 AI 模型可能会广泛应用于 AI 任务。这些模型在推理阶段所需的计算量可能仅为当前的 1/30,即便生成式 AI 在学校、职场、搜索引擎等场景的采用率增长健康,未来几年对 NVDA 芯片的需求仍可能低于市场预期,毕竟 30 倍的效率提升是很难被消耗掉的。

此外,如果 AI 训练本身也变得更加高效,如 DeepSeek 所推动的优化,再加上数据本身可能成为预训练的瓶颈,那么 NVDA 芯片在 AI 训练方面的需求也可能远低于预期。

如果几年后 NVDA 在生成式 AI 领域的优势大幅削弱,我一点也不会感到惊讶。设计用于 LLM-transformer 计算的竞争性芯片并不算特别困难,许多公司如 Google、AMD、华为等都在加紧布局。NVDA 目前确实依赖 CUDA 软件生态的锁定效应(在中国大陆市场之外),但这种优势也在逐步削弱,例如在中国市场华为生态可能迫使企业转向国产硬件。

trung phan 针对 ben thompson 的 deepseek 如何对硅谷科技大厂产生影响的观点做了总结

从长期来看,模型的商品化和推理成本下降,对各家公司而言是好事,但影响程度各不相同:

  • 微软:受益于数据中心和 GPU 采购成本的降低,但客户需求仍在增长,因此总体上是赢家。
  • 亚马逊:最大赢家之一。由于自身未能成功打造 AI 模型,但未来将能以极低成本获得高质量的开源模型,并通过 AWS 提供服务。
  • 苹果:推理阶段的内存需求大幅降低,使得边缘 AI 推理更具可行性,而苹果正拥有最佳的硬件生态。
  • Meta:最大赢家,因为它拥有最多的消费端触点,能以更低成本为海量用户提供 AI 服务。
  • 谷歌:可能受损,因其专有 TPU 硬件的价值下降,而推理成本的降低也提高了 AI 替代传统搜索的可能性。
  • 英伟达:其两大护城河(CUDA 生态、GPU 集群网络)正面临挑战。虽然公司不会消失,但未来的不确定性显著增加。

但英伟达仍有三大有利因素:

1)DeepSeek 的优化方法可能提升 H100 及后续芯片的性能 2)AI 应用的整体增长仍然对英伟达有利 3)R1/O1 类推理模型计算需求极高,仍然需要强大的算力支持

the law of displacement speed - scott belsky

adobe 的战略总监 scott belsky 提出了「替代速度定律」。scott 通过对比 ai 时代和移动互联网的发展,分析了应用之间以快速且规律的频率相互替代彼此时,最终会导致商品化和平台级的替代现象。

如 iphone 生态早期的应用繁荣最终被操作系统(平台级)取代,ai 时代可能会出现 2 种结果,一是通用模型层的商品化,二是能力被平台级服务整合,操作系统和企业级平台将成为主要赢家。

deepseek was inevitable - steven sinofsky

前微软高管 steven sinofsky 通过回顾互联网泡沫时期的经验,解释为什么像 deepseek 这样的新玩家能够挑战现有巨头。

steven 举了一个例子我觉得很好地说明了为什么大厂(巨头)常常会忽视“不起眼的市场(盲区)”,而这也正是许多创业公司半路杀出的原因所在。

“在微软最艰难的时期,我们曾开玩笑说,当普通公司在评估功能架构时,会用 t 恤尺码的小、中、大来衡量,但微软都在用超大、巨大、超巨大来思考,这也能说明在今天的 ai 领域中国和美国科技公司的位置与关系。”

美国 scale up 模式的“创新者窘境”:

美国 ai 的发展建立在巨大的 capex 之上,每一家公司都在 scale up,过于路径依赖从而陷入“更大模型、更多数据、更高算力”的循环,导致 capex 不可持续。

回顾整个计算的历史,都是在一系列创新后 scale up,然后被 scale out 打破,因为会发现更多、更快的方法会被更小且数量更多的方法所取代。

  • Mainframe → Mini → Micro → Mobile
  • Big iron → Distributed computing → Internet
  • Cray → HPC → Intel/CISC → ARM/RISC
  • OS/360 → VMS → Unix → Windows NT → Linux

中国 deepseek 的 scale out 模式的突破:

历史上有 cisco 以 ip 网络和像 dns 这种在当时被称作“玩具”的东西颠覆了 at&t 的电信基建,有 linux 以分布式生态挑战 windows,cisco 没有数十亿美金,linux 没有,deepseek 也没有,一个不需要巨额 capex 的解决方案即 scale out,历史规律证明低成本创新终将推动技术民主化。

morgan stanley 针对 deepseek 冲击的观点

主要讲了 6 个部分:半导体、互联网、软件、能源、硬件、具身智能。

  • 半导体:
  • 从长期来看,算法优化的历史表明,不应低估成本下降、功能增强和可扩展性提升所带来的增量需求。还是杰文斯悖论,尽管 ds 使训练计算需求减少 10x,但这可能并不会显著影响长期增长率,成本节约会加速 ai 推理需求的增长
  • 闭源和开源 ai 模型的差距正在缩小
  • 开源 ai 变得越来越便宜,高质量的模型可能变得更加难以盈利
  • 互联网:
  • 由于 ds 的架构和训练方式的改进,增强了成本效率,对 ai 应用公司是利好。投资于 ai 中 capex 的 roic 预计会增加,增量 capex 可能会放缓。
  • 推理成本降低有利于企业级软件市场

capital cycles and ai - fabricated knowledge

作者以铁路和互联网举例,探讨了每一次技术革命都伴随着大量的资本投入和 infra 建设,随着资本涌入,供应技术也会随之改进,在某个时候,珍贵资源短缺会变为过剩,回报率开始下降,形成周期性的波动。有时外部反馈机制会加速这一过程,导致资产价格迅速上涨,形成泡沫。

are better models better? - benedict evans

benedict evans 关于 ai 模型的思考,探讨了人们对 ai 和传统计算机不同的期待,同时提出了一个关键问题,我们是否应该像对待人类一样,而不是像对待传统计算机那样来看待 ai 的错误。

意外发现 benedict 每年都会做一个 deck 讲技术与创投趋势,good to read

the short case for nvidia stock - jeffrey emanuel

关于英伟达股票,scott 推荐的一篇