海外对 deepseek 的讨论，以及最近一周在读的东西

2025-02-07

最近关于 deepseek 的讨论非常多，不管是简中互联网还是英文世界的噪音都非常之大，优质信息内容的获取和阅读就显得尤为重要了。

我这里分享几篇我读到的关于 deepseek 的内容，抛砖引玉，如果大家也有看到相关内容或有价值的讯息也可以加我讨论交流。

中文内容只推荐这几个：

Deepseek R1可能找到了超越人类的办法 - 碎瓜

作者是一位 ai 算法工程师，也是一位做过许多小产品的 indie hacker。这篇文章作者从 alphago 到 chatgpt，再到 deepSeek r1 和 r1-zero 底层原理的突破，解释了为什么 deepSeek 对 AGI 很重要。虽说是一篇科普文，但完全不失细节和深度。

DeepSeek 三重门：小天才们，军团平推，和哲学式思想 - Tao

作者是 Me.bot 心识宇宙 CEO 陶芳波，从“小天才们的胜利”到“华为式的军团平推”，再到“原创哲学思想”，探讨了 deepseek 是如何同时颠覆了中国人和美国人对创新的认识，以及它所带给世界的真正的启示。

AI宏大叙事的验证逻辑 - 共识粉碎机

从二级市场视角探讨了 gpu、模型、deepseek，以及硅谷最近热议的杰文斯悖论。

拾象 deepseek r1 闭门讨论 notes

英文内容如下，附带了一些我个人的总结：

it’s all one bubble - sequoia david cahn

美国红杉合伙人 david cahn 讨论了当下的 ai 可能处于另一个泡沫之中，他引用了 5 篇文章关于此前曾出现的泡沫如 dot com、2008 金融危机、2021 科技泡沫、以及当下可能会是泡沫的 ai 时代。“我们似乎处在一个泡沫经济之中，每当一个泡沫破裂，就会出现一个新的泡沫。”

david 更想强调的是，要看清泡沫下面存在的经济问题，即便 ai 可能不是泡沫，数百亿美金的投入会创造出数万亿美金的增长，ai 会重溯我们的经济、生活，甚至重溯财富分配制度。

但如果 ai 没有兑现这一切，当这些预期被打破，市场会急速地纠正和调整 (correction)，随后在其它资产中再出现一个新的泡沫，我们就必须要面对泡沫所掩盖的真实经济问题。

capital, agi, and human ambition - rudolf

这是一篇对 e/acc (技术乐观主义) 的反驳，作者 rudolf 质疑 agi 必然走向乌托邦的假设，技术突破未必会消解或重溯现有制度的不平等，也可能会放大。

资本的重要性将超过人类劳动的价值，现有的财富和资源分配不平等将会加剧最终固化，但也有声音说 ai 会重溯财富分配制度，这个命题太大值得一辩。。。

之前通过资本很难撬动顶尖人才，但 agi 时代下资本可以无限购买顶尖 ai 劳动力，可能会改变游戏竞争规则。

agi 时代社会会降低对人类的关注度，人类通过劳动等手段更难实现一些人生目标，人类劳动的价值也将被大幅削弱，最终导致社会静态化。虽然也有人认为技术变革通常会打破现有权力机构，如工业革命终结了封建制度，但作者认为 ai 的资本垄断性或许会让这一规律失效。

on deepseek and export controls - dario amodei

抛开政治和对华态度等一切来看，dario 提了 3 个点：scaling laws, shifting the curve, shifting the paradigm，分别对应规模增长、效率优化、叙事，规模和效率的动态权衡推动 ai 模型的帕累托前沿不断向外拓展，前沿的拓展又为新的应用场景等叙事带来更多新的可能，形成技术、能力、叙事升级的正循环。

deepseek faq - ben thompson

读到的最好的关于 ds 的文章，挑几个点讲讲：

微软为什么抛弃了 openai
微软希望为客户提供推理服务，对投入 1000 亿美金建设模型数据中心并不感兴趣，因为在这些钱被折旧之前，推理模型会很快被商品化
这也是短期内硅谷科技大厂股票价格下跌的原因之一，市场需要一段时间消化 ds r1 所带来的冲击
但长期来看所有使用模型的人和企业都是受益者，因为推理模型会被更便宜地商品化，deepseek 证明了这一点
微软能以极低的成本为客户提供推理服务，意味着微软可以减少自身在数据中心和 gpu 上的支出，另一方面由于推理成本如此之低，使用量也会大幅增加
aws 可以使用更高质量、且低于预期的成本的开源模型
随着推理所需的内存需求大幅减少，使得边缘推理变得更加可行，apple 拥有最符合这类需求的硬件
meta 同理
但谷歌可能会更糟，随着硬件需求降低，tpu 相对的优势减弱了，其次，一个推理成本为零的世界增加了替代搜索引擎产品的可能性
关于英伟达
DeepSeek 证明了另一条途径是可行的：通过大量优化可以在较弱的硬件和较低的内存带宽下取得显著成果；仅仅向英伟达支付更多费用并不是提高模型质量的唯一途径
但不代表英伟达就没优势了。更高效地使用计算资源并不意味着更多的计算资源就没有用，其次是 satya 也提到的杰文斯悖论：随着 ai 变得更高效和更易获取，使用量会急剧增加，使其成为一种我们无法满足的商品（较低的推理成本从长期来看会推动更大的使用量）

deepseek debates - semi analysis

半导体产业研究机构 semi analysis 对 deepseek 的拆解和分析，semi 也是海外最早关注和提到 deepseek 的研究机构，网上关于这篇的分析已经有很多编译版和讨论了，这里挑几个点记录下：

ds v3 的 600 万美金仅仅是预训练的成本，这只是模型总成本的一部分
推理成本的大幅下降是 ai 改进的标志。据粗略估算，算法效率每年进步 4 倍，同时用于达到相同性能的计算资源将减少 4 倍，anthropic 的 dario 则认为不止会更快，是 10 倍的提升，从 gpt-3 水平的推理价格来看目前已经下降了 1200 倍
v3 是 r1 的基础模型，大多数架构上的成就都与 v3 有关
多头潜在注意力 (mla, multi-head latent attention) 是使 ds 在推理成本上大幅降低的关键创新，最早于 24 年 5 月在 ds v2 上首次发布
技术的竞争就是对定价权的争夺，率先取得突破的企业将掌握定价权，后来者则只能降低价格，依靠微薄的利润勉强维持。当年台积电首次突破技术节点推出创新产品时，便能优先获得定价权，后来者如三星和英特尔则只能在成本和性能之间去寻找一个平衡点
虽然杰文斯悖论似乎也被过度 hype，但它也更接近现实，尤其是当把 ai token 与它进行类比，可以发现一些相似性。最初人们对晶体管体积能否持续缩小存疑，直到技术取得突破，整个行业便全力以赴推动晶体管向极限缩小，进而加速全球半导体的产能扩张

deepseek links and memes - Trung Phan

Trung Phan 整理好了的一些 info source

deepseek, is this jevon’s cope? - fabricated knowledge

作者提到当前的市场情绪在“算法优化减少新基础设施需求”和“技术进步刺激弹性需求”之间摇摆，类似杰文斯悖论，效率提升带来的成本优势可能被市场扩张的规模效应抵消，最终导致算力和能源需求的非线性增长。尽管长期来看杰文斯悖论成立，但短期内供应过剩可能导致市场波动。

Eric Xu, hubspot ai 产品线负责人，前 meta, reddit, google 工程师

杰文斯悖论确实存在，但其影响并不均匀分布。

让我们回顾历史。

当蒸汽机的效率提升时，它的应用范围也随之扩展。

值得注意的是，真正的技术创新是蒸汽机，而不是煤炭。然而，杰文斯悖论讨论的对象是煤炭，而非蒸汽机。

早期制造固定式蒸汽机的企业，如博尔顿与瓦特，并未成为铁路和船运行业的霸主。相反，专门制造机车和船舶发动机的公司占据了主导地位。

计算行业也经历了类似的变迁：IBM 在大型机时代占据主导地位，但当计算需求爆炸式增长时，赢家却变成了英特尔、微软，随后是云计算巨头，如今则是英伟达。真正的技术进步源于摩尔定律，而非某个特定制造商。

未来，AI 的成本会降低，体积会缩小，应用将无处不在。但它会被集中部署在依赖核能的数据中心吗？杰文斯悖论无法给出明确答案。不过，有一点是确定的：更多的 AI 不仅意味着数据中心 GPU 数量的增加，还意味着 AI 将在各个场景中运行，并依托于优化后的专用芯片。

然而，与蒸汽机不同，计算技术具备更强的通用性。如果英伟达能够顺利转型——拓展至边缘 AI、消费级硬件以及去中心化计算（这本就是它的根基）——那么它或许能保持主导地位。

但如果它未能及时调整，那么 AI 的普及可能会重演历史：需求飙升，但最终受益者将是那些更适应新范式的新玩家。

杰文斯悖论再次被验证——增长是不可避免的。但更深层次的问题是：谁能真正捕获这部分增长？

Steve Hsu, 密歇根大学物理学教授，某 ai startup 创始人

关于杰文斯悖论和 NVDA 估值。

这个观点过于轻率，没有考虑时间尺度的错配。今天购买 NVDA 芯片的企业，只有几年时间能在芯片价值贬值 50% 或更多之前收回投资。因此，他们必须在短期内实现 ROI。但目前流向生成式 AI 的实际收入并不大，而且如果大部分市场最终被开源模型占据，这些模型不一定需要 NVDA 芯片运行，如 Groq，甚至是运行蒸馏模型的老旧硬件，并且推理效率可能高出 ~30 倍，那么今天对 NVDA 芯片的投资，最终可能会产生较低的 ROI。

同样，如果所有企业在训练 AI 模型时都能像 DeepSeek 那样高效，那么目前购买的 NVDA 芯片可能已经足够支撑未来的训练需求。

可以想象，在未来几年，DeepSeek V3、R1 以及其他高度优化的中国模型，如 Qwen 或字节跳动的 AI 模型可能会广泛应用于 AI 任务。这些模型在推理阶段所需的计算量可能仅为当前的 1/30，即便生成式 AI 在学校、职场、搜索引擎等场景的采用率增长健康，未来几年对 NVDA 芯片的需求仍可能低于市场预期，毕竟 30 倍的效率提升是很难被消耗掉的。

此外，如果 AI 训练本身也变得更加高效，如 DeepSeek 所推动的优化，再加上数据本身可能成为预训练的瓶颈，那么 NVDA 芯片在 AI 训练方面的需求也可能远低于预期。

如果几年后 NVDA 在生成式 AI 领域的优势大幅削弱，我一点也不会感到惊讶。设计用于 LLM-transformer 计算的竞争性芯片并不算特别困难，许多公司如 Google、AMD、华为等都在加紧布局。NVDA 目前确实依赖 CUDA 软件生态的锁定效应（在中国大陆市场之外），但这种优势也在逐步削弱，例如在中国市场华为生态可能迫使企业转向国产硬件。

trung phan 针对 ben thompson 的 deepseek 如何对硅谷科技大厂产生影响的观点做了总结

从长期来看，模型的商品化和推理成本下降，对各家公司而言是好事，但影响程度各不相同：

微软：受益于数据中心和 GPU 采购成本的降低，但客户需求仍在增长，因此总体上是赢家。
亚马逊：最大赢家之一。由于自身未能成功打造 AI 模型，但未来将能以极低成本获得高质量的开源模型，并通过 AWS 提供服务。
苹果：推理阶段的内存需求大幅降低，使得边缘 AI 推理更具可行性，而苹果正拥有最佳的硬件生态。
Meta：最大赢家，因为它拥有最多的消费端触点，能以更低成本为海量用户提供 AI 服务。
谷歌：可能受损，因其专有 TPU 硬件的价值下降，而推理成本的降低也提高了 AI 替代传统搜索的可能性。
英伟达：其两大护城河（CUDA 生态、GPU 集群网络）正面临挑战。虽然公司不会消失，但未来的不确定性显著增加。

但英伟达仍有三大有利因素：

1）DeepSeek 的优化方法可能提升 H100 及后续芯片的性能 2）AI 应用的整体增长仍然对英伟达有利 3）R1/O1 类推理模型计算需求极高，仍然需要强大的算力支持

the law of displacement speed - scott belsky

adobe 的战略总监 scott belsky 提出了「替代速度定律」。scott 通过对比 ai 时代和移动互联网的发展，分析了应用之间以快速且规律的频率相互替代彼此时，最终会导致商品化和平台级的替代现象。

如 iphone 生态早期的应用繁荣最终被操作系统（平台级）取代，ai 时代可能会出现 2 种结果，一是通用模型层的商品化，二是能力被平台级服务整合，操作系统和企业级平台将成为主要赢家。

deepseek was inevitable - steven sinofsky

前微软高管 steven sinofsky 通过回顾互联网泡沫时期的经验，解释为什么像 deepseek 这样的新玩家能够挑战现有巨头。

steven 举了一个例子我觉得很好地说明了为什么大厂（巨头）常常会忽视“不起眼的市场（盲区）”，而这也正是许多创业公司半路杀出的原因所在。

“在微软最艰难的时期，我们曾开玩笑说，当普通公司在评估功能架构时，会用 t 恤尺码的小、中、大来衡量，但微软都在用超大、巨大、超巨大来思考，这也能说明在今天的 ai 领域中国和美国科技公司的位置与关系。”

美国 scale up 模式的“创新者窘境”：

美国 ai 的发展建立在巨大的 capex 之上，每一家公司都在 scale up，过于路径依赖从而陷入“更大模型、更多数据、更高算力”的循环，导致 capex 不可持续。

回顾整个计算的历史，都是在一系列创新后 scale up，然后被 scale out 打破，因为会发现更多、更快的方法会被更小且数量更多的方法所取代。

Mainframe → Mini → Micro → Mobile
Big iron → Distributed computing → Internet
Cray → HPC → Intel/CISC → ARM/RISC
OS/360 → VMS → Unix → Windows NT → Linux

中国 deepseek 的 scale out 模式的突破：

历史上有 cisco 以 ip 网络和像 dns 这种在当时被称作“玩具”的东西颠覆了 at&t 的电信基建，有 linux 以分布式生态挑战 windows，cisco 没有数十亿美金，linux 没有，deepseek 也没有，一个不需要巨额 capex 的解决方案即 scale out，历史规律证明低成本创新终将推动技术民主化。

morgan stanley 针对 deepseek 冲击的观点

主要讲了 6 个部分：半导体、互联网、软件、能源、硬件、具身智能。

半导体：
从长期来看，算法优化的历史表明，不应低估成本下降、功能增强和可扩展性提升所带来的增量需求。还是杰文斯悖论，尽管 ds 使训练计算需求减少 10x，但这可能并不会显著影响长期增长率，成本节约会加速 ai 推理需求的增长
闭源和开源 ai 模型的差距正在缩小
开源 ai 变得越来越便宜，高质量的模型可能变得更加难以盈利
互联网：
由于 ds 的架构和训练方式的改进，增强了成本效率，对 ai 应用公司是利好。投资于 ai 中 capex 的 roic 预计会增加，增量 capex 可能会放缓。
推理成本降低有利于企业级软件市场