行业热点走势
Industry Focus

狂潮30天,DeepSeek改变了谁?

来源: 作者: 责任编辑:
2025-07-03

狂潮30天,DeepSeek改变了谁?

        2025 年春节前一周,杭州幻方旗下的大模型公司 DeepSeek 发布的开源 AI 模型,如同投入 AI 产业湖面的巨石,激起千层浪,在短短 30 天内,深刻地改变了全球 AI 产业的格局。

        这款模型在多项测试中表现优于 OpenAI 产品,研发成本却不到 600 万美元。1 月 20 日发布 R1 模型后,成绩惊人:上线六天便同时登顶苹果 App Store 和谷歌 Play Store 全球下载榜首;上线 18 天内,累计下载量突破 1600 万次;2 月 1 日突破 3000 万大关,成为史上最快达成这一里程碑的应用。

        这一成果让华尔街投资人陷入担忧,他们担心此前投入数十亿美元构建大型 AI 模型的做法会付诸东流,人工智能泡沫可能破裂。1 月 27 日晚间,美股科技巨头股价集体下跌,英伟达股价下跌约 17%,市值蒸发近 6000 亿美元,创下美国股市历史上最大单日市值跌幅纪录,博通公司股价下跌 17%,AMD 下跌 6%,微软下跌 2%,,人工智能领域的衍生品,如电力供应商等企业股价也受到重创,美国联合能源公司股价下跌 21%,Vistra 的股价下跌 29% 。

        全球 AI 产业界同样受到巨大冲击。

        起初,慌乱情绪在行业内蔓延,不少大模型公司陷入恐慌,开始反思自身创新不足,也有人因新方向的出现而兴奋,准备大干一场。随后,中美主流厂商迅速做出反应,调整策略。Meta 要求技术团队加班加点,试图复刻 DeepSeek 路径;全球大模型领域知名的 OpenAI 也调整了模型发布策略,不再 “挤牙膏”。各大科技云厂商,像亚马逊 AWS、微软 Azure、谷歌云、阿里云、华为云等,纷纷在模型商店中迅速上线开源版的 DeepSeek-V3/R1 这两款模型,以满足企业客户的旺盛需求,获取算力收入。

       同时,阿里云发布通义千问 Qwen 2.5-Max MoE,谷歌上线自研大模型 Gemini 2.0,OpenAI 宣布 GPT-4.5/5 将很快发布,百度也宣布文心一言免费、推出文心大模型 4.5 系列并开源等一系列动作。整体来看,科技大厂们一方面拥抱 DeepSeek,另一方面积极跟进类似技术方案的自研产品,开源逐渐成为科技大厂在大模型领域的共同选择,这意味着曾经靠模型收费的商业模式受到挑战。

       DeepSeek 的成功打破了多个 “刻板共识”。

       以往,人们普遍认为在 AI 领域,中国相对美国差距较大且差距还在不断拉大;美国的芯片是制约中国 AI 产业发展的关键因素,能够卡住中国的发展;全球 AI 竞争的核心在于训练,推理则是未来的发展方向;大模型的关键突破大多发生在美国,其他国家的市场多是在进行反向工程。而 DeepSeek 作为近 20 年来第一个拿出革命性方案的中国创业公司,改变了这一认知。它激发全行业找到了新的发展方向,在一定程度上摆脱了对超高算力的过度依赖,使中美 AI 企业站在了新的竞争维度上,让人们看到了双方差距快速拉近的希望。同时,它将 AI 竞争的焦点从训练提前到推理,不仅大幅降低了算力成本,还对整个 AI 行业产生了更为深刻的影响,促进了硬软件的协同发展,推动基于大模型技术在千行百业的应用,而不再仅仅局限于对话模型。

       其实早在 2024 年 6 月,DeepSeek-V2 模型就已崭露头角,在一系列标准的行业评估中击败了 OpenAI 的 GPT-4 Turbo、谷歌的 Gemini 1.5 Pro 和 Anthropic 的 Claude 3 Opus 等知名模型,引起了美国 AI 领域专家的关注。这背后离不开 DeepSeek 在技术上的多项创新,包括采用 MoE(混合专家模型)架构、MLA(多头潜在注意力)机制、FP8(8 位浮点数)混合精度训练和强化学习训练等。虽然这些技术理论并非 DeepSeek 首创,例如 MoE 架构 1991 年由麻省理工大学、多伦多大学学者提出,2017 年谷歌在 Transformer 模型中最早引入 MoE 层;FP8 格式 2022 年由英伟达、Arm 和英特尔联合提出,但 DeepSeek 是较早大规模实践这些技术的公司之一,展示出强大的工程能力。在 2024 年 12 月底,硅谷科技圈就开始全面研究 DeepSeek,其 V3 模型发布后,更是引发了广泛讨论,OpenAI 创始人萨姆・奥尔特曼多次提及 DeepSeek 对行业格局的影响。

        在中国,DeepSeek 的出现给大模型行业的两类主要玩家带来了不同程度的压力。

       科技大厂方面,字节跳动的豆包曾是中国活跃用户量最高的生成式 AI 应用,字节对大模型业务投入巨大,团队规模庞大,还从其他大厂高薪挖人,目标是做到 “全面领先”。然而,DeepSeek 仅用一个月就超越了豆包在 C 端的领先优势,2 月 5 日,DeepSeek 移动端上线 26 天,日活用户数突破 4000 万,这对豆包团队造成了不小的打击。其他大厂也面临着类似问题,客户对一线销售人员提出质疑,询问为何自家模型不如 DeepSeek,技术团队也受到来自销售端的压力。而且,大厂内部层级汇报、不同业务部门之间的沟通协作存在效率问题,在创新方面有时不如小团队灵活。

        对于创业公司而言,虽然它们相对更灵活扁平,但也面临诸多困境。

        大模型研发极为烧钱,即便以低成本著称的 DeepSeek 前期投入也难以估量,第三方机构推算其拥有庞大的算力储备,堆砌了大量英伟达 GPU 卡。多数创业公司即便拿到高融资,实际在大模型基础研发上投入也较为谨慎,因为花的不是自己的钱,且还要考虑股东回报,这使得创业公司往往为了上市而仓促商业化。此外,大模型领域对算力和数据的高投入,让创业公司在与大厂的竞争中处于劣势,还容易变成重资产公司,影响其估值。不过,DeepSeek 的开源模式为行业带来了新的思路,一定程度上规避了创业公司面临的部分矛盾,开源模式成本低且进步速度快。

        DeepSeek 的两款模型 V3/R3 开源,这成为其迅速获得高讨论度的核心原因之一。

       这一开源举措吸引了众多企业和开发者,在短短十余天内,就有百余家中国公司宣布 “接入 DeepSeek”,覆盖了从芯片、算力服务商到 AI 用户再到最终用户的各级生态圈。芯片厂商,无论是英伟达、AMD 等国际芯片厂商,还是华为昇腾、百度昆仑芯、海光等国产芯片厂商,都迅速适配 DeepSeek,为其专门优化 AI 推理。云厂商更是积极上架 DeepSeek 模型,因为客户使用模型时消耗的算力、数据,能带动其他基础云产品的销售,美国三大云厂商以及中国众多科技云厂商、电信运营商都纷纷行动。软件公司也乐于接入 DeepSeek,以提升软件的功能和用户体验,如钉钉、飞书、金蝶等都已接入。DeepSeek 在用户端也取得了惊人成绩,1 月累计获得 1.25 亿用户,2025 年 1 月网站月访问量达 2.56 亿,成为最快突破 3000 万日活跃用户量的应用程序。此外,DeepSeek 的模型功能不断向多元方向演进,支持多模态输入,可扩展应用至多个场景,还主动适配国产芯片,推动了国产芯片在定制化场景中的发展。在          AI 行业,推理和训练都是关键环节。

       训练是大模型的基础,决定了模型的上限;推理则是将模型应用于实际场景的关键,其速度和准确性直接影响模型在实际应用中的表现和用户体验。DeepSeek 将全行业的竞争焦点从训练转移到推理,带来了一系列重大变化。

        从技术层面来看,推理算力具有分布式的特点,需要端侧和边缘侧配合,这促使硬件厂商与大模型公司紧密合作,开发专门的推理芯片、边缘计算设备等硬件产品,同时软件层面也需要开发适配新型硬件的驱动程序和开发工具,以提高硬件资源利用率,降低推理延迟。在市场和商业层面,推理的成本相对较低,中小企业也能够参与其中,商业模式从以往模型训练的一次性高投入、可持续性较差,转变为类似水电的按量计费模式,更加灵活且具有可持续性。这一转变使得大模型能够在更多设备和场景中部署和使用,比如智能家居和智能穿戴设备,推动了基于大模型技术的千行百业应用的大发展。

       投资圈也因 DeepSeek 的出现发生了显著变化。往年春节假期结束后,投资机构通常还需要一两周才会真正投入工作,但今年,投资人在假期还未过完时,就纷纷冲到杭州,希望能与 DeepSeek 沟通交流,即便多数人未能见到其创始人,热情依旧高涨。他们开始重新审视 AI 领域的投资机会,大量机构组团约见杭州的其他科技公司。

       此前,中国 AI 领域的风投存在资金集中流向少数头部大模型公司的现象,2024 年,月之暗面、百川智能、智谱 AI 和 Minimax 四家公司的融资额就占全年行业融资额的近一半,而更多细分领域的创业公司很难拿到钱。并且,头部大模型创业公司估值过高,后续融资困难。DeepSeek 的出现加剧了这一形势,但同时也为基于大模型应用的新创业公司带来了更多机会。有投资人预测,2025 年整个一级市场的融资频率和交易金额会因 DeepSeek 的影响以及二级市场科技股股价上涨等因素而明显提升,部分美元机构也表现出投资更早期项目的意愿,降低了对业务数据的要求。

        在算力方面,过去 2023 - 2024 年,全球大模型产业遵循 “大力出奇迹” 的逻辑,中美科技公司认为只有拥有足够的芯片和资金,才能支撑大模型的迭代以及商业化。

        而 DeepSeek 提出的 “四两拨千斤” 的技术路径改变了这一模式。它采用的 MoE 架构虽然对内存容量有更高要求,但降低了对内存带宽的需求,从技术角度看,满足更大内存容量需求相对容易,并且为全国产方案提供了探索机会。这使得非显卡场景,如使用 CPU 运行的场景,也有可能运行大模型,显著降低了算力门槛,为国产芯片在推理市场提供了更多发展空间。虽然目前中外大型科技公司仍然坚持大规模投资算力,如 2024 年美国科技四巨头资本支出均达到史上最高点,2025 年资本支出总额将超过 3200 亿美元,总增速约为 30%,中国的字节跳动、阿里、百度等科技公司也重视算力投资,但 DeepSeek 的热度有望带动资本市场对新一代 AI 芯片的关注,推动芯片成本下降,进而促进应用的爆发。

        DeepSeek 选择的 MIT 开源协议对其生态发展起到了重要作用。该协议宽松友好,支持商用,与商业闭源模型每年数百万甚至上千万元的授权费用相比,DeepSeek 免费且支持商用的模式对生态合作伙伴具有更强的吸引力。在开源世界里,被认可的开源项目能吸引全球高手参与创新,形成良好的开发者社区氛围,促进开源模型应用生态的发展。

       中国电子首席科学家朱国平认为,DeepSeek 有可能复制 Linux 操作系统通过开源形成丰富生态系统的成功,在未来的 AI 大模型竞争中脱颖而出。在中国,受美国芯片制裁政策的影响,中国公司无法从英伟达等购买高端芯片,也难以制造 7 纳米及以上的高端芯片,不少 AI 大模型创业创新团队此前采取 “跟随战略”。

        而 DeepSeek 的出现打破了这种局面,为中国 AI 产业发展提供了全新思路。它改变了大模型时代的技术竞争逻辑,让中国 AI 企业不再单纯依赖传统的高算力发展模式,为突破美国芯片封锁的困境提供了可能。从产业创新路径层面来看,DeepSeek 的成功启示中国乃至全球的 AI 产业,当既有的道路受到阻碍时,需要勇于探索新的道路,摆脱经验主义的束缚,寻找新的技术和商业创新方法论,以实现突破和发展,推动国产 AI 大模型产业链闭环的形成,在全球 AI 竞争中占据更有利的地位。


上一篇

返回行业热点走势列表
推荐阅读