大型模型价格竞争激烈，多核混合或许是解决之道。（模型报价明细）

近期，国内多家大型模型企业相继降低了其相关产品的价格。

五月初开始，9家发布新内容的国内大模型企业中，有7家宣布降价。其中包括：深度求索、智谱AI、字节跳动、阿里云、百度、科大讯飞、腾讯云这7家企业，共涉及21款模型。甚至于有大厂打出“免费模式”的旗号。

大型模型价格战越来越激烈

5月6日，知名私募巨头幻方量化创立的深度求索对外发布第二代MoE模型DeepSeek-V2。MoE模型即混合专家模型，将复杂任务拆解为子任务，分别交由合适的“专家”模型处理，以提高准确性和推理效率。在模型迭代的同时，深度求索将API调用的定价降低到每百万tokens输入1元、输出2元，价格仅为GPT-4-Turbo的近百分之一。

5 月 11 日，智谱 AI 跟进，宣布将其 GLM-3 Turbo 模型的调用价格下调 80%。从 5 元/百万 tokens 降至 1 元/百万 tokens。1 元可以购买 100 万 tokens。

5 月 11 日，智谱 AI 跟进，宣布将其 GLM-3 Turbo 模型的调用价格下调 80%。从每百万 tokens 的价格降低到每百万 tokens 仅需 1 元。现在，只需支付 1 元，就可以购买 100 万 tokens。

5 月 15 日，字节的豆包大模型正式对外开放，放出了较业内极低的价格，价格单位直接从“元”变为“厘”。豆包大模型家族包含豆包通用模型 PRO 版和 lite 版两款通用模型，其中，豆包通用模型 pro-32k 版，推理输入价格 0.0008 元/千 tokens，较行业价格低 99.3%。lite 版为 0.0003 元/千 tokens。

5 月 15 日，字节的豆包大模型正式对外开放，放出了非常低的价格，价格单位直接从“元”变为“厘”。豆包大模型家族包含豆包通用模型 PRO 版和 lite 版两款通用模型，其中，豆包通用模型 pro-32k 版，推理输入价格为每千个 tokens 0.0008 元，比行业价格低了 99.3%。lite 版的价格为每千个 tokens 0.0003 元。

随后在5月21日，阿里云也发布降价通知，通义9款主力大模型大幅降价。其中，通义千问 GPT-4级主力模型Qwen-Long 的 API输入价格直降97%至0.0005元/千tokens，1块钱可以购买200万tokens，相当于5本《新华字典》的文字量。

当日，百度宣布免费提供文心大模型的两款主力模型ENIRE Speed、ENIRE Lite。科大讯飞也宣布讯飞星火 Lite 版 API 永久免费开放，讯飞星火Pro/Max API 价格下调至 0.21 元/万 tokens。此外，腾讯公布了全新的大模型升级方案。腾讯的主力模型之一混元-lite 模型，API 输入输出总长度计划从目前的 4k 升级到 256k，价格从 0.008 元/千 tokens 调整为全面免费。

大型模型价格竞争激烈，多核混合或许是解决之道。_图1

在人工智能（AI）领域的激烈竞争中，大型模型正在逐渐陷入价格战的漩涡。那么，是什么深层原因推动了这一变革？而它又将如何深远地影响整个行业生态？

为什么商品会降价？

价格战有利于巨头企业在市场中迅速占据优势地位

当前的行业价格战，可以看做是“百模大战”带来的一个衍生结果。大模型狂热之时，几乎每隔一天就有一个大模型“蹦出来”。截至2023年11月30日，国内已经有至少200家大模型厂商推出了各自的大模型。

当前的行业价格战，可以看做是“百模大战”带来的一个衍生结果。随着大模型狂热的兴起，几乎每隔一天就有一个新的大模型问世。截至2023年11月30日，国内已经有至少200家大模型厂商推出了各自独特的大模型产品。

当下的大模型竞争早已超过了技术的范畴，更多是一种生态层面的比拼，具体表现在有多少应用程序、有多少扩展插件、有多少开发者以及用户等。

要知道，目前的大型模型市场空间非常有限，许多大型模型应用程序都面临着用户增长乏力的挑战，包括备受关注的OpenAI。因此，降低价格是这些大公司获取更多市场份额的一种方式之一。

此外，从价格角度来看，一些初创公司的价格本身就较低。因此，针对当下的科技巨头纷纷降价，那些人工智能（AI）创业公司大都没有选择跟进。一些参与人工智能大模型投资的投资人表示，“这波降价对一些创业公司面向企业（TO B）模式影响较大。”因为过去很多公司，之所以选择与初创公司合作，主要就是看重初创公司的应用程序接口（API）比大厂要便宜，但现在基本上没有任何比大厂便宜的可能性了，这意味着创业公司的面向企业的商业化模式不复存在了。

对于这些初创公司来说，如果找不到新的发展方向，可能会面临存亡之际。

入门级、轻量级的文本大模型的能力差距不明显

半导体产业纵横观察发现，在这波降价潮中降价的模型主要为入门级、轻量级的文本大模型，而高性能及图像识别、语音识别等垂类的多模态模型并没有调整价格。

半导体产业纵横观察发现，在这波降价潮中降价的模型主要为入门级、轻量级的文本大模型，而高性能及图像识别、语音识别等垂类的多模态模型并没有调整价格。这意味着在降价潮中，消费者可以以更低的价格购买到性能较低但适合基本需求的模型，而对于需要更高性能和更复杂功能的用户来说，他们可能需要支付更高的价格来购买适合自己需求的模型。这种差异化的定价策略可能是为了满足不同用户群体的需求，并且在市场竞争中保持竞争力。

而这些入门级、轻量级的文本大模型技术和能力等各方面已经趋同，各厂商之间的技术壁垒并不显著，因此价格竞争成为了它们之间主要的竞争手段。

根据上海人工智能实验室发布的大模型开源开放评测体系司南（OpenCompass2.0）显示，复杂推理相关能力是大模型普遍面临的难题，国内大模型相比于GPT-4还存在差距，这是大模型在金融、工业等要求可靠的场景落地需要的关键能力。不过，在中文场景下国内最新的大模型已展现出独特优势，尤其在语言、知识维度上接近GPT-4 Turbo的水平。

大规模模型的边际收益正在持续下降

Gary Marcus 博士在他的文章“Evidence that LLMs are reaching a point of diminishing returns — and what that might mean”《证据表明LLMs正达到收益递减的点——以及可能意味着什么》中指出，从GPT-2到GPT-4甚至GPT-4 Turbo的性能变化显示出了性能递减的迹象。

Gary Marcus 博士表示：“自GPT-4发布以来，许多模型在达到GPT-4水平的性能方面取得了显著的进展，但并没有出现明显领先的模型。”

大型模型价格竞争激烈，多核混合或许是解决之道。_图2

在收益递减的背景下，意味着处理相同的任务，开发者的实际成本是在上升的。在人工智能创新商业化前景还不明朗的市场环境下，为了保住现有用户，大型模型厂商必须给出有吸引力的对策。包括提供更小的模型，比如谷歌推出的Gemini 1.5 Flash。另一个手段就是直接降价。

投入高昂，多芯混合或有助力

人工智能的核心是算力，算力需求主要分为两部分，包括训练算力和推理算力。

训练算力是指用于训练人工智能模型的计算能力，它需要大量的计算资源来处理复杂的数据和算法。训练算力的需求通常与数据集的大小和模型的复杂度相关。

推理算力是指用于执行已经训练好的人工智能模型的计算能力，它需要快速高效地处理输入数据并生成相应的输出结果。推理算力的需求通常与模型的规模和实时性要求相关。

目前来说对训练算力需求非常高，根据去年的一则数据显示，ChatGPT的公开数据显示它的整个训练算力消耗非常大，达到了3640PF-days（每日浮点运算量）。换算成英伟达A100芯片，它单卡算力相当于0.6P的算力（每秒执行的浮点运算次数），理想情况下总共需要大概6000张，在考虑互联损失的情况下，需要一万张A100作为算力基础。在A100芯片10万人民币/张的情况下，算力的硬件投资规模达到10亿人民币。推理算力主要是英伟达T4卡，推理成本大约相当于训练成本的三分之一。

除了算力的成本，还有随之而来的存储、推理、运维、应用等一系列成本。这些成本包括数据存储的费用、推理模型的开发和维护成本、系统运维的费用以及应用开发和部署的成本等。

那么如何解决绝大多数企业当下最关心的“降本增效”问题？除了对模型的优化，硬件层面的创新思路亦不容忽视。近期，业界不少专家和技术人员开始聚焦于多芯混合的概念，尝试通过这一策略来为企业带来更高的性能和更低的成本。

那么如何解决绝大多数企业当前最关心的“降低成本、提高效率”问题？除了对模型的优化，硬件层面的创新思路也不容忽视。近期，业界不少专家和技术人员开始聚焦于多芯混合的概念，尝试通过这一策略来为企业带来更高的性能和更低的成本。

多芯混合是指在一个芯片或者系统中同时集成多种不同类型的处理器核心，例如CPU、GPU、AI加速器等。它能够通过充分利用各种处理器的优势，提供更高效、更灵活的计算能力。

在AI大模型算力紧缺的当下，多芯混合可以通过同时利用CPU和GPU等处理器，实现更快速、更高效的AI计算。CPU可以负责处理通用的计算任务，而GPU则可以专注于并行计算和图形处理，AI加速器则可以提供专门的AI计算能力。通过合理分配任务，多芯混合可以充分发挥各种处理器的优势，提供更优的解决方案。

多芯混合主要涉及在硬件设计或应用中，结合使用不同类型、不同功能或不同制程架构的芯片，以形成一个混合的计算系统或解决方案。上文提到当前基础大模型训练所需要的最大 AI 算力集群规模，已经从单一集群千卡逐步提升至万卡量级。同时，很多智算中心已经部署的 GPU 集群，通常是十几台至数百台服务器不等，难以满足未来行业大模型训练的需求。

所以，在已有人工智能算力集群的基础上，构建由昆仑芯、昇腾等不同芯片混合组成的单一集群，为大型模型训练提供更强大的人工智能算力，成为了一个自然的选择。

多芯混合有哪些优势？

多芯混合是指在一个电缆或连接器中同时集成多个不同类型的芯线或信号线。它具有以下几个优势： 1. 空间节省：多芯混合可以将多个信号线集成在一个电缆或连接器中，从而节省空间并减少布线的复杂性。 2. 简化安装：使用多芯混合可以减少安装过程中的连接点数量，简化安装步骤，提高安装效率。 3. 提高可靠性：多芯混合可以减少连接点数量，减少信号传输中的干扰和损耗，提高系统的可靠性和稳定性。 4. 灵活性：多芯混合可以根据需要灵活配置不同类型的信号线，满足不同应用场景的需求。总之，多芯混合的优势在于节省空间、简化安装、提高可靠性和提供灵活性。

首先，通过将计算任务分配到多个图形处理器（GPU）上，可以显著提高模型的训练速度。多GPU并行训练还可以减少单个GPU训练中由于计算瓶颈导致的时间浪费，从而提高了训练效率。

第二，使用多个GPU进行训练可以同时处理更多的数据，从而有效提高了内存的利用率。

第三，这种混合集群的构建能够有效降低成本。毕竟，与英伟达的A100/H100系列GPU相比，其他品牌的GPU价格更为经济实惠。

然而，如果这个方案真的像我们想象的那样容易实施，那么它早就被业界的许多大公司所采纳了。具体来看，这个方案的实施可能会遇到哪些困难？

多芯混合要解决哪些问题？

为了建设一个能够高效训练大规模模型的集群，需要在卡间和机间建立高速的互联互通，将大模型训练任务按照适当的并行策略拆分到GPU卡中，最后通过各种优化方法，提高GPU对算子的计算效率，完成大规模模型训练。

然而，不同芯片之间很难互联互通，因为英伟达GPU、昆仑芯、昇腾 910B 的物理连接方式，并行策略以及AI加速套件上都不一样。

首先，在互联互通方面，单台服务器内的8块GPU卡通过NVLink技术进行连接。而不同服务器之间的GPU卡则通过RDMA网络连接实现互联互通。

过去，我们看到了很多有关英伟达GPU和CUDA护城河的介绍。诚然，经过多年的投入，他们已经建立起了难以逾越的优势。但除此以外，如上所述，英伟达还有很多隐形护城河，NVLink就是其中的一个，它是一种技术，可以为GPU到GPU互联提供高速连接。

在摩尔定律逐渐失效，但对计算能力要求越来越高的当下，互联网的重要性显得尤为必要。

英伟达官网表示，NVLink 是全球首创的高速GPU 互连技术，为多GPU 系统提供另一种选择，与传统的PCI-E 解决方案相比，速度方面拥有显著提升。使用NVLink 连接两张英伟达GPU，即可灵活调整存储器与性能，满足专业视觉计算最高工作负载的需求。

而昆仑芯服务器内部通过XPU Link进行连接，服务器之间通过标准的RDMA网卡进行连接，卡和卡之间使用XCCL通信库进行相互通信。昇腾910B服务器内部通过HCCS进行连接，服务器之间通过华为自研的内置RDMA进行连接，卡和卡之间使用HCCL通信库进行相互通信。

其次，在并行策略上，英伟达GPU和昆仑芯采用单机8卡的部署方式，昇腾910B则是机内16卡分为2个8卡通信组。这意味着在AI框架下形成不同的集群拓扑，需要有针对性地制定分布式并行策略。

最后，在 AI 加速套件上，由于昆仑芯、昇腾等芯片在计算能力、显存大小、I/O 吞吐、通信库等方面存在差异，因此需要针对具体芯片进行特定优化。最终的成果是，针对每种芯片都有一个相应的算子库和相应的加速策略。

哪些厂商开始尝试进入这个领域？

值得注意的是，近日，AMD、博通、思科、谷歌、惠普企业 (HPE)、英特尔、Meta 和微软等领先科技公司组成的联盟宣布成立超级加速器链路 (UALink) 促进会。该计划旨在制定一项开放的行业标准，以促进数据中心人工智能系统的高速、低延迟通信。

面对不断增长的人工智能工作负载，这些科技巨头都迫切需要具备超高性能互连能力的解决方案。

百度也在努力打造多芯混合训练AI集群。百度百舸的多芯混合训练方案，通过屏蔽底层复杂的异构环境，将各类芯片融合成一个大集群，实现了不同算力的统一存量，最大限度地发挥这些算力的效能，支持更大规模的模型训练任务。同时，该方案还支持快速融入新增资源，以满足未来业务增长的需求。除了通过百度智能云的公有云提供服务，该方案还可以通过ABC Stack专有云进行交付。

此前，百度集团执行副总裁、百度智能云事业群总裁沈抖表示，在“一云多芯”方面，百度百舸兼容昆仑芯、昇腾、海光DCU、英伟达、英特尔等国内外主流AI芯片，支持同一智算集群中混合使用不同厂商芯片，最大程度上屏蔽硬件之间差异，帮助企业摆脱单一芯片依赖，打造更有性价比、更安全、更具弹性的供应链体系。在多芯混合训练任务中，百舸能够将单芯片利用率、芯片间通信效率、集群整体效能发挥到极致，百卡规模性能损失不超过3%，千卡规模性能损失不超过5%，均为国内最高水平。

近日，FlagScale 开源大模型并行训练框架全面升级。智源团队与天数智芯团队合作，实现了“英伟达芯片+其它AI芯片”集群上单一大模型任务的异构混合训练，并在70B大模型上验证了不同架构芯片上进行异构混合训练的有效性。同时，为了加速多种AI芯片在大模型训练场景的使用，智源积极探索高效灵活的芯片适配方案，通过与硬件厂商的深入合作，FlagScale 已在6家不同厂商的多款AI芯片上适配Aquila2系列大模型的大规模训练。

近日，FlagScale 开源大模型并行训练框架进行了全面升级。智源团队与天数智芯团队合作，成功实现了在“英伟达芯片+其它AI芯片”集群上进行单一大模型任务的异构混合训练，并在70B大模型上验证了在不同架构芯片上进行异构混合训练的有效性。同时，为了提高多种AI芯片在大模型训练场景中的使用速度，智源团队积极探索高效灵活的芯片适配方案，并与硬件厂商进行深入合作，使得FlagScale已经在6家不同厂商的多款AI芯片上成功适配了Aquila2系列大模型的大规模训练。

由于不同厂商的卡间互联协议不同，为了实现“英伟达芯片+其它AI芯片”高速互联，智源团队与天数智芯协作，优化了天数智芯的iXCCL通信库。他们使得iXCCL通信库在通信原语操作上以及API接口上兼容英伟达NCCL，并将框架编译链接到同一iXCCL通信库上。这样一来，在用户和AI框架无感知的情况下，异构算力芯片间可以实现高效通信，进而实现不同架构芯片的混合训练。同时，双方还协作优化了流水线并行的分配方式，并根据不同芯片算力、内存带宽、内存容量的差异，为不同芯片配置了不同的流水线并行策略。这样一来，在训练过程中能充分发挥不同芯片的性能，最终率先实现了通用GPU异构大模型高效训练方案。

国内生产的图形处理器（GPU）厂商的发展机遇

多芯混合技术允许将不同架构、不同功能的芯片集成在一个系统中，这为国产厂商提供了技术创新的机会。通过整合和优化不同芯片的性能，可以开发出更高效、更灵活的解决方案。

多芯混合技术是一种先进的集成技术，它允许将具有不同架构和功能的芯片集成到同一个系统中。这为国内厂商提供了一个宝贵的机会，可以通过创新的方式来应用这项技术。通过整合和优化不同芯片的性能，可以开发出更高效、更灵活的解决方案，从而满足不同用户的需求。这种技术的应用将推动国内芯片产业的发展，提升国内厂商在全球市场的竞争力。

多芯混合技术为国内厂商带来了广阔的发展机遇。这一技术不仅推动了技术创新，满足了市场对高性能、低功耗芯片的不断增长需求，还促进了产业链上下游的紧密合作，提升了整个产业的竞争力。同时，国家政策的大力支持也为国内厂商在多芯混合技术领域的发展提供了有力保障。国内厂商应该抓住这一机遇，加大研发投入，推动多芯混合技术的突破与应用，以提升国内芯片的技术水平和市场竞争力。

猜你喜欢