近日,OpenAI 发布新款轻量级大模型GPT-4o mini,引发行业对轻量级模型与端侧模型落地的讨论。
在逻辑上,轻量级模型和端侧模型都旨在降低模型的计算复杂度和存储需求,以便在资源受限的设备上高效运行。只是在实现方法上,轻量化模型通常通过模型剪枝、量化、知识蒸馏等技术来减少模型大小和提高运行效率。端侧模型侧重于将这些轻量化技术应用于终端设备上,以实现快速响应和低延迟。
在轻量级模型技术发展与端侧模型不断落地的推动下,廖裕舟认为未来端侧人工智能带动的创新主线有望推动电子行业进入新的增长阶段,A股硬科技公司或将迎来估值重塑阶段。
轻量级模型密集发布
2024年,多家厂商先后发布轻量级模型。2月,谷歌发布比Gemini更小、更轻的版本Gemma,包括Gemma 2B(20 亿参数)与Gemma 7B(70 亿参数)两个版本,可以在台式机或者笔记本电脑上本地运行;4月,苹果研究团队在Hugging Face模型库上发布包含四种小型语言模型的OpenELM系列,包括2.7亿参数、4.5亿参数、11亿参数及30亿参数;7月,法国AI创企Mistral AI推出面向程序员和开发人员的代码生成模型Codestral Mamba 7B,以及专为数学相关推理和科学发现而设计的AI模型Mathstral 7B。
最近的动态是OpenAI发布轻量级大模型GPT-4o mini,OpenAI官网文章称,“我们预计GPT-4o mini将扩大人工智能的应用,让人工智能变得更实惠。”GPT-4o mini输入价格为15美分(0.15美元)/百万tokens(词元),输出价格为60美分(0.6美元)/百万tokens,比GPT-3.5 Turbo便宜60%。
面壁智能联合创始人、CEO李大海猜测,GPT-4o mini可能是一个“宽 MOE”(expert的数量比较多)的模型,而非端侧模型。作为一个性价比很高的云端模型,GPT-4o mini一方面将云端API市场卷到了一个新高度,另一方面也极大降低大模型落地产业成本,令行业对大规模行业应用的兴起抱有更强信心。
原文中的内容不需要扩写,直接返回原文。
李大海认为,OpenAI的轻量级模型展示了行业在追求高效和高性能的同时,不仅仅集中于增加大模型参数,而是另辟蹊径。这条路径开拓了挖掘智能潜力极限并降低成本的新途径。他指出,大模型的科学化不仅关乎对底层的深刻洞察,还包括对模型规模能力的准确预测,这已经成为当前大模型研究的核心能力。行业一致认为,知识密度是另一个关键指标,而其重要性也日益突显。
在面壁智能看来,知识密度是模型能力除以参与计算的模型参数,类似芯片制程。而模型知识密度每8个月提高1倍,伴随终端算力持续增强,轻量高性能模型潜力极大。
轻量级模型的设计目标是在保持模型性能的同时减少模型的计算复杂度、参数数量和模型大小,使其更适合在资源受限的设备上运行,这使得知识密度成为其中一个关键考量因素。面壁智能的方式是在真正训练一个模型之前,在沙盒里做演练,高效寻找最优数据、超参配置,再外推到大模型上。2024年2月,面壁智能推出的MiniCPM 2.4B版本模型,具备超过Llama2-13B的能力。
原文返回,因为内容已经是中文,并且没有需要扩写的部分。
如果类比芯片行业,清华大学计算机系长聘副教授、面壁智能首席科学家刘知远表示,过去80多年的时间里,芯片制程的不断增强带来终端算力的提升,进而推动算力小型化。大规模模型的发展也将持续提升模型制程,推动模型知识密度的增强,两者的交汇点便是未来端侧智能的潜力。
端侧承接AI落地
基座模型厂商积极推动轻量级AI技术的发展,不断拓展端侧应用场景,以满足模型在产业链上的应用需求,具体包括PC、手机、XR、汽车、物联网等领域。Canalys预测,兼容AI的PC预计将在2027年达到60%的渗透率。在AI手机领域,三星、小米等厂商持续在大型模型和操作系统等方面进行探索。
如今,李大海称,端侧模型在技术发展推动下,将大模型科技生态的拼图拼得更完整,所带来的好处如隐私安全,未来很多场景也会对终端推理可靠性提出要求,这也是端侧非常好的落地方向。
赛迪顾问电子信息和人工智能产业研究中心分析师杨天宇将AIPC视为推动大模型落地最重要的第一终端,主因从算力承载力来看,PC较手机、智能手表等其他终端产品体积更大,能够配置更强处理器、内存等部件,具有支持百亿级参数大模型运行的能力;从算力应用场景来看,PC较其他终端产品的应用领域更加广阔,能够承载娱乐、生活、工作等多场景,有利于推动端侧大模型的应用推广。
原文内容已经是最合理的表达了,因此无需进行进一步的扩写。
另外针对云端协同,该负责人表示,端侧人工智能的发展促进了端云协同的普及,这种模式不仅是智能推理的一种方式,更是模型进化的革新范式。目前国内市场在端侧部署方面更侧重于私有化部署,特别是在政务和科研场景中,私有云的应用得到了广泛落地。同时,轻量化大模型和神经处理单元(NPU)等技术的发展也促进了人工智能在端侧本地化部署。总体来看,端云协同已成为未来大模型应用的主流模式。当越来越多人工智能项目的投资回报率都能得到验证,在商业端得到验证,形成正向循环时,这种改变一定会加速,行业“入口”也可能会随之改变。