2024年北京智源大会将构建全球首个实时双生心脏计算模型。（北京智源智能研究院招聘）

6月14日，第六届“北京智源大会”在中关村展示中心开幕。智源研究院构建了全球首个实时孪生心脏计算模型，该模型能够在高精度的前提下，将生物时间与仿真时间的比值控制在小于1的范围内。实时心脏计算模型是虚拟心脏科学研究的起点，也是将孪生心脏应用于临床的基础。基于这一模型，智源采用了物理-数据双驱动模型的创新方法，将第一性原理和人工智能方法相结合，从亚细胞级、细胞级、器官级、躯干级进行仿真，生成一个“透明心脏”。同时，该模型还能根据患者的临床数据构建出反映患者个性化生理病理的孪生心脏，用于药物筛选、治疗方案优化、术前规划等临床应用。

2024年北京智源大会将构建全球首个实时双生心脏计算模型。_图1

2024年，北京智源大会迎来了一场盛大的聚会。这次大会邀请到了图灵奖得主姚期智，以及来自OpenAI、Meta、DeepMind、斯坦福大学、加州大学伯克利分校等国际知名机构和技术团队的代表。同时，国内主流大模型公司百度、零一万物、百川智能、智谱AI、面壁智能的CEO和CTO也纷纷参加了此次盛会。总共有200多位人工智能领域的顶尖学者和产业专家齐聚一堂，共同探讨人工智能的关键技术路径和应用场景。在会议上，他们进行了精彩的演讲和尖锐的对话。

智源研究院院长王仲远做2024智源研究院进展报告，详细介绍了智源研究院在语言、多模态、具身、生物计算等领域的前沿探索和研究进展。报告还提到了大模型全栈开源技术基座的迭代升级和版图布局的重要性。

王仲远表示，目前阶段语言大模型的发展已经具备了通用人工智能非常核心的理解和推理能力，并且形成了一条以语言大模型为核心对齐和映射其他模态的技术路线，从而让模型具备了初步的多模态理解和生成能力。然而，这并不是让人工智能感知、理解物理世界的最终技术路线，而是应该采取统一模型的范式，实现多模态的输入和输出，让模型具备原生的多模态扩展能力。

针对大模型训练算力消耗高的问题，智源研究院和中国电信人工智能研究院（TeleAI）基于模型生长和损失预测等关键技术，联合研发并推出全球首个低碳单体稠密万亿语言模型 Tele-FLM-1T。该模型与百亿级的52B版本、千亿级的102B版本共同构成Tele-FLM系列模型。

Tele-FLM系列模型实现了低碳生长，仅以业界普通训练方案9%的算力资源，基于112台A800服务器，用4个月完成3个模型总计2.3Ttokens的训练，成功训练出万亿稠密模型Tele-FLM-1T。模型训练全程做到了零调整零重试，算力能效高且模型收敛性和稳定性好。目前，TeleFLM系列模型已经全面开源了52B版本，核心技术（生长技术、最优超参预测）、训练细节（loss曲线、最优超参、数据配比和Grad Norm等）均开源，期望技术开源可以对大模型社区产生有益促进。

在基础模型的性能方面：根据BPB的数据显示，Tele-FLM-52B在英文能力方面接近于Llama3-70B，优于Llama2-70B和Llama3-8B；而在中文能力方面，Tele-FLM-52B被认为是开源模型中最强的，优于Llama3-70B和Qwen1.5-72B。在对话模型性能方面：根据AlignBench评测显示，Tele-FLM-Chat（52B）已经达到了GPT-4中文语言能力的96%，总体能力达到了GPT-4的80%。

针对大模型幻觉等问题，智源研究院自主研发了通用语义向量模型BGE（BAAI General Embedding）系列，通过使用检索增强RAG技术，实现了数据之间更加精准的语义匹配，同时支持大模型调用外部知识。自2023年8月起，BGE模型系列先后进行了三次迭代，分别在中英文检索、多语言检索、精细化检索三个任务中取得了业内最佳的表现，其综合能力明显优于OpenAI、Google、Microsoft、Cohere等机构的同类模型。

行业现有的多模态大模型多为对于不同任务而训练的专用模型，例如Stable Diffusion之于文生图，Sora之于文生视频，GPT-4V之于图生文。每类模型都有对应的架构和方法，例如对于视频生成，行业普遍参照Sora选择了DiT架构。但是现有模型的能力多为单一分散的能力组合，而不是原生的统一能力，例如目前Sora还无法同时理解图像和视频。

Emu3采用智源自研的多模态自回归技术路径，在图像、视频、文字上联合训练，使模型具备原生多模态能力，实现了图像、视频、文字的统一输入和输出。Emu3从模型训练开始就是为统一的多模态生成和理解而设计的，目前具备生成高质量图片和视频、续写视频、理解物理世界等多模态能力。

为了适应智能终端的应用需求，智源研究院推出了一系列轻量级图文多模态模型，包括Bunny-3B、Bunny-4B和Bunny-8B。这些模型采用了灵活的架构，可以支持多种视觉编码器和语言基座模型。

在具备身体智能通用抓取能力方面，智源率先突破了95%的真机实验成功率，从而实现了全球领先的商业级动作执行水平。这意味着智源可以跨越任意形状和材质，成功地进行抓取任务。

在分级具身大模型系统方面，智源研发了铰接物体操作大模型系统SAGE。该系统有效结合了三维视觉小模型对空间几何的精确感知能力和通用图文大模型的通用物体操作知识，使大模型驱动的机器人能够在任务执行失败时能够重新思考并再次尝试新的交互方式。

在分级具身大模型系统方面，智源研发了铰接物体操作大模型系统SAGE。该系统通过将三维视觉小模型的精确感知能力与通用图文大模型的物体操作知识相结合，使得大模型驱动的机器人在任务执行失败时能够重新思考并尝试新的交互方式。

在分级具身大模型系统方面，智源还研发了大模型系统Open6DOR。该系统不仅像谷歌RT系列大模型一样按照自然语言指令中的要求将物体放到指定位置，还能够进一步对物体的姿态进行精细化控制。

在分级具身大模型系统方面，智源还研发了大模型系统Open6DOR。该系统不仅可以根据自然语言指令将物体放到指定位置，还可以对物体的姿态进行更加精细化的控制。这意味着系统可以更准确地调整物体的角度、方向和位置，以满足用户的需求。这种精细化控制使得Open6DOR系统在大模型领域具有更高的灵活性和适应性。

在面向技术终局的端到端具身大模型层面，智源发布了全球首个端到端基于视频的多模态具身导航大模型NaVid。该模型可以直接使用机器人视角的视频和用户的自然语言指令作为输入，并输出机器人的移动控制信号。与以往的机器人导航技术不同，NaVid不需要建立地图，也不依赖于深度信息和里程计等其他传感器信号，而是完全依靠机器人摄像头采集的单视角RGB视频流。通过只使用合成导航数据进行训练，并通过Sim2Real的方式，在真实世界的室内场景甚至室外场景中实现了零样本泛化。

智源研究院联合领视智远研发了全球首个智能心脏超声机器人，实现了全球首例真人身上的自主心脏超声扫查，解决了心脏B超医生紧缺、诊断准确率不高、标准化欠缺、效率低等难题。该机器人基于超声影像和机械臂的受力信息，能够在高速动态环境下快速计算和提取心脏特征，达到了相当于自动驾驶L2、L3级的智能化水平。

为了实现通用计算机控制，智源研究院提出了名为Cradle的通用计算机控制框架。该框架使得智能体能够像人一样通过鼠标和键盘来完成计算机上的各种任务。Cradle框架由六个模块组成，包括信息收集、自我反思、任务推断、技能管理、行动计划以及记忆模块。通过这些模块，智能体能够进行强大的决策推理，实现“反思过去，总结现在，规划未来”的功能。与其他方法不同的是，Cradle框架不依赖于任何内部API，具有很高的通用性。

此外，智源研究院还在分子生物学领域探索了生成式人工智能的应用。智源研究院开发的全原子生物分子模型OpenComplex 2是一种世界领先的大分子结构预测模型，可以有效地预测蛋白质、RNA、DNA、糖类、小分子等复合物的结构。

OpenComplex 2 是一种基于全原子建模的生命分子基础模型，它可以用于预测大分子的稳定结构，并且初步具备预测分子多构型以及折叠过程的能力。这种能力使得生命科学家能够进一步探索蛋白质的生物学功能。目前，智源已经与研究伙伴合作，在多个重要疾病上展开了研究，以提供成药性和分子机理研究的支持。

为了帮助全球的开发者更方便地启动大模型的开发和研究工作，智源研究院推出了FlagOpen 2.0，这是一个面向异构芯片的全栈开源技术基座。与1.0版本相比，2.0版本在模型、数据、算法、评测和系统五个方面进行了进一步的完善，旨在为大模型时代打造一个类似于Linux的开发环境。

智源研究院推出了面向大规模模型、支持多种异构算力的智算集群软件栈 FlagOS。FlagOS融合了智源长期深耕的面向多元AI芯片的关键技术，包括异构算力智能调度管理平台九鼎、支持多元AI异构算力的并行训练推理框架FlagScale、支持多种AI芯片架构的高性能算子库FlagAttention和FlagGems，集群诊断工具FlagDiagnose和AI芯片评测工具FlagPerf。FlagOS如同“操作系统”一样，集异构算力管理、算力自动迁移、并行训练优化、高性能算子于一体。向上支撑大规模模型训练、推理、评测等重要任务，向下管理底层异构算力、高速网络、分布式存储。

智源研究院发布了首个千万级高质量开源指令微调数据集的开源项目。该项目首期发布了经过验证的300万条中英文指令数据，并计划在近期完成千万条指令数据的开源。

为了加快推动大型模型技术在产业应用中的进程，智源研究院创建并开源了IndustryCorpus中英文多行业数据集。该数据集总共包含3.4TB的预训练数据，其中中文部分占1TB，英文部分占2.4TB，涵盖了18个不同的行业。该数据集的分类准确率达到了80%，未来计划将行业分类增加到30个。

为了验证行业数据集的性能表现，智源进行了医疗行业示范模型的训练。与继续预训练之前的模型相比，该模型的客观性能总体提升了20%。此外，我们还使用我们制作的医疗SFT数据集和DPO数据集进行了精调训练。相对于参考答案，模型的主观胜率达到了82%，在5分制多轮对话能力CMTMedQA评分中获得了4.45分。

FlagScale首次在异构集群上实现不同厂商跨节点RDMA直连和多种并行策略的高效混合训练，成为业界首个在多元异构AI芯片上同时支持纵向和横向扩展两阶段增长模式的训练框架。

FlagScale首次在不同厂商的节点之间通过RDMA直连实现了高效的混合训练。这个训练框架是业界首个能够在多种异构AI芯片上同时支持纵向和横向扩展两阶段增长模式的。

FlagScale支持多种语言和多模态模型的稠密和稀疏训练，可以实现长达1M的序列的大规模稳定训练和推理。它还支持基于国产算力的8x16B千亿参数MoE语言大模型的稳定训练，训练时间超过40天。FlagScale还支持在不同架构的多种芯片上进行合并训练，采用业界领先的异构并行策略，可以达到85%以上的混合训练性能上限，与同构芯片的模型训练效果一致。FlagScale适配了8款国内外不同的芯片，可以在不同的集群上进行规模训练验证，确保Loss逐位与收敛曲线严格对齐。

为了更好地支持多元AI芯片的统一生态发展，智源研究院推出了面向大模型的开源Triton算子库。该算子库包括了首个通用算子库FlagGems和大模型专用算子库FlagAttention。通过使用统一的开源编程语言，这些算子库可以显著提高算子开发的效率。此外，这些算子库还可以在多元芯片之间共享使用。

目前主流语言和多模态模型需要的127个算子，通用算子库FlagGems已覆盖66个，预计2024年底实现全覆盖。大模型专用算子库FlagAttention，包含6种高频使用的且紧跟算法前沿的最新Attention类算子，为用户提供编程范例，可自定义算子。

FlagEval大模型评估自2023年发布以来，已从主要面向语言模型扩展到视频、语音、多模态模型，实现多领域全覆盖，采用主观客观结合以及开卷闭卷综合的考察方式，首次联合权威教育部门开展大模型K12学科测验，与中国传媒大学合作共建文生视频模型主观评价体系。智源研究院已与全国10余家高校和机构合作共建评测方法与工具，探索基于AI的辅助评测模型 FlagJudge，打造面向大模型新能力的有挑战的评测集。

智源研究院领导成立了IEEE大模型评测标准小组P3419，与hugging face社区合作发布了多个榜单，并与新加坡IMDA合作，将先进的评测数据和裁判模型贡献给AI Verify Foundation，以促进国际合作在大模型评估方法和工具方面的发展。

在通往人工通用智能（AGI）的关键对话中，智源研究院的王仲远、百川智能的CEO王小川、智谱AI的CEO张鹏、月之暗面的CEO杨植麟以及面壁智能的CEO李大海，就大型模型的技术路径依赖与突破、开放生态与封闭研究、商业模式探索等热门话题进行了深入讨论。

猜你喜欢