陈翔中文网 2024 北京智源大会开幕，全球 AI 顶尖学者与产业专家

更新时间：2024-10-22 20:05:11作者：佚名

2024年6月14日，第六届“北京智慧大会”在中关村展览中心开幕。

北京智源大会是智源研究院主办的“人工智能专家顶级盛会”。其以“全球视野、思想碰撞、前沿引领”为特色，汇聚国内外研究人员，分享研究成果、探索前沿知识、交流实践经验。 2024北京智源大会邀请了图灵奖获得者姚启智，Meta、、UC等国际明星机构和技术团队代表，以及百度、零一物、百川智能、智普AI等国内主流企业代表和面壁智能。模型公司CEO、CTO云集200余位顶尖人工智能学者和行业专家，围绕人工智能关键技术路径和应用场景进行精彩演讲和高峰对话。

开幕式由致远研究院院长黄铁军主持。

致远研究院院长王忠元作2024年致远研究院进展报告，汇报了致远研究院在语言、多模态、体现、生物计算大模型、全栈等方面的前沿探索和研究进展大型模型迭代升级和布局布局的开源技术基础。

王忠源表示，现阶段大语言模型的发展已经具备了通用人工智能非常核心的理解和推理能力，并形成了以大语言模型为核心，对齐和映射其他模态的技术路线，从而赋予模型初步的多模态理解和生成能力。但这并不是人工智能感知和理解物理世界的最终技术路线。相反，应该采用统一的模型范式，实现多模态输入输出，使模型具备原生的多模态扩展能力，并演化为世界模型。。未来，大型模型将以数字代理的形式与智能硬件集成，并以具身智能的形式从数字世界进入物理世界。同时，大模型的技术手段可以为科学研究提供新的知识表达范式，加速人类进步。对微观物理世界规律的探索和研究突破，正在不断逼近通用人工智能的终极目标。

智慧语言大模型

全球首个低碳单体密集万亿语言模型Tele-FLM-1T

针对大模型训练算力消耗高的问题，致远研究院与中国电信人工智能研究院（）联合研发推出全球首个基于模型增长等关键技术的低碳单密万亿语言模型和损失预测。远程 FLM-1T。该型号与百亿级52B版本、千亿级102B版本一起构成Tele-FLM系列型号。

Tele-FLM系列机型实现了低碳增长。仅用业界通用训练方案9%的计算资源，基于112台A800服务器，耗时4个月完成3个模型总计200万个模型的训练，成功训练万亿密集模型Tele-FLM-1T。整个模型训练过程零调整、零重试，算力效率高，模型收敛性和稳定性好。目前，该系列机型的52B版本已全面开源。核心技术（增长技术、最优超参数预测）、训练细节（损失曲线、最优超参数、数据比例、Grad Norm等）均开源。我们希望开源技术能够对大型模型社区产生有益的推动。 Tele-FLM-1T版本即将开源。希望能够为社区训练万亿密集模型提供优良的初始参数，避免万亿模型训练收敛困难等问题。

Tele-FLM-52B版本开源地址

Tele-FLM-Chat试用版（纯模型单轮对话版）地址

基础型号性能方面：BPB显示，就英语能力而言，Tele-FLM-52B接近-70B，优于-70B和-8B；就汉化能力而言，Tele-FLM-52B是开源最强的，优于-70B和-70B Qwen1.5-72B。对话模型性能方面：评估显示Tele-FLM-Chat（52B）达到了GPT-4中文语言能力的96%，整体能力达到了GPT-4的80%。

通用语言向量模型BGE系列

针对大模型幻觉等问题，致远研究院自主研发了BGE（BAAI）系列通用语义向量模型。基于检索增强的RAG技术，实现数据之间的精准语义匹配，支持大模型对外部知识的调用。自2023年8月以来，BGE模型系列已经历3次迭代，在中英文检索、多语言检索、精细化检索三项任务上取得了业界最佳表现，综合能力明显优于同质检索机构模型。目前，BGE模型系列下载总量位居国内AI模型第一，并已被、、Llama Index等国际主流AI开发框架以及腾讯、华为、阿里巴巴等各大云服务商集成， Byte、微软、亚马逊，并提供给外界。商业服务。

2.智慧多模态大模型

原生多式联运世界模型 Emu 3

业界现有的多模态大模型大多是针对不同任务训练的专门模型，例如针对图像绘图、针对绘图视频绘图、针对绘图绘图的 GPT-4V 等。每种类型的模型都有相应的架构和方法。例如，对于视频生成，业界普遍选择基于Sora的DiT架构。然而，现有模型的能力大多是单一分散的能力组合，而不是原生的统一能力。例如，Sora目前无法理解图像和视频。

为了实现多模态、统一、端到端的下一代大模型，智源研究院推出了Emu3原生多模态世界模型。 Emu3采用智智自研的多模态自回归技术路径，对图像、视频、文本进行联合训练，使模型具备原生多模态能力，实现图像、视频、文本的统一输入输出。 Emu3 旨在从模型训练开始就实现统一的多模态生成和理解。目前已具备生成高质量图片和视频、持续视频、理解物理世界等多模态能力。简单来说，Emu3不仅统一了视频、图像、文本，还统一了生成和理解。值得注意的是，Emu3将在持续训练过程中经过安全评估后逐步开源。

轻量级图文多模态模型系列Bunny-3B/4B/8B

为了适应智能终端的应用，致远研究院推出了轻量级图文多模态模型系列Bunny-3B/4B/8B。该模型系列采用灵活的架构，可以支持多种视觉编码器和语言库。模型。多个榜单的综合结果显示，Bunny-8B的多模态能力可以达到GPT-4o性能的87%。目前，Bunny模型参数、训练代码、训练数据均开源。

开源地址：

3.智能源体现大模型

致远研究院具身智能创新中心在机器人广义动作执行、智能大小脑决策控制等领域取得多项世界级突破。

全球领先的广义爬行技术，真机实验成功率超过95%

陈翔最新视频_陈翔中文网_陈翔的中文

在体现智能通用抓取能力方面，致远率先突破了95%的真机实验成功率，解决了跨任意形状和材质的泛化问题，从而达到了全球领先的商业级动作执行水平。借助这项技术，即使在复杂的光透射和反射的情况下，我们的机器人仍然可以准确地感知透明和高反射物体的形状和姿态，并以很高的成功率预测抓取姿势。

分层体现大模型系统 SAGE，一种反射式、适应性强的铰接式对象操纵大模型系统

在层次化体现大模型系统方面，致远开发了SAGE，一个可以从失败中重新思考和重试的铰接式对象操纵大模型系统。该系统有效地将小型三维视觉模型的空间几何的精确感知与大型通用图形模型的通用对象操作知识结合起来，使得大型模型驱动的机器人能够在任务执行失败时重新思考并尝试新的交互方法。，实现传统机器人技术无法比拟的智能性和鲁棒性。

分层体现大模型系统：全球首创开放式指令六自由度取放大模型系统

在分层体现大模型系统方面，致远还开发了全球首个能够实现六自由度物体拾取和放置的开放命令控制的大模型系统。该系统不仅可以像 RT系列大型模型一样按照自然语言指令的要求将物体放置在指定位置，还可以进一步微调物体的姿态。这项技术极大地增加了大型实体操纵模型的商业应用范围和价值。

全球首个基于端到端视频的多模态体现导航大模型NaVid

在科技终端端到端体现大模型层面，致远发布了全球首个基于端到端视频的多模态体现导航大模型NaVid。该模型可以直接将机器人视角的视频和用户的自然语言指令作为输入，端到端输出机器人的运动控制信号。与之前的机器人导航技术不同，NaVid 不需要映射，也不依赖其他传感器信号，例如深度信息和里程表信息。相反，它完全依靠机器人摄像头采集的单视点RGB视频流，仅使用合成导航数据进行训练的条件下，实现零镜头真实，是对前沿技术的勇敢而成功的探索。现实世界室内场景甚至室外场景中的机器泛化。

智能心脏超声机器人

致远研究院联合研发全球首款智能心脏超声机器人，实现了全球首次对真人进行自主心脏超声扫描。可以解决心脏B超医生短缺、诊断准确率低、缺乏标准化的问题。效率低下的问题。智能心脏超声机器人基于机械臂的超声图像和力信息，可以在高速动态环境下快速计算和提取心脏特征，达到相当于自动驾驶L2和L3级别的智能水平。临床验证结果表明，在准确性方面，智能心脏超声机器人可以与资深医生保持一致；在稳定性方面，智能心脏超声机器人更高；在舒适度方面，智能超声机器人的强度可以控制在4N以内，更加舒适。在舒适度和效率方面，智能超声机器人实验机可以与人类医生看齐。

通用计算机控制框架

为了实现通用计算机控制，致远研究院提出了通用计算机控制框架，让智能体可以像人一样看着屏幕，通过鼠标和键盘完成计算机上的所有任务。由信息收集、自我反思、任务推理、技能管理、行动规划、记忆模块6大模块组成，可进行“反思过去、总结现在、规划未来”的强大决策推理。与业界其他方法不同，它无需依赖任何内部 API 即可实现通用性。目前，致远研究院与昆仑万维研究院等单位合作开发了《荒野大镖客》、《星露谷物语》、《城市天际线》、《当铺生活》四款游戏，以及《飞鼠》、《飞书》、《美图秀秀》、《切割5》等软件，已通过验证。。智能体不仅可以根据提示自主学习玩游戏，还可以富有想象力地编辑图片和视频。

未来，致远将依托多模态大模型技术的优势资源，与北大、清华、中科院等高校和机构，以及中科院等产业链上下游企业合作。和打造实体智能创新平台，专注于数据和模型开发。、场景验证等研究，打造具身智能创新生态系统。

4.智慧生物计算大模型

全原子生物分子模型2

此外，致远研究院还探索了生成人工智能在分子生物学中的应用。致远研究院研发的全原子生物分子模型2是全球领先的大分子结构预测模型，可有效预测蛋白质、RNA、DNA、糖类、小分子等复合物。在生物分子结构预测领域的国际竞赛CAMEO（Model）中，连续两年位列赛道第一，并荣获CASP（for）15个RNA自动赛道预测冠军。

图2是基于全原子建模的生命分子基本模型。研究人员发现，它不仅可以预测大分子的稳定结构，还初步具备预测分子多种构型和折叠过程的能力。基于这样的能力，生命科学家可以进一步探索蛋白质的生物学功能。目前，驰源已与研究伙伴共同开展多项重要疾病的研究，提供成药性和分子机制研究。未来，基于我们的能力，我们有望开启生命科学研究的新时代，为进一步揭示HIV病毒、神经元等复杂生命机制提供新的可能。

全球首个实时双心计算模型

致远研究院构建了全球首个实时双心计算模型，在高精度的前提下可以实现生物时间/模拟时间比小于1，处于国际领先水平。

实时心脏计算模型是虚拟心脏科学研究的开始，也是双心临床应用的基础。基于该模型，致远将创新性地采用物理数据双驱动模型，融合第一性原理和人工智能方法，从亚细胞层面、细胞层面、器官层面、躯干层面模拟一颗“透明心脏”。并可根据患者的临床数据，构建反映患者个性化生理病理的双心，从而开展药物筛选、治疗方案优化、术前规划等临床应用。

目前，致远与北京大学第一医院联合成立了“北京大学第一医院-北京致远人工智能研究院心脏AI联合研究中心”，目前正在开展基于超声影像的急性心肌梗死诊断、心力衰竭的病理模拟、肾动脉造影等课题，与安贞医院合作开展室性心动过速疾病无创心外膜标测技术前沿研究，与思高电生理研究所合作开发应用药物筛选平台，与清华长庚合作纪念医院与朝阳医院就肥厚型心肌病课题进行合作。

作为创新型研究机构，致远研究院引领人工智能前沿技术发展。它还利用第三方、中立、非营利组织的优势，构建公共技术基础，解决当前行业的痛点。

大模型开源技术库2.0，模型、数据、算法、评估、系统五大布局全面升级。

为了帮助全球开发者一站式启动大模型开发研究工作，致远研究院推出了异构芯片、支持多种框架的大模型全栈开源技术库2.0。在1.0的基础上，又进一步完善。它有模型、数据、算法、评估、系统五大布局，旨在打造大模型时代的Linux。

2.0可以支持多种芯片和多种深度学习框架。目前，全球开源模型下载总量超过4755万次，共57个开源数据集下载量近9万次，开源项目代码下载量超过51万次。

开源地址：

1、支持异构算力集群的大模型“操作系统”

为了满足日益增长的大型模型训练和推理计算需求陈翔中文网，应对大规模人工智能系统和平台面临的异构计算、高速互联、集群内部或集群之间的弹性和稳定性等技术挑战，智源研究院研究院针对大型模型推出了新的模型——支持多种异构计算能力的智能计算集群软件栈。集成了致远深耕的多种AI芯片关键技术，包括异构算力智能调度与管理平台九鼎、支持多种AI异构算力的并行训练与提升框架、支持多种AI异构算力的高性能算子等。多种AI芯片架构。库和、集群诊断工具和AI芯片评估工具。就像一个“操作系统”，集成了异构算力管理、算力自动迁移、并行训练优化、高性能算子等功能。向上支撑大模型训练、推理、评估等重要任务，向下管理底层异构算力、高速网络、分布式存储等。目前已支持超过50个团队的大型模型研发，支持8种芯片，管理超过4600张AI加速卡，已稳定运行20个月，SLA超过99.5%，帮助用户实现高效稳定的集群管理、资源优化、大模型开发。此次启动将为我国新一代智能计算中心建设提供助力，显着提升智能计算集群能力，加快大模型产业发展。

2.首批数千万级高质量开源指令微调数据集

陈翔的中文_陈翔中文网_陈翔最新视频

高质量的指令数据是大型模型表现的“养分”。致远研究院发布了首个千万级高质量开源指令微调数据集的开源项目。第一阶段已验证的300万条中英文教学数据的发布将于近期完成。完成千万级指令数据的开源。致远对现有开源数据进行领域分析贝语网校，确保类型分布合理；对大规模数据进行质量筛选，保留高价值数据；对开源数据缺乏的领域和任务进行数据增广，结合人工标注进行改进数据质量。控制以避免合成数据分布偏差。目前开源的300万条指令的数据集已经展现出超越等的SFT数据能力，我们预计升级到千万级数据级别后，基础模型将基于该指令进行训练，对数据集进行微调，对话模型能力将达到GPT-4级别。

3.全球最大的开源中英文多行业数据集

为了加速大模型技术的产业应用进程，致远研究院构建并开源了中英文多行业数据集，共3.4TB预训练数据集，其中中文1TB，2.4TB英文版，涵盖18类行业，分类准确。率已达80%，未来计划增加至30个品类。

致远构建多行业数据算子训练行业分类和质量过滤模型，实现高效、高质量的预训练数据处理流程，并提出一套提高微调数据集问题复杂度、解答思维链的方法，以及处理预训练、SFT 和 RLHF 数据的多轮问答质量过滤方法。

为了验证行业数据集的性能，致远训练了医疗行业演示模型。与继续预训练之前的模型相比，总体客观性能提高了20%。我们制作的医学SFT数据集和DPO数据集经过微调，训练后相比参考答案的主观胜率达到82%，多轮对话能力5分制得分达到4.45。

行业预训练数据集：

医疗示范模型地址：

医学演示模型SFT数据集地址：

医学演示模型DPO数据集地址：

4、支持多种AI异构算力的并行训练框架首次突破

首次实现了不同厂商的跨节点RDMA直连以及异构集群上多种并行策略的高效混合训练，成为业界首个同时支持多机上纵向和横向扩展两阶段增长模型的训练框架。异构人工智能芯片。

支持语言和多模态模型的密集和稀疏训练，可实现1M长序列的大规模稳定训练和推理；支持基于国产算力的8x16B千亿参数MoE大语言模型1024卡40天以上稳定训练，实现终端端到端的训练、微调和推理部署；支持不同架构的多个芯片的组合池训练。基于业界领先的异构并行策略，可达到85%以上的混合训练性能上限，与同构芯片的模型训练效果一致。 ;适配8种不同的国内外芯片，可以在不同集群中进行大规模训练和验证，实现损失和收敛曲线一点一滴的严格对齐。

5.大型模型的开源算子库

为了更好地支持多种AI芯片的统一生态发展，致远研究院推出了开源大模型算子库，包括首个通用算子库和大型模型专用算子库，可以基于统一的算子库开源编程语言。提高算子开发效率，同时实现多芯片共享算子库。

目前主流语言和多模态模型所需的127个算子中，通用算子库已覆盖66个，预计2024年底实现全覆盖。大型模型专用算子库包含6个最新算子经常使用并且遵循算法的前沿。它为用户提供了编程示例和可定制的运算符。

陈翔的中文_陈翔最新视频_陈翔中文网

它采用了专为类别运营商设计的自动代码生成技术。用户可以通过简洁的计算逻辑描述自动生成高效的代码。该技术已应用于31类算子，占整个算子库的47%。同时，基于运行时优化技术，算子运行速度提升70%，保证算子的高性能。

6、大模型评测全面升级

打造一把衡量大模型能力巅峰的“尺子”，是一个充满挑战的科学研究问题。致远坚持科学、权威、公平、公开的原则，不断推动评估工具和方法的迭代优化。自2023年发布以来，大模型评测已从主要语言模型扩展到视频、语音、多模态模型，实现多领域全覆盖。采用主客观相结合、开卷和闭卷综合检查方式。首次与权威教育部门联合开展。大模特K12科目测试，并与中国传媒大学合作构建文科视频模特主观评价体系。致远研究院与全国10余所高校和机构合作构建评估方法和工具，探索基于人工智能的辅助评估模型，为大型模型新能力创建具有挑战性的评估集，其中包括与北京大学联合打造的评估集，与北京师范大学共建的CMMU多模态评估集、多语言跨模态评估集MG18、复杂代码评估集TACO、长视频理解评估MLVU等。大学是目前世界上最大的大学。对话场景中最大的幻觉评估集，超过18,000轮对话，超过140,000个答案。

致远研究院牵头成立IEEE大模型评测标准组P3419，与人脸社区合作发布多个榜单陈翔中文网，与新加坡IMDA合作，共同为AI贡献先进的评测数据和裁判模型，推动大模型评测。方法和工具的国际合作。

大型模型先驱齐聚，探索AGI之路

在2024北京智能源大会开幕式上，Sora与DALL·E团队负责人、纽约大学助理教授谢赛宁就多模态模型的技术路径和未来演进方向进行了观点碰撞。

在致远研究院董事长黄铁军主持的聊天中，01王CEO李开复和中国工程院院士、清华大学智能产业研究院院长张亚勤分别分享了自己的判断。通用人工智能技术的发展趋势。。

百度CTO王海峰分享了《大模型带来通用人工智能的曙光》报告。

在通向AGI的巅峰对话中，致远研究院王中原、百川智能CEO王小川、智普AICEO张鹏、月之暗面CEO杨志林、长城CEO李大海——面向智能，畅谈大模型的技术路径依赖与突破，对开放生态与封闭研究、商业模式探索等热点话题进行深入探讨。

未来，致远研究院将继续坚持原始技术创新，在前沿方向探索路线，广泛链接学术生态，赋能产业发展。

编辑：陈翔