当前市场普遍聚焦于云端算力发展,忽视了边缘算力在 AI 乃至社会数字化发展中的重要 地位。随着 AI 大模型应用逐渐渗透进入千行百业和各类垂直细分场景,单纯的大规模计 算中心提供的算力将不能够满足多样化的 AI 运算需求。基于几点判断,我们大家都认为边缘算力 具备不可或缺性: 第一,未来随着计算芯片加速发展,单位算力成本中,电费与土地费用占比将愈发提升, 算力成本将取决于智算中心的地理位置,以我国举例,未来算力成本较低的西部将是云 端算力主要部署地。因此,大算力与低时延需求将出现错配。 第二,AI 模型推理 Token 费用较贵,若需要成熟商用,边缘预处理将是必须选项。通 过边缘部署的算力,将用户的多样化需求来做本地的预处理,简单的需求直接利用本地 模型和算力推理,复杂需求通过边缘算力预处理后,精简成最少的 TOKEN 发送至云端, 从而能够最低成本的实现应用功能,加速商业化。同时,面向小算力时,ARM 架构由于 其架构简单,比英伟达复杂架构计算卡更具成本优势,也将加速边缘小算力的渗透速度。
最后,无论是对用户个人敏感数据进行推理,还是推理设计商业敏感数据,完全与云端 隔绝的边缘算力,能为用户更好的提供最好的数据安全保护。因此,从时延、成本、隐私三大 方面来看,边缘算力未来算力体系的重要构成部分,也是 AI 需求连接万物的毛细血管。 当前市场普遍聚焦于边缘场景中的大单品逻辑,忽视了边缘生态的多样性。当前市场聚 焦于智能音响,智能耳机等大单品及其部件,主要是其作为 AI 入口的逻辑更具备直接 性。但我们大家都认为,随着 AI 加速向边缘渗透,应用的形式将愈发多样,慢慢的变多的中小厂 商将参与到不同场景,不同细致划分领域的 AI 智能硬件开发中来。随着应用形式愈发多样, 如何在海量不同设备上部署标准化的 AI 边缘算力将成为一个重要问题。我们判断,物联 网模组将成为承载这类算力的重要形式。物联网模组集成了通信芯片与全球大厂的算力 芯片,能为海量场景和中小厂商提供稳定的边缘通信能力和边缘算力,大幅度的降低了中小 开发者部署边缘算力的门槛和难度。AI 时代,是万众创新的年代,海量的开发将来自中 小开发者,而模组提供的算力,将成为边缘算力中的重要部分。
今年年初,随着 Chatgpt 的发布,以 LLM 模型为主导的生成式大模型快速地发展。在 Chatgpt 之前,AI 发展通常以面向细分行业的小模型为主,追求较小运行成本下的较快商业化。 Chatgpt 问世之后,证明了“野蛮”堆砌参数与算力的生成式模型之路是可以走通的,因 此,短期内全球 AI 模型开发的风向转向了堆砌参数与算力的模式。 随着 GPT-4 的发布,标志大语言模型正式迈入了多模态时代,参数量近一步膨胀。4 月 份,OPENAI 创始人 SAM Altman 在一场 MIT 举办的活动上表示,“未来的 AI 进展不会 来自于让模型变得更大”,我们大家都认为,这代表着 OPENAI 之后的努力将会更多的转向如何 让现有的大模型更好用,渗透进更多的场景。
从北美的趋势来看,当下,在大模型基础上,快速建立小模型生态,正是许多大模型龙 头正在高速推进的发展趋势。如何推动模型实现“人人可训,人人可用”已经成了海外 大厂争相布局的方向。 4 月 12 日,微软正式开源 DeepSpeedchat 训练模型,这个训练方式拥有三大核心优势, 第一,简化 ChatGPT 类型模型的训练和强化推理体验,第二,DeepSpeed-RLHF 模块, 第三,DeepSpeed-RLHF 系统。 基于这三大特性,DeepSpeed-HE 比现有系统快 15 倍以上,使 RLHF 训练快速且经济实 惠。例如,DeepSpeed-HE 在 Azure 云上只需 9 小时即可训练一个 OPT-13B 模型,只需 18 小时即可训练一个 OPT-30B 模型。这两种训练分别花费不到 300 美元和 600 美元。 此外,该系统能支持超千亿参数的模型训练,并且增强了对于单张显卡的训练支持, 仅凭单个 GPU,DeepSpeed-HE 就能支持训练超过 130 亿参数的模型。
如果说 DeepSpeedchat 是模型界迈向应用与生态建设的第一步,那么在五月初的几大 变化,让我们更坚信了,万物搭载模型,模型赋能万物的时代正在加速到来。 首先,便是知名华人 AI 研究者陈天奇牵头开发的 MLC-LLM 解决方案,MLC LLM 为用户 在各类硬件上原生部署任意大型语言模型提供了解决方案,可将大模型应用于移动端(例 如 iPhone)、消费级电脑端(例如 Mac)和 Web 浏览器。 MLC 的基本功能包括了: (1)支持不相同的型号的 CPU、GPU 以及别的可能的协处理器和加速器。 (2)部署在用户设备的本地环境中,这些环境可能没有 python 或其他可用的必要依赖 项;通过仔细规划分配和积极压缩模型参数来解决内存限制。 (3)MLC LLM 提供可重复、系统化和可定制的工作流,使研发人员和 AI 系统研究人员 能够以 Python 优先的方法实现模型并来优化。MLC LLM 可以让研究人员们快速试验 新模型、新想法和新的编译器 pass,并进行本地部署。
其次,我们正真看到了随着 Meta 开源 LLaMA,整个北美 AI 开发者中,正在快速兴起基于 LLaMA 的训练风潮,同时随着 Lora 等训练方法的加速渗透,我们判断,中小开发者蒸 馏,训练,部署自由模型的成本正在快速降低,整个开源生态下,模型梯度分布的格局 正在加速建立。 Lora 训练法通过冻结预训练的模型权重,并将可训练的秩分解成矩阵注入到 Transformaer 架构的每一层,极大的减少了下游任务的可训练参数的数量,有效提升了 预训练模型在下游任务的 finetune 效率。
上述的三种模型或解决方案,DeepspeedChat,MLC-LLM,Lora 模型,其中 Deepspeed 与 Lora 模型给中小开发者提供了低成本,快速训练专属于自己的小模型的完整工具,而 MLC-LLM 则为中小开发者在算力较低的环境或者边缘进行模型的推理搭建了基础,三大 工具,我们大家都认为已形成了 AI 走向边缘的“基建雏形”。 上文阐述了来自开源社区或者中小开发者参与的模型应用变化,在 Chatgpt 面世以来, 大厂也在加速边缘推理能力,小模型的开发。
2 月,全地球手机与 IOT 芯片龙头高通,展示了其在搭载 8Gen2 的手机平台生利用 StableDiffusion 生成了图片,耗时小于 15 秒。在 5 月,高通通过持续优化,将生成图片 的时间缩短至 12 秒。
高通通过与其芯片配套的全栈AI优化方案,将 stable diffusion 模型从 FP32 压缩至 INT8, 显著的降低了运行时延和能耗,以此来实现了模型在手机算力上的安全高效推理。高通发 布的全栈 AI 工具,包括了 INT8 转化,最小化内存溢出,适配 Hexagon 处理器的 AI 加 速等功能,能够让 OEM 厂商快速在高通的算力环境中部署其 AI 应用。
在 5 月,谷歌也发布了其全新的语言大模型 PaLM2,并作为发布会中大部分 AI 功能的 基础模型,有必要注意一下的是,PaLM2 是一个拥有众多版本和参数量的模型体系,其包含了 4 个不同参数的模型,包括壁虎(Gecko)、水獭(Otter)、野牛(Bison)和独角兽(Unicorn), 并在特定领域的数据上进行了微调,为企业客户执行某些任务。其中 PaLM 2 的最轻版 本 Gecko 足够小,可以在手机上运行,每秒处理 20 个 tokens,大约相当于 16 或 17 个 英文单词,谷歌在模型梯度分布上的重视程度,也进一步验证了小模型作为 AI 渗透进入 万千场景的必要性。
将视角拉回国内,国内厂商在边缘小模型上也正在加速布局,5 月,中科创达发布 Rubik 魔方大模型,依据公司官网介绍,中科创达基于在机器人领域的深厚积累,中科创达将 智能音箱与机器人进行融合,并通过中科创达魔方 Rubik 大模型的不断训练,已经实现 了能够自由对话的智能销售机器人,可以自主回答客户关于企业及产品的很多问题,为 企业营销及客户拓展提供了新的助力。
可以看出,除了开源社区和前沿学者正在不断加速模型的可用性,以及边缘推理的探索, 慢慢的变多的大厂也加入到了布局边缘模型的新一轮“军备竞赛”中来,我们大家都认为,随着 两方的共同努力,一个由“基础模型”,“低成本定制工具”,“模型优化工具”三者共同 构建的边缘模型生产与利用体系将会飞速发展。
当前市场主要聚焦于云端算力,但往往忽略了云端之外的算力同样重要,未来随着摩尔 制成达到极限,数据传输成本,时延,隐私等等因素的影响,我们早在 2022 年发布的报 告《算力革命:泛在、绿色与生态》中就强调了由运算算力,边缘算力,本地算力共同 构成的“泛在”算力,是算力的终极存在形式。 算力当前的供需格局决定了,“泛在”或者是“梯度分布”将会是算力最终的呈现方式, 云计算和边缘计算的有机结合:“云—边”一体有望流行。下面我们将从算力的供需角度, 来阐述“泛在”的必要性。
供给端 1:受到量子隧穿效应影响和商业化成本影响,硅基单核芯片制程将在 3nm 达 到极限。硅基芯片晶体管的栅长在低于 3 纳米时极易发生量子隧穿效应(其原理为,当 栅长缩小到某些特定的程度的时候,即使没有加电压,源极和漏极都接近互通,晶体管便失去 了开关的作用,因而没办法实现逻辑电路)。因此,通过更先进的纳米制程工艺提升单核 芯片性能将面临技术上的严峻挑战。 由于量子隧穿效应的存在,3 纳米后,单芯片成本将会急剧上升,华为与罗兰贝格数据 显示,3 纳米制程手机端旗舰级 SoC 单芯片(以高通骁龙 855 为例)成本较 7 纳米显著 增加约 200 美元,高昂的成本将会极大程度制约计算机显示终端需求,最终降低算力供给的增 加。
即使在能够接受较高成本的大型数据中心等用户中,处理器性能的提升依旧受到制约, 受存储、系统、软件限制(性能)和单位算力功耗显著上升(功耗)两大因素影响,芯 片核心数量将在 128 核达到上限。根据罗兰贝格数据,现有的冯·诺依曼架构下,通过 拟合不同核心数量的芯片计算能力样本数据,我们发现多核处理器随核数增长,算力增 长的倍数快速下滑:从 2 核增至 4 核时,总算力可提升 1.74 倍,而当核数由 128 核增 至 256 核时,总算力水平仅能提升已跌破 1.2 倍(1.16X),已显著丧失经济性。
在单核性能以及多核提升带来的双重压制下,大型数据中心带来的增量算力边际增量将 会迅速递减,而兴建大型数据中心需要的土地,人力,时间成本将在海量算力时代制约 “集中式”的算力发展。
供给端 2:算力爆发的背景下,网络性能限制和成本将会导致数据中心的算力难以满足 复杂场景下的需求。网络带宽及网络时延共同决定了网络信道的传输质量,影响到网络 算力的发挥。具体而言,“网络化”算力的使用需要经历终端与云端的数据双向传输过程, 这段过程是通过网关、基站、数据中心等不同网节点之间的信道所实现的,其中信道的 容量决定了传输的速率(带宽),信道的长度与材质决定了数据传输的时延,两者共同影 响了数据传输的效率。
即使随着当今 5G 网络加速完善,无论从时延以及容量都相较于 4G 网络出现了较大程度 提升,但相对于未来社会的海量数据需求来看,完全依靠 IDC 提供算力支撑仍是效率较 低的选择,无论是智能驾驶对于时延的要求,亦或是传输高清视频图像等带来的大额带 宽成本,都将进一步加剧“集中式”算力与“分布式”需求的错配。
供给端 3:算力高能耗与全球双碳目标之间的矛盾。 随着芯片制成逐渐接近量子隧穿效应发生的制程,当前主流芯片的能效比正在逐渐接近 极限。单位算力功耗在过去 10 多年间经历了显著下降,但随着硅基芯片工艺制程提升的 难度凸显,其进一步下探幅度有限,这意味着,等量算力的提升,即将对应等量能耗需 求的提升。面对未来百倍的算力需求,高能耗问题将成为人类算力发展过程中的重要瓶 颈。 同时,随着我国双碳目标的提出,对于数据中心的耗电量,PUE 值都提出了更严格的要 求,截至 2020 年底,中国数据中心耗电量已经突破 2000 亿千瓦时,能耗占全国总用电 量的 2.7%,随着数据中心进一步扩容,算力需求进一步提升,解决数据中心能耗问题的 需求也愈发迫切。在可见的未来,具备低时延特性的核心城市 IDC 供给将进一步被压 缩,如何通过有效的边缘侧处理手段,使得有限的核心城市算力资源得到充分利用,也 是本轮“算力革命”急需解决的难题。
需求端:智能化社会大潮下,对应百倍流量增长需求。随着以人工智能、物联网、区块 链、AR/VR 等关键信息技术逐渐成熟,社会中大量智能化场景将得到实现。根据罗兰贝 格报告,人工智能技术将推动无人驾驶、智能办公、智慧医疗等场景的有效落地,物联 网技术将推动智能消防、智慧工厂、智慧农场、智能家居等场景落地,区块链技术将推 动应用于数字证书、信息加密等场景落地,AR/VR 技术则可推动智慧商场、游戏、智慧 课堂等场景落地。这些场景未来将在产业领域实现跨越式发展、助力各产业创新、增强 产业数字化程度并增强市场活力,在政务领域帮助政府提升运行效率、提高城市管理水平、加强居民生活幸福度,在民生领域推动社会民生保障、创造宜居空间、实现可持续 化发展,共同推动社会向智能社会发展。
根据华为《泛在算力报告》,在人工智能、物联网、区块链、AR/VR 四大领域,到 2030 年,相比 2018 年,都将出现百倍到千倍的算力需求增长,同时对于网络的延迟也提出了 更高的要求。
从算力需求看,人工智能技术对于算力的核心拉动点在于未来各应用场景内单设备芯片 算力的增长和人工智能技术的行业渗透率的进一步提升,物联网主要通过低算力物联网 设备的普及、配套云端计算中心和边缘端计算单元的增加共同拉动算力增长,区块链因安全问题要求的算力持续增长和应用场景的快速普及将带动以云服务器为主的算力增长, VR/AR 设备的普及和普及需要的云计算中心和边缘计算设备算力配套将共同推动整体算 力的增长。 从时延要求看,L3 级别的自动驾驶对于传输时延的要求在 10-20 毫秒,在进入 L4&L5 级 别后,对于传输时延的要求进一步提高到 10 毫秒以下;使用物联网建设智慧工厂对车间 内部的局域网络带宽需要达到 Gbps 级别,最高时延须控制在 5ms-10ms 以内;在 VR/AR 游戏中,端到端的时延至少需要小于 20 毫秒,才能保证在使用过程中避免感知到明显的 图像滞后而导致的眩晕。
由此可见,供给端的单芯片制程、能源限制,传输费用,与需求端的降本,能耗,时延 所带来的供需错配,是算力走向泛在的核心因素。近年以来,我们也看到了中国为了解 决算力调度问题所作出的努力,其中最具代表性的便是“东数西算”与三大运营商所提 出的“算力网络”。 为什么要强调“东数西算”或者是“算力网络”的重要性,因为我们认为,脱离了“网 络”的边缘算力是没有意义的,未来的边缘算力一定是通过“算力网络”,与云端大算力 一起,实现智能融合与实时调度,边缘预处理的 token 通过算力网络,调用云端算力进 行 token,科研机构通过“算力网络”调度系统,实时分配与匹配各类不同的算力需求, 可以说,“算力网”的作用,在 AI 时代,重要程度将不亚于通信网络。 当前,得益于我国“集中力量办大事”的优势,在“东数西算”这一顶层设计指挥下, 我国在“算力网络”建设上已经取得了领先世界的进度。
首先是“东数西算”,“东数西算”工程首次提出于 2021 年 5 月 24 日的《全国一体化大 数据中心协同创新体系算力枢纽实施方案》,此后,在国务院发布的《“十四五”数字经 济发展规划》中,也再次将其作为一个重要章节进行部署。 根据官方解读,“‘东数西算’中的‘数’,指的是数据,‘算’指的是算力,即对数据的 处理能力。”我国西部地区资源充裕,特别是可再生能源丰富,具备发展数据中心、承接 东部算力需求的潜力。“东数西算”就是通过构建数据中心、云计算、大数据一体化的新 型算力网络体系,将东部算力需求有序引导到西部,优化数据中心建设布局,促进东西 部协同联动。简单地说,就是让西部的算力资源更充分地支撑东部数据的运算,更好为 数字化发展赋能。
东数西算布局显示,整个工程共包含 8 大算力枢纽,承担我国算力网络的骨干连接点, 发展数据中心集群,开展数据中心与网络、云计算、大数据之间的协同建设,并作为国 家“东数西算”工程的战略支点,推动算力资源有序向西转移,促进解决东西部算力供 需失衡问题。围绕每个枢纽节点,都规划设立了 1 至 2 个数据中心集群。算力枢纽和集 群的关系,类似于交通枢纽和客运车站。国家发展改革委创新驱动发展中心副主任徐彬 说,数据中心集群将汇聚大型、超大型数据中心,具体承接数据流量。集群将获得更好 的政策支持、配套保障,同时在绿色节能、资源利用率、安全保障水平等方面也会有更 严格的要求。
东数西算工程自 2022 年 2 月正式启动以来,经过超过一年多的准备,八个国家算力枢 纽节点已经全部开工,正式进入全面建设阶段。截止 3 月 17 日,在已经开工的 8 个国 家算力枢纽中,今年新开工的数据中心项目近 70 个,其中,西部新增数据中心的建设规 模超过 60 万机架,同比翻了一番。至此,国家算力网络体系架构初步形成。 站在当前的 AI 爆发起点,我们再次回看“东数西算”工程,有道理相信国家的提前布 局,大力投入,将会是我国“算力”实现高效利用,在 AI 时代抢夺先机的重要基建。 基于东数西算体系,“算力网络”的建设就显得更加顺其自然。“算力网络”是当前三大 运营商建设的重要方向,三大运营商积累了众多的算力,机柜资源,如何通过“算力网 络”的建设,使得用户实现“有网络的地方就有算力”,将是运营商建设“AI”时代核心 资产的最重要方向。
中国移动的算力资源网络建设可以用“4+N+31+X”的数据中心布局来概括,即 4 热点 区域+N 中心节点+31 省级节点+X 边缘节点,中国移动近三年累计投资近 900 亿元,累 计投产云服务器 71 万台,覆盖“东数西算”全部核心枢纽;深化云边端协同发展,实现 中心云“一省一池”,建成边缘节点超 1000 个。
中国电信于 2022 年发布“云网融合 3.0”,提出六大特征:云网一体、要素聚合、智能 敏捷、安全可信、能力开放、绿色低碳。中国电信在智能算力领域布局相对领先,率先 构建“6+31+N+X”的四级 AI 算力架构,将有力提升天翼视联网等重点业务的数智化能 力。 中国联通明确推进架构先进、安全可靠、服务卓越的算力网络新布局,为数字经济打造 “第一算力引擎”。制定《联通算网融合发展行动计划 2022~2025》,提出通过云、网、 边、端、业的高效协同提供算网一体化的新型算力基础设施及服务,打造基于算网融合 设计的服务型算力网络,形成网络与计算深度融合的算网一体化格局,赋能算力产业发 展。 从三大运营商的布局可以看出,算力体系基本由从中心节点到边缘资源池的四层体系构 建,这也验证了我们上文所阐述的,算力梯度分布+算力网络建设是未来中国算力的最 终形态,从三家运营商的表述中我们也可以看出,“X”即边缘,是未来我国算力网络的 最重要组成部分之一,我们将在下一节中探讨,边缘算力网络资源部署的几种模式。
边缘计算,即将计算资源部署靠近用户和数据源的网络边缘侧,通过更靠近数据源或者 最终用户的距离,从而实现更低的时延、更好的隐私以及更优的成本。进入大模型时代 以来,我们认为边缘侧的定义应随着 AI 的发展进一步拓展,边缘计算应该当是离模型 推理发生处最近的算力,或者是帮助云端算力进行预推理的算力。 不同于由超大型数据中心与智算中心形式部署的云端算力,边缘算力的部署形式随着智 能设备以及边缘数据中心的出现变得愈发多样。我们认为,边缘算力的存在形式主要可 以分为两类,第一类是通过边缘算力芯片提供,通过定制 PCB 板输出,或者通过模组形 式输出。第二类则更加类似于传统数据中心,通过将机柜布置在离用户较近的机房中, 来获得类似于本地算力的便捷性。
目前,边缘算力的存在形式主流是边缘计算芯片。从全球来看,边缘算力芯片巨头厂商 主要包括了高通、苹果与英伟达三大巨头。其中,苹果的边缘芯片主要用于其生态体系 内的如 Iphone、Ipad 等产品内,英伟达边缘产品主要是车侧的自动驾驶芯片如 Orin, 这两家的体系较为封闭,搭载的产品数量也较少。而高通作为全球手机芯片巨头,基于 骁龙系列手机芯片推出了一系列专为边缘侧设计的模组芯片,将传统的 IOT 设备赋予了 算力,也改变了过去边缘侧设备只能基于功耗与成本较高的 X86 平台的格局。当下,主 流的物联网算力场景,如智能车机,智能零售等,普遍采用高通芯片来提供算力和搭载 系统。
经过多年迭代,高通于今年 4 月推出了最新一代的物联网芯片 QCS8550A/QCM8550,处 理器整合强大算力和边缘侧 AI 处理、Wi-Fi 7 连接以及增强图形和视频功能,为高性能 需求的物联网应用提供支持并助力其快速部署,比如自主移动机器人和工业无人机。上 述产品采用了高通优化的 AI 架构。高通 QCS8550 和高通 QCM8550 还支持增强的视频 和图形处理,支持沉浸式云游戏、视频协作和视频流媒体体验。我们认为,随着专为 AI 处理优化的 8550 系列芯片的推出,从芯片侧来看,海外巨头已经做好了将 AI 带入边 缘侧的基建准备。
将芯片的视角拉回国内,国内经过几年追赶,也涌现出了许多优秀的边缘芯片提供厂商, 他们聚焦于处理芯片或通信芯片,为边缘计算能力的国产替代添砖加瓦。从国内主要的 边缘算力 SOC 提供厂商包括了全志科技、晶晨股份、瑞芯微等厂商,而边缘通信芯片厂 商则包括了如翱捷科技、乐鑫科技、紫光展锐、移芯科技等厂商。
国内的边缘算力 SOC 厂商采取了与高通不同的发展策略,更多的走向了绑定大厂,大单 品的形式,从产品设计阶段开始,深度参与芯片与产品的融合与定制化开发,而高通则 更希望通过将芯片制作成模组,来为全球所有的中小开发者来提供标准化,易于获得的 边缘计算能力。 国内模组厂采用的定制化+大单品策略,一般是指客户基于边缘算力芯片,在 PCB 设计、 产品功能设计阶段就与该芯片进行绑定,从而设计并生产出能够完美适配芯片的产品,但前期定制 PCB,调试芯片的费用较大,需要用大批量出货来摊薄成本,并且一旦失败, 产品开发者需要承担较大的亏损。因此,大量采用国产边缘算力平台的厂家一般包括了 如智能音箱厂商、扫地机器人厂商等具有雄厚实力的公司。
与国内边缘算力厂商相反,高通凭借其全球市场领先地位,覆盖了海量的下游应用场景 与中小开发者,因此,高通边缘算力芯片中,最为重要的一个承载形式模式便是物联网 模组。 与偏向定制化的物联网芯片不同,物联网模组通过对高通算力芯片的预打包,预调试, 使得中小开发者可以通过开发板的形式,快速的获得基于模组的标准化的,稳定的通信 能力和边缘算力。通过较小成本,较短流程的开发,中小开发者可以利用模组快速完成 产品设计和制造,大大缩短了智能设备的开发周期。面向海量中小开发者+细分领域,我 们认为,模组是承载边缘算力无限想象空间的最佳形式。
上文提到的第二条路线是基于传统的数据中心架构,将机房放置在离客户较近或者离客 户掌控范围内的边缘算力部署模式。今年 4 月,上海市经济信息化委关于印发《上海市 推进算力资源统一调度指导意见》的通知中提出,要引导根据应用场景,利用存量通信 机房、变电站等设施按需灵活部署边缘数据中心。这便是对于该类边缘算力的部署模式 的探索。 上海的规划中指出的一类边缘算力部署模式便是在变电站中布置,当前,国家电网也在 积极探索利用闲置的变电站土地资源,探索“多站融合”的机会,其中就包括了基于变 电站的边缘数据中心建设。早在 2020 年 4 月,国网首个户外式大中型多站融合数据中 心交付,兰州 110 千伏砂坪变多站融合数据中心是以该变电站可复用站址资源,改建 632 平米旧仓库而成,共投产 7 千瓦机柜 172 面。
当前,边缘算力的需求方或者部署地往往是核心城市的市中心或热点地区,受制于核心 城市能耗指标,土地空间等因素影响,再额外兴建大型数据中心难度极大,因此结合如 变电站等闲置资源再开发,将是扩充我国边缘算力池的良好路径。 我们从 A 股上市公司年报中,发现了正在上海积极布局边缘计算的公司龙宇股份,公司 年报披露,公司基于前期的资源推进和布局规划,围绕城市智慧发展以及相关行业的数 字化转型发展需求,前瞻布局边缘计算 IDC 细分领域,携手相关合作伙伴和在上海中心 城区及五大新城逐步落实资源布点,逐步形成行业先发优势。同时,根据边缘算力中心 单一规模较小且分布较广的特点,积极探索业务在分布式 IT 技术架构、网络布局、智能 运营领域的创新模式,逐步搭建边缘算力网络架构。 梳理本段,我们认为,未来边缘算力将呈现设备本地算力+边缘算力池双线并行的发展 方式,中国的模组公司作为全球具有比较优势的企业,有望充分让中国制造赋能“全球 边缘”,而中国的边缘芯片公司,有望加速国产替代进程,让“中国边缘算力”加速渗透。 而 IDC 公司,则有望凭借边缘算力池的模式,通过边缘算力独有的优势,实现算力调度 收费,低时延优化收费等全新商业模式,打开行业发展空间。
当下市场以及投资者关注的应用方向,主要集中于基于云端算力的如 CHATGPT, Midjourney,Copilot 等等,而提起边缘智能设备或者边缘应用时,则更多的将其作为一 种“入口”,或是直接忽略“边缘算力”与 AI 结合的可能。 其实 AI 在边缘侧的应用或者“渗透”由来已久,其中最典型的案例便是如人脸识别,图 像处理等分析式 AI 功能。我们日常生活中见到的如自动驾驶,智能零售、智慧工厂、智 能巡检等场景均是由边缘或者本地端提供算力进行解决。如英伟达的 Orin,地平线等公 司的智能驾驶芯片,就是边缘算力运行 AI 模型的例子,自动驾驶芯片通过每秒分析上千 帧画面,来保证车辆对前方路况的理解并做出相应反应。同时,模组厂商也在积极探索 如何让模组算力更好的参与进车辆自动驾驶功能中来,如美格智能最新的 C-V2X MA925 系列模组,在帮助 T-BOX 与外界通信的同时,自身搭载的算力能够提供 GNSS 服务,并 能够内生解决 V2X 的运行,让 T-BOX 不再需要额外挂载处理芯片。
相比于需要利用高算力进行智能驾驶的乘用车,当下,许多小型无人设备的自动驾驶正 在越来越多的依靠模组来提供相关功能所需要的算力。如国内大型工业无人机厂商云圣 智能的“虎鲸Ⅲ”全自主工业无人机,就搭载了美格智能 5G 工业级通信模组 SRM815, 利用“机器人+人工”相结合的方式,可实现电力通道巡检,电力本体巡检,三维实景建 模等功能,模组在其中起到了如视频解析,传输,操控信号低时延传输等功能。
智能零售场景则是不同功能模组实现了如无人零售、自助结算、商品管理等功能。如美 格智能的通过对高通模组的理解与定制化开发,为客户在如无人售卖柜、人脸支付、智 能收银机。智能 POS 等方面推出了完整的解决方案。其中无人零售设计的人脸识别,图 像识别等,也是基于高通 14NM 芯片提供的算力进行部署。
一种更为通用的边缘算力应用,采用“边缘算力盒子”的形式进行呈现,相比于设备内 部搭载的边缘计算芯片,边缘计算盒子拥有更高的环境容忍度、更好的物理体积,更好 的散热,以及更大的算力部署能力,“边缘算力盒子”往往放置在如工厂产线、电线杆、 路灯等场景,用来支撑如产线X 等 AI 应用场景。 甚至,以模组形式承载的边缘算力,已经进入了数据中心,作为云算力的一部分为用户 提供服务。实时互动云创新服务商启朔科技,就利用刀片式服务器承载算力模组,实现 了 2U 机柜内部署 80 颗高通算力芯片,从而为云游戏、数字人渲染、工业 AI 检测等场 景提供算力。当前启朔科技已经成为了阿里云,网易游戏等的合作伙伴。
我们在这一段的前半部分,总结了当下边缘算力应用的主流形式,其中已经有了非常多 偏 AI 运算的需求,但我们不难发现,当前运行在边缘端的 AI 模型,更多的是以传统的 图像识别形式存在的“分析型”AI,而我们认为,真正能够让边缘算力需求扩张,或者 打开边缘 AI 天花板的“生成式”AI,则是下一阶段乃至未来需要在边缘应用侧更加关注 的重点,在“生成式”AI 在边缘设备的部署上,我们更愿意用本段标题中的“曙光初现” 来形容,各个大厂的先期产品和布局让我们看到了“生成式”走进边缘的路径和初步方 案,接下来,我们将会介绍两大方向,并阐述为什么边缘算力对这些场景是不可或缺的。
边缘应用方向 1:基于生成式模型的“智能助理”。 智能助理这一概念,最早火爆,是伴随“SIRI”的推出,消费者第一次系统性的认识到 了基于语音唤醒的智能助理这一概念。然而随着多年发展,这一形式的智能助理除了搭 载平台扩充到了如车机、智能音响、扫地机器人等平台外,其本质内核仍然没有改变, 依旧是基于对语音输入关键词的截取,在功能库中寻找对应的功能。并不具备主动生成 的能力。 我们认为,生成式 AI 将给“智能助理”这一应用方向带来重大改变,随着 ChatGPT 为 代表的大模型与“智能助理”融合,智能助理将变得更加拟人化,能够增强对于命令的 理解性和执行能力,给出的回馈也将更加优秀,而不会出现当下智能助理经常出现的“不 能理解您的意思”的情况。 第二,大模型的引入,将能够更好的方便“智能助理”的用户的生活习惯,行动轨迹, 以及保存在设备上的资料进行总结,从而给出更符合用户实际需求的答案,能够成为帮 助提高学习,工作效率的帮手。
第一种应用场景,我们已经看到了很多的积极变化,首先是小度科技融合文心一言打造 的针对智能设备场景的人工智能模型“小度灵机”,还有天猫精灵接入“鸟鸟分鸟”模型 打造“AI 嘴替”,并官宣将接入阿里大模型通义千问。在车机方面,我们也看到了模型接 入车机的进展,当前,上汽旗下的斑马智行 AliOS 智能汽车操作系统已接入通义千问大 模型进行测试。而四季度将发布的问界 M9 也将搭载大模型。
5 月 18 日,OpenAI 官方正式推出运行于的 ChatGPT,用户可以以手机为接口直接访问 有了它,用户可以输入问题并接收来自聊天机器人的回复。根据 OpenAI 的介绍,这款 APP 还包括语音识别功能,因此用户可以说出他们的问题。然而,机器人只会以书面形 式回应。该应用程序还可以跨各种设备同步基于文本的对话。进一步强化了手机的“智 能助理角色”。
第二种应用场景,我们观察到了海外爆火的应用“Rewind”,通过记录笔记本电脑的屏幕 输出信号与麦克风信号,并形成数据库,最后基于这些数据库与自有模型,帮助用户回 忆,总结在电脑上看到的,处理过的所有资料,大大提高了用户的工作效率。
基于两点应用方向和现在出现的应用趋势,我们判断,边缘算力将在“智能助理”类应 用的发展和商业化上起到重要作用,第一,智能助理面对的是海量用户,这些用户所提 出的 Prompt 将是及其复杂或者存在非常多的冗余,如何通过本地小模型,对用户的需 求进行预处理,从而将需要云端算力处理的 Token 将至最低,甚至对于不复杂的推理需 求,可以通过本地算力直接响应客户的真实需求。第二,对于像“Rewind”这类涉及到用户隐 私资料的部分,为了保证用户安全,所有的数据归纳将会完全依靠本地算力进行。因此, 在降本,隐私方面,边缘算力对于“生成式智能助理”能否形成商业闭环,至关重要。
边缘应用方向 2:具身智能。 具身智能是指能够理解、推理并与物理世界互动的智能系统。AIGC 的“智能”表现在能 够进行上下文理解和情景感知,输出文字、图像、声音,而具身智能能够在物理世界中 进行操作和感知,输出各种机械动作。通过物理环境的感知和实际操作,具身智能可以 获得更全面的信息和数据,进一步提高对环境的理解和决策能力。按照具身智能的定义, 目前具身智能的实例繁多,其中包括人形机器人、无人驾驶汽车等。 当下,例如特斯拉推出的人形机器人 Optimus、波士顿动力的 Atlas 和 Spot 已经具备接 近具身智能的能力,它们可以通过机器人的身躯来模拟人类或动物的行为和动作,更加 逼真地与人类进行互动。算法侧,特斯拉的 Dojo AI 超级计算机项目用于加速训练和推 理具身智能模型,英伟达的多模态 VIMA 可以驱动机器人识别物体并做出动作。我们认 为,具身智能凭借物理反馈、物理输出的特性,将是继 AIGC 之后的又一个现象级 AI 应 用。
基于现在具身智能展现出的能力,我们大家都认为,具身智能的两大核心是负责算力的芯片和 与外部通信的模组。当前物联网模组进入智能化时代,集成了边缘算力的智能模组正在 逐渐成为支撑边缘算力的核心形式。具身智能将边缘算力需求提升到了一个新高度,具 身智能的“大脑”不仅要处理视觉信息、生成提示词,更要负责输出指令来执行机械动 作。 例如特斯拉针对人形机器人开发了 DOJO D1 芯片,充沛的算力驱动 Optimus 机器人流畅地执行各种任务。因此我们大家都认为,在移动芯片无法满足所需算力 的场景下,边缘 IDC 将是算力的有效补充措施。
此外,通信能力也是决定机器人能力的核心。具身智能的通信强调低时延、多连接、连 续性能力,例如自动驾驶汽车上,L4 级别需要带宽100 Mbps,时延 5-10ms。具身智 能未来也有望进化成结构复杂、体型庞大或者多点分布的产品,各子模块之间需要信息 融合、多维感知、协同运行,本身也会需要稳定高速的无线连接。我们大家都认为,未来具身 智能将会越来越强调边缘通信能力与边缘算力的匹配和耦合,而两者结合的最好形式, 算力模组,将有望成为具身智能的“大脑”。 站在当前时点,我们大家都认为,除了已经日趋成熟的基于传统分析式人工智能的边缘算力应 用场景,我们更应该关注到生成式 AI 在边缘渗透的“曙光”已经出现。未来,越来越多 像智能助理、具身智能一样拥有广阔空间的新应用将会涌现,带动边缘算力实现跨越式 发展。
(本文仅供参考,不代表我们的任何投资建议。如需使用相关信息,请参阅报告原文。)