从云原生到AI原生:KubeCon China 2025揭示的技术融合之路
2025年6月10-11日,由CNCF和Linux基金会联合主办的KubeCon + CloudNativeCon China 2025在香港盛大召开。与往届不同的是,本届大会的核心议题已经从"如何上好云"转向了"如何让云原生支撑AI"。云原生与AI的融合,正在从概念讨论走向工程落地。
华为全栈开源:从硬件驱动到集群调度的统一方案
华为在本届KubeCon上展示了令人印象深刻的全栈开源基础设施方案。通过openEuler、Volcano、Karmada、KubeEdge等项目的协同,华为实现了从硬件驱动到集群资源调度、再到边缘协同的完整链路。特别值得注意的是Volcano + Karmada组合在B站的应用实践——支撑亿级月活用户的AI工作负载调度,充分验证了这套方案的生产可行性。
华为首席开源联络官、CNCF董事任旭东在Keynote中强调:当前AI工作负载管理的核心挑战在于算力规模和集群协同。异构算力的统一管理、Topology感知调度、以及对PyTorch/TensorFlow/MindSpore等主流框架的统一支持,将成为下一阶段开源基础设施竞争的关键。
集群并行计算:大模型落地的必由之路
任旭东的观点值得深思:集群并行计算提升算力规模,将是企业突破算力瓶颈、实现大模型落地的必由之路。数据并行、模型并行、流水线并行等分布式范式的工程化实现,直接决定了万亿参数模型的商业化进程。这不是一个纯粹的技术问题,更是一个工程整合问题——如何让不同的开源项目在统一架构下高效协作,考验的是社区的整合能力。
AI-Native基础设施的特征
从本届KubeCon的演讲分布来看,AI-Native基础设施正在形成以下几个特征:第一,调度器需要感知AI工作负载的特殊需求(如GPU拓扑、NVLink亲和性);第二,存储需要适配大模型训练的高吞吐场景;第三,网络需要支撑分布式训练的AllReduce通信模式;第四,边缘计算需要向"边云协同AI"方向演进。
小编观点
KubeCon China 2025给我的最大感受是:云原生社区正在经历一次深刻的"AI焦虑"。传统的容器编排能力已不足以支撑AI时代的需求,但抛弃Kubernetes从头建设也不现实。务实的选择是在K8s基础上构建AI-Native扩展层——Volcano、Karmada、KubeEdge这些项目正是这一思路的产物。对于后端团队而言,理解AI工作负载对基础设施的特殊要求,比学习新的编排工具更重要。
评论 (0)