云原生向AI原生演进：KubeCon China 2025技术趋势

从云原生到AI原生：KubeCon China 2025揭示的技术融合之路

2025年6月10-11日，由CNCF和Linux基金会联合主办的KubeCon + CloudNativeCon China 2025在香港盛大召开。与往届不同的是，本届大会的核心议题已经从"如何上好云"转向了"如何让云原生支撑AI"。云原生与AI的融合，正在从概念讨论走向工程落地。

华为全栈开源：从硬件驱动到集群调度的统一方案

华为在本届KubeCon上展示了令人印象深刻的全栈开源基础设施方案。通过openEuler、Volcano、Karmada、KubeEdge等项目的协同，华为实现了从硬件驱动到集群资源调度、再到边缘协同的完整链路。特别值得注意的是Volcano + Karmada组合在B站的应用实践——支撑亿级月活用户的AI工作负载调度，充分验证了这套方案的生产可行性。

华为首席开源联络官、CNCF董事任旭东在Keynote中强调：当前AI工作负载管理的核心挑战在于算力规模和集群协同。异构算力的统一管理、Topology感知调度、以及对PyTorch/TensorFlow/MindSpore等主流框架的统一支持，将成为下一阶段开源基础设施竞争的关键。

集群并行计算：大模型落地的必由之路

任旭东的观点值得深思：集群并行计算提升算力规模，将是企业突破算力瓶颈、实现大模型落地的必由之路。数据并行、模型并行、流水线并行等分布式范式的工程化实现，直接决定了万亿参数模型的商业化进程。这不是一个纯粹的技术问题，更是一个工程整合问题——如何让不同的开源项目在统一架构下高效协作，考验的是社区的整合能力。

AI-Native基础设施的特征

从本届KubeCon的演讲分布来看，AI-Native基础设施正在形成以下几个特征：第一，调度器需要感知AI工作负载的特殊需求（如GPU拓扑、NVLink亲和性）；第二，存储需要适配大模型训练的高吞吐场景；第三，网络需要支撑分布式训练的AllReduce通信模式；第四，边缘计算需要向"边云协同AI"方向演进。

小编观点

KubeCon China 2025给我的最大感受是：云原生社区正在经历一次深刻的"AI焦虑"。传统的容器编排能力已不足以支撑AI时代的需求，但抛弃Kubernetes从头建设也不现实。务实的选择是在K8s基础上构建AI-Native扩展层——Volcano、Karmada、KubeEdge这些项目正是这一思路的产物。对于后端团队而言，理解AI工作负载对基础设施的特殊要求，比学习新的编排工具更重要。