紫金山实验室未来网络研究中心研究员张娇与字节跳动高速网络团队共同合作完成的论文《Hostping: Diagnosing Intra-host Performance Bottlenecks in RDMA Servers》被NSDI 2023会议录用,这是紫金山实验室在该会议发表的首篇论文,作为计算机网络领域顶级会议,USENIX NSDI对论文的质量和数量要求极高,要求论文具有基础性贡献、领导性影响和坚实系统背景,其收录的论文对学术界和工业界发展均具有深远的影响。
Hostping框架图
本论文研制了全球首个专用于RDMA(Remote Direct Memory Access)数据中心主机内网络的瓶颈监测与定位系统,旨在提升高速RDMA网络中主机内网络的瓶颈定位效率。传统主机内网络很少成为网络应用的性能瓶颈,因而较少受到关注。然而,近几年来,云业务数据量激增,RDMA网卡速率也随之迅速提升,100G/200G RDMA网卡已在数据中心内得到了广泛应用。在超高速数据中心场景下,主机内网络出现瓶颈变得愈发频繁,包括主机内带宽降低和主机内延迟增加等,这会严重影响云业务性能。现有的主机内性能分析工具无法有效诊断主机内网络瓶颈,需耗时数小时甚至数天时间来定位故障。在此背景下,本文分析了造成主机内瓶颈的主要原因,并设计开发了首个专用于数据中心主机内网络的瓶颈监测与定位系统,可实现低开销分钟级主机内故障定位,有效提升RDMA数据中心集群的算力平稳输出能力。
Hostping实验结果图