上海交通大学 EPCC新兴并行计算研究中心

EPCC实验室2篇论文被体系结构领域顶会ASPLOS'24 Fall接收！

发表日期: 2024-02-29

近日，体系结构领域四大会议International Conference on Architectural Support for Programming Languages and Operating Systems （ASPLOS 2024）秋季Fall轮放榜，此次收到340篇有效投稿，仅39篇被接收（接收率11.5%），并有33篇major revision进入ASPLOS 2025 Spring轮修改。EPCC实验室在Spring和Summer轮收获5篇的前提下，此次又有2篇论文接收，恭喜同学们！！

距离正式会议交流和论文公布还有一段时间，我们在这里提前放出内容前瞻，对接受的2篇论文进行介绍。

论文1：FaaSMem: Improving Memory Efficiency of Serverless Computing with Memory Pool Architecture

作者：Chuhao Xu, Yiyu Liu, Zijun Li, Quan Chen, Han Zhao, Deze Zeng, Qian Peng, Xueqi Wu, Haifeng Zhao, Senbo Fu, Minyi Guo

在无服务器计算(Serverless Computing)中，为了避免耗时的容器冷启动，闲置容器不会被直接回收。这些闲置容器仍然占用内存，加剧了当今数据中心的内存短缺问题。应用内存池架构，将冷内存卸载到远端是一种可能的途径。然而，现有的卸载策略在Serverless场景中要么损害了服务质量，要么过于粗粒度。

为此，我们提出了 FaaSMem，一种专为Serverless定制的内存卸载机制。该机制的提出基于我们的发现，即Serverless容器在不同阶段分配的内存具有不同的使用模式。如上图所示，FaaSMem 提出了Page Bucket (Packet)，将内存页面分隔成不同的阶段，并对每段定制卸载策略。此外，FaaSMem 还在容器keep-alive阶段中引入半暖期，使得闲置容器以渐进的方式进行卸载，以便在卸载效果和远端访问带来的性能损失之间寻找一个平衡点。实验结果表明，FaaSMem将平均本地内存占用减少了至多79.8%，将容器部署密度提高了至多218%，而对应用的95%分位数时延的增加可以忽略不计。

本篇工作也是既FaaSFlow (ASPLOS 22)、DataFlower (ASPLOS 23 Fall)、FaaSGraph (ASPLOS 24 Spring)之后，将内存池架构应用于Serverless的进一步探索。

论文2：Fractal: Joint Multi-Level Sparse Pattern Tuning of Accuracy and Performance for DNN Pruning

作者：Yue Guan, Changming Yu, Yangjie Zhou, Jingwen Leng, Chao Li, Minyi Guo

模型剪枝可消除冗余参数并降低计算复杂度，是高效部署深度神经网络（DNN）的可行策略。由于剪枝后稀疏 DNN 模型的内存访问和计算模式不规则，现有技术提出了各种结构化稀疏模式，以提高稀疏 DNN 的性能。在这项工作中，我们提出了一个独特的视角，将现有的稀疏模式设计理解为将张量计算分解成多级分层后的计算跳过。这种统一的视角开辟了多层次稀疏平铺的新设计空间，以最大限度地提高 DNN 的稀疏性优势，而不是目前实践中的单层次选择。另一方面，多层次稀疏平铺在不同算子（或层）的精度偏好、自动代码生成以及巨大的性能和精度调整空间方面提出了多重挑战。

图片1.png

为了克服这些挑战，我们提出了Fractal一种用于稀疏模式的自动调整系统，它能找到最佳的多层次稀疏模式。我们引入了一种新颖的高级中间表示(IR) PatternIR，用于表达各种多级稀疏模式。通过利用先前密集算子优化的洞察力，我们将 PatternIR 转译为更低级的IR，促进了进一步的算子优化和代码生成。我们的评估结果表明，与最先进的稠密算子相比，在 75% 的稀疏度条件下，Fractal 在 GPU 的 CUDA Core 和 TensorCore 上的平均速度分别提高了 3.16 倍和 2.52 倍，同时与之前的稀疏算子库相比，精度降低幅度极小。

图2.png