【Best Paper】EPCC实验室论文在ISCA和IWQoS会议上获提名!

在2024年的体系结构领域顶级会议ISCA(International Symposium on Computer Architecture)上,EPCC团队助理研究员侯小凤老师与硕士研究生许同樵共同撰写的论文《A Tale of Two Domains: Exploring Efficient Architecture Design for Truly Autonomous Things》被接收,本次本届会议的论文录用率仅为19.62%。该论文从“开源(拓宽供电来源)”角度探讨了新一代智能自主计算设备的高能效架构设计同时,该论文获得了2024 ISCA最佳论文提名奖,为本年度国内唯一入选成果

同时,侯小凤老师与硕士研究生唐鹏完成的论文CPM: A Cross-layer Power Management Facility to Enable Highly-efficient Real-time AIoT Systems”获得了2024 IWQoS最佳论文优胜奖。该论文从“节流(降低推理浪费)”角度优化了边缘人工智能推理的能耗管理系统。以上两篇论文由EPCC团队负责人过敏意教授指导,李超教授为两篇论文的通讯作者



论文1A Tale of Two Domains: Exploring Efficient Architecture Design for Truly Autonomous Things


研究背景:随着人工智能技术的不断发展,人工智能物联网(Artificial Intelligence of Things, AIoT)正构建一种新兴的生产力,AIoT设备正协助人类在各个场景中安全且高效地完成复杂任务。传统AIoT架构设计高度依赖外部的能量和计算资源,阻碍了其广泛普及和部署。在这一现状下,自主计算(Autonomous ThingsAuT)架构被认为是下一代有潜力的AIoT范式。AuT架构通过能量收集实现能量自主(Energy Autonomy, EA)、通过本地计算实现推理自主(Inference Autonomy, IA),实现了高可持续性和低维护成本。然而,现存的AuT设计方法缺乏对能量自主与推理自主的协同设计,导致最终设计的能效低、延迟高、体积大

论文中提出CHRYSALIS架构示意图

 

内容摘要:为了弥补现有设计方法的不足,作者提出了CHRYSALIS,这是一种面向AuT的综合且全面的设计框架,旨在实现能量自主与推理自主的协同设计。CHRYSALIS引入了针对AuT的描述、评估、搜索方法,以生成适用于特定场景的理想AuT设计。首先,本文提出了基于组件的软硬件设备描述,保证能够以可扩展的形式支持对各类异构设备进行建模;其次,本文通过逐步仿真和多场景配置对设计全面评估;最后,本文通过双层搜索方法分离硬件和软件的设计空间提高设计效率。通过在多个场景下进行实验分析,本文说明了CHRYSALIS在进行快速AuT原型优化和专用硬件预先设计方面能够显著提升架构效率,其中在原型优化方面能够在最终系统上实现优于基线79.7%的效率提升。CHRYSALIS在能量自主和推理自主的协同设计方面开创了新的方法,为未来高效的自主计算设备的发展提供了重要的工具和技术支持。




论文2CPM: A Cross-layer Power Management Facility to Enable Highly-efficient Real-time AIoT Systems

研究背景:随着人工智能技术的快速进步和广泛应用,将强大的深度神经网络(DNN)模型部署到靠近用户的AIoT(人工智能物联网)设备中变得越来越具有吸引力。然而,实现DNN工作负载在能量受限的AIoT环境中的严格服务质量(QoS)标准,尤其是在实时延迟方面,仍是一个巨大的挑战。为了解决这个问题,先前的研究主要集中在逐层的电源管理技术上,这些技术利用了每层DNN的独特能量和性能关系,通过细粒度的层级动态电压频率调整(DVFS)技术来设置每层网络对应的硬件频率,从而优化推理的功耗和延迟。然而,以前的研究忽略了DVFS本身的控制开销以及其带来的巨大的搜索空间,因此需要新的方案。

 

                   图 论文中提出CPM系统示意图

 

内容摘要:为了解决以前工作的不足,作者提出了一种跨层电源管理系统CPMCross-layer Power Management),以平衡实时AIoT系统中的延迟和能耗。CPM设计了不同的模块来控制DNN模型的推理过程,并设置合适的硬件频率。首先,CMP根据DVFSDNN模型网络层的时间关系将DNN模型划分成不同的网络块,以减少搜索空间和DVFS的控制开销。其次,CPM通过高效的编码网络将巨大的搜索空间编码到低纬度空间,并通过贝叶斯优化算法进行搜索得到最佳的频率配置。最后,CPM通过监控DNN模型的执行过程来设置得到的频率配置。通过在现有的AIoT设备上进行实验,结果表明,相比于以前的工作,CPM可以更好地平衡DVFS控制带来的开销和受益,将执行延迟减少多达45.76%,同时将能效提高多达31.58%