刘家昌 - FPGA 高层次综合研究员

教育背景

计算机科学博士

加州大学洛杉矶分校

2018 – 2024

导师：丛京生教授

计算机科学工学学士

清华大学

2014 – 2018

兼获数字媒体艺术文学学士学位

工作经历

硬件工程师

Jump Trading Group

2025 – 至今

从事面向高频交易的高层次综合算法与高性能硬件设计研究。

首席技术官兼联合创始人

RapidStream（已被收购）

2023 – 2025

主导面向低时延 FPGA 加速器的编译器解决方案研发，并推动从软件规格高效生成高层次物理设计的关键研究。

编译研究员

AMD 赛灵思

2022（实习）

研究并设计了面向 AMD Versal 器件、具备物理布局感知能力的 MLIR 编译流程。

博士研究员

加州大学洛杉矶分校 VAST 实验室

2018 – 2022

开发高层次综合相关方法与工具，使软件开发者能够更高效地构建硬件加速方案，重点降低 FPGA 编程门槛。

学术服务

论文评审委员会委员（TPC），现场可编程逻辑与应用国际会议（FPL '26）
论文评审委员会委员（TPC），IEEE 全层智能系统国际会议（COINS '26）
论文评审委员会委员（TPC），设计自动化会议（DAC '26）
论文评审委员会委员（TPC），五大湖超大规模集成电路研讨会（GLSVLSI '26）
论文评审委员会委员（TPC），IEEE 现场可编程定制计算机器国际研讨会（FCCM '26）
实验复现委员会委员（AE），IEEE 现场可编程定制计算机器国际研讨会（FCCM '26）
研究竞赛评委（RCC），IEEE 现场可编程定制计算机器国际研讨会（FCCM '26）
论文评审委员会委员（TPC），现场可编程逻辑与应用国际会议（FPL '25）
论文评审委员会委员（TPC），现场可编程逻辑与应用国际会议（FPL '24）
论文评审委员会委员（TPC），设计自动化会议（DAC '22）

审稿工作

评审过 104 篇论文

不含转审稿件

TACO（ACM 体系结构与代码优化汇刊）
TODAES（ACM 电子系统设计自动化汇刊）
TRETS（ACM 可重构技术与系统汇刊）
DAC（设计自动化会议）
FCCM（现场可编程定制计算机器会议）
FPL（现场可编程逻辑与应用会议）
GigaScience
IEEE Access
OJCAS（IEEE 电路与系统开放期刊）
TAES（IEEE 航空航天与电子系统汇刊）
TCAS-I（IEEE 电路与系统 I：常规论文）
TCAD（IEEE 集成电路与系统计算机辅助设计汇刊）
TC（IEEE 计算机汇刊）
TCSI（IEEE 计算机汇刊专题）
TIE（IEEE 工业电子汇刊）

论文发表 (引用 1012 次)

* 表示共同第一作者

面向高层次物理综合的自动化设计空间探索（中文翻译）

Automated Design Space Exploration in High-Level Physical Synthesis

Linfeng Du, Jiawei Liang, Jason Lau, Yuze Chi, Yutong Xie, Chunyou Su, Afzal Ahmad, Zifan He, Jake Ke, Jinming Ge, Jason Cong, Wei Zhang, Licheng Guo

ICCAD '25（国际计算机辅助设计会议）

2025

本文提出一套稳健的设计空间探索（DSE）框架，以解决现有面向多芯粒 FPGA 的高层次物理综合（HLPS）在稳定性不足与人工调参复杂方面的问题。该框架基于物理实现指标与定制启发式策略实现迭代参数自动优化，从而稳定实现时序收敛并消除人工调参的需求。在大规模设计评估中，框架取得了 311.06 MHz 的平均频率，性能较 AMD Vitis/Vivado 工具链提升 2.42 倍，较现有学术方案提升 1.67 倍。

RapidStream IR：面向 FPGA 高层次物理综合的基础设施（中文翻译）

RapidStream IR: Infrastructure for FPGA High-Level Physical Synthesis

Jason Lau, Yuanlong Xiao, Yutong Xie, Yuze Chi, Linghao Song, Shaojie Xiang, Michael Lo, Zhiru Zhang, Jason Cong, Licheng Guo

ICCAD '24（国际计算机辅助设计会议）

2024

本文提出高层次物理综合（HLPS）的概念，并构建了一套面向复杂 FPGA 设计组合表达与物理优化探索的实用基础设施。该方法引入了灵活的中间表示，可在任意层级捕捉互连协议、粗粒度流水线以及空间信息，从而支持可复用的频率优化流程。RapidStream IR 在多类 HLS / RTL / IP 混合设计上带来了 7% 至 62% 的频率提升。

CHARM 2.0：面向 Versal ACAP 深度学习的异构加速器架构

CHARM 2.0: Composing Heterogeneous Accelerators for Deep Learning on Versal ACAP Architecture

Jinming Zhuang, Jason Lau, Hanchen Ye, Zhuoping Yang, Shixin Ji, Jack Lo, Kristof Denolf, Stephen Neuendorffer, Alex Jones, Jingtong Hu, Yiyu Shi, Deming Chen, Jason Cong, Peipei Zhou

TRETS '24（ACM 可重构技术与系统汇刊），第 17 卷第 3 期，第 51 篇，第 1 - 31 页

本文提出 CHARM 框架，用于优化 AMD/Xilinx Versal ACAP 上端到端深度学习应用的吞吐性能。针对单体加速器在执行小规模矩阵乘法层时面临的性能瓶颈，CHARM 根据不同层规模组合多种可并发执行的异构加速架构。借助分析模型进行设计空间探索与自动代码生成，CHARM 在 BERT、ViT 等模型上相较单体设计实现了最高 32.51 倍的吞吐提升。

面向软件开发者的异构计算系统

Enabling Heterogeneous Computing for Software Developers

Jason Lau advised by Jason Cong

加州大学洛杉矶分校博士学位论文

本文提出 Heterosys，一套旨在弥合高层软件与高效 FPGA 实现之间鸿沟的端到端框架。通过将算法描述与底层硬件解耦，Heterosys 集成了三个核心组件：用于自动重构与选择性交由 CPU 执行的 HeteroRefactor、用于频率驱动架构优化的 Adroit，以及用于高层次物理综合与布局规划的 RapidIR。研究结果表明，该体系可带来 30% 至超过 100% 的频率提升、最高 90% 的资源节省，并将人工代码工作量降低 51%，显著降低异构计算的使用门槛。

TAPA：面向现代 FPGA 的可扩展任务并行数据流及高层次综合与物理结构协同优化的编程框架

TAPA: A Scalable Task-Parallel Dataflow Programming Framework for Modern FPGAs with Co-Optimization of HLS and Physical Design

{Licheng Guo*, Yuze Chi*, Jason Lau*}, Linghao Song, Xingyu Tian, Moazin Khatti, Weikang Qiao, Jie Wang, Ecenur Ustun, Zhenman Fang, Zhiru Zhang, Jason Cong

TRETS '23（ACM 可重构技术与系统汇刊），第 16 卷第 4 期，第 63 篇，第 1 - 31 页

2023

本文提出 TAPA，一套将 C++ 任务并行程序编译为高频 FPGA 加速器的端到端框架。通过在编译过程中引入灵活的通信 API 与粗粒度布局规划，TAPA 能够对关键路径进行精确流水化，并针对基于 HBM 的 FPGA 进行优化。在 43 个设计上的实验表明，TAPA 平均带来了 102% 的频率提升，并以极小资源代价成功实现了此前无法布线的设计。

引用 50+ 次

RapidStream 2.0：通过部分重构实现时延无关 FPGA 设计的自动化并行布局布线

RapidStream 2.0: Automated Parallel Implementation of Latency–Insensitive FPGA Designs Through Partial Reconfiguration

Licheng Guo, Pongstorn Maidee, Yun Zhou, Chris Lavin, Eddie Hung, Wuxi Li, Jason Lau, Weikang Qiao, Yuze Chi, Linghao Song, Yuanlong Xiao, Alireza Kaviani, Zhiru Zhang, Jason Cong

TRETS '23（ACM 可重构技术与系统汇刊），第 16 卷第 4 期，第 59 篇，第 1 - 30 页

本文提出 RapidStream，一套并行化、物理感知的一体化编译框架，旨在显著缩短 FPGA 编译周期。通过联合优化高层次综合与后端物理实现，RapidStream 将时延无关的 C/C++ 程序划分为可并行布局布线的子模块。与商业工具链相比，RapidStream 可将编译时间缩短 5 至 7 倍，并实现最高 1.3 倍的频率提升。

CHARM：面向 Versal ACAP 矩阵乘法的异构加速器架构

CHARM: Composing Heterogeneous Accelerators for Matrix Multiply on Versal ACAP Architecture

Jinming Zhuang, Jason Lau, Hanchen Ye, Zhuoping Yang, Yubo Du, Jack Lo, Kristof Denolf, Stephen Neuendorffer, Alex Jones, Jingtong Hu, Deming Chen, Jason Cong, Peipei Zhou

FPGA '23（现场可编程门阵列国际研讨会）

本文提出 CHARM 框架，用于在 AMD/Xilinx Versal ACAP 等平台上组合异构矩阵乘法（MM）加速器，以提升深度学习吞吐性能。单体加速器难以高效处理 BERT 等模型中大量规模较小且形态多样的 MM 层，实际性能往往不足峰值的 5%。CHARM 利用分析模型在多种并发的专用架构之间划分资源并调度层执行，并通过自动代码生成与设计空间探索，在 BERT、ViT、NCF 与 MLP 基准上实现最高 32.5 倍吞吐提升。

引用 50+ 次

当今 FPGA 高层次综合：成就、挑战与机遇

FPGA HLS Today: Successes, Challenges, and Opportunities

Jason Cong, Jason Lau, Gai Liu, Stephen Neuendorffer, Peichen Pan, Kees Vissers, Zhiru Zhang

TRETS '22（ACM 可重构技术与系统汇刊），第 15 卷第 4 期，第 51 篇，第 1 - 4 页

2022

本文回顾了 FPGA 高层次综合在过去十年中从原型验证走向工业部署的发展历程，覆盖深度学习、基因组学等多个应用领域。在总结高层次综合成功经验的同时，我们指出其在时钟频率、系统集成以及代码遗留方面的关键瓶颈，并提出了以后续开放基础设施与标准化为核心的研究路线图。

引用 250+ 次

Sextans：面向通用稀疏矩阵与稠密矩阵乘法

Sextans: A Streaming Accelerator for General-Purpose Sparse-Matrix Dense-Matrix Multiplication

Linghao Song, Yuze Chi, Atefeh Sohrabizadeh, Young-kyu Choi, Jason Lau, Jason Cong

FPGA '22（现场可编程门阵列国际研讨会）

本文提出 Sextans，一种面向通用稀疏矩阵与稠密矩阵乘法（SpMM）的灵活 FPGA 加速器，用于解决随机访存、数据搬运与负载均衡等挑战。通过利用 HBM 与面向处理单元的调度机制，Sextans 能够针对任意矩阵规模实现流式访问与均衡流水。在 1400 个基准上的评估表明，Sextans 相较 K80 GPU 可实现最高 2.50 倍加速，经进一步优化后性能预计可超过 V100 GPU。

引用 100+ 次

TARO：面向 FPGA 高层次综合中无阻塞内核的自动优化

TARO: Automatic Optimization for Free-Running Kernels in FPGA High-Level Synthesis

Young-kyu Choi, Yuze Chi, Jason Lau, Jason Cong

TCAD '22（IEEE 集成电路与系统计算机辅助设计汇刊）

本文提出 TARO，一套面向高层次综合流式应用的无阻塞自动优化框架。TARO 以数据流而非复杂的全局控制来调度任务，在保持原有功能与性能的同时显著简化硬件逻辑。在 Alveo U250 平台上的实验表明，TARO 可使脉动阵列设计的 LUT 平均减少 16%，FF 平均减少 45%。

AutoBridge：面向多芯粒 FPGA 高频高层次综合设计的粗粒度布局规划与流水线协同优化的自动化框架

AutoBridge: Coupling Coarse-Grained Floorplanning and Pipelining for High-Frequency HLS Design on Multi-Die FPGAs

Licheng Guo, Yuze Chi, Jie Wang, Jason Lau, Weikang Qiao, Ecenur Ustun, Zhiru Zhang, Jason Cong

FPGA '21（现场可编程门阵列国际研讨会）

2021

本文提出 AutoBridge，一套在高层次综合编译过程中联合粗粒度布局规划与流水线优化的自动化框架，用于缩小高层次综合生成设计与手写 RTL 之间的频率差距。借助全局布局感知能力，AutoBridge 能够识别并流水化长互连，尤其是多芯粒 FPGA 中跨芯粒连线，同时避免路由拥塞。在 43 组配置上的实验表明，AutoBridge 将平均频率从 147 MHz 提升至 297 MHz（提升 102%），并以可忽略的资源开销、零吞吐损失成功完成了此前不可布线设计的实现。

最佳论文奖引用 100+ 次

TAPA：面向任务并行程序的高层次综合扩展

TAPA: Extending High-Level Synthesis for Task-Parallel Programs

Yuze Chi, Licheng Guo, Jason Lau, Young-kyu Choi, Jie Wang, Jason Cong

FCCM '21（现场可编程定制计算机器国际研讨会）

本文提出 TAPA，一套旨在提升任务并行 FPGA 加速器开发效率的自动化高层次综合框架。针对传统高层次综合在并行任务通信复杂、开发周期漫长等方面的局限，TAPA 提供了更友好的 C++ 编程接口、无约束软件仿真以及快速嵌套代码生成能力。通过简化开发与验证流程，TAPA 分别减少了 22% 的计算内核代码与 51% 的主机端代码，并将正确性验证速度提升 3.2 倍、设计质量（QoR）调优速度提升 6.8 倍。

引用 50+ 次

HeteroRefactor：面向异构计算的 FPGA 重构框架

HeteroRefactor: Refactoring for Heterogeneous Computing with FPGA

{Jason Lau*, Aishwarya Sivaraman*, Qian Zhang*}, Muhammad Ali Gulzar, Jason Cong, Miryung Kim

ICSE '20（国际软件工程会议）

2020

本文提出 HeteroRefactor，一套自动化代码重构框架，使包含递归与动态内存等传统上不适用于高层次综合的 C/C++ 程序也能被高效综合。通过监测变量位宽、数据结构规模等 FPGA 特定动态不变量，HeteroRefactor 能够自动将计算内核转换为可综合且资源优化的硬件实现，并借助选择性交由 CPU 执行的机制确保正确性。在 Xilinx FPGA 上，HeteroRefactor 最高可降低 83% 的 BRAM 使用量，并将时钟频率提升 42%，从而避免硬件专家进行大量手工重构。

面向提升设计频率的 FPGA 高层次综合隐式广播分析与优化

Analysis and Optimization of the Implicit Broadcasts in FPGA HLS to Improve Maximum Frequency

{Licheng Guo*, Jason Lau*}, Yuze Chi, Jie Wang, Cody Hao Yu, Zhe Chen, Zhiru Zhang, Jason Cong

DAC '20（设计自动化会议）

本文系统研究了高层次综合生成 FPGA 设计中的频率下降问题，并指出广播结构，尤其是高扇出数据、流控信号与同步信号，是主要瓶颈。通过引入广播感知调度、同步裁剪以及滑移缓冲器集成等方法以弥补高层次综合编译器局限，我们的方法在代表性基准上平均将最高频率提升 53%，部分案例增幅超过 100 MHz。

最佳论文提名引用 50+ 次

针对基因组测序中长读成对重叠分析的硬件加速：FPGA 与 GPU 的竞赛

Hardware Acceleration of Long Read Pairwise Overlapping in Genome Sequencing: A Race Between FPGA and GPU

{Licheng Guo*, Jason Lau*}, Zhenyuan Ruan, Peng Wei, Jason Cong

FCCM '19（现场可编程定制计算机器国际研讨会）

2019

本文提出一套面向基因分析链式比对阶段的高性能加速框架，该阶段是基因组测序流程中的核心瓶颈，占总执行时间的 70%。通过对操作序列进行硬件友好的重排，并设计细粒度任务分发机制，我们克服了输入规模变化大与数据依赖关系复杂带来的限制。所提出的 FPGA 全流水流式架构相较高度优化的多线程 CPU 程序实现了 28 倍加速，相较满负载 GPU 实现了 4 倍加速，为基因组工作负载的最佳硬件平台选择提供了量化依据。

引用 100+ 次

在 Intel Skylake 与 NVIDIA Volta 上复现 Tersoff 多体势的向量化实现

Reproducing Vectorization of the Tersoff Multi-Body Potential on the Intel Skylake and NVIDIA Volta Architectures

Jason Lau, Yuxuan Li, Lei Xie, Qian Xie, Beichen Li, Yu Chen, Guanyu Feng, Jiping Yu, Xinjian Yu, Miao Wang, Wentao Han, Jidong Zhai

Parallel Computing（并行计算），第 78 卷，2018 年 10 月，第 47 - 53 页

2018

本文评估了 Tersoff 多体势在 Intel Skylake 与 NVIDIA Volta 架构上的性能可移植性。尽管原始研究宣称通过降低精度与跨平台向量化可实现高效率与良好扩展性，但我们基于更新数据集的实验结果并不一致。进一步分析表明，新输入数据的特定特征引发了通信瓶颈，从而显著限制了原有性能收益的可复现性。