硬件工程师
负责研究与开发面向高频交易的高层次综合算法,并基于所开发工具链构建高性能 FPGA 与 ARM 硬件加速器。同时面向现代多芯粒 FPGA 研发超低时延硬件逻辑与系统集成方案,以优化交易性能。
负责研究与开发面向高频交易的高层次综合算法,并基于所开发工具链构建高性能 FPGA 与 ARM 硬件加速器。同时面向现代多芯粒 FPGA 研发超低时延硬件逻辑与系统集成方案,以优化交易性能。
负责制定技术战略并推进编译器产品研发,以交付低时延、高性能 FPGA 加速器。构建可直接由软件规格生成高层次物理设计的系统,大幅缩短编译迭代周期。
研究并实现了面向 AMD Versal 器件、针对 AI Engine 阵列的物理感知 MLIR 编译器,并设计了支持下一代系统级芯片(SoC)高性能应用加速的编译流程。
开发了云性能数据分析平台与可视化库 “AwesomeChart”,可流畅渲染数百万条时间序列。该平台随后集成至谷歌云平台(Google Cloud Platform),至今仍被客户用于关键指标监控。
与加州大学洛杉矶分校实验室成员合作实现了基于 Clang 的任务并行 FPGA 编译器 TAPA,使开发者能够以 C++ 数据流图形式对 FPGA 进行高层编程。扩展了编译器的嵌套任务能力以支持复杂应用;与团队共同实现高性能并行 RTL 协同仿真框架,使真实应用可以混合使用高层次综合与 RTL 设计;同时扩展了高层次综合工具 AutoSA,使其生成性能优于 Vitis HLS 的 TAPA 应用。
开发了基于 ROSE 的源到源代码重构工具 HeteroRefactor,可自动将 C++ 代码转换为异构编程模型,使递归、指针与动态内存分配等特性被重写为厂商工具可支持的等价实现。
维护中国最大的开源软件镜像站之一(mirrors.tuna.tsinghua.edu.cn)。构建了具备高速存储能力的高性能、高可靠多服务器系统,平均吞吐达到 3.1 Gbps,服务全国用户。
构建了可用于生产环境的 NGINX 测试平台,用于评估基于强化学习的初始拥塞窗口(CWND)优化方法。该平台被用于中国头部网站真实流量场景下的 HTTP 请求时延测量。
与团队成员合作,基于 MPI 与 FUSE 开发了高性能分布式文件系统原型。识别并解决了 FUSE 的关键瓶颈,在 8 台机器组成的集群上实现 3.6 GB/s 的并行写入速度,性能优于运行在 tmpfs 上的 NFS。
在 Xilinx FPGA 上为兼容 MIPS32r1 的 CPU 开发了带 AHB 协议的流水化写回式 L1 Cache,并改进中断逻辑与外设支持,使系统可在 8.4 秒内完整启动 Linux,在通用应用上实现 50 倍性能提升。
为中国骨干网络使用的集群开发了网络管理系统,涵盖部署配置(Puppet)、资源管理(虚拟化、带宽)以及基于 Node.js、Redis 与 Nagios 的指标监控能力。
开发了可自动配置清华大学校园网连接参数的 iOS 小组件应用。该应用通过自动完成连接设置,显著简化校园网接入流程,并在断线重连时尽可能实现无感登录。
与 HUSTOJ 作者合作开发了面向程序设计竞赛的在线评测系统。对原有代码进行现代化重构,包括基于 Bootstrap 的新前端与基于 Laravel PHP 的后端;评测执行则隔离在 Docker 容器中,以确保用户提交代码的安全与高效运行。