工作经历
基础框架工程师
北京千曙科技有限公司 | 北京 | 2025年12月 – 至今
- 负责 NVIDIA Drive Orin 平台 Linux 内核定制:按需配置内核模块(虚拟化、实时性机制等),完成内核编译与系统镜像打包
- 设计并实现自动驾驶冗余安全系统(MRC),符合 ISO 26262 功能安全标准
- 面向超低算力嵌入式芯片 TC397,以纯规则代码实现 L4 级最小风险条件(变道靠边停车/紧急制动),覆盖感知-规划-控制-定位全链路
资深 AI 基础架构工程师
摩尔线程(北京)智能科技有限公司 | 北京 | 2025年4月 – 2025年10月
- 编写融合算子与分布式数据切分策略,为阿里万象系列视频生成模型(Wan2.1/Wan2.2)完成摩尔线程 GPU 适配,单次推理耗时优化至原先的 1/4
- 针对摩尔线程 GPU 不支持原生复数运算的硬件限制,将 RoPE 算子中的复数旋转位置编码拆分为等价浮点运算,充分利用浮点硬件加速单元
- 为开源推理框架 xdit、long-context-attention 完成摩尔线程适配,将底层 cuDNN SDPA 替换为 muDNN SDPA 实现
- 深入调研 CUDA PTX 与 MUSA 指令集架构差异,评估 CUTLASS 核心算子在摩尔线程架构上的移植可行性
凸优化算法工程师
深圳泊松软件技术公司 | 北京 | 2024年6月 – 2025年2月
- 以 C++17 实现 L-BFGS 拟牛顿优化器,运用多态内存分配器(PMR)与模板编译机制,显著降低内存开销并提升运行效率
- 以 C++17 实现稠密线性矩阵代数库,涵盖 LU 分解、QR 分解、矩阵四则运算及 SIMD 向量指令集多发射优化
- 对开源 pocketfft 进行现代化封装,对接 STL 泛型容器,降低调用复杂度
决策规划算法工程师
北京鉴智科技有限公司 | 北京 | 2023年6月 – 2024年6月
- 独立发明五次样条插值算法(C4 光滑、O(n) 复杂度),含配套的专用稀疏矩阵求解器,大幅提升大曲率弯道下的运动控制精度
- 设计并实现动态扩容稀疏矩阵库(CscMatrix/CsrMatrix/CooMatrix/LilMatrix),为大规模凸优化问题构建提供高效数据结构
- 提出 Workspace+Task 架构设计,将数学算法与业务逻辑解耦,实现规控系统模块化重构
软件工程师
北京擎天智卡科技有限公司 | 北京 | 2022年7月 – 2023年6月
- 编写特殊稀疏矩阵求解器,优化矩阵求逆效率
- 引入高阶边界条件控制,提升规划路径平滑性
- 基于 Linux 平台进行 C++ 开发,使用 Bazel 构建系统与 Docker 容器化部署