high performance computing on graphics processing units: hgpu.org

hgpu.org » CUDA

Making LLMs Optimize Multi-Scenario CUDA Kernels Like Experts

Yuxuan Han, Meng-Hao Guo, Zhengning Liu, Wenguang Chen, Shi-Min Hu

View

Download (PDF)

Source codes

Tags: Computer science, CUDA, Machine learning, nVidia, nVidia GeForce RTX 4090, Package

March 15, 2026 by hgpu

KernelSkill: A Multi-Agent Framework for GPU Kernel Optimization

Qitong Sun, Jun Han, Tianlin Li, Zhe Tang, Sheng Chen, Fei Yang, Aishan Liu, Xianglong Liu, Yang Liu

View

Download (PDF)

Source codes

Tags: Computer science, CUDA, LLM, nVidia, nVidia A100, Package, Performance, PyTorch

March 15, 2026 by hgpu

Practical FP4 Training for Large-Scale MoE Models on Hopper GPUs

Wuyue Zhang, Chongdong Huang, Chunbo You, Cheng Gu, Fengjuan Wang, Mou Sun

View

Download (PDF)

Source codes

Tags: Computer science, CUDA, LLM, nVidia, nVidia GB200, Package, Precision

March 8, 2026 by hgpu

CUDA Agent: Large-Scale Agentic RL for High-Performance CUDA Kernel Generation

Weinan Dai, Hanlin Wu, Qiying Yu, Huan-ang Gao, Jiahao Li, Chengquan Jiang, Weiqiang Lou, Yufan Song, Hongli Yu, Jiaze Chen, Wei-Ying Ma, Ya-Qin Zhang, Jingjing Liu, Mingxuan Wang, Xin Liu, Hao Zhou

View

Download (PDF)

Source codes

Tags: Code generation, Computer science, CUDA, Deep learning, nVidia, nVidia H20, Package

March 4, 2026 by hgpu

StitchCUDA: An Automated Multi-Agents End-to-End GPU Programing Framework with Rubric-based Agentic Reinforcement Learning

Shiyang Li, Zijian Zhang, Winson Chen, Yuebo Luo, Mingyi Hong, Caiwen Ding

View

Download (PDF)

Tags: Benchmarking, Code generation, Computer science, CUBLAS, CUDA, LLM, nVidia, nVidia H200, nVidia RTX PRO 6000

March 4, 2026 by hgpu

CUDABench: Benchmarking LLMs for Text-to-CUDA Generation

Jiace Zhu, Wentao Chen, Qi Fan, Zhixing Ren, Junying Wu, Xing Zhe Chai, Chotiwit Rungrueangwutthinon, Yehan Ma, An Zou

View

Download (PDF)

Source codes

Tags: Benchmarking, Computer science, CUDA, LLM, nVidia, nVidia A40, nVidia GeForce RTX 4090, Package

March 4, 2026 by hgpu

Joint Training on AMD and NVIDIA GPUs

Jon Hu, Thomas Jia, Jing Zhu, Zhendong Yu

View

Download (PDF)

Tags: AMD, AMD Radeon Instinct MI325X, Computer science, CUDA, Heterogeneous systems, nVidia, nVidia H200, ROCm

March 1, 2026 by hgpu

KernelBlaster: Continual Cross-Task CUDA Optimization via Memory-Augmented In-Context Reinforcement Learning

Kris Shengjun Dong, Sahil Modi, Dima Nikiforov, Sana Damani, Edward Lin, Siva Kumar Sastry Hari, Christos Kozyrakis

View

Download (PDF)

Tags: Computer science, CUDA, LLM, nVidia, nVidia A100, nVidia H100, nVidia L40s, nVidia RTX A6000, Performance

February 23, 2026 by hgpu

Fine-Tuning GPT-5 for GPU Kernel Generation

Ali Tehrani, Yahya Emara, Essam Wissam, Wojciech Paluch, Waleed Atallah, Łukasz Dudziak, Mohamed S. Abdelfattah

View

Download (PDF)

Tags: Code generation, Computer science, CUDA, LLM, nVidia, nVidia H100, Triton

February 23, 2026 by hgpu

OptiML: An End-to-End Framework for Program Synthesis and CUDA Kernel Optimization

Arijit Bhattacharjee, Heng Ping, Son Vu Le, Paul Bogdan, Nesreen K. Ahmed, Ali Jannesari

View

Download (PDF)

Tags: Computer science, CUDA, LLM, nVidia, nVidia A100, Performance

February 23, 2026 by hgpu

Improving HPC Code Generation Capability of LLMs via Online Reinforcement Learning with Real-Machine Benchmark Rewards

Ryo Mikasa, Shun-ichiro Hayashi, Daichi Mukunoki, Tetsuya Hoshino, Takahiro Katagiri

View

Download (PDF)

Tags: Benchmarking, Code generation, Computer science, CUDA, HPC, LLM, Matrix multiplication, nVidia, nVidia H100, OpenMP, Performance

February 16, 2026 by hgpu

DICE: Diffusion Large Language Models Excel at Generating CUDA Kernels

Haolei Bai, Lingcheng Kong, Xueyi Chen, Jianmian Wang, Zhiqiang Tao, Huan Wang

View

Download (PDF)

Source codes

Tags: Code generation, Computer science, CUDA, LLM, nVidia, nVidia A100, Package

February 16, 2026 by hgpu

* * *

high performance computing on graphics processing units: hgpu.org

Making LLMs Optimize Multi-Scenario CUDA Kernels Like Experts

KernelSkill: A Multi-Agent Framework for GPU Kernel Optimization

Practical FP4 Training for Large-Scale MoE Models on Hopper GPUs

CUDA Agent: Large-Scale Agentic RL for High-Performance CUDA Kernel Generation

StitchCUDA: An Automated Multi-Agents End-to-End GPU Programing Framework with Rubric-based Agentic Reinforcement Learning

CUDABench: Benchmarking LLMs for Text-to-CUDA Generation

Joint Training on AMD and NVIDIA GPUs

KernelBlaster: Continual Cross-Task CUDA Optimization via Memory-Augmented In-Context Reinforcement Learning

Fine-Tuning GPT-5 for GPU Kernel Generation

OptiML: An End-to-End Framework for Program Synthesis and CUDA Kernel Optimization

Improving HPC Code Generation Capability of LLMs via Online Reinforcement Learning with Real-Machine Benchmark Rewards

DICE: Diffusion Large Language Models Excel at Generating CUDA Kernels

Recent source codes

UniCoder: Unified Visual-to-Code Generation via Symbolic Rewards and Reference-Guided Code Optimization

CuFuzz: An API-Knowledge-Graph Coverage-Driven Fuzzing Framework for CUDA Libraries

AutoPass: Evidence-Guided LLM Agents for Compiler Performance Tuning

Probe-and-Refine Tuning of Repository Guidance for AI Coding Agents

CUDAnalyst (CUDA + Analyst)

CodegenBench

KernelBenchX: A Comprehensive Benchmark for Evaluating LLM-Generated GPU Kernels

CUDA Kernel Fusion Benchmarks

IntelliKit: Agent-first tooling for AMD hardware

DITRON: Distributed Compiler based on Triton for Parallel Systems

Most viewed papers (last 30 days)