high performance computing on graphics processing units: hgpu.org

hgpu.org » CUDA

CuTeGen: An LLM-Based Agentic Framework for Generation and Optimization of High-Performance GPU Kernels using CuTe

Tara Saba, Anne Ouyang, Xujie Si, Fan Long

View

Download (PDF)

Tags: Code generation, Computer science, CUDA, Machine learning, Matrix multiplication, nVidia, nVidia GeForce RTX 4090

April 13, 2026 by hgpu

Kernel-Smith: A Unified Recipe for Evolutionary Kernel Optimization

He Du, Qiming Ge, Jiakai Hu, Aijun Yang, Zheng Cai, Zixian Huang, Sheng Yuan, Qinxiu Cheng, Xinchen Xie, Yicheng Chen, Yining Li, Jiaxing Xie, Huanan Dong, Yaguang Wu, Xiangjun Huang, Jian Yang, Hui Wang, Bowen Zhou, Bowen Li, Qipeng Guo, Kai Chen

View

Download (PDF)

Tags: Computer science, CUDA, Heterogeneous systems, nVidia, Triton

April 13, 2026 by hgpu

MegaTrain: Full Precision Training of 100B+ Parameter Large Language Models on a Single GPU

Zhengqing Yuan, Hanchi Sun, Lichao Sun, Yanfang Ye

View

Download (PDF)

Source codes

Tags: Computer science, CUDA, LLM, nVidia, nVidia GH200, Package

April 13, 2026 by hgpu

DRTriton: Large-Scale Synthetic Data Reinforcement Learning for Triton Kernel Generation

Siqi Guo, Ming Lin, Tianbao Yang

View

Download (PDF)

Tags: Computer science, CUDA, LLM, nVidia, Triton

March 26, 2026 by hgpu

AutoKernel: Autonomous GPU Kernel Optimization via Iterative Agent-Driven Search

Jaber Jaber, Osama Jaber

View

Download (PDF)

Source codes

Tags: Computer science, CUDA, Machine learning, nVidia, nVidia B200, nVidia H100, Package, Triton

March 26, 2026 by hgpu

High-level Programming of Vulkan-based GPUs Through OpenMP

Ilias K. Kasmeridis, Vassilios V. Dimakopoulos

View

Download (PDF)

Tags: AMD Radeon RX 550, Computer science, CUDA, nVidia, OpenCL, OpenMP, Tesla P40, Vulkan

March 26, 2026 by hgpu

LLMQ: Efficient Lower-Precision LLM Training for Consumer GPUs

Erik Schultheis, Dan Alistarh

View

Download (PDF)

Source codes

Tags: Computer science, CUDA, LLM, nVidia, nVidia GeForce RTX 4090, nVidia GeForce RTX 5060 Ti, nVidia L40s, Package

March 22, 2026 by hgpu

SOL-ExecBench: Speed-of-Light Benchmarking for Real-World GPU Kernels Against Hardware Limits

Edward Lin, Sahil Modi, Siva Kumar Sastry Hari, Qijing Huang, Zhifan Ye, Nestor Qin, Fengzhe Zhou, Yuan Zhang, Jingquan Wang, Sana Damani, Dheeraj Peri, Ouye Xie, Aditya Kane, Moshe Maor, Michael Behar, Triston Cao, Rishabh Mehta, Vartika Singh, Vikram Sharma Mailthody, Terry Chen, Zihao Ye, Hanfeng Chen, Tianqi Chen, Vinod Grover, Wei Chen, Wei Liu, Eric Chung, Luis Ceze, Roger Bringmann, Cyril Zeller, Michael Lightstone, Christos Kozyrakis, Humphrey Shi

View

Download (PDF)

Source codes

Tags: Benchmarking, Computer science, CUDA, nVidia, nVidia B200, Package, Triton

March 22, 2026 by hgpu