high performance computing on graphics processing units: hgpu.org

hgpu.org » Computer science

Towards Feedback-to-Plan Decisions for Self-Evolving LLM Agents in CUDA Kernel Generation

Yee Hin Chong, Jiaming Wu, Youhui Zhang, Peng Qu

View

Download (PDF)

Source codes

Tags: Computer science, CUDA, Heterogeneous systems, LLM, nVidia, Package, PTX

June 8, 2026 by hgpu

MusaCoder: Native GPU Kernel Generation with Full-Stack Training on Moore Threads GPU

Kun Cheng, Songshuo Lu, Sicong Liao, Tankun Li, Yafei Zhang, Dong Yang, Qiheng Lv, Hua Wang, Zhi Chen, Yaohua Tang

View

Download (PDF)

Tags: Computer science, CUDA, LLM, PyTorch

June 8, 2026 by hgpu

KForge: LLM-Driven Cross-Platform Kernel Generation for AI Accelerators

Taras Sereda, Burak Bartan, Ankita Nayak, Tom St.John, Natalie Serrino, Zain Asgar

View

Download (PDF)

Tags: Code generation, Computer science, CUDA, Heterogeneous systems, Intel, Intel Arc B580, nVidia, nVidia B200, PTX, Triton

June 8, 2026 by hgpu

CodegenBench: Can LLMs Write Efficient Code Across Architectures?

Jie Li, Wenzhao Wu, Junqi Hu, Qinrui Zheng, Bowen Wu, Juepeng Zheng, Yutong Lu, Haohuan Fu

View

Download (PDF)

Source codes

Tags: Code generation, Computer science, CUDA, HPC, Linear Algebra, LLM, nVidia, Package

June 8, 2026 by hgpu

KernelBenchX: A Comprehensive Benchmark for Evaluating LLM-Generated GPU Kernels

Han Wang, Jintao Zhang, Kai Jiang, Haoxu Wang, Jianfei Chen, Jun Zhu

View

Download (PDF)

Source codes

Tags: Computer science, LLM, nVidia, Package

May 20, 2026 by hgpu

Pretraining large language models with MXFP4 on Native FP4 Hardware

Musa Cim, Poovaiah Palangappa, Miro Hodak, Ravi Dwivedula, Meena Arunachalam, Mahmut Taylan Kandemir

View

Download (PDF)

Tags: AMD, AMD Radeon Instinct MI355X, Computer science, LLM, Precision, ROCm

May 20, 2026 by hgpu

CUDAHercules: Benchmarking Hardware-Aware Expert-level CUDA Optimization for LLMs

Shiyang Li, Zijian Zhang, Guangyan Sun, Yuebo Luo, Winson Chen, Yanzhi Wang, Mingyi Hong, Caiwen Ding

View

Download (PDF)

Tags: Benchmarking, Computer science, CUDA, LLM, nVidia, nVidia RTX PRO 6000

May 20, 2026 by hgpu

Source-to-Source Transformations for GPU Code Generation

Julien de Castelnau, Thomas Koehler, Arthur Charguéraud, Clément Pit-Claudel

View

Download (PDF)

Tags: Code generation, Computer science, CUDA, nVidia, nVidia GeForce RTX 5060, Thesis

May 20, 2026 by hgpu

CUDABeaver: Benchmarking LLM-Based Automated CUDA Debugging

Shiyang Li, Haoyang Chen, Mattia Fazzini, Caiwen Ding

View

Download (PDF)

Tags: Benchmarking, Computer science, CUDA, LLM, Machine learning, nVidia, nVidia A100, nVidia H200, nVidia RTX PRO 6000

May 20, 2026 by hgpu

Analyzing the Impact of Kernel Fusion on GPU Tensor Operation Performance: A Systematic Performance Study

Matija Dodović, Milica Veselinović, Marko Mišić

View

Download (PDF)

Source codes

Tags: Computer science, CUDA, Deep learning, nVidia, nVidia GeForce RTX 3080, Package

May 20, 2026 by hgpu

Kerncap: Automated Kernel Extraction and Isolation for AMD GPUs

Cole Ramos, Keith Lowery

View

Download (PDF)

Source codes

Tags: AMD, AMD Radeon Instinct MI210, AMD Radeon Instinct MI300X, AMD Radeon Pro W7900, Computer science, LLM, Package, Python, ROCm, Triton

May 11, 2026 by hgpu

KEET: Explaining Performance of GPU Kernels Using LLM Agents

Joshua H. Davis, Klaudiusz Rydzy, Srinivasan Ramesh, Aadit Nilay, Daniel Nichols, Swapna Raj, Nikhil Jain, Abhinav Bhatele

View

Download (PDF)

Tags: Computer science, CUDA, LLM, nVidia, nVidia H100, Performance

May 11, 2026 by hgpu

CUDAnalyst (CUDA + Analyst)

Towards Feedback-to-Plan Decisions for Self-Evolving LLM Agents in CUDA Kernel Generation

CodegenBench

CodegenBench: Can LLMs Write Efficient Code Across Architectures?

KernelBenchX: A Comprehensive Benchmark for Evaluating LLM-Generated GPU Kernels

CuTile Benchmark Suite: Performance and Productivity Tradeoffs for GPU Kernel Programming on Blackwell Architecture

Evaluating CUDA Tile for AI Workloads on Hopper and Blackwell GPUs

Agentic Code Optimization via Compiler-LLM Cooperation

Device Virtual Machine (DVM)

DVM: Real-Time Kernel Generation for Dynamic AI Models

MegaTrain: Full Precision Training of 100B+ Parameter Large Language Models on a Single GPU

See all packages

* * *

high performance computing on graphics processing units: hgpu.org

Towards Feedback-to-Plan Decisions for Self-Evolving LLM Agents in CUDA Kernel Generation

MusaCoder: Native GPU Kernel Generation with Full-Stack Training on Moore Threads GPU

KForge: LLM-Driven Cross-Platform Kernel Generation for AI Accelerators

CodegenBench: Can LLMs Write Efficient Code Across Architectures?

KernelBenchX: A Comprehensive Benchmark for Evaluating LLM-Generated GPU Kernels

Pretraining large language models with MXFP4 on Native FP4 Hardware

CUDAHercules: Benchmarking Hardware-Aware Expert-level CUDA Optimization for LLMs

Source-to-Source Transformations for GPU Code Generation

CUDABeaver: Benchmarking LLM-Based Automated CUDA Debugging

Analyzing the Impact of Kernel Fusion on GPU Tensor Operation Performance: A Systematic Performance Study

Kerncap: Automated Kernel Extraction and Isolation for AMD GPUs

KEET: Explaining Performance of GPU Kernels Using LLM Agents

Recent source codes

CUDAnalyst (CUDA + Analyst)

CodegenBench

KernelBenchX: A Comprehensive Benchmark for Evaluating LLM-Generated GPU Kernels

CUDA Kernel Fusion Benchmarks

IntelliKit: Agent-first tooling for AMD hardware

DITRON: Distributed Compiler based on Triton for Parallel Systems

CuTile Benchmark Suite: Performance and Productivity Tradeoffs for GPU Kernel Programming on Blackwell Architecture

Agentic Code Optimization via Compiler-LLM Cooperation

Device Virtual Machine (DVM)

MegaTrain: Full Precision Training of 100B+ Parameter Large Language Models on a Single GPU

Most viewed papers (last 30 days)