high performance computing on graphics processing units: hgpu.org

Size Zheng, Xuegui Zheng, Hanshi Sun, Qi Hou, Wenlei Bao, Shiyu Li, Haojie Duanmu, Jin Fang, Chenli Xue, Chenhui Huang, Yuanqiang Liu, Renze Chen, Ningxin Zheng, Dongyang Wang, Li-Wen Chang, Liqiang Lu, Yun Liang, Jidong Zhai, Xin Liu

View

Download (PDF)

Source codes

Tags: Computer science, LLM, nVidia, nVidia H800, Package, Triton

May 11, 2026 by hgpu

Evaluating CUDA Tile for AI Workloads on Hopper and Blackwell GPUs

Divakar Kumar Yadav, Tian Zhao, Deepak Kumar

View

Download (PDF)

Source codes

Tags: Computer science, CUBLAS, CUDA, LLM, nVidia, nVidia B200, nVidia H100, nVidia RTX PRO 6000, Package, Performance, Triton

May 3, 2026 by hgpu

DVM: Real-Time Kernel Generation for Dynamic AI Models

Jingzhi Fang, Xiong Gao, Renwei Zhang, Zichun Ye, Lei Chen, Jie Zhao, Chengnuo Huang, Hui Xu, Xuefeng Jin

View

Download (PDF)

Source codes

Tags: Code generation, Computer science, LLM, Package

April 13, 2026 by hgpu

Agentic Code Optimization via Compiler-LLM Cooperation

Benjamin Mikek, Danylo Vashchilenko, Bryan Lu, Panpan Xu

View

Download (PDF)

Source codes

Tags: Code generation, Computer science, LLM, Package

April 13, 2026 by hgpu

MegaTrain: Full Precision Training of 100B+ Parameter Large Language Models on a Single GPU

Zhengqing Yuan, Hanchi Sun, Lichao Sun, Yanfang Ye

View

Download (PDF)

Source codes

Tags: Computer science, CUDA, LLM, nVidia, nVidia GH200, Package

April 13, 2026 by hgpu

AutoKernel: Autonomous GPU Kernel Optimization via Iterative Agent-Driven Search

Jaber Jaber, Osama Jaber

View

Download (PDF)

Source codes

Tags: Computer science, CUDA, Machine learning, nVidia, nVidia B200, nVidia H100, Package, Triton

March 26, 2026 by hgpu

LLMQ: Efficient Lower-Precision LLM Training for Consumer GPUs

Erik Schultheis, Dan Alistarh

View

Download (PDF)

Source codes

Tags: Computer science, CUDA, LLM, nVidia, nVidia GeForce RTX 4090, nVidia GeForce RTX 5060 Ti, nVidia L40s, Package

March 22, 2026 by hgpu

CUDAnalyst (CUDA + Analyst)

Towards Feedback-to-Plan Decisions for Self-Evolving LLM Agents in CUDA Kernel Generation

CodegenBench

CodegenBench: Can LLMs Write Efficient Code Across Architectures?

KernelBenchX: A Comprehensive Benchmark for Evaluating LLM-Generated GPU Kernels

CuTile Benchmark Suite: Performance and Productivity Tradeoffs for GPU Kernel Programming on Blackwell Architecture

Evaluating CUDA Tile for AI Workloads on Hopper and Blackwell GPUs

Agentic Code Optimization via Compiler-LLM Cooperation

Device Virtual Machine (DVM)

DVM: Real-Time Kernel Generation for Dynamic AI Models

MegaTrain: Full Precision Training of 100B+ Parameter Large Language Models on a Single GPU

See all packages

* * *

high performance computing on graphics processing units: hgpu.org

Towards Feedback-to-Plan Decisions for Self-Evolving LLM Agents in CUDA Kernel Generation

CodegenBench: Can LLMs Write Efficient Code Across Architectures?

KernelBenchX: A Comprehensive Benchmark for Evaluating LLM-Generated GPU Kernels

Analyzing the Impact of Kernel Fusion on GPU Tensor Operation Performance: A Systematic Performance Study

Kerncap: Automated Kernel Extraction and Isolation for AMD GPUs

DITRON: Distributed Multi-level Tiling Compiler for Parallel Tensor Programs

Evaluating CUDA Tile for AI Workloads on Hopper and Blackwell GPUs

DVM: Real-Time Kernel Generation for Dynamic AI Models

Agentic Code Optimization via Compiler-LLM Cooperation

MegaTrain: Full Precision Training of 100B+ Parameter Large Language Models on a Single GPU

AutoKernel: Autonomous GPU Kernel Optimization via Iterative Agent-Driven Search

LLMQ: Efficient Lower-Precision LLM Training for Consumer GPUs

Recent source codes

CUDAnalyst (CUDA + Analyst)

CodegenBench

KernelBenchX: A Comprehensive Benchmark for Evaluating LLM-Generated GPU Kernels

CUDA Kernel Fusion Benchmarks

IntelliKit: Agent-first tooling for AMD hardware

DITRON: Distributed Compiler based on Triton for Parallel Systems

CuTile Benchmark Suite: Performance and Productivity Tradeoffs for GPU Kernel Programming on Blackwell Architecture

Agentic Code Optimization via Compiler-LLM Cooperation

Device Virtual Machine (DVM)

MegaTrain: Full Precision Training of 100B+ Parameter Large Language Models on a Single GPU

Most viewed papers (last 30 days)