high performance computing on graphics processing units: hgpu.org

hgpu.org » PTX

Real FP4 Tensor-Core Code in Pure Rust on a Gaming GPU – with NVIDIA’s Own Compiler

Carter Richardson

View

Tags: Computer science, CUDA, nVidia, nVidia GeForce RTX 5070 Ti, PTX, Rust

July 13, 2026 by hgpu

Leveraging AI Ecosystem for Portable and Sustainable GPU Kernels in HPC

Yanbo Zhao, Zhaonan Meng, Sai Krishna Teja Varma Manthena, Xu Liu, Ajay Panyala, Jiajia Li

View

Tags: AMD, AMD Radeon Instinct MI300X, Computer science, DSL, HPC, nVidia, nVidia GeForce RTX 4090, nVidia H100, PTX, Python, ROCm, Triton

June 17, 2026 by hgpu

Towards Feedback-to-Plan Decisions for Self-Evolving LLM Agents in CUDA Kernel Generation

Yee Hin Chong, Jiaming Wu, Youhui Zhang, Peng Qu

View

Tags: Computer science, CUDA, Heterogeneous systems, LLM, nVidia, Package, PTX

June 8, 2026 by hgpu

KForge: LLM-Driven Cross-Platform Kernel Generation for AI Accelerators

Taras Sereda, Burak Bartan, Ankita Nayak, Tom St.John, Natalie Serrino, Zain Asgar

View

Tags: Code generation, Computer science, CUDA, Heterogeneous systems, Intel, Intel Arc B580, nVidia, nVidia B200, PTX, Triton

June 8, 2026 by hgpu

Equivalence Checking of ML GPU Kernels

Kshitij Dubey, Benjamin Driscoll, Anjiang Wei, Neeraj Kayal, Rahul Sharma, Alex Aiken

View

Tags: Computer science, CUDA, Deep learning, LLM, Machine learning, Matrix multiplication, nVidia, PTX

January 12, 2026 by hgpu

KernelEvolve: Scaling Agentic Kernel Coding for Heterogeneous AI Accelerators at Meta

Gang Liao, Hongsen Qin, Ying Wang, Alicia Golden, Michael Kuchnik, Yavuz Yetim, Jia Jiunn Ang, Chunli Fu, Yihan He, Samuel Hsia, Zewei Jiang, Dianshi Li, Uladzimir Pashkevich, Varna Puvvada, Feng Shi, Matt Steiner, Ruichao Xiao, Nathan Yan, Xiayu Yu, Zhou Fang, Abdul Zainul-Abedin, Ketan Singh, Hongtao Yu, Wenyuan Chi, Barney Huang, Sean Zhang, Noah Weller, Zach Marine, Wyatt Cook, Carole-Jean Wu, Gaoxiang Liu

View

Tags: AI, AMD Radeon Instinct MI300X, AMD Radeon Instinct MI350X, ATI, Computer science, CUDA, Deep learning, Heterogeneous systems, LLM, nVidia, nVidia A100, nVidia H100, PTX, ROCm, Triton

January 4, 2026 by hgpu

Tilus: A Tile-Level GPGPU Programming Language for Low-Precision Computation

Yaoyao Ding, Bohan Hou, Xiao Zhang, Allan Lin, Tianqi Chen, Cody Hao Yu, Yida Wang, Gennady Pekhimenko

View

Tags: Computer science, CUDA, nVidia, nVidia A100, nVidia H100, nVidia L40s, Package, Programming Languages, PTX, Triton

December 29, 2025 by hgpu

Microbenchmarking NVIDIA’s Blackwell Architecture: An in-depth Architectural Analysis

Aaron Jarmusch, Sunita Chandrasekaran

View

Tags: Benchmarking, Computer science, CUDA, HPC, Machine learning, nVidia, nVidia B200, nVidia H200, PTX

December 7, 2025 by hgpu

MT4G: A Tool for Reliable Auto-Discovery of NVIDIA and AMD GPU Compute and Memory Topologies

Stepan Vanecek, Manuel Walter Mussbacher, Dominik Groessler, Urvij Saroliya, Martin Schulz

View

Tags: AMD Radeon Instinct MI100, AMD Radeon Instinct MI210, AMD Radeon Instinct MI300X, ATI, Benchmarking, Computer science, CUDA, HIP, nVidia, nVidia A100, nVidia GeForce RTX 2080, nVidia H100, nVidia Quadro P 6000, nVidia V100, Package, PTX

November 16, 2025 by hgpu

Towards Calculating HPC CUDA Kernel Performance on Nvidia GPUs

Dumeni Manatschal

View

Tags: Benchmarking, Computer science, CUDA, nVidia, nVidia GeForce RTX 3080, Performance, PTX, Thesis

September 14, 2025 by hgpu

Fuzz4cuda: Fuzzing Your Nvidia Gpu Libraries Through Debug Interface

Yuhao Zhou, Peng Jia, Jiayong Liu, Ximing Fan

View

Tags: Computer science, CUDA, nVidia, nVidia RTX A6000, PTX, Security

August 24, 2025 by hgpu

Dissecting the NVIDIA Blackwell Architecture with Microbenchmarks

Aaron Jarmusch, Nathan Graddon, Sunita Chandrasekaran

View

Tags: Benchmarking, Computer science, CUDA, HPC, nVidia, nVidia GeForce RTX 5080, nVidia H100, Performance, PTX

July 20, 2025 by hgpu

UniCoder: Unified Visual-to-Code Generation via Symbolic Rewards and Reference-Guided Code Optimization

UniCoder: Unified Visual-to-Code Generation via Symbolic Rewards and Reference-Guided Code Optimization

CuFuzz: An API-Knowledge-Graph Coverage-Driven Fuzzing Framework for CUDA Libraries

CuFuzz: An API-Knowledge-Graph Coverage-Driven Fuzzing Framework for CUDA Libraries

AutoPass: Evidence-Guided LLM Agents for Compiler Performance Tuning

AutoPass: Evidence-Guided LLM Agents for Compiler Performance Tuning

Probe-and-Refine Tuning of Repository Guidance for AI Coding Agents

Probe-and-Refine Tuning of Repository Guidance for Coding Agents

CUDAnalyst (CUDA + Analyst)

Towards Feedback-to-Plan Decisions for Self-Evolving LLM Agents in CUDA Kernel Generation

CodegenBench

CodegenBench: Can LLMs Write Efficient Code Across Architectures?

KernelBenchX: A Comprehensive Benchmark for Evaluating LLM-Generated GPU Kernels

KernelBenchX: A Comprehensive Benchmark for Evaluating LLM-Generated GPU Kernels

CUDA Kernel Fusion Benchmarks

Analyzing the Impact of Kernel Fusion on GPU Tensor Operation Performance: A Systematic Performance Study

IntelliKit: Agent-first tooling for AMD hardware

Kerncap: Automated Kernel Extraction and Isolation for AMD GPUs

DITRON: Distributed Compiler based on Triton for Parallel Systems

DITRON: Distributed Multi-level Tiling Compiler for Parallel Tensor Programs

See all packages

* * *

* * *

HGPU group © 2010-2026 hgpu.org

All rights belong to the respective authors

Login | Sitemap | Feedback | Policy

Contact us: