high performance computing on graphics processing units: hgpu.org

Applications

hgpu.org » paper

Dr. Kernel: Reinforcement Learning Done Right for Triton Kernel Generations

Wei Liu, Jiawei Xu, Yingru Li, Longtao Zheng, Tianjian Li, Qian Liu, Junxian He

View

Tags: Computer science, CUDA, LLM, nVidia, nVidia H100, Package, Triton

February 8, 2026 by hgpu

Accelerating Scientific Research with Gemini: Case Studies and Common Techniques

David P. Woodruff, Vincent Cohen-Addad, Lalit Jain, Jieming Mao, Song Zuo, MohammadHossein Bateni, Simina Branzei, Michael P. Brenner, Lin Chen, Ying Feng, Lance Fortnow, Gang Fu, Ziyi Guan, Zahra Hadizadeh, Mohammad T. Hajiaghayi, Mahdi JafariRaviz, Adel Javanmard, Karthik C. S., Ken-ichi Kawarabayashi, Ravi Kumar, Silvio Lattanzi, Euiwoong Lee, Yi Li, Ioannis Panageas, Dimitris Paparas, Benjamin Przybocki, Bernardo Subercaseaux, Ola Svensson, Shayan Taherijam, Xuan Wu, Eylon Yogev, Morteza Zadimoghaddam, Samson Zhou, Vahab Mirrokni

View

Tags: Computer science, LLM, Physics, Review

February 8, 2026 by hgpu

Scaling GPU-to-CPU Migration for Efficient Distributed Execution on CPU Clusters

Ruobing Han, Hyesoon Kim

View

Tags: Compilers, Computer science, CUDA, nVidia, nVidia A100, nVidia V100, Triton

February 8, 2026 by hgpu

Just-in-Time Catching Test Generation at Meta

Matthew Becker, Yifei Chen, Nicholas Cochran, Pouyan Ghasemi, Abhishek Gulati, Mark Harman, Zachary Haluza, Mehrdad Honarkhah, Herve Robert, Jiacheng Liu, Weini Liu, Sreeja Thummala, Xiaoning Yang, Rui Xin, Sophie Zeng

View

Tags: Computer science, LLM

February 8, 2026 by hgpu

Inside VOLT: Designing an Open-Source GPU Compiler (Tool)

Shinnung Jeong, Chihyo Ahn, Huanzhi Pu, Jisheng Zhao, Hyesoon Kim, Blaise Pascal Tine

View

Tags: Compilers, Computer science, CUDA, FPGA, nVidia, OpenCL, Package

February 8, 2026 by hgpu

SciDef: Automating Definition Extraction from Academic Literature with Large Language Models

Filip Kučera, Christoph Mandl, Isao Echizen, Radu Timofte, Timo Spinde

View

Tags: Computer science, Data mining, LLM, NLP, Package

February 8, 2026 by hgpu

BioAgent Bench: An AI Agent Evaluation Suite for Bioinformatics

Dionizije Fa, Marko Čuljak, Bruno Pandža, Mateo Čupić

View

Tags: Benchmarking, Bioinformatics, Biology, LLM, Package

February 2, 2026 by hgpu

Private LLM Inference on Consumer Blackwell GPUs: A Practical Guide for Cost-Effective Local Deployment in SMEs

Jonathan Knoop, Hendrik Holtmann

View

Tags: Cloud, Computer science, CUDA, LLM, nVidia, nVidia GeForce RTX 5060 Ti, nVidia GeForce RTX 5070 Ti, nVidia GeForce RTX 5090, Package

February 2, 2026 by hgpu

Generating Literature-Driven Scientific Theories at Scale

Peter Jansen, Peter Clark, Doug Downey, Daniel S. Weld

View

Tags: Computer science, LLM, Package

February 2, 2026 by hgpu

Nsight Python: A Python-First Profiling Toolkit for Seamless GPU Kernel Analysis (Tool)

Bastian Hagedorn, Alexander Collins, Tony Mongkolsmai, Vinod Grover

View

Tags: Computer science, CUDA, nVidia, nVidia B200, Package, Performance, Profiling, Python, Triton

February 2, 2026 by hgpu

ProfInfer: An eBPF-based Fine-Grained LLM Inference Profiler

Bohua Zou, Debayan Roy, Dhimankumar Yogesh Airao, Weihao Xu, Binqi Sun, Yutao Liu, Haibo Chen

View

Tags: Computer science, LLM, OpenCL, Performance

February 2, 2026 by hgpu

SynPerf: A Hybrid Analytical-ML Framework for GPU Performance Prediction

Kaixuan Zhang, Yunfan Cui, Shuhao Zhang, Chutong Ding, Shiyou Qian, Luping Wang, Jian Cao, Guangtao Xue, Cheng Huang, Guodong Yang, Liping Zhang

View

Tags: Computer science, CUDA, Heterogeneous systems, Machine learning, nVidia, nVidia A100, nVidia A40, nVidia H100, nVidia H20, nVidia H200, nVidia H800, nVidia L20, nVidia L40, nVidia RTX 6000 Ada, Performance, Triton

January 25, 2026 by hgpu

UniCoder: Unified Visual-to-Code Generation via Symbolic Rewards and Reference-Guided Code Optimization

UniCoder: Unified Visual-to-Code Generation via Symbolic Rewards and Reference-Guided Code Optimization

CuFuzz: An API-Knowledge-Graph Coverage-Driven Fuzzing Framework for CUDA Libraries

CuFuzz: An API-Knowledge-Graph Coverage-Driven Fuzzing Framework for CUDA Libraries

AutoPass: Evidence-Guided LLM Agents for Compiler Performance Tuning

AutoPass: Evidence-Guided LLM Agents for Compiler Performance Tuning

Probe-and-Refine Tuning of Repository Guidance for AI Coding Agents

Probe-and-Refine Tuning of Repository Guidance for Coding Agents

CUDAnalyst (CUDA + Analyst)

Towards Feedback-to-Plan Decisions for Self-Evolving LLM Agents in CUDA Kernel Generation

CodegenBench

CodegenBench: Can LLMs Write Efficient Code Across Architectures?

KernelBenchX: A Comprehensive Benchmark for Evaluating LLM-Generated GPU Kernels

KernelBenchX: A Comprehensive Benchmark for Evaluating LLM-Generated GPU Kernels

CUDA Kernel Fusion Benchmarks

Analyzing the Impact of Kernel Fusion on GPU Tensor Operation Performance: A Systematic Performance Study

IntelliKit: Agent-first tooling for AMD hardware

Kerncap: Automated Kernel Extraction and Isolation for AMD GPUs

DITRON: Distributed Compiler based on Triton for Parallel Systems

DITRON: Distributed Multi-level Tiling Compiler for Parallel Tensor Programs

See all packages

* * *

* * *

HGPU group © 2010-2026 hgpu.org

All rights belong to the respective authors

Login | Sitemap | Feedback | Policy

Contact us: