high performance computing on graphics processing units: hgpu.org

Applications

hgpu.org » Applications

HetCCL: Accelerating LLM Training with Heterogeneous GPUs

Heehoon Kim, Jaehwan Lee, Taejeoung Kim, Jongwon Park, Jinpyo Kim, Pyongwon Suh, Ryan H. Choi, Sangwoo Lee, Jaejin Lee

View

Tags: AMD, AMD FirePro W7800, Computer science, Deep learning, GPU cluster, Heterogeneous systems, LLM, nVidia, Tesla V100

February 8, 2026 by hgpu

Just-in-Time Catching Test Generation at Meta

Matthew Becker, Yifei Chen, Nicholas Cochran, Pouyan Ghasemi, Abhishek Gulati, Mark Harman, Zachary Haluza, Mehrdad Honarkhah, Herve Robert, Jiacheng Liu, Weini Liu, Sreeja Thummala, Xiaoning Yang, Rui Xin, Sophie Zeng

View

Tags: Computer science, LLM

February 8, 2026 by hgpu

Inside VOLT: Designing an Open-Source GPU Compiler (Tool)

Shinnung Jeong, Chihyo Ahn, Huanzhi Pu, Jisheng Zhao, Hyesoon Kim, Blaise Pascal Tine

View

Tags: Compilers, Computer science, CUDA, FPGA, nVidia, OpenCL, Package

February 8, 2026 by hgpu

Dr. Kernel: Reinforcement Learning Done Right for Triton Kernel Generations

Wei Liu, Jiawei Xu, Yingru Li, Longtao Zheng, Tianjian Li, Qian Liu, Junxian He

View

Tags: Computer science, CUDA, LLM, nVidia, nVidia H100, Package, Triton

February 8, 2026 by hgpu

Accelerating Scientific Research with Gemini: Case Studies and Common Techniques

David P. Woodruff, Vincent Cohen-Addad, Lalit Jain, Jieming Mao, Song Zuo, MohammadHossein Bateni, Simina Branzei, Michael P. Brenner, Lin Chen, Ying Feng, Lance Fortnow, Gang Fu, Ziyi Guan, Zahra Hadizadeh, Mohammad T. Hajiaghayi, Mahdi JafariRaviz, Adel Javanmard, Karthik C. S., Ken-ichi Kawarabayashi, Ravi Kumar, Silvio Lattanzi, Euiwoong Lee, Yi Li, Ioannis Panageas, Dimitris Paparas, Benjamin Przybocki, Bernardo Subercaseaux, Ola Svensson, Shayan Taherijam, Xuan Wu, Eylon Yogev, Morteza Zadimoghaddam, Samson Zhou, Vahab Mirrokni

View

Tags: Computer science, LLM, Physics, Review

February 8, 2026 by hgpu

Scaling GPU-to-CPU Migration for Efficient Distributed Execution on CPU Clusters

Ruobing Han, Hyesoon Kim

View

Tags: Compilers, Computer science, CUDA, nVidia, nVidia A100, nVidia V100, Triton

February 8, 2026 by hgpu

SciDef: Automating Definition Extraction from Academic Literature with Large Language Models

Filip Kučera, Christoph Mandl, Isao Echizen, Radu Timofte, Timo Spinde

View

Tags: Computer science, Data mining, LLM, NLP, Package

February 8, 2026 by hgpu

BioAgent Bench: An AI Agent Evaluation Suite for Bioinformatics

Dionizije Fa, Marko Čuljak, Bruno Pandža, Mateo Čupić

View

Tags: Benchmarking, Bioinformatics, Biology, LLM, Package

February 2, 2026 by hgpu

Private LLM Inference on Consumer Blackwell GPUs: A Practical Guide for Cost-Effective Local Deployment in SMEs

Jonathan Knoop, Hendrik Holtmann

View

Tags: Cloud, Computer science, CUDA, LLM, nVidia, nVidia GeForce RTX 5060 Ti, nVidia GeForce RTX 5070 Ti, nVidia GeForce RTX 5090, Package

February 2, 2026 by hgpu

Generating Literature-Driven Scientific Theories at Scale

Peter Jansen, Peter Clark, Doug Downey, Daniel S. Weld

View

Tags: Computer science, LLM, Package

February 2, 2026 by hgpu

Nsight Python: A Python-First Profiling Toolkit for Seamless GPU Kernel Analysis (Tool)

Bastian Hagedorn, Alexander Collins, Tony Mongkolsmai, Vinod Grover

View

Tags: Computer science, CUDA, nVidia, nVidia B200, Package, Performance, Profiling, Python, Triton

February 2, 2026 by hgpu

ProfInfer: An eBPF-based Fine-Grained LLM Inference Profiler

Bohua Zou, Debayan Roy, Dhimankumar Yogesh Airao, Weihao Xu, Binqi Sun, Yutao Liu, Haibo Chen

View

Tags: Computer science, LLM, OpenCL, Performance

February 2, 2026 by hgpu

CUDAnalyst (CUDA + Analyst)

Towards Feedback-to-Plan Decisions for Self-Evolving LLM Agents in CUDA Kernel Generation

CodegenBench

CodegenBench: Can LLMs Write Efficient Code Across Architectures?

KernelBenchX: A Comprehensive Benchmark for Evaluating LLM-Generated GPU Kernels

KernelBenchX: A Comprehensive Benchmark for Evaluating LLM-Generated GPU Kernels

CUDA Kernel Fusion Benchmarks

Analyzing the Impact of Kernel Fusion on GPU Tensor Operation Performance: A Systematic Performance Study

IntelliKit: Agent-first tooling for AMD hardware

Kerncap: Automated Kernel Extraction and Isolation for AMD GPUs

DITRON: Distributed Compiler based on Triton for Parallel Systems

DITRON: Distributed Multi-level Tiling Compiler for Parallel Tensor Programs

CuTile Benchmark Suite: Performance and Productivity Tradeoffs for GPU Kernel Programming on Blackwell Architecture

Evaluating CUDA Tile for AI Workloads on Hopper and Blackwell GPUs

Device Virtual Machine (DVM)

DVM: Real-Time Kernel Generation for Dynamic AI Models

MegaTrain: Full Precision Training of 100B+ Parameter Large Language Models on a Single GPU

MegaTrain: Full Precision Training of 100B+ Parameter Large Language Models on a Single GPU

Agentic Code Optimization via Compiler-LLM Cooperation

Agentic Code Optimization via Compiler-LLM Cooperation

See all packages

* * *

* * *

HGPU group © 2010-2026 hgpu.org

All rights belong to the respective authors

Login | Sitemap | Feedback | Policy

Contact us: