high performance computing on graphics processing units: hgpu.org

Zhu Zhu, Yu Sun, Dhatri Parakal, Bo Fang, Steven Farrell, Gregory H. Bauer, Brett Bode, Ian T. Foster, Michael E. Papka, William Gropp, Zhao Zhang, Lishan Yang

View

Download (PDF)

Tags: Computer science, HPC, Memory, nVidia, nVidia A100, nVidia A40

August 10, 2025 by hgpu

Vortex: Overcoming Memory Capacity Limitations in GPU-Accelerated Large-Scale Data Analytics

Yichao Yuan, Advait Iyer, Lin Ma, Nishil Talati

View

Download (PDF)

Source codes

Tags: AMD Radeon Instinct MI100, ATI, Computer science, CUDA, Databases, HIP, nVidia, nVidia A40, Package

February 16, 2025 by hgpu

Ilargi: a GPU Compatible Factorized ML Model Training Framework

Wenbo Sun, Rihan Hai

View

Download (PDF)

Source codes

Tags: Computer science, CUDA, Linear Algebra, Machine learning, nVidia, nVidia A40, Package

February 10, 2025 by hgpu

Gaining Cross-Platform Parallelism for HAL’s Molecular Dynamics Package using SYCL

Viktor Skoblin, Felix Höfling, Steffen Christgau

View

Download (PDF)

Source codes

Tags: AMD Radeon Instinct MI210, ATI, Computer science, CUDA, Molecular dynamics, nVidia, nVidia A100, nVidia A40, Package, Physics, SYCL

June 9, 2024 by hgpu

Gallatin: A General-Purpose GPU Memory Manager

Hunter McCoy, Prashant Pandey

View

Download (PDF)

Source codes

Tags: Computer science, CUDA, HPC, Memory, nVidia, nVidia A40, Package

February 4, 2024 by hgpu

Domain-Specific Code Language Models: Unraveling the Potential for HPC Codes and Tasks

Tal Kadosh, Niranjan Hasabnis, Vy A. Vo, Nadav Schneider, Neva Krien, Mihai Capota, Abdul Wasay, Nesreen Ahmed, Ted Willke, Guy Tamir, Yuval Pinter, Timothy Mattson, Gal Oren

View

Download (PDF)

Source codes

Tags: AI, Code generation, Computer science, Heterogeneous systems, HPC, nVidia, nVidia A40, OpenMP, Package, Python

January 7, 2024 by hgpu

cuSZ-I: High-Fidelity Error-Bounded Lossy Compression for Scientific Data on GPUs

Jinyang Liu, Jiannan Tian, Shixun Wu, Sheng Di, Boyuan Zhang, Yafan Huang, Kai Zhao, Guanpeng Li, Dingwen Tao, Zizhong Chen, Franck Cappello

View

Download (PDF)

Tags: Compression, Computer science, CUDA, nVidia, nVidia A100, nVidia A40

December 18, 2023 by hgpu

* * *

high performance computing on graphics processing units: hgpu.org

Revealing NVIDIA Closed-Source Driver Command Streams for CPU-GPU Runtime Behavior Insight

Hunting CUDA Bugs at Scale with cuFuzz

CUDABench: Benchmarking LLMs for Text-to-CUDA Generation

SynPerf: A Hybrid Analytical-ML Framework for GPU Performance Prediction

Memory-Efficient Acceleration of Block Low-Rank Foundation Models on Resource Constrained GPUs

Understanding the Landscape of Ampere GPU Memory Errors

Vortex: Overcoming Memory Capacity Limitations in GPU-Accelerated Large-Scale Data Analytics

Ilargi: a GPU Compatible Factorized ML Model Training Framework

Gaining Cross-Platform Parallelism for HAL’s Molecular Dynamics Package using SYCL

Gallatin: A General-Purpose GPU Memory Manager

Domain-Specific Code Language Models: Unraveling the Potential for HPC Codes and Tasks

cuSZ-I: High-Fidelity Error-Bounded Lossy Compression for Scientific Data on GPUs

Recent source codes

UniCoder: Unified Visual-to-Code Generation via Symbolic Rewards and Reference-Guided Code Optimization

CuFuzz: An API-Knowledge-Graph Coverage-Driven Fuzzing Framework for CUDA Libraries

AutoPass: Evidence-Guided LLM Agents for Compiler Performance Tuning

Probe-and-Refine Tuning of Repository Guidance for AI Coding Agents

CUDAnalyst (CUDA + Analyst)

CodegenBench

KernelBenchX: A Comprehensive Benchmark for Evaluating LLM-Generated GPU Kernels

CUDA Kernel Fusion Benchmarks

IntelliKit: Agent-first tooling for AMD hardware

DITRON: Distributed Compiler based on Triton for Parallel Systems

Most viewed papers (last 30 days)