high performance computing on graphics processing units: hgpu.org

Applications

hgpu.org » paper

FortranX: Harnessing Code Generation, Portability, and Heterogeneity in Fortran

Sanil Rao, Mike Franusich, , Mohammad Alaul Haque Monil, Het Mankad, Jeffrey S. Vetter, Franz Franchetti

View

Tags: AMD, ATI, Code generation, Computer science, CUDA, Differential equations, Fortran, Heterogeneous systems, HIP, nVidia, OpenCL, OpenMP, Partial differential equations, PDEs

December 8, 2024 by hgpu

Guardian: Safe GPU Sharing in Multi-Tenant Environments

Manos Pavlidakis, Giorgos Vasiliadis, Anargyros Argyros, Stelios Mavridis, Antony Chazapis, Angelos Bilas

View

Tags: Computer science, CUDA, nVidia, nVidia GeForce RTX 3080 Ti, nVidia RTX A4000, PTX, Security

December 8, 2024 by hgpu

CLUEstering: a high-performance density-based clustering library for scientific computing

Simone Balducci

View

Tags: Astrophysics, ATI, Clustering, CUDA, FPGA, HIP, Machine learning, nVidia, Package, performance portability, Physics, Python, Tesla T4, Thesis

December 1, 2024 by hgpu

PyOMP: Parallel programming for CPUs and GPUs with OpenMP and Python

Giorgis Georgakoudis, Todd A. Anderson, Stuart Archibald, Bronis de Supinski,Timothy G. Mattson

View

Tags: Benchmarking, Computer science, nVidia, nVidia A100, OpenMP, Package, Python

December 1, 2024 by hgpu

Hardware Accelerators for Artificial Intelligence

S M Mojahidul Ahsan, Anurag Dhungel, Mrittika Chowdhury, Md Sakib Hasan, Tamzidul Hoque

View

Tags: AI, Computer science, Hardware Architecture, Performance, survey

December 1, 2024 by hgpu

Scaling SU(2) to 1000 GPUs using HiRep

Sofie Martins, Erik Kjellgren, Emiliano Molinaro, Claudio Pica, Antonio Rago

View

Tags: AMD Radeon Instinct MI250X, ATI, CUDA, HEP, High Energy Physics - Lattice, HIP, Monte Carlo simulation, nVidia, nVidia H100, Package, Physics

December 1, 2024 by hgpu

Understanding GEMM Performance and Energy on NVIDIA Ada Lovelace: A Machine Learning-Based Analytical Approach

Xiaoteng (Frank) Liu, Pavly Halim

View

Tags: Computer science, CUDA, Energy-efficient computing, GEMM, Machine learning, Matrix multiplication, nVidia, nVidia GeForce RTX 4070, Package, Performance

December 1, 2024 by hgpu

A Distributed-memory Tridiagonal Solver Based on a Specialised Data Structure Optimised for CPU and GPU Architectures

Semih Akkurt, Sébastien Lemaire, Paul Bartholomew, Sylvain Laizet

View

Tags: Computational Physics, Computer science, CUDA, nVidia, nVidia A100, nVidia GH200, nVidia H100, nVidia V100, OpenMP, PDEs

November 24, 2024 by hgpu

SoK: A Systems Perspective on Compound AI Threats and Countermeasures

Sarbartha Banerjee, Prateek Sahu, Mulong Luo, Anjo Vahldiek-Oberwagner, Neeraja J. Yadwadkar, Mohit Tiwari

View

Tags: AI, Artificial intelligence, Computer science, LLM, Machine learning, Security

November 24, 2024 by hgpu

gpuPairHMM: High-speed Pair-HMM Forward Algorithm for DNA Variant Calling on GPUs

Bertil Schmidt, Felix Kallenborn, Alexander Wichmann, Alejandro Chacon, Christian Hundt

View

Tags: Bioinformatics, Biology, Computer science, CUDA, FPGA, Genomics, nVidia, nVidia A100, nVidia H100, nVidia L4, nVidia L40s, nVidia V100, Package

November 24, 2024 by hgpu

Performance portability via C++ PSTL, SYCL, OpenMP, and HIP: the Gaia AVU-GSR case study

Giulio Malenza, Valentina Cesare, Marco Edoardo Santimaria, Robert Birke, Alberto Vecchiato, Ugo Becciani, Marco Aldinucci

View

Tags: AMD Radeon Instinct MI250X, Astrophysics, ATI, Computer science, CUDA, HIP, HPC, nVidia, nVidia A100, nVidia H100, nVidia V100, OpenMP, Package, Performance, performance portability, SYCL, Tesla T4

November 24, 2024 by hgpu

Edify 3D: Scalable High-Quality 3D Asset Generation

Maciej Bala, Yin Cui, Yifan Ding, Yunhao Ge, Zekun Hao, Jon Hasselgren, Jacob Huffman, Jingyi Jin, J.P. Lewis, Zhaoshuo Li, Chen-Hsuan Lin, Yen-Chen Lin, Tsung-Yi Lin, Ming-Yu Liu, Alice Luo, Qianli Ma, Jacob Munkberg, Stella Shi, Fangyin Wei, Donglai Xiang, Jiashu Xu, Xiaohui Zeng, Qinsheng Zhang

View

Tags: 3D Graphics and Realism, Computer science, Computer vision, nVidia

November 24, 2024 by hgpu

UniCoder: Unified Visual-to-Code Generation via Symbolic Rewards and Reference-Guided Code Optimization

UniCoder: Unified Visual-to-Code Generation via Symbolic Rewards and Reference-Guided Code Optimization

CuFuzz: An API-Knowledge-Graph Coverage-Driven Fuzzing Framework for CUDA Libraries

CuFuzz: An API-Knowledge-Graph Coverage-Driven Fuzzing Framework for CUDA Libraries

AutoPass: Evidence-Guided LLM Agents for Compiler Performance Tuning

AutoPass: Evidence-Guided LLM Agents for Compiler Performance Tuning

Probe-and-Refine Tuning of Repository Guidance for AI Coding Agents

Probe-and-Refine Tuning of Repository Guidance for Coding Agents

CUDAnalyst (CUDA + Analyst)

Towards Feedback-to-Plan Decisions for Self-Evolving LLM Agents in CUDA Kernel Generation

CodegenBench

CodegenBench: Can LLMs Write Efficient Code Across Architectures?

KernelBenchX: A Comprehensive Benchmark for Evaluating LLM-Generated GPU Kernels

KernelBenchX: A Comprehensive Benchmark for Evaluating LLM-Generated GPU Kernels

CUDA Kernel Fusion Benchmarks

Analyzing the Impact of Kernel Fusion on GPU Tensor Operation Performance: A Systematic Performance Study

IntelliKit: Agent-first tooling for AMD hardware

Kerncap: Automated Kernel Extraction and Isolation for AMD GPUs

DITRON: Distributed Compiler based on Triton for Parallel Systems

DITRON: Distributed Multi-level Tiling Compiler for Parallel Tensor Programs

See all packages

* * *

* * *

HGPU group © 2010-2026 hgpu.org

All rights belong to the respective authors

Login | Sitemap | Feedback | Policy

Contact us: