high performance computing on graphics processing units: hgpu.org

Papers on hgpu.org (.txt-file)

Opengl-Based Control of Semi-Active 3D Display

OpenGL(R) ES 2.0 Programming Guide

OpenGL(R) Programming Guide: The Official Guide to Learning OpenGL(R), Version 2 (5th Edition)

OpenGL(R) Shading Language (2nd Edition)

OpenGL(R) SuperBible: Comprehensive Tutorial and Reference (4th Edition)

Opening the Black Box: Performance Estimation during Code Generation for GPUs

OpenMM 8: Molecular Dynamics Simulation with Machine Learning Potentials

OpenMM: A Hardware-Independent Framework for Molecular Simulations

OpenMP Advisor

OpenMP as a High-Level Specification Language for Parallelism And its use in Evaluating Parallel Programming Systems

OpenMP for Accelerators

OpenMP in Multicore Architectures (tech. report)

OpenMP Kernel Language Extensions for Performance Portable GPU Codes

OpenMP offload at the Exascale using Intel GPU Max 1550: evaluation of STREAmS compressible solver

OpenMP Offloading in the Jetson Nano Platform

OpenMP on Multicore Architectures

OpenMP Parallelization and Optimization of Graph-based Machine Learning Algorithms

OpenMP performance analysis for many-core platforms with non-uniform memory access

OpenMP Programming on Intel R Xeon Phi TM Coprocessors: An Early Performance Comparison

OpenMP to GPGPU: a compiler framework for automatic translation and optimization

OpenMP, OpenMP/MPI, and CUDA/MPI C programs for solving the time-dependent dipolar Gross-Pitaevskii equation

OpenMPC: Extended OpenMP for Efficient Programming and Tuning on GPUs

OpenMPC: Extended OpenMP Programming and Tuning for GPUs

OpenNMT: Open-Source Toolkit for Neural Machine Translation

OpenOF: Framework for Sparse Non-linear Least Squares Optimization on a GPU

OpenRAND: A Performance Portable, Reproducible Random Number Generation Library for Parallel Computations

OpenRCL: Low-Power High-Performance Computing with Reconfigurable Devices

OpenSBLI: A framework for the automated derivation and parallel execution of finite difference solvers on a range of computer architectures

OpenSBLI: Automated code-generation for heterogeneous computing architectures applied to compressible fluid dynamics on structured grids

OpenSSL acceleration using Graphics Processing Units

OpenVIDIA: parallel GPU computer vision

Operating Systems Challenges for GPU Resource Management

Operating systems must support GPU abstractions

OPNET: An Integrated Design Paradigm for Simulations

Opportunities for Heterogeneous CPUGPU Task Scheduling

Opportunities for Nonvolatile Memory Systems in Extreme-Scale High Performance Computing

Opportunities for Parallelism in Matrix Multiplication

Opt: A Domain Specific Language for Non-linear Least Squares Optimization in Graphics and Imaging

Optical Flow Computation on Compute Unified Device Architecture

Optical Flow via Locally Adaptive Fusion of Complementary Data Costs

Optimal Alignment of Three Sequences On A GPU

Optimal automatic multi-pass shader partitioning by dynamic programming

Optimal Configuration of GPU Cache Memory to Maximize the Performance

Optimal Control of the Process Systems Using Graphic Processing Unit

Optimal Control Problem and Power-Efficient Medical Image Processing Using Puma

Optimal Image Upscaling Using Pixel Classification

Optimal Kernel Orchestration for Tensor Programs with Korch

Optimal loop unrolling for GPGPU programs

Optimal loop unrolling for GPGPU programs (thesis)

Optimal Periods for Probing Convergence of Infinite-stage Dynamic Programmings on GPUs

Optimal Piecewise Linear Function Approximation for GPU-based Applications

Optimal polygonal L1 linearization and fast interpolation of nonlinear systems

Optimal program variant generation for hybrid manycore systems

Optimal rotation alignment of 3D objects using a GPU-based similarity function

Optimal similarity registration of volumetric images

Optimal Software Pipelining and Warp Specialization for Tensor Core GPUs

Optimal structure of face detection algorithm using GPU architecture

Optimal Utilization of Heterogeneous Resources for Biomolecular Simulations

Optimal Workload Placement on Multi-Instance GPUs

Optimisation and GPU code generation of Stencils for Futhark

Optimisation and Parallelism in Synchronous Digital Circuit Simulators

Optimising Convolutional Neural Networks Inference on Low-Powered GPUs

Optimising Cosmological N-body Simulations in GPU Clusters

Optimising GPR modelling: A practical, multi-threaded approach to 3D FDTD numerical modelling

Optimising Hydrodynamics applications for the Cray XC30 with the application tool suite

Optimising Monte Carlo option pricing using GPUs

Optimising OpenCL kernels for the ARM Mali-T600 GPUs

Optimising Purely Functional GPU Programs

Optimising Purely Functional GPU Programs (Thesis)

Optimising Reconfigurable Systems for Real-time Applications

Optimising the DBCSR GPU Implementation

Optimising Unstructured Mesh Computational Fluid Dynamics Applications on Multicores via Machine Learning and Code Transformation

Optimistic Parallelism on GPUs

Optimization and Evaluation of VLPL-S Particle-in-cell Code on Knights Landing

Optimization and Implementation of LBM Benchmark on Multithreaded GPU

Optimization and Large Scale Computation of an Entropy-Based Moment Closure

Optimization and Parallelization Methods for the Design of Next-Generation Radio Networks

Optimization and parallelization of B-spline based orbital evaluations in QMC on multi/many-core shared memory processors

Optimization and parameter exploration using GPU based FDTD solvers

Optimization and Portability of a Fusion OpenACC-based FORTRAN HPC Code from NVIDIA to AMD GPUs

Optimization of a discontinuous finite element solver with OpenCL and StarPU

Optimization of a discontinuous Galerkin solver with OpenCL and StarPU

Optimization of a FDTD code for graphical processing units

Optimization of a finite element code implemented in MATLAB: On the use of GPUs for High Performance Computing

Optimization of a GPU Implementation of Multi-Dimensional RF Pulse Design Algorithm

Optimization of a Machine Learning Algorithm on the Heterogeneous system using OpenCL

Optimization of Compiler-generated OpenCL CNN Kernels and Runtime for FPGAs

Optimization of Data Assignment for Parallel Processing in a Hybrid Heterogeneous Environment Using Integer Linear Programming

Optimization of Data-Parallel Scientific Applications on Highly Heterogeneous Modern HPC Platforms

Optimization of GPU workloads using natural language processing based on deep learning techniques

Optimization of HEP codes on GPUs

Optimization of Heterogeneous Parallel Computing Systems using Machine Learning

Optimization of Heterogeneous Systems with AI Planning Heuristics and Machine Learning: A Performance and Energy Aware Approach

Optimization of Hierarchical Matrix Computation on GPU

Optimization of Large-Scale Sparse Matrix-Vector Multiplication on Multi-GPU Systems

Optimization of Lattice Boltzmann Simulations on Heterogeneous Computers

Optimization of linked list prefix computations on multithreaded GPUs using CUDA

Optimization of mapped functions sequences using fusions on GPU

Optimization of massive data applications on heterogeneous architectures

Optimization of Molecular Dynamics Simulation Code and Applications to Biomolecular Systems

Brief statistics for this page

Titles: 100

Download open PDFs: 85

Package packages: 20

UniCoder: Unified Visual-to-Code Generation via Symbolic Rewards and Reference-Guided Code Optimization

CuFuzz: An API-Knowledge-Graph Coverage-Driven Fuzzing Framework for CUDA Libraries

AutoPass: Evidence-Guided LLM Agents for Compiler Performance Tuning

KernelBenchX: A Comprehensive Benchmark for Evaluating LLM-Generated GPU Kernels

CUDA Kernel Fusion Benchmarks

Analyzing the Impact of Kernel Fusion on GPU Tensor Operation Performance: A Systematic Performance Study

IntelliKit: Agent-first tooling for AMD hardware

Kerncap: Automated Kernel Extraction and Isolation for AMD GPUs

DITRON: Distributed Compiler based on Triton for Parallel Systems

DITRON: Distributed Multi-level Tiling Compiler for Parallel Tensor Programs

See all packages

* * *

high performance computing on graphics processing units: hgpu.org

Papers on hgpu.org (.txt-file)

Recent source codes

UniCoder: Unified Visual-to-Code Generation via Symbolic Rewards and Reference-Guided Code Optimization

CuFuzz: An API-Knowledge-Graph Coverage-Driven Fuzzing Framework for CUDA Libraries

AutoPass: Evidence-Guided LLM Agents for Compiler Performance Tuning

Probe-and-Refine Tuning of Repository Guidance for AI Coding Agents

CUDAnalyst (CUDA + Analyst)

CodegenBench

KernelBenchX: A Comprehensive Benchmark for Evaluating LLM-Generated GPU Kernels

CUDA Kernel Fusion Benchmarks

IntelliKit: Agent-first tooling for AMD hardware

DITRON: Distributed Compiler based on Triton for Parallel Systems

Most viewed papers (last 30 days)