high performance computing on graphics processing units: hgpu.org

Papers on hgpu.org (.txt-file)

Implications of the Turing completeness of reaction-diffusion models, informed by GPGPU simulations on an XBox 360: cardiac arrhythmias, re-entry and the Halting problem

Implicit Adaptive Volume Ray Casting

Implicit and dynamic trees for high performance rendering

Implicit Boundary Control of Vector Field Based Shape Deformations

Implicit Feature-Based Alignment System for Radiotherapy

Implicit Methods for Real-Time simulation of Interactive Waves

Implicit Parallel Time Integrators

Implicit Skinning: Real-Time Skin Deformation with Contact Modeling

Importance of Data Loading Pipeline in Training Deep Neural Networks

Importance of Explicit Vectorization for CPU and GPU Software Performance

Importance Point Projection for GPU-based Final Gathering

Importance sampling algorithms for first passage time probabilities in the infinite server queue

Importance Sampling of Realistic Light Sources

Importance-driven compositing window management

Importance-Driven Isosurface Decimation for Visualization of Large Simulation Data Based on OpenCL

Importance-Driven Particle Techniques for Flow Visualization

Impostors and pseudo-instancing for GPU crowd rendering

Impostors, Pseudo-instancing and Image Maps for GPU Crowd Rendering

Improved automated lattice perturbation theory in background field gauge

Improved Distance Weighted GPU-based 3D Ultrasound Reconstruction Methods

Improved FCM algorithm for Clustering on Web Usage Mining

Improved Finite Difference Schemes for a 3-D Viscothermal Wave Equation on a GPU

Improved GPU Co-processor Sorting Algorithm with Barrier Synchronization

Improved Implementation of Simulation for Membrane Computing on the Graphic Processing Unit

Improved Integral Histogram Algorithm for Big Sized Images in CUDA Environment

Improved Lossless Image Compression Model Using Coefficient Based Discrete Wavelet Transform

Improved OpenCL-based Implementation of Social Field Pedestrian Model

Improved Performance of CaFE and IRIS Model Fitting Using CUDA

Improved Poisson Matting for a Real Time Tele-presence System Using GPU

Improved Programming of GPU Architectures through Automated Data Allocation and Loop Restructuring

Improved Real-Time Stereo on Commodity Graphics Hardware

Improved Row-Grouped CSR Format for Storing of Sparse Matrices on GPU

Improved Sequential & Parallel Designs and Implementations of the Eight Direction Prewitt Edge Detection

Improvement of the fused CUDA kernels performance prediction

Improvement Study of EEMD Decomposition Efficiency Based on CUDA Architecture

Improvements to Physically Based Cloth Simulation

Improving 3D Lattice Boltzmann Method stencil with asynchronous transfers on many-core processors

Improving accuracy for matrix multiplications on GPUs

Improving Atmospheric Model Performance on a Multi-Core Cluster System

Improving Automatic Parallel Training via Balanced Memory Workload Optimization

Improving Cache Locality for GPU-based Volume Rendering

Improving Cache Locality for Ray Casting with CUDA

Improving Code Generation via Small Language Model-as-a-judge

Improving Communication Performance and Scalability of Native Applications on Intel Xeon Phi Coprocessor Clusters

Improving Communication Performance in GPU-Accelerated HPC Clusters

Improving CUDA DNA Analysis Software with Genetic Programming

Improving CUDASW++, a Parallelization of Smith-Waterman for CUDA Enabled Devices

Improving energy and power efficiency using NComputing and approaches for predicting reliability of complex computing systems

Improving Energy Efficiency of Basic Linear Algebra Routines on Heterogeneous Systems with Multiple GPUs

Improving Energy Efficiency of GPU based General-Purpose Scientific Computing through Automated Selection of Near Optimal Configurations

Improving GPGPU Concurrency with Elastic Kernels

Improving GPU particle filter with shader model 3.0 for visual tracking

Improving GPU Performance by Regrouping CPU-Memory Data

Improving GPU Performance Prediction with Data Transfer Modeling

Improving GPU Performance through Instruction Redistribution and Diversification

Improving GPU Performance via Large Warps and Two-Level Warp Scheduling

Improving GPU Performance: Reducing Memory Conflicts and Latency

Improving GPU programming models through hardware cache coherence

Improving GPU Robustness by Making Use of Faulty Parts

Improving GPU Simulations of Spiking Neural P Systems

Improving GPU Sparse Matrix-Vector Multiplication for Probabilistic Model Checking

Improving GPU-accelerated Adaptive IDW Interpolation Algorithm Using Fast kNN Search

Improving HPC Code Generation Capability of LLMs via Online Reinforcement Learning with Real-Machine Benchmark Rewards

Improving Hybrid OpenCL Performance by High Speed Networks

Improving Locality of Unstructured Mesh Algorithms on GPUs

Improving Loop Parallelization by a Combination of Static and Dynamic Analyses in HLS

Improving many flavor QCD simulations using multiple GPUs

Improving Numerical Accuracy for Non-Negative Matrix Multiplication on GPUs using Recursive Algorithms

Improving numerical reproducibility and stability in large-scale numerical simulations on GPUs

Improving OpenACC compatibility within accULL

Improving OpenCL Performance by Specializing Compiler Phase Selection and Ordering

Improving OpenCL Programmability with the Heterogeneous Programming Library

Improving Parallel Program Performance Through DSL-Driven Code Generation with LLM Optimizers

Improving Performance and Energy Consumption of Runtime Schedulers for Dense Linear Algebra

Improving Performance and Energy Efficiency of GPUs through Locality Analysis

Improving Performance and Energy Efficiency of Heterogeneous Systems with rCUDA

Improving performance for emergent environments parameter tuning and simulation in games using GPU

Improving Performance of Hardware Accelerators by Optimizing Data Movement: A Bioinformatics Case Study

Improving Performance of Iterative Applications through Interleaved Execution of Approximated CUDA Kernels

Improving Performance of Matrix Multiplication and FFT on GPU

Improving Performance of OpenCL on CPUs

Improving performance of SYCL applications on CPU architectures using LLVM-directed compilation flow

Improving performance portability for GPU-specific OpenCL kernels on multi-core/many-core CPUs by analysis-based transformations

Improving Performance Portability in OpenCL Programs

Brief statistics for this page

Titles: 100

Download open PDFs: 90

Package packages: 11

UniCoder: Unified Visual-to-Code Generation via Symbolic Rewards and Reference-Guided Code Optimization

CuFuzz: An API-Knowledge-Graph Coverage-Driven Fuzzing Framework for CUDA Libraries

AutoPass: Evidence-Guided LLM Agents for Compiler Performance Tuning

KernelBenchX: A Comprehensive Benchmark for Evaluating LLM-Generated GPU Kernels

CUDA Kernel Fusion Benchmarks

Analyzing the Impact of Kernel Fusion on GPU Tensor Operation Performance: A Systematic Performance Study

IntelliKit: Agent-first tooling for AMD hardware

Kerncap: Automated Kernel Extraction and Isolation for AMD GPUs

DITRON: Distributed Compiler based on Triton for Parallel Systems

DITRON: Distributed Multi-level Tiling Compiler for Parallel Tensor Programs

See all packages

* * *

high performance computing on graphics processing units: hgpu.org

Papers on hgpu.org (.txt-file)

Recent source codes

UniCoder: Unified Visual-to-Code Generation via Symbolic Rewards and Reference-Guided Code Optimization

CuFuzz: An API-Knowledge-Graph Coverage-Driven Fuzzing Framework for CUDA Libraries

AutoPass: Evidence-Guided LLM Agents for Compiler Performance Tuning

Probe-and-Refine Tuning of Repository Guidance for AI Coding Agents

CUDAnalyst (CUDA + Analyst)

CodegenBench

KernelBenchX: A Comprehensive Benchmark for Evaluating LLM-Generated GPU Kernels

CUDA Kernel Fusion Benchmarks

IntelliKit: Agent-first tooling for AMD hardware

DITRON: Distributed Compiler based on Triton for Parallel Systems

Most viewed papers (last 30 days)