high performance computing on graphics processing units: hgpu.org

hgpu.org » Computer science

Analyzing the Performance Portability of SYCL across CPUs, GPUs, and Hybrid Systems with Protein Database Search

Manuel Costanzo, Enzo Rucci, Carlos García-Sánchez, Marcelo Naiouf, Manuel Prieto-Matías

View

Tags: AMD Radeon RX 6700 XT, AMD Radeon RX Vega 6, ATI, Bioinformatics, Biology, Computer science, CUDA, Databases, Heterogeneous systems, HPC, Intel, Intel Arc A770, Intel UHD 630, Intel UHD 770, nVidia, nVidia GeForce GTX 1080, nVidia GeForce GTX 980, nVidia GeForce RTX 2070, nVidia GeForce RTX 3070, nVidia GeForce RTX 3090, oneAPI, Package, performance portability, SYCL, Tesla V100

December 15, 2024 by hgpu

Towards Performance-Aware Allocation for Accelerated Machine Learning on GPU-SSD Systems

Ayush Gundawar, Euijun Chung, Hyesoon Kim

View

Tags: Computer science, Hardware Architecture, Machine learning, Performance

December 15, 2024 by hgpu

RTCUDB: Building Databases with RT Processors

Xuri Shi, Kai Zhang, X. Sean Wang, Xiaodong Zhang, Rubao Lee

View

Tags: Computer science, CUDA, Databases, nVidia, nVidia GeForce GTX Titan X, nVidia GeForce RTX 4090

December 15, 2024 by hgpu

Leveraging the potential of task-based programming with OpenMP task graphs

Chenle Yu

View

Tags: Computer science, CUDA, nVidia, nVidia V100, OpenMP, Package, Thesis

December 15, 2024 by hgpu

Deep Learning Model Security: Threats and Defenses

Tianyang Wang, Ziqian Bi, Yichao Zhang, Ming Liu, Weiche Hsieh, Pohsun Feng, Lawrence K.Q. Yan, Yizhu Wen, Benji Peng, Junyu Liu, Keyu Chen, Sen Zhang, Ming Li, Chuanqi Jiang, Xinyuan Song, Junjie Yang, Bowen Jing, Jintao Ren, Junhao Song, Hong-Ming Tseng, Silin Chen, Yunze Wang, Chia Xin Liang, Jiawei Xu, Xuanhe Pan, Jinlang Wang, Qian Niu

View

Tags: Computer science, Deep learning, nVidia, PyTorch, Review, Security

December 15, 2024 by hgpu

LLOR: Automated Repair of OpenMP Programs

Utpal Bora, Saurabh Joshi, Gautam Muduganti, Ramakrishna Upadrasta

View

Tags: Computer science, Fortran, OpenMP, Package

December 8, 2024 by hgpu

Automating Energy-Efficient GPU Kernel Generation: A Fast Search-Based Compilation Approach

Yijia Zhang, Zhihong Gou, Shijie Cao, Weigang Feng, Sicheng Zhang, Guohao Dai, Ningyi Xu

View

Tags: Computer science, CUDA, Energy-efficient computing, Machine learning, Neural networks, nVidia, nVidia A100, nVidia GeForce RTX 4090, Performance

December 8, 2024 by hgpu

Unified schemes for directive-based GPU offloading

Yohei Miki, Toshihiro Hanawa

View

Tags: AMD Radeon Instinct MI210, ATI, Computer science, Diffusion equation, Intel, Intel Ponte Vecchio Max 1100, N-body simulation, nVidia, nVidia GH200, nVidia H100, OpenACC, OpenMP, Package

December 8, 2024 by hgpu

FortranX: Harnessing Code Generation, Portability, and Heterogeneity in Fortran

Sanil Rao, Mike Franusich, , Mohammad Alaul Haque Monil, Het Mankad, Jeffrey S. Vetter, Franz Franchetti

View

Tags: AMD, ATI, Code generation, Computer science, CUDA, Differential equations, Fortran, Heterogeneous systems, HIP, nVidia, OpenCL, OpenMP, Partial differential equations, PDEs

December 8, 2024 by hgpu

Guardian: Safe GPU Sharing in Multi-Tenant Environments

Manos Pavlidakis, Giorgos Vasiliadis, Anargyros Argyros, Stelios Mavridis, Antony Chazapis, Angelos Bilas

View

Tags: Computer science, CUDA, nVidia, nVidia GeForce RTX 3080 Ti, nVidia RTX A4000, PTX, Security

December 8, 2024 by hgpu

PyOMP: Parallel programming for CPUs and GPUs with OpenMP and Python

Giorgis Georgakoudis, Todd A. Anderson, Stuart Archibald, Bronis de Supinski,Timothy G. Mattson

View

Tags: Benchmarking, Computer science, nVidia, nVidia A100, OpenMP, Package, Python

December 1, 2024 by hgpu

Hardware Accelerators for Artificial Intelligence

S M Mojahidul Ahsan, Anurag Dhungel, Mrittika Chowdhury, Md Sakib Hasan, Tamzidul Hoque

View

Tags: AI, Computer science, Hardware Architecture, Performance, survey

December 1, 2024 by hgpu

CUDAnalyst (CUDA + Analyst)

Towards Feedback-to-Plan Decisions for Self-Evolving LLM Agents in CUDA Kernel Generation

CodegenBench

CodegenBench: Can LLMs Write Efficient Code Across Architectures?

KernelBenchX: A Comprehensive Benchmark for Evaluating LLM-Generated GPU Kernels

KernelBenchX: A Comprehensive Benchmark for Evaluating LLM-Generated GPU Kernels

CUDA Kernel Fusion Benchmarks

Analyzing the Impact of Kernel Fusion on GPU Tensor Operation Performance: A Systematic Performance Study

IntelliKit: Agent-first tooling for AMD hardware

Kerncap: Automated Kernel Extraction and Isolation for AMD GPUs

DITRON: Distributed Compiler based on Triton for Parallel Systems

DITRON: Distributed Multi-level Tiling Compiler for Parallel Tensor Programs

CuTile Benchmark Suite: Performance and Productivity Tradeoffs for GPU Kernel Programming on Blackwell Architecture

Evaluating CUDA Tile for AI Workloads on Hopper and Blackwell GPUs

Agentic Code Optimization via Compiler-LLM Cooperation

Agentic Code Optimization via Compiler-LLM Cooperation

Device Virtual Machine (DVM)

DVM: Real-Time Kernel Generation for Dynamic AI Models

MegaTrain: Full Precision Training of 100B+ Parameter Large Language Models on a Single GPU

MegaTrain: Full Precision Training of 100B+ Parameter Large Language Models on a Single GPU

See all packages

* * *

* * *

HGPU group © 2010-2026 hgpu.org

All rights belong to the respective authors

Login | Sitemap | Feedback | Policy

Contact us: