high performance computing on graphics processing units: hgpu.org

hgpu.org » Reliability

Anatomy of High-Performance GEMM with Online Fault Tolerance on GPUs

Shixun Wu, Yujia Zhai, Jinyang Liu, Jiajun Huang, Zizhe Jian, Bryan M. Wong, Zizhong Chen

View

Download (PDF)

Source codes

Tags: Code generation, Computer science, CUDA, GEMM, Linear Algebra, Matrix multiplication, nVidia, nVidia A100, Package, Performance, Reliability, Tesla T4

May 7, 2023 by hgpu

A Survey of Soft-Error Mitigation Techniques for Non-Volatile Memories

Sparsh Mittal

View

Download (PDF)

Tags: classification, Memory, Reliability, Review

February 19, 2017 by sparsh0mittal

Design and Analysis of Soft-Error Resilience Mechanisms for GPU Register File

Sparsh Mittal, Haonan Wang, Adwait Jog and Jeffrey Vetter

View

Download (PDF)

Tags: GPU, Register file, Reliability

November 1, 2016 by sparsh0mittal

A Survey of Techniques for Architecting Processor Components using Domain Wall Memory

Sparsh Mittal

View

Download (PDF)

Tags: cache, cpu, energy, GPU, main memory, Performance, Register file, Reliability

September 5, 2016 by sparsh0mittal

A Survey of Techniques for Architecting and Managing GPU Register File

Sparsh Mittal

View

Download (PDF)

Tags: Energy efficiency, GPU, nVidia, Performance, Power, Register file, Reliability, Research, survey

March 22, 2016 by sparsh0mittal

A Survey of Techniques for Modeling and Improving Reliability of Computing Systems

Sparsh Mittal, Jeffrey Vetter

View

Download (PDF)

Tags: cache, cpu, Fault tolerance, GPU, main memory, non-volatile memory, Reliability, resilience, vulnerability

April 21, 2015 by sparsh0mittal

WiLLM: An Open Wireless LLM Communication System

Vcc: the Vulkan Clang Compiler

No More Shading Languages: Compiling C++ to Vulkan Shaders

hpcbench: A set of benchmarking utilities for biomolecular simulation tools

Engineering Supercomputing Platforms for Biomolecular Applications

HPCTransCompile: An AI Compiler Generated Dataset for High-Performance CUDA Transpilation and LLM Preliminary Exploration

* * *

high performance computing on graphics processing units: hgpu.org

Anatomy of High-Performance GEMM with Online Fault Tolerance on GPUs

A Survey of Soft-Error Mitigation Techniques for Non-Volatile Memories

Design and Analysis of Soft-Error Resilience Mechanisms for GPU Register File

A Survey of Techniques for Architecting Processor Components using Domain Wall Memory

A Survey of Techniques for Architecting and Managing GPU Register File

A Survey of Techniques for Modeling and Improving Reliability of Computing Systems

Recent source codes

WiLLM: An Open Wireless LLM Communication System

Vcc: the Vulkan Clang Compiler

hpcbench: A set of benchmarking utilities for biomolecular simulation tools

HPCTransCompile: An AI Compiler Generated Dataset for High-Performance CUDA Transpilation and LLM Preliminary Exploration

chemtrain: Training Molecular Dynamics Potentials in JAX

microSYCL: SYCL micro-benchmarks repository

XaaS containers

CASS: Cuda-Amd aSSembly

Cluser of smartphones for edge computing application using TensorFlow

SYCL Container

Most viewed papers (last 30 days)