high performance computing on graphics processing units: hgpu.org

hgpu.org » StarPU

Visual Performance Analysis of Memory Behavior in a Task-Based Runtime on Hybrid Platforms

Lucas Leandro Nesi, Samuel Thibault, Luka Stanisic, Lucas Mello Schnorr

View

Tags: Computer science, CUDA, Heterogeneous systems, nVidia, nVidia GeForce GTX 1080 Ti, Performance, StarPU

September 1, 2019 by hgpu

On Runtime Systems for Task-based Programming on Heterogeneous Platforms

Samuel Thibault

View

Tags: Computer science, CUDA, Distributed computing, Heterogeneous systems, nVidia, nVidia Quadro FX 5800, OpenCL, Operating systems, StarPU, Task scheduling, Tesla C2050, Tesla K20, Tesla M2075, Thesis

December 23, 2018 by hgpu

Asynchronous Task-Based Polar Decomposition on Single Node Manycore Architectures

Dalal Sukkari, Hatem Ltaief, Mathieu Faverge, David Keyes

View

Tags: Algorithms, Benchmarking, Computer science, Factorization, Intel Xeon Phi, nVidia, StarPU, Task scheduling, Tesla K80, Tesla P100

September 21, 2017 by hgpu

UniCoder: Unified Visual-to-Code Generation via Symbolic Rewards and Reference-Guided Code Optimization

UniCoder: Unified Visual-to-Code Generation via Symbolic Rewards and Reference-Guided Code Optimization

CuFuzz: An API-Knowledge-Graph Coverage-Driven Fuzzing Framework for CUDA Libraries

CuFuzz: An API-Knowledge-Graph Coverage-Driven Fuzzing Framework for CUDA Libraries

AutoPass: Evidence-Guided LLM Agents for Compiler Performance Tuning

AutoPass: Evidence-Guided LLM Agents for Compiler Performance Tuning

Probe-and-Refine Tuning of Repository Guidance for AI Coding Agents

Probe-and-Refine Tuning of Repository Guidance for Coding Agents

CUDAnalyst (CUDA + Analyst)

Towards Feedback-to-Plan Decisions for Self-Evolving LLM Agents in CUDA Kernel Generation

CodegenBench

CodegenBench: Can LLMs Write Efficient Code Across Architectures?

KernelBenchX: A Comprehensive Benchmark for Evaluating LLM-Generated GPU Kernels

KernelBenchX: A Comprehensive Benchmark for Evaluating LLM-Generated GPU Kernels

CUDA Kernel Fusion Benchmarks

Analyzing the Impact of Kernel Fusion on GPU Tensor Operation Performance: A Systematic Performance Study

IntelliKit: Agent-first tooling for AMD hardware

Kerncap: Automated Kernel Extraction and Isolation for AMD GPUs

DITRON: Distributed Compiler based on Triton for Parallel Systems

DITRON: Distributed Multi-level Tiling Compiler for Parallel Tensor Programs

See all packages

* * *

* * *

HGPU group © 2010-2026 hgpu.org

All rights belong to the respective authors

Login | Sitemap | Feedback | Policy

Contact us: