exploiting parallelism on gpus

12

Exploiting Parallelism on GPUs Matt Mukerjee David Naylor

Upload: vail

Post on 22-Feb-2016

48 views

Category:

Documents

0 download

Report

Download

Tags:

Embed Size (px):

DESCRIPTION

Exploiting Parallelism on GPUs. Matt Mukerjee David Naylor. Parallelism on GPUs. $100 NVIDIA video card  192 cores (Build Blacklight for ~$2000 ???) Incredibly low power Ubiquitous Question: Use for general computation? General Purpose GPU (GPGPU). ?. =. GPU Hardware. - PowerPoint PPT Presentation

TRANSCRIPT

Page 1: Exploiting Parallelism on GPUs

Exploiting Parallelism on GPUs

Matt MukerjeeDavid Naylor

Page 2: Exploiting Parallelism on GPUs

Parallelism on GPUs• $100 NVIDIA video card 192 cores– (Build Blacklight for ~$2000 ???)

• Incredibly low power• Ubiquitous

• Question: Use for general computation?– General Purpose GPU (GPGPU)

=?

Page 3: Exploiting Parallelism on GPUs

GPU Hardware• Very specific constraints– Designed to be SIMD (e.g. shaders)– Zero-overhead thread scheduling– Little caching (compared to CPUs)

• Constantly stalled on memory access• MASSIVE # of threads / core• Much finer-grained threads

(“kernels”)

Page 4: Exploiting Parallelism on GPUs

CUDA Architecture

Page 5: Exploiting Parallelism on GPUs

Thread Blocks• GPUs are SIMD

• How does multithreading work?• Threads that branch are halted, then

run• Single Instruction Multiple….?

Page 6: Exploiting Parallelism on GPUs

CUDA is an SIMT architecture

• Single Instruction Multiple Thread• Threads in a block execute the same

instructionMulti-threadedInstruction Unit

Page 7: Exploiting Parallelism on GPUs

ObservationFitting the data structures needed by the threads in one multiprocessor requires application-specific tuning.

Page 8: Exploiting Parallelism on GPUs

Example: MapReduce on CUDA

Too big forcache on one SM!

Page 9: Exploiting Parallelism on GPUs

ProblemOnly one code branch within a block executes at a time

Page 10: Exploiting Parallelism on GPUs

Enhancing SIMT

Page 11: Exploiting Parallelism on GPUs

ProblemIf two multiprocessors share a cache line, there are more memory accesses than necessary.

Page 12: Exploiting Parallelism on GPUs

Data Reordering

Exploiting Instruction-Level Parallelism for Memory …rsim.cs.uiuc.edu/Pubs/phdthesis-pai.pdf · Exploiting Instruction-Level Parallelism for Memory System Performance by ... Exploiting

PROJECT NUMBER: 249013 Exploiting dataflow parallelism in

Exploiting Fine-Grained Data Parallelism with Chip ...meiyang/ecg700/readings/Exploiting Fine...Exploiting Fine-Grained Data Parallelism with Chip Multiprocessors and Fast Barriers

Exploiting thread-level parallelism on reconfigurable …cj82qf64f/fulltext.pdf · Exploiting Thread-Level Parallelism on Reconﬁgurable Architectures: a Cross-Layer Approach by

EXPLOITING PARALLELISM WITHIN MULTIDIMENSIONAL …oaktrust.library.tamu.edu/bitstream/handle/1969.1/... · exploiting parallelism within multidimensional multirate digital signal

Exploiting SIMD parallelism with the CGiS compiler framework

Exploiting Fine-Grained Data Parallelism with Chip ...cseweb.ucsd.edu/~calder/papers/MICRO-06-Barriers.pdf · to exploiting ﬁne-grained data parallelism for vector computations

RouteBricks: Exploiting Parallelism To Scale Software Routers

CHAPTER 15 Exploiting Load/Store Parallelism via Memory

Exploiting and/or Parallelism in Prolog

PeerWave: Exploiting Wavefront Parallelism on GPUs with ...parallelism where tiles can also be processed in parallel along diagonal waves with global barriers separating them. GPUs

Exploiting GPUs for fast force-directed visualization of ...liacs.leidenuniv.nl/~takesfw/pdf/exploiting-gpus-fast.pdf · cores, they can easily be equipped with Graphics Processing

Exploiting Intra Warp Parallelism for GPGPU

Exploiting Parallelism in Matrix-Computation Kernels for ...paolo/Reference/dalbertoBN2011.pdf · Exploiting Parallelism in Matrix-Computation Kernels for Symmetric Multiprocessor

Janus : exploiting parallelism via hindsight

PROJECT NUMBER: 249013 Exploiting dataflow parallelism ......Project: TERAFLUX - Exploiting dataflow parallelism in Teradevice Computing Grant Agreement Number: 249013 Call: FET proactive

Exploiting Parallelism of Irregular Problems and

Exploiting Parallelism and Scalability - Duke Universitypeople.duke.edu/~bcl15/documents/xps2015-report.pdf · research program -- Exploiting Parallelism and Scalability (XPS). XPS

Exploiting Fine-Grained Parallelism Through a Combination ...melvin/p287-melvin.pdf · Exploiting Fine-Grained Parallelism Through a Combination of Hardware and Software Techniques

Exploiting Application Data-Parallelism on Dynamically

Exploiting Parallelism in GPUs - Duke University · Exploiting Parallelism in GPUs by Blake Hechtman Department of Electrical and Computer Engineering Duke University Date: Approved:

RouteBricks: Exploiting Parallelism To Scale Software Routerssn624/552-F19/papers/routebricks.pdf · RouteBricks: Exploiting Parallelism To Scale Software Routers Mihai Dobrescu1

Pipelining and Exploiting Instruction-Level Parallelism (ILP)

Exploiting Memory-level Parallelism in Reconfigurable ... · Exploiting Memory-level Parallelism in Reconﬁgurable Accelerators by Shaoyi Cheng Research Project Submitted to the

NVIDIA OptiX 5.0 - Programming Guide · 1 OptiXoverview GPUs are best at exploiting very high degrees of parallelism, and ray tracing ﬁts that requirement perfectly. However, typical

Exploiting Parallelism

Exploiting Memory-level Parallelism in Reconfigurable Accelerators

Joins for Hybrid Warehouses: Exploiting Massive Parallelism in

Using GPUs to Achieve Massive Parallelism in Java 8

PROJECT NUMBER: 249013 Exploiting dataflow parallelism in …€¦ · Exploiting dataflow parallelism in Teradevice Computing D7.3 – Power and Thermal Modeling and Fault-injection

NVIDIA OptiX 5.1 - Programming Guide · 1 OptiXoverview GPUs are best at exploiting very high degrees of parallelism, and ray tracing ﬁts that requirement perfectly. However, typical

Exploiting Parallelism in Pattern Matching: An Information ...ir.cs.georgetown.edu/...An_Information_Retrieval... · Exploiting Parallelism in Pattern Matching: An Information Retrieval

The Janus Triad: Exploiting Parallelism through Dynamic Binary Modificationrkz20/paper/vee19janus.pdf · 2019-04-02 · The Janus Triad: Exploiting Parallelism through Dynamic Binary

PROJECT NUMBER: 249013 Exploiting dataflow parallelism in ...teraflux.eu/sites/teraflux.eu/files/TERAFLUX-D74.pdf · Project: TERAFLUX - Exploiting dataflow parallelism in Teradevice

Minesh B. Amin mamin @ mbasciences.com …...Terminology: "Exploiting Parallelism" Exploiting parallelism entails the management of a collection of serial tasks which may communicate