Laurea Magistrale in Informatica - AA 2016/17 Docente G. Grossi. Lezione 3 Il modello di esecuzione CUDA (1)

Transcript

1 Laurea Magistrale in Informatica - AA 2016/17 Docente G. Grossi Lezione 3 Il modello di esecuzione CUDA (1)

2 Array scalabile di Streaming Multiprocessor (SM): core CUDA (SP) Global/shared/texture/constant/ memory L1 e L2 caches per global memory Registri Unità load/store Unità per funzioni speciali sin, cos, exp Scheduler dei warp Funzionamento: Ogni SM supporta l esecuzione concorrente di centinaia di thread (la GPU migliaia) I blocchi di thread vengono ripartiti dallo scheduler sui vari SM, massimizzandone l impiego Tutti i thread di un blocco vengono eseguiti concorrentemente sull SM assegnato Numerosi blocchi vengono assegnati allo stesso SM poi rischedulati in base alle risorse disponibili all SM Pipelining al livello istruzione in ogni thread 2

3 Grid Device 3

4 ü Ogni thread viene eseguito su un cuda core ed ha un suo privato spazio di memoria per registri, chiamate di funzioni e variabili C automatiche ü Un thread block è un gruppo di thread eseguiti concorrentemente che può cooperare attraverso barriere di sincronizzazione ü Un thread block usa shared memory per la comunicazione interthread e condivisione dati ü Una grid è un array di thread block che eseguono tutti lo stesso kernel, legge e scrive in global memory e sincronizza le chiamate di kernel tra loro dipendenti ü Esecuzione: Viene mappata la gerarchia di thread nella gerarchia di processori sulla GPU La GPU esegue una o più kernel grid Uno streaming multiprocessor (SM) esegue uno più thread block I core e altre unità di esecuzione nello SM eseguono i thread Gli SM eseguono i thread a gruppi di 32 thread chiamati warp 4

5 ü Numero magico: warp = 32 thread (consecutivi) ü Tutti i thread in un warp eseguono in parallelo allo stesso tempo ü Ogni thread ha il suo program counter e register state, ed esegue l istruzione corrente su dati assegnati ü Ogni thread può seguire cammini distinti di esecuzione delle istruzioni (parallelismo a livello thread) ü I thread che compongono un warp iniziano assieme alla stesso indirizzo del programma, ma ognuno è libero di seguire path propri indipendentemente da altri thread, seguendo flussi distinti ü Architettura SIMT: Single Instruction Multiple Thread Una differenza chiave è che SIMD espone l intero set di dati (vettore) all istruzione che deve essere eseguita, mentre SIMT specifica il comportamento di esecuzione e branching di un singolo thread 5

6 ü I core sono organizzati in 16 SM, ognuno con 32 CUDA core (16*32= 512 core massimo) ü 6 interfacce di memoria DRAM a 64-bit (tot. 384-bit) GDDR5 che supportano fino un tot di 6 GB di global on-board memory ü Una interfaccia con l host che connette la GPU alla CPU tramite PCI Express bus ü GigaThread scheduler globale che distribuisce i blocchi di thread agli scheduler dei warp ü L2 cache da 768 KB, condivisa tra tutti i 16 SM ü Quanti cuda core nelle Tesla M2050 e Tesla M2090? 6

7 ü Ogni CUDA core contiene: fully pipelined integer arithmetic logic unit (ALU) una istruzione per ciclo di clock floating-point unit (FPU) - una istruzione per ciclo di clock Dispatcher port per i thread ü Unità Scheduler e dispatcher che schedulano i warp ü Shared memory, register file e L1 cache ü Ogni SM ha 16 unità load/store che permettono di calcolare indirizzi di source e destination per 16 thread (un half-warp) per ciclo di clock ü Unità speciali (SFUs) per funzioni come sine, cosine, square root, e interpolation (unaistruzione per thread per ciclo di clock) 7

8 ü I thread di ogni block assegnato a un SM sono suddivisi in warp ü Ogni SM contiene 2 warp scheduler e 2 instructiondispatch unit ü I 2 scheduler selezionano 2 warp (eseguiti simultaneamente) e distribuiscono un istruzione a ognuno dei 16 core o alle 16 unità load/store o alle 4 FPU ü L architettura Fermi (compute capability 2.x) può trattare simultaneamente 48 warp per SM, per un totale di 1536 thread alla volta residenti su un singolo SM Su FERMI si possono assegnare fino a 1536 thread ad ogni SM in non più di 8 blocchi per volta: Per es. 6 blocchi da 256 thread, 3 blocchi da 512 thread, oppure 8 da blocchi da 128 (inefficiente!) 8

9 ü Una caratteristica chiave di Fermi è che la memoria di 64 KB on-chip è configurabile a runtime: può essere ripartita tra shared memory e L1 cache ü Per molte applicazioni HPC la shared memory consente grandi prestazioni perché consente ai thread di un blocco di cooperare, facilita il riuso di dati onchip data e riduce il traffico off-chip ü CUDA provides a runtime API that can be used to adjust the amount of shared memory and L1 cache. Modifying ü Fermi supporta l esecuzione concorrente di kernel: kernel multipli lanciati dalla stessa applicazione sulla stessa GPU ü Meglio in generale un numero alto di piccoli kernel per un utilizzo completo della GPU ü Fermi consente fino a 16 kernel in esecuzione nello stesso tempo 9

10 Prospettiva logica: I blocchi di thread possono essere configurati con ID nelle 3 dimesioni: 1D, 2D o 3D Prospettiva hardware: Tutti i thread sono organizzati in una sola dimensione con un ID progressivo Per esempio, un blocco con 128 thread verrà suddiviso in 4 warp: warp0, warp1, warp2, warp3 Warp 0: thread 0, thread 1, thread 2,... thread 31 Warp 1: thread 32, thread 33, thread 34,... thread 63 Warp 2: thread 64, thread 65, thread 66,... thread 95 Warp 3: thread 96, thread 97, thread 98,... thread

11 Vista logica: un blocco di thread bidimensionale con 40 thread nella dimensione x e 2 thread nella dimensione y. Vista HW: verranno allocati 3 warp HW per il blocco, con un totale di 96 thread per supportarne 80 SW Nota che l ultimo semi-warp è inattivo e comunque consumano risorse anche quelli inattivi, registri, memoria, etc. Blocchi di thread: vista logica vs vista HW Dal punto di vista logico, un blocco di thread è una collezione di thread organizzati in 1D, 2D, o 3D Dal punto di vista hardware, un blocco di thread è una collezione 1D di warp. I thread in un blocco formano i warp a gruppi di 32 thread consecutivi alla volta 11

12 ü 15 streaming multiprocessors (SMs) ü Enhanced SMs ü 64-bit memory controller ü Dynamic Parallelism ü Hyper-Q ü Compute capability

13 SMX: 192 single-precision CUDA cores 64 double-precision units 32 special function units (SFU) 32 load/store units (LD/ST) 4 warp schedulers 8 instruction dispatchers 4 warps executed concurrently on a single SMX 64 warps per SM scheduled 2048 threads resident in a single SM at a time 64K register file size more partitions of on-chip memory between shared memory and L1 cache more than 1 TFLOP of peak double-precision Dynamic Parallelism Hyper-Q 13

14 ü Nuova feature introdotta nelle GPU Kepler ü Consente alla GPU di lanciare diminamicamente nuove grid da una grid in esecuzione ü Ogni kernel può lanciare un altro kernel e gestire dipendenze inter-kernel ü Gestire la sincronizzazione e lo scheduling dei task ü Elimina la necessità di comunicare con la CPU ü Rende più semplice creare e ottimizzare pattern di esecuzione ricorsivi e datadependent ü Senza il parallelismo dinamico l host si occupa di lanciare ogni kernel sulla GPU 14

15 ü Più connessioni hardware simultanee tra CPU e GPU ü Abilita più CPU core a lanciare kernel su una singola GPU ü Abilita i core di CPU ad eseguire più task simultaneamente sulla GPU ü Ci si aspetta di aumentare l utilizzo della GPU e ridurre l idle time della CPU ü Fermi GPUs usano una sola coda hardware di lavoro per passare i task dalla CPU alla GPU (un singolo task blocca tutti gli altri task della coda) ü Kepler Hyper-Q rimuove questa limitazione con 32 code di lavoro hardware tra host e GPU ü Hyper-Q attiva molta più concorrenza sulla GPU ü Massimizza l utilizzo della GPU incrementandone le performance in generale 15

16 ü NVIDIA il termine, compute capability, per descrivere la versione hardware degli acceleratori GPU Kepler class architecture is major version number 3 Fermi class architecture is major version number 2 Tesla class architecture is major version number 1 ü NB: la prima classe di GPU sviluppate da NVIDIA ha lo stesso nome Tesla dell intera famiglia di acceleratori GPU Tesla 16

17 17

18 HW Anno Modello Tesla 2006 GeForce 8800 GTX (G80) Fermi 2010 GeForce GTX 480 (GF100) Kepler 2012 GeForce GTX 480 (GF100) Maxwell 2014 GeForce GTX 980 (GM204) Pascal 2016 GeForce GTX 1080 (GP104) 18

19 Modello di esecuzione CUDA 19

20 Risponde a domande come: quanti SM sono disponili sul device? Quanti thread x ogni SM? Quanta memoria? ecc. Funzioni delle API runtime di CUDA ( Command-line utility nvidia-smi ( Segnatura-> int dev_count; cudaerror_t cudagetdevicecount(&dev_count); Ø Indaga il numero di device disponibili sul sistema Segnatura-> cudaerror_t cudagetdeviceproperties(cudadeviceprop* prop, int device); Ø Restituisce le proprietà del device nella struttura cudadeviceprop ESERCITAZIONE: Usando le API sopra descritte, interrogare i dispositivi presenti ed ottenere: Number of CUDA Capable device(s) Total amount of global memory Maximum number of threads per multiprocessor Maximum number of threads per block Maximum sizes of each dimension of a block Maximum sizes of each dimension of a grid Determinare quella che ha il massimo numero di Multiprocessors 20

21 Compilazione su lagrange: $ nvcc -arch=sm_20 checkdeviceinfor.cu Esecuzione: $ Detected 3 CUDA Capable device(s) Device 0: "Tesla M2090" CUDA Driver Version / Runtime Version 7.5 / 7.0 CUDA Capability Major/Minor version number: 2.0 Total amount of global memory: 5.25 GBytes ( bytes) GPU Clock rate: 1301 MHz (1.30 GHz) Memory Clock rate: 1848 Mhz Memory Bus Width: 384-bit L2 Cache Size: bytes Max Texture Dimension Size (x,y,z) 1D=(65536), 2D=(65536,65535), 3D=(2048,2048,2048) Max Layered Texture Size (dim) x layers 1D=(16384) x 2048, 2D=(16384,16384) x 2048 Total amount of constant memory: bytes Total amount of shared memory per block: bytes Total number of registers available per block: Warp size: 32 Maximum number of threads per multiprocessor: 1536 Maximum number of threads per block: 1024 Maximum sizes of each dimension of a block: 1024 x 1024 x 64 Maximum sizes of each dimension of a grid: x x Maximum memory pitch: bytes 21

22 Stabilire il massimo numero di processori (o qualsiasi atra proprietà) tra le schede esistenti (Es in Lagrange): Ottenere il numero di device Ciclo sui device per estrarre informazioni o attivare processi Ottenere informazioni circa il device Attivare il device per eseguire operazioni sullo stesso int numdevices = 0; cudagetdevicecount(&numdevices); if (numdevices > 1) { int maxmultiprocessors = 0, maxdevice = 0; for (int device=0; device<numdevices; device++) { cudadeviceprop props; cudagetdeviceproperties(&props, device); if (maxmultiprocessors < props.multiprocessorcount) { maxmultiprocessors = props.multiprocessorcount; maxdevice = device; } } cudasetdevice(maxdevice); } 22

23 Il command-line tool nvidia-smi permette di gestire e monitorare le GPU presenti $ nvidia-smi -L GPU 0: Tesla M2050 (UUID: GPU-e03071f3-6aa abed-3dbf96673cd2) GPU 1: Tesla M2090 (UUID: GPU-25b1e779-cd4a-1bd4-66cd-48d17d2405c3) GPU 2: Tesla M2090 (UUID: GPU-ad8ac2a f7c1-ec56dedaa17c) Per un report completo sul device 0 (MEMORY, UTILIZATION, ECC, TEMPERATURE, POWER, CLOCK, COMPUTE, PIDS, PERFORMANCE, SUPPORTED_CLOCKS, PAGE_RETIREMENT, ACCOUNTING) $ nvidia-smi -q -i 0 Filtrare le info sul device 1 $ nvidia-smi -q -i 1 -d UTILIZATION GPU 0000:11:00.0 Utilization Gpu : 0 % Memory : 0 % $ nvidia-smi -q -i 1 -d MEMORY GPU 0000:11:00.0 FB Memory Usage Total Used Free : 5375 MiB : 10 MiB : 5365 MiB 23

24 Scelte implementative: Come definire la grid? Quale mapping tra indici di thread e indici delle matrici A, B e C? Notare che le dimensioni rilevanti sono 2: numero n di righe della mat A e numero m di colonne della mat B (insieme sono anche le dimensioni finali di C) Quale attività assegnare ai thread? Possibili casi: i pattern ripetuti sono i prodotti e le somme di singole coppie di elementi (caso 1), il prodotto interno tra due vettori (caso 2), riga di A e colonna di B Caso 1: numero molto elevato di thread pari al numero prodotti n*m*k (granularità molto fine), poco lavoro del singolo thread e grande hoverhead Caso 2: numero ridotto di thread n*m (granularità meno fine), e attività di maggior peso per il singolo thread Morale se gli SM sono tutti impegnati (ragionevole numero di warp schedulati) quindi lavorano a pieno ritmo, non dobbaimo preoccuparci di effetture task sequenziali all interno del singolo thread... Anzi! 24

25 Un possibile approccio (caso 2): Trasferimento delle matrici A, B e allocazione di C nella memoria del device La grid deve coprire il numero di righe delle matrici A nella dimensione y e il numero di colonne della matrice B nella dimensione x Un thread si preoccupa di effettuare il prodotto riga-colonna della matrice Per ogni riga i e colonna j, il thread con indice i nella dimensione x e il thread con indice j nella dimensione y mediante un ciclo itera la somma dei prodotti che coinvolgono la riga e la colonna Salva la somma nella entry i,j della matrice risultato C e la trasferisce in memoria RAM della CPU 25

26 Passaggio argomenti: per valore o puntatori ottenuti da cudamalloc Mapping degli indici di thread su indici di riga e colonna della matrice risultato Ciclco su elementi di riga (Row*M+k) della mat A e colonna (k*m+col) della matb /* * Kernel per il prodotto di due matrici */ global void matrix_prod(float* A, float* B, float* C, int N, int M) { } // indici di riga e colonna int Row = blockidx.y * blockdim.y + threadidx.y; int Col = blockidx.x * blockdim.x + threadidx.x; // ogni thread calcola una entry della matrice prodotto if ((Row < N) && (Col < M)) { } float val = 0; Scrittura dei risultati in global memory del device for (int k = 0; k < M; k++) val += A[Row * M + k] * B[k * M + Col]; C[Row * M + Col] = val; Lettura dei dati in global memory del device 26

27 Profiling significa anlizzare le prestazioni del programma misurando: ü La complessità in spazio (memory) o in tempo dell algoritmo ü L uso di particolari istruzioni ü La frequenza e la durata delle chiamate a funzione Lo sviluppo di applicazioni HPC spesso implicano 2 passi principali: ü Sviluppare codice corretto ü Migliorare il codice per elevare le performance In CUDA: ü Una implementazione naïve del kernel in genere non dà alte prestazioni ü I tool di profiling aiutano a trovare bottleneck nel codice da rimuovere ü CUDA ripartisce le risorse di calcolo in un SM tra i blocchi di thread residenti e questo causa eccedere i limiti e impoverire l utilizzo della GPU ü CUDA fornisce un astrazione dell architettura hardware che consente il controllo diretto di thread e concorrenza: il profiling può aiutare a misurare, visualizzare e guidare l ottimizzazione 27

28 ü Specifiche: una matrice A in R n x n di tipo MQDB è composta da k blocchi B 1,,B k (0 k n) disposti sulla diagonale principale. Un esempio con k=3 è dato in figura. Se D={d 1,,d k } denota l'insieme delle dimensioni dei blocchi, allora deve valere: d i = n, pertanto una matrice siffatta è completamente descritta dalla coppia n,d. Vale inoltre che il prodotto di matrici con parametri n,d, è ancora una matrice dello stesso tipo ü Input: due matrici MQDB A e B di tipo float descritte da un intero n e un array d[k] ü Output: la matrice prodotto C = A B di tipo float ü Benchmark: è disponibile un generatore di istanze di MQDB casuali ottenute fissando la dimensione n della matrice e il numero di blocchi k (archivio: ) ü Test: per il test finale utilizzare 3 istanze casuali generate a caso con params: Seme s = 0, 1, 2 Dimensione matrice n = 1000, 5000, Numero blocchi k = 3, 5, 10 Progetto: kernel CUDA ottimizzato per il prodotto di matrici quadrate diagonali a blocchi Effettuare l analisi delle prestazioni al variare della taglia dei dati in ingresso e dei params di del kernel Usare nvprof per i tempi reali 28

29 ü Cuda malloc & copy: gestire con attenzione i puntatori all interno della struct mqdb ü Progettare un kernel adeguato al caso di matrici così strutturate ü Verificare configurazioni diverse delle grid ü Confronto con la funzione sequenziale su host ü Usare la profilazione come strumento di controllo del funzionamento ü Controllare chunk di memoria allocata $ devicequery Device 0: "Tesla M2090" CUDA Driver Version / Runtime Version 8.0 / 8.0 CUDA Capability Major/Minor version number: 2.0 Total amount of global memory: 5375 MBytes ( bytes)... 29