NVIDIA Fermi: l introduzione delle GPU nell High Performance Computing

Transcript

1 Scuola Politecnica e delle Scienze di Base Corso di Laurea in Ingegneria Informatica Elaborato finale in Calcolatori Elettronici I NVIDIA Fermi: l introduzione delle GPU nell High Performance Computing Anno Accademico 2014/2015 Candidato: Erasmo La Montagna matr. N46/1261

2 Ai miei genitori. Dal primo passo mosso sulla terra ad ogni traguardo che raggiungerò. Grazie

3 Indice Introduzione iv 1 Prerequisiti dell High Performance Computing 1 2 La gerarchia CUDA 4 3 Architettura Streaming Multiprocessor Dual Warp e GigaThread Scheduler Memory Subsystem Supporto a operazioni su Floating Point Formati Accuratezza Conclusioni 20 Ringraziamenti 22 Bibliografia 24 ii

4 Elenco delle figure 1.1 Processore Intel Core i Gerarchia CUDA Architettura Fermi Streaming Multiprocessor Dual Warp Scheduler Esecuzione seriale e concorrente dei kernel Mappatura spazio di indirizzamento Memory Hierarchy MAD e FMA Codifica float (32 bit) e double (64 bit) Metodo lineare Metodo FMA iii

5 Introduzione Negli ultimi 30 anni il progresso tecnologico nel campo dei microprocessori ha subito profonde mutazioni. In passato il mercato focalizzava il proprio interesse in architetture sempre più complesse che aumentassero la frequenza di clock, oggi un maggiore interesse verte sul multicore design. In tale contesto si collocano le GPU (Graphic Processing Unit), le quali meglio soddisfano le esigenze delle moderne architetture di calcolatori paralleli e si collocano al fianco delle CPU, che hanno dominato il mercato da sempre. Le GPU sono ottimizzate per l elaborazione di massicci calcoli matriciali, necessari alla modellazione di oggetti all interno del sottosistema 3D di un computer. Effettivamente, tali capacità computazionali potevano trovare largo impiego nell ambito del calcolo scentifico. Dopo aver acquisito grande popolarità nel campo del Gaming, società come la NVIDIA investirono nell HPC (High Performance Computing). La combinazione di architetture GPU e APIs dedicate permise di ottenere performance superiori tanto da definire tali architetture GPGPU (General Purpose GPU). Tuttavia vi erano degli inconvenienti: la mancanza di supporto per operazioni di calcolo a doppia precisione inficiava l idoneità delle GPGPU al calcolo scientifico, era necessario adattare algoritmi General Purpose ad altri dedicati alla modellazione 3D di superfici e forme. L utente programmatore avrebbe dovuto conoscere dettagliatamente iv

6 Introduzione le API e l architettura della GPU per sviluppare applicazioni significative. Era necessaria trasformare un architettura dedicata in una generica che mantenesse le stesse capacità e permettesse un più semplice approccio per gli sviluppatori. NVIDIA compì il primo passo verso la soluzione introducendo due innovazioni: CUDA, piattaforma software e hardware in grado di fornire compatibilità con un ampia varietà di linguaggi di alto livello, e l architettura G80, prima ad offrire supporto a operazioni Double Precision Floating Point, ricorrenti nelle applicazioni HPC. Il passo successivo fu apportato con l architettura Fermi, le cui prerogative erano di soddisfare completamente le specifiche necessarie alle GPU per utilizzo in campo scientifico. v

7 Capitolo 1 Prerequisiti dell High Performance Computing É ben chiaro che l architettura di una GPU debba totalmente discostarsi da quelle delle CPU, tanto da poterle considerare complementari. Le CPU hanno sempre rispettato, durante la loro evoluzione, il paradigma del lavoro seriale, dunque focalizzato su attività Single-Thread alle spese del parallelismo. Solo nell ultimo decennio si è vista una maggiore propensione a soddisfare il bisogno di parallelizzare il calcolo in molteplici attività dal marketing alla fluidodinamica. Le architetture multicore sono cresciute di pari passo con i compilatori, i quali sempre meglio mascherano la complessità crescente delle CPU. Nonostante ciò, queste restano specializzate perlopiù in attività single-thread e restano ben lontane dalle necessità di una struttura ad alte prestazioni. Il calcolo scientifico, comporta grandi quantità di calcoli simili tra loro, basti pensare a un prodotto riga per colonna o un prodotto di convoluzione, dunque perlopiù un gran numero di operazioni basilari che attingono alla stessa porzione di dati. Altro prerequisito è l accuratezza dei risultati, le operazione su numeri a 1

8 Capitolo 1. Prerequisiti dell High Performance Computing virgola mobile sono ricorrenti in applicazioni di uso scientifico e richiedono vincoli piu stringenti sull approssimazione delle cifre. Osservando piu da vicino la componente dedicata al calcolo numerico in un processore Intel Core i7, e evidente che la ALU copre solo una limitata porzione della superficie di ogni singolo core. Figura 1.1: Processore Intel Core i7 Una cosı ridotta superficie dedicata al calcolo spiega che le CPU (anche le piu prestanti) non sono ottimizzate per l High Performance Computing. Buona parte della circuiteria delle CPU e dedicata alle cache, ai decodificatori di istruzioni e ad altri accorgimenti altamente speculativi poco riscontrabili visivamente, ma che incrementano ampiamente le prestazioni in attivita single-thread. Un alto livello di speculazione coinvolge sia la struttura del software che dell hardware. Eseguire istruzioni senza conoscere la reale necessita del risultato di tali istruzioni e alla base della speculazione e cio e realizzato nella pratica tramite le cache. Esse lavorano seguendo il principio di localita dei processi, si puo dire che tirano a indovinare quali dati 2

9 Capitolo 1. Prerequisiti dell High Performance Computing saranno più spesso utilizzati durante l esecuzione di un processo. Le cache consumano spazio, ne consegue che un architettura altamente speculativa dovrà fronteggiare un inevitabile Trade-Off, lo spazio occupato dalle cache è sottratto ad altre unità meno prioritarie, quali la ALU in tal caso. L architettura Nvidia Fermi nasce con l intento di definire una struttura che si avvicini allo scenario dell HPC, andando incontro alle effettive necessità di questo campo applicativo. Tra queste si sottolinea la conformità allo standard IEEE , che definisce le corrette modalità di approssimazione dei risultati di operazioni su floating point. Inoltre presenta una vasta gamma di innovazioni che favorisce la performance di operazioni con un alto grado di parallelismo. 3

10 Capitolo 2 La gerarchia CUDA Prima di presentare le principali caratteristiche della NVIDIA Fermi verrà descritta un architettura hardware e software appositamente ideata e associata ad ogni modello prodotto dalla società. CUDA (acronimo di Compute Unified Device Architecture) è massicciamente ottimizzata per l esecuzione di programmi di calcolo parallelo sulle GPU NVIDIA. Seppure il supporto sia esteso a svariati linguaggi di programmazione quali C (CUDA-C), MATLAB, Java, Fortran, Python; il modello software resta invariato. CUDA è strutturato gerarchicamente, l elemento basilare è il thread. Ogni thred è dotato di una memoria locale privata. Più thread paralleli sono organizzati in kernel e un applicazione può invocare l esecuzione di più kernel paralleli. Il programmatore può dividere a sua volta più thread paralleli in blocchi (thread blocks) che compongono griglie (grids). Un thread block è un insieme di più thread concorrenti che cooperano, la cooperazione è realizzata mediante sincronizzazione e memoria condivisa. Una griglia consiste in un array di thread block che condividono lo stesso kernel, ogni thread sarà un istanza di quel kernel. 4

11 Capitolo 2. La gerarchia CUDA Figura 2.1: Gerarchia CUDA Tutti i thread di una griglia utilizzano la memoria globale per effettuare operazioni di lettura e scrittura, a valle della sincronizzazione attuata tramite chiamate al kernel. Dal punto di vista hardware la gerarchia dei thread rispecchia a sua volta una struttura anch essa a livelli. L intera GPU può eseguire uno o più kernel e dunque più griglie. Al livello sottostante gli Streaming Multiprocessors (SM) eseguono più blocchi di thread, smistando i singoli thread ai proprio core CUDA o altre unità di esecuzione (se ne parlerà nel prossimo capitolo). I thread sono organizzati in gruppi da 32 detti warp, risulta vantaggioso per le performance eseguire warp di thread che condividono la stessa porzione di dati indirizzati in memoria perchè ovviamente limitano gli accessi alla memoria centrale. 5

12 Capitolo 3 Architettura Si espongono ora le generalità della topologia in analisi. La Fermi è caratterizzata da 512 core CUDA dislocati in 16 SM (Streaming Multiprocessor), ognuno comprendente dunque 32 core. Gli SM sono posizionati attorno ad una cache L2 comune. Ognuno di essi possiede un proprio scheduler, un dispatcher (in arancione), un unità di esecuzione (in verde), una cache L1 e un register file (in azzurro). La memoria DRAM è distribuita in sei partizioni da 64 bit per un totale di 384 bit di interfaccia di memoria che possono supportare un massimo di 6 GB di memoria RAM GDDR5. 6

13 Capitolo 3. Architettura Figura 3.1: Architettura Fermi 3.1 Streaming Multiprocessor Ogni SM è costituito da 32 core che presentano una duplice struttura: un unità logico-aritmetica (ALU) e un unità di elaborazione a virgola mobile (FPU), quest ultima coerente con lo standard IEEE Questo connubio permette di realizzare istruzioni Fused Multiply-Add (FMA) ossia, in occorrenza di moltiplicazioni e addizioni eseguite in successione (molto spesso ricorrenti nel calcolo vettoriale) è possibile eseguire una moltiplicazione e un addizione in un singolo ciclo senza perdita di precisione. Tale aumento di performance giova particolarmente in applicazioni di tipo scientifico, in cui calcoli vettoriali massicci possono essere facilmente parallelizzati e velocizzati senza conseguenze negative. A valle dei core ogni SM è dotato di 16 unità di load/store (Load/Store Units), queste permettono di rimappare le operazioni di lettura e scrittura sulla DRAM o in memoria cache effettuate da altrettanti thread in esecuzione. Per ultime si presentano le unità di esecuzione dedicate a funzioni trascenden- 7

14 Capitolo 3. Architettura Figura 3.2: Streaming Multiprocessor tali, quali funzioni sinusoidali, radici quadrate, funzione di reciproco. Tali unità sono dette Special Function Units (SFUs). Ogni SFU può eseguire un istruzione per thread ad ogni ciclo di clock e la loro esecuzione resta indipendente dalle altre unità, permettendo dunque alle unità classiche di effettuare molteplici elaborazioni mentre le SFU sono occupate. 3.2 Dual Warp e GigaThread Scheduler Lo scheduling dei thread avviene secondo una gerarchia a due livelli: Al primo livello il lavoro globale viene distribuito alle unità sottostanti, operazione attuata dal GigaThread Scheduler. 8

15 Capitolo 3. Architettura Al secondo livello gli SM si occupano di schedulare più thread paralleli organizzati in gruppi di 32, ogni gruppo è chiamato warp. In un singolo multiprocessore sono allocati due Warp Scheduler e due Dispatch Units, permettendo di eseguire due warp in contemporanea: ogni istruzione per warp è eseguita da un sottogruppo da 16 core, 16 unità L/S o 4 SFU. Questa modalità di esecuzione permette di liberare lo scheduler dalle dipendenze dei due warp. Figura 3.3: Dual Warp Scheduler Il multitasking implica ricorrenti context-switch dei thread, spesso innescati dalla frequente comunicazione kernel-to-kernel appartententi alla stessa applicazione. Ciò renderebbe l esecuzione dei kernel del tutto seriale e applicazioni composte da numerosi kernel di piccola dimensione sarebbero penalizzate ulteriormente, nonchè le risorse della GPU sarebbero utilizzate in maniera inefficiente. Per evitare ciò è implementata l esecuzione concorrente dei kernel appartenenti allo stesso contesto CUDA. In tal modo, ad esempio, un programma PhysX può invocare sottoprogrammi dedicati alla risoluzione di sistemi di fludodinamica e altri dedicati alla statica dei corpi rigidi, l applicazione complessiva può sfruttare pienamente le risorse computazionali della GPU. All architettura Fermi è associata una Instruction Set Architecture (ISA) 9

16 Capitolo 3. Architettura Figura 3.4: Esecuzione seriale e concorrente dei kernel denominata PTX (Parallel Thread execution), finalizzata ad aumentare le performance implementando una macchina virtuale di basso livello. La PTX implementa uno spazio degli indirizzi che unifica la memoria locale privata dei thread, la memoria memoria condivisa dai blocchi e quella globale, tutto accedibile da un unico set di istruzioni dedicate. Per ottenere tale risultato è stata implementata una tabella delle pagine responsabile di tenere traccia della corrispondenza tra lo spazio di memoria virtuale e le relative porzioni di memoria locale, quelle condivise tra i blocchi e la memoria globale. Ogni thread che è eseguito subisce una rimappatura automatica dei riferimenti, indirizzandoli verso il corretto segmento di memoria fisica. 10

17 Capitolo 3. Architettura Figura 3.5: Mappatura spazio di indirizzamento 3.3 Memory Subsystem Il panorama della applicazioni eseguibili è estremamente eterogeneo: certe applicazioni prediligono l ausilio del sistema di caching, altre fanno uso della memoria condivisa (Shared Memory), quest ultima particolarmente diffusa nei moderni paradigmi di programmazione in C e C++, o una combinazione ibrida delle due. Non esiste una tecnica ottimale per tutti i tipi di problemi e, al fine di garantire una maggiore flessibilità, Fermi adotta entrambe le strategie. É presente un blocco da 64 KB di memoria on-chip, questo permette di limitare il traffico dovuto agli accessi in memoria alla sola GPU e riduce gli accessi alla memoria centrale del sistema. Questo blocco è suddivisibile in due blocchi tali da avere 48 KB di shared memory e i restanti 16 KB di cache L1 o viceversa. L architettura implementa un unico path per gestire le richieste di accesso alla memoria, sia di load che di store. La gerarchia delle memorie è così implementata: per ogni SM è presente una memoria cache L1 confi- 11

18 Capitolo 3. Architettura Figura 3.6: Memory Hierarchy gurabile; tutte le memorie cache L1 fanno capo alla cache L2 unificata per tutto il dispositivo che infine fa capo alla memoria DRAM. Le applicazioni che fanno uso estensivo della memoria condivisa (come simulazioni di elettrodinamica) trarranno giovamento dalla configurazione da 48 KB di shared memory, altre posso sfruttare la cache multilivello secondo le scelte del programmatore. L organizzazione gerarchica delle cache apporta benefici a tutti gli algoritmi per cui non sono noti a priori indirizzamenti alla memoria (ad esempio prodotti di matrici sparse) e avvantaggia quelli per cui molteplici SM devono accedere alle medesime strutture dati(come convoluzioni di kernel), queste possono essere memorizzate nella cache L2 unificata per tutti gli SM. La cache L1 fornisce ulteriori vantaggi memorizzando temporaneamente valori prelevati dai registri, ciò evita di trascriverli nella DRAM, cosa che aumenterebbe la latenza di accesso. Nei settori del Medical Imaging e del Cluster Computing l integrità 12

19 Capitolo 3. Architettura dei dati fa parte delle prerogative di un sistema elaborazione grafica. É naturale che radiazioni di qualsivoglia genere possano apportare lievi modifiche ai valori dei bit memorizzati. In normali sistemi ciò comporterebbe un errore anche trascurabile (Soft Error), ma in una struttura distribuita con un numero consistente di dispositivi tale errore aumenta in maniera lineare e non è più trascurabile. Una possibile soluzione è proteggere l integrità dei dati tramite l Error Correcting Code (ECC). Fermi applica all intera gerarchia di memoria il Single-Error Correct Double-Error Detect (SECDED), che consiste nel rilevare e correggere ogni errore su singolo bit tramite hardware per ogni accesso ai dati mentre gli errori a due o più bit sono rilevati è riportati al livello software superiore, permettendo una ri-esecuzione piuttosto che una errata esecuzione del programma. Le strategie più diffuse ECC utilizzano un codice di Hamming(7,4), ossia una codifica che permette di rappresentare 4 bit con una stringa di 7 bit di cui 3 bit sono di informazione ridondante e servono per il controllo di parità. Questa tecnica permette di correggere gli errori su singolo bit oppure rilevare errori sia su bit singoli che doppi senza però correggerli. La ECC risulta efficace per codici con una distanza minima di Hamming pari a 3, non è capace di fare distinzione tra un errore singolo e un errore doppio, ma soltanto rilevarne la presenza. Estendendo il numero di bit di parità a 4 la distanza minima arriva a 4, sufficiente a distinguere casi di errore singolo e doppio. La distinzione permette di rilevare e correggere errori singoli e soltanto rilevare (ma non correggere) errori doppi, è così che viene realizzata la SECDED. 13

20 Capitolo 4 Supporto a operazioni su Floating Point Punto debole delle operazioni su floating point sono i cosiddetti numeri subnormali, ossia quei numeri compresi tra lo zero e il più piccolo numero normalizzato ottenibile con una determinata rappresentazione binaria. Nelle prime generazioni di GPU tali numeri erano approssimati a zero, la conseguenza è un inevitabile perdita di accuratezza non accettabile in applicazioni di uso scientifico. Le CPU risolvono la problematica effettuando calcoli con numeri subnormali negli exception handlers, la conseguenza è la perdita di migliaia di cicli di clock per effettuare una sola operazione. Fermi esegue tali calcoli nelle proprie floating point unit, calcoli su numeri subnormali sono gestiti totalmente in hardware con un conseguente miglioramento delle performance. Un operazione frequente nel calcolo scientifico è svolgere il prodotto tra due numeri e sommare il risultato ad un terzo numero: D = A B + C. Tipicamente le GPU realizzano questo tipo di operazione mediante l istruzione multiply-add (MAD), effettuando un prodotto con troncamento 14

21 Capitolo 4. Supporto a operazioni su Floating Point e una somma con approssimazione round-to-nearest, ancora una volta non è ragionevole l applicazione di questa strategia in ambito scientifico, perchè l approssimazione va ad inficiare la correttezza dei risultati. La differenza sostanziale è data dall istruzione Fused Multiply-Add(FMA), le cifre del risultato del prodotto non vengono troncate. Per entrare nello specifico è necessario discutere dei formati standard attuali e passati. Figura 4.1: MAD e FMA 4.1 Formati Le codifiche a virgola mobile sono definite dallo standard IEEE 754, i dati sono rappresentati da tre campi: un bit di segno, un campo per lo scostamento dell esponente rispetto ad una grandezze di riferimento, per considerare anche esponenti negativi (127 per il formato a 32 bit e 1023 per il formato a 64 bit), un campo dedicato alla mantissa, rappresentata fino alla cifra più significativa non nulla, inoltre sono presenti rappresentazioni dedicate di infinito ( ) e not-a-number (NaN). Lo standard IEEE definisce entrambi i formati da 32 e 64 bit incluse le rispettive regole e modalità di approssimazione, la più frequente è la round-to-nearest. 15

22 Capitolo 4. Supporto a operazioni su Floating Point Figura 4.2: Codifica float (32 bit) e double (64 bit) 4.2 Accuratezza Prima della revisione nel 2008 lo standard IEEE 754 soffriva inaccuratezza su operazioni multiple in successione. Data l operazione A + B + C e la funzione di approssimazione rn(x), è possibile svolgere tale operazione in due modalità: rn(a + rn(b + C)) oppure rn(rn(a + B) + C); questa strategia fornisce due risultati differenti, rispettivi a come si è applicata l associatività, che sono inoltre differenti dal risultato matematicamente corretto a causa della funzione di approssimazione. Si considerino i numeri A,B,C rappresentati mediante un float senza però applicare alcuna approssimazione. A = B = C = (A + B) + C = A + (B + C) = Ovviamente il risultato dell operazione è sempre lo stesso anche cambiando le coppie da associare. Tuttavia in conformità con lo standard è necessario applicare la funzione di approssimazione (round-to-nearest), in quanto non si hanno abbastanza bit per rappresentare completamente tutti i numeri. Si ottengono i seguenti casi: A + B = rn(a + B) =

23 Capitolo 4. Supporto a operazioni su Floating Point B + C = rn(b + C) = : A + B + C = Disponendo di operazioni atomiche si dovrà applicare rn(x) prima alla coppia associata (A+B oppure B+C) e poi alla somma totale: rn(rn(a + B) + C) = rn(a + rn(b + C)) = Si nota che, non solo i risultati sono entrambi diversi da quello matematicamente esatto, ma sono anche diversi tra loro e che dunque il risultato dipende dall ordine delle operazioni. É chiaro che la debolezza principale di tale strategia consiste nell applicare due volte la funzione rn(x) oltre al fatto che non dovrebbe dipendere dall ordine in cui sono svolte le operazioni. Le ripercussioni sono visibili in operazioni di somma di numeri simili in modulo ma di segno differente. La tecnica classica condurrebbe al fenomeno di cancellazione sottrattiva: la somma di due numeri uguali in modulo e opposti di segno produce risultati molto piccoli, che sono praticamente approssimati a zero. IEEE introduce l istruzione FMA, ciò permette di limitare l approssimazione ad una sola applicazione della funzione rn(x), pertanto si ha: rn(a + B + C), che equivale ad risultato notevolmente più accurato. L operazione di prodotto tra vettori è particolarmente ricorrente in programmi di calcolo scientifico, si mostrano le semplificazioni ottenute per il calcolo del prodotto tra due vettori di quattro elementi: 17

24 Capitolo 4. Supporto a operazioni su Floating Point a = [a 1, a 2, a 3, a 4 ] b = [b 1, b 2, b 3, b 4 ] a b = a 1 b 1 + a 2 b 2 + a 3 b 3 + a 4 b 4 Graficamente ogni nodo rappresenta un operazione di somma o prodotto. La strategia più semplice per effettuare un prodotto tra vettori è quella lineare tramite un loop che esegue in successione le operazioni ((a 1 b 1 ) + (a 2 b 2 ) + (a 3 b 3 ) + (a 4 b 4 )): Figura 4.3: Metodo lineare t=0 for i from 1 to 4 p=rn(a[i]*b[i]) t=rn(t+p) return t 18

25 Capitolo 4. Supporto a operazioni su Floating Point Il metodo che fa uso della FMA presenta un grafico semplificato, prodotto e somma sono fusi in un unico nodo, la funzione rn(x) è applicata quattro volte e non più otto. L algoritmo equivale a calcolare a 4 b 4 + (a 3 b 3 + (a 2 b 2 + (a 1 b 1 + 0))): Figura 4.4: Metodo FMA t=0 for i from 1 to 4 t=rn(a[i]*b[i]+t) return t Per problemi relativamente semplici, composti da sole addizioni e prodotti è possibile, grazie alla FMA, un notevole aumento di accuratezza. Resta tuttavia il problema nel caso di funzioni matematiche più complesse. Il più delle volte si ricorre all analisi matematica e fornire prove formali e fornire un risultato tramite librerie dedicate, cosa che offre la piattaforma CUDA stessa. Nel caso in questione le SFU si occupano di calcolare funzioni trascendentali senza tener conto della rigorosità delle approssimazioni, per esigenze più impellenti bisogna ricorrere a librerie dedicate. 19

26 Capitolo 5 Conclusioni Si è introdotta nell elaborato la principale prerogativa dell High Performance Computing, ossia l ottimizzazione del calcolo parallelo. In principio le CPU erano l unica possibile soluzione per elaborare di grandi quantità di calcoli e gestire la mole di dati risultante. Come standard de facto non erano però ottimizzati allo scopo. Il mercato ha reagito in maniera differente rispetto al settore in questione: le case produttrici di CPU hanno puntato ad aumentare la frequenza di clock e ultimamente il parallelismo dei core; NVIDIA ha proposto una nuova tecnologia partendo da un progetto del tutto vuoto, che facesse riferimento solo alla grande capacità delle GPU di effettura molteplici calcoli semplici in parallelo. Il risultato è stato un dispositivo che avesse le proprietà tipiche di una scheda grafica in quanto tale, che fosse però ottimizzata per un campo del tutto differente e quindi sopperisse alle proprie mancanze. Concorde con gli standard IEEE (necessità per il calcolo scientifico), dotata di una gerarchia hardware ottimale per il calcolo parallelo, di centinaia di core ad una frequenza di clock relativamente bassa, con relativi vantaggi in fatto di dissipazione, versatile con la gestione della memoria grazie alla simbiosi 20

27 Capitolo 5. Conclusioni tra cache e memoria condivisa, la Fermi dimostra come la scelta giusta nell architettura dei supercomputer non fosse l aumento spropositato della frequenza di clock seguita da pochi accorgimenti, ma da una più oculata scelta di paramentri ricavati dal problema specifico. A tale architettura è stato poi associato un modello software altrettanto potente fornito da CUDA, la creazione di software è stata resa più flessibile grazie al supporto per svariati linguaggi di programmazione. 21

28 Ringraziamenti Quindi sarei appena arrivato alla parte migliore? Cercherò di essere breve. Innanzitutto va messo in chiaro che su questo elaborato non compare mai un Soggetto, sempre e solo forme impersonali (si è visto, si espone, ecc). Quindi sono lieto di metterne uno e dedicargli un piccolo (modesto) grazie: IO. Chiuso il capitolo egoista passiamo ai prossimi: mamma e papà. Non voglio strappare lacrime (la dedica basta e avanza) ergo sarò pragmatico, mi limito a dire che a conti fatti sono stati fondamentali (mamma=cibo, papà=soldi), facendo i seri bisogna dire che so quanto ci tengono a questo mio obiettivo e so che per ogni esame hanno patito l ansia più di me. Quindi il ringraziamento più grande va tutto a loro: grazie!. Il cerchio si allarga, passiamo alla famiglia: un grazie particolare a mia sorella Ida, da sempre seconda mamma, lo so che non mi faccio mai sentire, in compenso io sento benissimo mio nipote che sbatte i piedi a terra in casa mia e mi fa deconcentrare. Grazie sorella cara. In generale ringrazio tutti, così orgogliosi di avere l ingegnere in famiglia, o meglio, quello che aggiusta i PC. Passo a quella larga manica di zuozi che sono i miei amici, non sentitevi indegni del mio ringraziamento, lo so che non avete fatto chissà cosa, ma esistete e io mi diverto con voi e divertendomi lavoro meglio, dunque pren- 22

29 Ringraziamenti detevi questo grazie mezzo aggratis. Bisogna (ops...meglio devo ) citare delle degne personalità di questa nobile cerchia: Emilio (detto Zio) che c è da sempre, basta poco per dimenticare il malumore in sua compagnia; Lorenzo (aka Anaconda), metti True Believer in macchina con quella brava donna di Alessandro (Sh mmah); Andrea (Big), forse la persona più buona che io conosca, riesce a trasformare una semplice cena in una festa; i miei cari amici del liceo Fabrizio (Lord), Carmine (Varrià), Lorenzo (Baciò), perchè con loro non ho mai smesso di ridere da otto anni; i miei cari colleghi Alfonso, Pierluigi (Pierlansia), Roberto, Mirko, da sempre condividiamo ore interminabili di attesa in un treno perso nello spazio-tempo ed ettolitri di ansia. C è poi una persona molto piccola, quasi una nana con gli occhietti piccoli (credo abbia capito), che ogni tanta mi tiene occupato. Beh, nonostante ciò la ringrazio. (:*) Dopo l elenco telefonico appena citato posso infine deporre le armi, non senza aver ringraziato anche i non presenti in questa pagina. 23

30 Bibliografia [1] NVIDIA s Next Generation CUDA Compute Architecture: Fermi., (Whitepaper.pdf) [2] Patterson, David (September 30, 2009). The Top 10 Innovations in the New NVIDIA Fermi Architecture, and the Top 3 Next Challenges. Parallel Computing Research Laboratory & NVIDIA. Retrieved 3 October [3] N. Brookwood, NVIDIA Solves the GPU Computing Puzzle. [4] P.N. Glaskowsky, NVIDIA s Fermi: The First Complete GPU Computing Architecture. [5] N. Whitehead, A. Fit-Florea, Precision & Performance: Floating Point and IEEE 754 Compliance for NVIDIA GPUs., [6] code [7] Moon, Todd K. (2005). Error Correction Coding. New Jersey: John Wiley & Sons. ISBN