Sistemi a Microprocessore

Transcript

1 Corso di Laurea Ingegneria dell Informazione Sistemi a Microprocessore Sistemi multicore A.A Prof. Ing. Ivan Bruno Sistemi a Microprocessore La Pipeline 1

2 La pipeline Il concetto di pipeline è analogo a quello di catena di montaggio, in cui un pezzo incontra diversi stadi di semilavorazione, per uscire dalla catena completamente lavorato, mentre altri pezzi sono entrati nella catena nel frattempo. Se la catena è costantemente alimentata, il tempo necessario a produrre un singolo prodotto è pari al tempo del singolo stadio (ipotizzando tempi di esecuzione costanti in ogni stadio) Questo concetto è stato mutuato per la definizione di architetture di CPU in grado di eseguire istruzioni opportunamente suddivise in stadi 19/11/2007 Sistemi a Microprocessore A.A Pipeline lineare L esecuzione di un istruzione è suddivisa in k passi ordinati: All ingresso l istruzione viene trattata dallo stadio 1 e passa per gli stadi successivi fino all uscita dello stadio finale Non appena lo stadio 1 è stato completato entra l istruzione successiva Può succedere che non tutti gli stadi siano eseguiti, ciò non vuol dire che non siano attraversati: l istruzione li attraversi tutti. K viene detto anche profondità della pipeline 19/11/2007 Sistemi a Microprocessore A.A

3 Pipeline lineare sincrona 19/11/2007 Sistemi a Microprocessore A.A Pipeline: prestazioni Il confronto verrà fatto tra CPU monociclo, multiciclo non pipelined e multiciclo pipelined Si assume che nei tre casi il numero degli stadi di esecuzione siano uguali e che vengano attraversati tutti Si definiscono: τ i il tempo richiesto dal generico stadio T p il periodo di clock della CPU pipelined T mono quella della CPU monociclo T multi quella multiciclo non pipelined T p è pari al tempo dello stadio più lento più il tempo τ l (assunto costante) necessario ai latch per lo storage del risultato. Quindi: T p = max{τ i }+ τ l i=1,,k 19/11/2007 Sistemi a Microprocessore A.A

4 Pipeline: prestazioni Nei tre casi i tempi di esecuzione sono: τ mono = T mono τ multi = kt multi τ p = kt p La presenza dei latch allunga il periodo della pipeline, ma tale svantaggio è abbondantemente recuperato. Esempio di un istruzione eseguita in 4 passi con i seguenti tempi: τ 1 = 65 ns; τ 2 = 70ns; τ 3 = 90ns; τ 4 = 75ns τ l = 10ns (tempo dei latch) 19/11/2007 Sistemi a Microprocessore A.A Pipeline: confronto 19/11/2007 Sistemi a Microprocessore A.A

5 Pipeline: confronto L istruzione è eseguita: Monociclo: in 300 ns n istruzioni/unità di tempo (1/300) Multiciclo: in 360 ns (1/360) Pipeline: in 400 ns (4/400 = 1/100) Rapportando la soluzione pipelined con le altre due si ha un guadagno di 3 e 3,6 19/11/2007 Sistemi a Microprocessore A.A Pipeline: indici prestazioni Tasso di esecuzione Numero di istruzioni completate nell unità di tempo 19/11/2007 Sistemi a Microprocessore A.A

6 Pipeline: indici prestazioni Tasso di esecuzione in pipeline con riempimento iniziale: Partendo da una pipeline vuota per completare n istruzioni occorrono k+(n-1) cicli di clock K cicli per riempire la pipeline e quindi completare la prima istruzioe n-1 cicli per completare le rimanenti (n-1) istruzioni Occorre allora un tempo: (k+n-1)t p Il tasso medio (n istruzioni eseguite/tempo) è µ p =n/ (k+n-1)t p Al crescere di n il tasso medio µ p tende al tasso di esecuzione µ p 19/11/2007 Sistemi a Microprocessore A.A Pipeline: indici prestazioni Efficienza E data dal rapporto tra il tasso di esecuzione medio e quello ideale, ovvero la percentuale di tempo in cui la CPU è occupata: η = µ p /µ p = n / (k+(n-1)) Se n allora η 1 Accelerazione E espressa dal rapporto dei tassi di esecuzione di una cpu pipelined e non (assumento T p = T multi ): α = µ p /µ multi = nk/(k+n-1) = kη Se n>>k allora α k, questo significa che al crescere di n il tempo di riempimento della pipeline è trascurabile rispetto al tempo per completare le n istruzioni. 19/11/2007 Sistemi a Microprocessore A.A

7 Esecuzione in pipeline Gli stadi di un istruzione possono essere riassunti nella sequenza riportata di seguito: IF: Istruction Fetch, prelevamento dell istruzione dalla memoria ID: Istruction Decode, decodifica dell istruzioni EX: Esecuzione di calcoli ME: Accesso alla memoria WB: (Write Back) scrittura del registro destinazione In un processore tradizionale questi stadi vengono eseguiti in sequenza, ed l IF della seconda istruzione segue il WB della prima 19/11/2007 Sistemi a Microprocessore A.A Struttura hardware di una pipeline La pipeline può essere vista come una sequenza di stadi separati da registri che servono per memorizzare i risultati intermedi dell esecuzione, come schematizzato dalla figura seguente: Nel registro IF/ID, equivalente al registro IR dell 8086, viene memorizzata l istruzione così come è prelevata dalla memoria. Il registro ID/EX contiene invece l istruzione decodificata ed al suo interno prevede campi per la memorizzazione dei valori dei registri coinvolti nell istruzione. Quindi prima di entrare nello stato EX devono essere noti i valori su cui operare. Il registro EX/ME contiene il risultato dell operazione aritmetica compiuta nello stadio EX (calcolo aritmetico o indirizzo), analogamente al contenuto del registro ME/WB. 19/11/2007 Sistemi a Microprocessore A.A

8 Struttura hardware di una pipeline 19/11/2007 Sistemi a Microprocessore A.A Struttura hardware di una pipeline RW: contiene la codifica del registro eventualmente scritto in fase WB 19/11/2007 Sistemi a Microprocessore A.A

9 Struttura hardware di una pipeline IF 19/11/2007 Sistemi a Microprocessore A.A Struttura hardware di una pipeline ALU: 2 ingressi (A e B) e un uscita OUT Memoria Dati: 2 ingressi a 32 bit (indirizzo e dati) e un uscita a 32 bit (Data Out). 2 segnali per comandare la scrittura o la lettura 19/11/2007 Sistemi a Microprocessore A.A

10 Conflitti nella Pipeline La pipeline, eseguendo più istruzioni contemporaneamente può andare incontro a conflitti di vario tipo, di cui i più comuni sono: Conflitti Strutturali: quando due fasi della pipeline accedono ad una risorsa in comune Conflitti di dati: quando una istruzione dipende dal risultato di una precedente Conflitti di controllo: quando istruzioni di salto costringono lo svuotamento della Pipeline per caricare un nuovo flusso. La soluzione più semplice è introdurre dei cicli di clock di stallo nella pipeline fino a quando il conflitto non è risolto, inserendo una o più bolle nella pipeline. 19/11/2007 Sistemi a Microprocessore A.A Conflitti nella Pipeline Conflitti Strutturali Nascono quando la combinazione delle istruzioni è tale per cui stadi distinti della pipeline lineare richiedono contemporaneamente l uso esclusivo della stessa risorsa Questo tipo di conflitti insorge ad esempio fra le fasi IF e ME, che hanno bisogno in contemporanea di fare accesso al bus dati ed indirizzi per compiere le loro operazioni. L unica possibilità per risolvere tali conflitti è la duplicazione della risorsa condivisa, come l adozione di una memoria DUAL PORT, o cache distinte per dati e istruzioni. La soluzione di che prevede un sommatore di 4 al PC nello stadio IF elimina il conflitto sull uso della ALU con lo stadio EXE 19/11/2007 Sistemi a Microprocessore A.A

11 Conflitti Strutturali In presenza di conflitti strutturali la pipeline non può funzionare correttamente in molti casi, consideriamo ad esempio la seguente sequenza di istruzioni: 1. LD R7, 3(R8) 2. SUB R4, R2, R3 3. MUL R5, R2, R3 4. ADD R1, R2, R3 5. DIV R4, R2, R3 Quando la LD è nella fase di ME, non si può fare il fetch della ADD e occorre inserire quindi uno stallo o bolla nella pipeline, che consiste nel fermare la pipeline stessa fino a che il conflitto non si risolve LD IF ID EX ME WB SUB // IF ID EX ME WB MUL // // IF ID EX ME WB ADD // // // Bolla IF ID EX ME WB DIV // // // // // IF ID EX ME WB Quindi in presenza di istruzioni di Load o Store siamo costretti a perdere cicli di clock utili nella Pipeline. La bolla si ottiene per via software con una particolare istruzione: NOP (no operation) La bolla attraversa la pipeline trovandosi negli stadi ID EX ME e WB L inserimento di NOP è fatto in sede di assemblaggio e ottimizzazione 19/11/2007 Sistemi a Microprocessore A.A Conflitti Strutturali soluzione HW 19/11/2007 Sistemi a Microprocessore A.A

12 Conflitti dati Si verificano se esiste una dipendenza tra le istruzioni e sono abbastanza vicine da far sì che la sovrapposizione generata dalla pipeline modifichi l ordine di accesso agli operandi. Esistono 3 categorie di conflitti: RAW (Read After Write): si legge prima che l istruzione precedente abbia scritto WAR (Write After Read): si scrive in una destinazione prima che l istruzione precedente abbia letto da quella destinazione WAW (Write After Write): si scrive un operando prima che l istruzione precedente abbia scritto Questo tipo di conflitto non può essere risolto a livello hardware, al limite la sua influenza può essere diminuita con appositi dispositivi, in quanto dipende dalla sequenza in cui sono messe le istruzioni e dagli operandi che esse hanno. 19/11/2007 Sistemi a Microprocessore A.A Conflitti dati Per limitare i danni dovuti all introduzione di stalli esistono tre tecniche principali, che sono brevemente descritte di seguito. Stallo La logica di CPU introduce uno o più cicli di stallo, impedendo l ingresso di istruzione che entrerebbero in conflitto con quelle presenti Lo stallo è una soluzione altamente penalizzante in quanto introduce dei ritardi di esecuzione Anticipazione o Forwarding Il dato già prodotto ma non ancora scritto nel registro di destinazione, viene prelevato dallo stadio intermedio in cui è in transito e presentato in ingresso all unità funzionale che lo richiede. (Soluzione di bypass) Sovrapposizione Le operazione di scrittura WB e lettura ID avvengono in contemporanea e non in modo conflittuale Riordinamento o Scheduling L ordine di esecuzione viene modificato in modo da evitare i conflitti di accesso ai dati 19/11/2007 Sistemi a Microprocessore A.A

13 Conflitti dati: Stallo Consideriamo la seguente sequenza, supponendo di non avere conflitti strutturali: 1. MUL R5, R2, R3 2. ADD R1, R5, R3 L istruzione ADD per poter essere decodificata ha bisogno del valore del registro R5, che verrà scritto solo dopo la fase WB della MUL. Avremo quindi la seguente situazione nella pipeline MUL IF ID EX ME WB ADD // IF Bolla Bolla Bolla ID EX ME WB 19/11/2007 Sistemi a Microprocessore A.A Conflitti dati: Stallo Consideriamo invece la seguente sequenza 1. MUL R5, R2, R3 2. ADD R1, R5, R3 3. SUB R6, R5, R1 MUL IF ID EX ME WB ADD // IF Bolla Bolla Bolla ID EX ME WB SUB // // // // // IF Bolla Bolla Bolla ID EX ME WB in quanto la sub ha bisogno anche del registro R1 prodotto dalla ADD. 19/11/2007 Sistemi a Microprocessore A.A

14 Conflitti dati: Sovrapposizione Dal momento che le fasi di minore durata della pipeline sono la ID e la WB, nel caso in cui esse possano avvenire in metà ciclo di clock, possono essere sovrapposte: 19/11/2007 Sistemi a Microprocessore A.A Conflitti dati: sovrapposizione Considerando nuovamente la sequenza di istruzioni: 1. MUL R5, R2, R3 2. ADD R1, R5, R3 e la relativa sequenza in pipeline: MUL IF ID EX ME WB ADD // IF Bolla Bolla ID EX ME WB Possiamo dedurre, che dal momento che le fasi di ID e WB possono essere sovrapposte, possiamo eliminare uno stallo ed eseguire l ID della ADD nello stesso colpo di clock del WB della MUL. 19/11/2007 Sistemi a Microprocessore A.A

15 Conflitti dati: Anticipazione o bypass La rete di bypass permette di riportare da stadi a valle, verso gli stadi a monte i risultati delle elaborazioni parziali delle fasi, al fine di evitare stalli, o di ridurne il numero. 19/11/2007 Sistemi a Microprocessore A.A Conflitti dati: Anticipazione o bypass Consideriamo nuovamente la sequenza di istruzioni: 1. MUL R5, R2, R3 2. ADD R1, R5, R3 e la relativa sequenza in pipeline: MUL IF ID EX ME WB ADD // IF ID EX ME WB Dal momento che il valore necessario alla ADD viene generato dopo la fase EX della MUL, possiamo pensare di prendere tale risultato sul registro EX/ME e riproporlo in ingresso alla ALU al posto del campo A che non possiamo decodificare. In tale modo la pipeline può proseguire normalmente, dal momento che non è più necessario decodificare il campo A nella fase ID, ma ho già il valore in ingresso alla ALU per la successiva fase. 19/11/2007 Sistemi a Microprocessore A.A

16 Conflitti dati: Anticipazione o bypass 19/11/2007 Sistemi a Microprocessore A.A Conflitti dati: Riordinamento Come esempio consideriamo la seguente sequenza di istruzioni: 1. MUL R5, R2, R3 2. ADD R1, R5, R3 3. DIV R7, R4, R3 4. SUB R8, R4, R3 Le istruzioni DIV e SUB non dipendono dal risultato della MUL e della DIV e quindi potrebbero essere anticipate senza che questo sconvolga la sequenza di esecuzione del programma. Dopo questa operazione, la sequenza delle istruzioni è la seguente: 1. MUL R5, R2, R3 2. DIV R7, R4, R3 3. SUB R8, R4, R3 4. ADD R1, R5, R3 e l esecuzione in pipeline può essere schematizzata come segue: MUL IF ID EX ME WB DIV // IF ID EX ME WB SUB // // IF ID EX ME WB ADD // // // IF Bolla ID EX ME WB La ADD ha bosgno adesso di solo uno stallo per poter essere eseguita, ed in caso di dimezzamento di ID/WB potrei addirittura eliminare tutti gli stalli. 19/11/2007 Sistemi a Microprocessore A.A

17 Conflitti dati: Riordinamento Il riordinamento può essere fatto con un opportuna logica di anticipazione o al tempo di compilazione 19/11/2007 Sistemi a Microprocessore A.A Pipeline: Conflitti di controllo Una delle maggiori penalizzazione con l uso si una pipeline è data dallo svuotamento forzato della pipeline a causa di una istruzione di salto. In presenza di un salto, infatti la sequenza delle istruzioni è sconvolta e quindi la pipeline deve essere svuotata e ricaricata con le istruzioni a partire dal nuovo indirizzo di destinazione. Per evitare di svuotare la pipeline dovrebbe esistere un meccanismo in grado di prevedere la destinazione del salto al fetch o al decode dell istruzione in modo da caricare subito la pipeline con le istruzioni corrette. Questo meccanismo può essere implementato con un BTB (Brach Target Buffer) che è una cache che associa ad ogni istruzione di salto la predizione della locazione successiva. Una volta che una istruzione è stata eseguita viene salvato in BTB il fatto che il salto abbia avuto luogo o meno e conseguentemente si comincia a caricare la pipeline con le istruzioni a partire dall indirizzo predetto. In generale l algoritmo utilizzato per predire i salti è riportato di seguito: 19/11/2007 Sistemi a Microprocessore A.A

18 Pipeline: Conflitti di controllo Una delle maggiori penalizzazione con l uso si una pipeline è data dallo svuotamento forzato della pipeline a causa di una istruzione di salto. In presenza di un salto, infatti la sequenza delle istruzioni è sconvolta e quindi la pipeline deve essere svuotata e ricaricata con le istruzioni a partire dal nuovo indirizzo di destinazione. Per evitare di svuotare la pipeline dovrebbe esistere un meccanismo in grado di prevedere la destinazione del salto al fetch o al decode dell istruzione in modo da caricare subito la pipeline con le istruzioni corrette. Questo meccanismo può essere implementato con un BTB (Brach Target Buffer) che è una cache che associa ad ogni istruzione di salto la predizione della locazione successiva. Una volta che una istruzione è stata eseguita viene salvato in BTB il fatto che il salto abbia avuto luogo o meno e conseguentemente si comincia a caricare la pipeline con le istruzioni a partire dall indirizzo predetto. In generale l algoritmo utilizzato per predire i salti è riportato di seguito: 19/11/2007 Sistemi a Microprocessore A.A Algoritmo BTB 19/11/2007 Sistemi a Microprocessore A.A

19 Algoritmo BTB Tale algoritmo è detto Static Brach Prediction ed opera secondo le seguenti modalità: 1. Se l istruzione è trovata in BTB, 1.1. Se è un salto incondizionato, viene sempre previsto come salto 1.2. Se non è un salto incondizionato si legge la predizione dal BTB 2. Se non è stata trovata in BTB 2.1. Se è un salto relativo non condizionale si considera di effettuare il salto 2.2. Se invece è un salto condizionato, Si considera di saltare se il salto è indietro (come nella maggior parte dei LOOP) Altrimenti si ritiene che il salto non avvenga 2.3. Se non è un salto relativo, Se l istruzione è un return, si considera che il salto avvenga Altrimenti è un salto indicizzato e si presuppone che non avvenga 19/11/2007 Sistemi a Microprocessore A.A Sistemi a Microprocessore Cache e sistemi multiprocessore 19

20 Introduzione Sistemi multiprocessore prevedono l utilizzo di più CPU collegate tra loro da una rete di interconnessione Di norma un sistema multiprocessore è quel sistema le cui CPU sono fortemente accoppiate (tightly coupled) Le cpu risiedono nello stesso container se non addirittura sulla stessa piastra La comunicazione avviene condividendo un bus Le CPU condividono la stessa memoria Lo spazio di indirizzamento delle CPU può essere parzialmente o totalmente sovrapposto. L accoppiamento di CPU pone il problema di conflitto/contesa della memoria centrale Problemi di consistenza dei dati Degradazioni delle prestazioni dovuto ad accessi multipli in memoria con saturazione di banda Il problema è in parte risolto grazie alla presenza della cache in ciascuno processore Inevitabile è una gestione della coerenza dei dati tra memorie cache e memoria centrale 19/11/2007 Sistemi a Microprocessore A.A Introduzione Architetture multicore simmetriche (SMP) Sistemi dove non è presente il concetto di master/slave Tutte le CPU sono paritetiche Il codice del S.O e dei programmi possono essere eseguiti da tutte le CPU Si basano su CPU commerciali E alla base dei server. Possono ospitare da 2, 4 a 8 CPU La rete di interconnessione è un bus sul quale le CPU possono osservare e pilotare 19/11/2007 Sistemi a Microprocessore A.A

21 Sistemi SMP 19/11/2007 Sistemi a Microprocessore A.A Coerenza Un sistema è detto coerente se per ogni lettura, una CPU è in grado di ricevere sempre l ultima copia aggiornata dei dati Il problema di coerenza è dovuto al fatto che un dato può trovarsi in più cache ed è legato a 3 situazioni: Condivisione dati Operazioni di I/O Migrazione processi 19/11/2007 Sistemi a Microprocessore A.A

22 Coerenza 19/11/2007 Sistemi a Microprocessore A.A Coerenza 19/11/2007 Sistemi a Microprocessore A.A

23 Coerenza 19/11/2007 Sistemi a Microprocessore A.A Coerenza 19/11/2007 Sistemi a Microprocessore A.A

24 Coerenza 19/11/2007 Sistemi a Microprocessore A.A Coerenza: protocolli Sono possibili soluzioni di mantenimento di coerenza basati su protocolli sia hardware che software Protocolli software La coerenza è gestita attraverso specifiche istruzioni (gestione statica) In questo modo si elimina la comunicazione tra processori e si riduce il traffico sul bus Richiedono comunque un supporto hw ma senza dubbio meno complesso e costoso di una soluzione interamente hw Sono scalabili: si possono aggiungere CPU senza dover modificare niente. E compito del programmatore la gestione della coerenza dei dati 19/11/2007 Sistemi a Microprocessore A.A

25 Coerenza: protocolli Protocolli hardware Non richiede la responsabilità del programmatore, né del compilatore o del S.O. Offre migliore prestazioni specie in sistemi con elevata quantità di dati condivisi Gestione dinamica della coerenza e riconoscimento della violazione in tempo reale Due protocolli hardware Protocolli basati su catalogo (directory) Protocolli basati (snoopy) 19/11/2007 Sistemi a Microprocessore A.A Coerenza: protocolli Protocolli basati su catalogo Il catalogo tiene traccia dei dati nelle cache Per ogni linea di cache si memorizza lo stato (valid bit, modification bit, ) Un unico catalogo distribuito e indirizzato su memorie diverse per evitare conflitti di accesso Preferibile in sistemi con molti processori Protocolli Snoopy Per ogni linea di cache si inseriscono i bit di stato necessari al protocollo Cache e memoria sono sullo stesso bus Le transazioni di accesso alle cache o alla memoria centrale sono riportate sul bus stesso Introduzione di controllori che osservano il bus (snoopying) per rilevare la transazioni e rendere coerente il sistema di memoria Preferibile per sistemi a singolo bus (macchine commerciali) 19/11/2007 Sistemi a Microprocessore A.A

26 Coerenza: politiche Scrittura a invalidazione Quando un CPU scrive nella propria cache privata, le altre cache che rilevano l indirizzo del dato in corso di modifica e scoprono di avere una copia invalidano le loro copie Scrittura a propagazione delle modifiche Quando una CPU scrive nella propria cache privata, quelle che possiedono una copia privata l aggiornano col valore che è sul bus in quel momento Questa soluzione consente di segnare i blocchi come condivisi o privati (locali) e avere un comportamento write-through nel caso di dati condivisi e write-back nel caso di dati locali In entrambi i casi è necessario che sul bus siano presenti le informazioni relative alla modifica corrente e che tutte le cache monitorizzino il bus continuamente Nel caso di scrittura differita, il processore che sta tendando di leggere un dato in fase di modifica, deve essere momentaneamente interdetto dal farlo 19/11/2007 Sistemi a Microprocessore A.A Coerenza: efficienza Protocollo di invalidazione Dopo l invalidazione sono eliminati gli accessi futuri per gli aggiornamenti locali Protocollo a propagazione Ogni volta che la cache è modificata si ha un accesso al bus per propagare la modifica a tutte le cache che hanno una copia. Ciò è inutile quando i dati non saranno utilizzati o se sono situazioni generate da operazioni intermedie Ne emerge che il protocollo di invalidazione è più efficiente Tuttavia esiste una condizione in cui si perde quest efficienza ed è in presenza di variabili di sincronizzazione es. mutex 19/11/2007 Sistemi a Microprocessore A.A

27 Coerenza: efficienza caso del mutex Si considerino n processi su n CPU che condividono la variabile mutex Il meccanismo di invalidazione prevede che ogni processo che esce o entra dalla sezione critica aggiorna la variabile mutex La variabile viene invalidata su tutti gli n-1 CPU e dovranno ricaricare il valore attuale del mutex Si innesca un meccanismo di contesa del bus: Se un processore richiede l aggiornamento della variabile se la dovrà vedere con almeno n-2 richieste analoghe da parte delle altre CPU aumenta il numero di transiti sul bus che cresce come n 2 Il rischio è la saturazione del bus La soluzione a propagazione invece gestisce meglio questa condizione distribuendo il valore aggiornato ed evitando gli accessi alla memoria 19/11/2007 Sistemi a Microprocessore A.A Protocolli Snoopy (Invalidazione con scrittura immediata) È il più semplice protocollo La coerenza è ottenuta dalla natura stessa della politica di gestione write-through Modifiche in cache sono riportate immediatamente in memoria principale Tutti i processori che contengono la variabile possono leggere x dalla propria cache se la linea è valida. Quando un processo P i modifica x, tutti i P j che hanno x invalidano la linea di cache corrispondente. Se un P j deve accedere a x la ottiene dalla memoria centrale e riporta in cache una linea valida. 19/11/2007 Sistemi a Microprocessore A.A

28 Protocolli Snoopy (Invalidazione con scrittura immediata) Il passaggio dallo stato non valido a valido si ha anche se un processore che ha una linea di cache non valida (o non ce l ha proprio) deve scrivere su una variabile L operazione avviene direttamente in memoria centrale e la linea di cache valida viene aggiornata o caricata nella relativa cache (write-allocate) Parallelamente vengono invalidate le copie nelle altre cache 19/11/2007 Sistemi a Microprocessore A.A Protocolli Snoopy (Invalidazione con scrittura immediata) Contro Discreto carico sul bus in presenza di molti processori Complicazioni in presenza di buffer di scrittura interni ai processori per velocizzare le operazioni di scrittura immediata problema della coerenza di queste memorie di transito 19/11/2007 Sistemi a Microprocessore A.A

29 Protocolli Snoopy (Invalidazione con scrittura differita) È basato su un modello a 3 stati: Lo stato non valido (INV) (segue le modalità del caso precedente) Lo stato valido è diviso in due stati: RO (read only): la copia può essere letta RW (read write): la copia può essere sia letta che scritta Le copie RO della stessa linea possono essere lette localmente dai processori che le possiedono e sono coerenti con la copia in memoria centrale Quando un processore P 1 scrive nella propria cache, la linea passa allo stato RW e le altre copie sono invalidate Questa condizione corrisponde alla situazione in cui esiste una sola copia aggiornata nel blocco posseduto dal processore che l ha modificata Anche la memoria è incoerente e chi accede in lettura diverso da P 1 leggere un valore obsoleto Un tentativo di accesso da parte in un altro processore deve essere intercettato da P 1 che deve comandare una transazione di sospensione della lettura per: Copiare la linea di cache (aggiornata) in memoria Rilasciare la sospensione della lettura per il processore in attesa La linea resta nello stato RW La linea di cache del processore j-esimo passa dallo stato RO a INV quando un altro processore modifica il contenuto della propria copia (che passa a RW) Dallo stato INV si passa a RW o RO rispettivamente quando il processore scrive o legge 19/11/2007 Sistemi a Microprocessore A.A Protocolli Snoopy (Invalidazione con scrittura differita) La linea di cache del processore j-esimo passa dallo stato RO a INV quando un altro processore modifica il contenuto della propria copia (che passa a RW) Dallo stato INV si passa a RW o RO rispettivamente quando il processore scrive o legge 19/11/2007 Sistemi a Microprocessore A.A

30 Protocolli Snoopy (Invalidazione di tipo write-once) Gli stati della copia nella cache del processore P i di una generica linea sono 4 INV la copia è incoerente con quella contenente la versione più aggiornata VAL la copia cache è stata letta dalla memoria condivisa, con la quale è coerente (possono esistere altre copie coerenti) RES la copia è stata modificata esattamente una volta dopo essere stata letta dalla memoria condivisa e quindi è coerente con la memoria principale che contiene la sola altra copia aggiornata. DRT la copia è stata modificata più di una volta e quindi è la copia più aggiornata. Anche la memoria principale contiene una copia obsoleta Il protocollo usa una politica di gestione della memoria di tipo: Write-through per il primo aggiornamento Write-back per gli aggiornamenti successivi (il blocco viene scritto in memoria nella fase di sostituzione se si trova nello stato DRT) 19/11/2007 Sistemi a Microprocessore A.A Protocolli Snoopy (Invalidazione di tipo write-once) Per ridurre il traffico sul bus, l idea è di avere una copia aggiornata in memoria fintanto che si ha un solo aggiornamento. In caso di accessi successivi alla cache locale conviene aggiornare la memoria solo al momento della sostituzione del blocco Esempio: 3 CPU Variabile x inizialmente posta a 10 e presente solo nella cache di P2 (coerente) e in stato VAL Si considerano i seguenti eventi: P1 legge x P1 modifica x e la pone uguale a 20 P1 modifica ancora x e la pone uguale a 39 P3 legge x 19/11/2007 Sistemi a Microprocessore A.A

31 Protocolli Snoopy (Invalidazione di tipo write-once) X=30 19/11/2007 Sistemi a Microprocessore A.A Protocolli Snoopy (Invalidazione di tipo write-once) Descrizione con diagramma degli stati Gli archi a tratto continuo indicano i comandi lanciati dal processore locale P i in riferimento alla generica linea di cache. R i e W i indicano rispettivamente operazioni di lettura e scrittura da parte di P i Le linee tratteggiate indicano i comandi eseguiti dai processori P j diversi da P i e osservati da quest utlimo R j e W j indicano rispettivamente operazioni di lettura e scrittura da parte di P j INV è il comando di invalidazione trasmesso da P j 19/11/2007 Sistemi a Microprocessore A.A

32 Protocolli Snoopy (Invalidazione di tipo write-once) 19/11/2007 Sistemi a Microprocessore A.A Protocolli Snoopy (Invalidazione di tipo write-once) Eventi che si possono verificare in seguito a tentativi di scrittura e lettura Read-Miss P i cerca di leggere una linea non presente nella cache locale o che è nello stato INV Monitorando il bus gli altri processori capiscono le intenzioni di lettura di P i Se non ci sono copie DRT nelle cache degli altri processori allora la memoria ha una copia coerente In caso contrario chi possiede la copia DRT asserisce un segnale di retry che inibisce il tentativo di lettura da parte di P i e aggiorna la memoria Ad aggiornamento avvenuto il segnale di inibizione viene ritirato e P i può leggere il dato e lo stato della linea è VAL Write-Hit P i aggiorna la linea nella sua cache. Se lo stato della linea è RES o DRT l aggiornamento è locale con lo stato posto a DRT Se lo stato è inizialmente a VAL allora viene mandato un segnale di invalidazione alle altre cache e la memoria centrale viene aggiornata. Lo stato viene impostato a RES 19/11/2007 Sistemi a Microprocessore A.A

33 Protocolli Snoopy (Invalidazione di tipo write-once) Write-Miss P i aggiorna una linea non presente nella propria cache o in uno stato di INV La linea viene prelevata dalla memoria centrale (se è coerente) o dalla cache remota che la contiene e in stato DRT Se è possibile leggere cache-cache nessun problema altrimenti la cache che contiene la copia aggiornata deve sospendere la transazione di lettura del processore che tenta la scrittura, aggiorna la memoria e quindi riabilita il processore sospeso. Read-Hit P i legge localmente un blocco contenente informazioni aggiornate (in uno stato tra DRT, VAL o RES). Non sono necessarie transazioni di stato 19/11/2007 Sistemi a Microprocessore A.A