Struttura schematica di un calcolatore. Processore. Componenti processore: Data Path. Il processore (CPU)

Documenti analoghi
Struttura schematica di un calcolatore. Processore. Componenti processore: Data Path. Il processore (CPU) Data Path. Micro-operazione.

La CPU e la Memoria. Sistemi e Tecnologie Informatiche 1. Struttura del computer. Sistemi e Tecnologie Informatiche 2

06 Livello di micro architettura

Architettura hardware

Il processore. Istituzionii di Informatica -- Rossano Gaeta

Calcolatori Elettronici A a.a. 2008/2009

Macchine Astratte. Luca Abeni. February 22, 2017

ARCHITETTURA DI UN SISTEMA DI ELABORAZIONE

Componenti di un processore

Componenti e connessioni. Capitolo 3

Architettura dei calcolatori

Capitolo 5 Elementi architetturali di base

Il Processore: l unità di controllo

La microarchitettura. Didattica della strumentazione digitale e sistemi a microprocessore anno accademico pagina 1

MIPS & SPIM. Modulo del Corso di Architettura degli Elaboratori. Nicola Paoletti. Università di Camerino Scuola di Scienze e Tecnologie

Il calcolatore. È un sistema complesso costituito da un numero elevato di componenti. è strutturato in forma gerarchica

Il Processore. Informatica di Base -- R.Gaeta 27

Integer Java Virtual Machine (IJVM)

AXO - Architettura dei Calcolatori e Sistema Operativo. organizzazione strutturata dei calcolatori

Pipeline nel Mondo Reale

Il processore Pentium

Processore. Memoria I/O. Control (Parte di controllo) Datapath (Parte operativa)

Corso di Informatica

Il livello della CPU, e in particolare come le istruzioni ISA (Instruction Set Architecture) che costituisce la CPU.

Architettura dei sistemi di elaborazione: La CPU: Architettura (parte1)

La memoria principale

ARCHITETTURA DI UN ELABORATORE

Richiami sull architettura del processore MIPS a 32 bit

Lezione 15. L elaboratore Elettronico

Linguaggio Assembly e linguaggio macchina

Il livello della CPU, e in particolare come le istruzioni ISA (Instruction Set Architecture) che costituisce la CPU.

Corso di Alfabetizzazione Informatica 2001/2002. La CPU. F. Tortorella Università degli Studi. di Cassino

Architettura dei computer

Microarchitettura. Giacomo Fiumara Anno Accademico / 101

Linguaggio Assembly e linguaggio macchina

Architettura di una CPU

Architettura di un calcolatore e linguaggio macchina. Primo modulo Tecniche della programmazione

Architettura di un calcolatore e ciclo macchina. Appunti per la classe 3 Dinf

Struttura CPU. Struttura e Funzione del Processore. Capitolo 12. Compiti CPU:

Esercizio 1.A Aritmetica binaria (nel presentare le soluzione mostrare, almeno nei passaggi piú significativi, i calcoli eseguiti) (3 punti)

Lez. 4 L hardware. Prof. Pasquale De Michele Gruppo 2

ARCHITETTURA DI UN ELABORATORE

Parte V. Architettura della CPU

Calcolatori Elettronici

Istruzioni macchina. Dove sono gli operandi? Ciclo della CPU. Elementi di un istruzione macchina. Rappresentazione delle istruzioni

Lecture 2: Prime Istruzioni

Organizzata secondo il modello della macchina di von Neumann definita nei tardi anni 40 all Institute for Advanced Study di Princeton.

Fondamenti di informatica: un po di storia

Il Ciclo Fetch-Decode-Execute. C Nyssen/Aberdeen College 2003

Come funzionano i computer

CALCOLATORI ELETTRONICI

Esercizi su Microarchitetture. Università Roma Tre

Microelettronica Corso introduttivo di progettazione di sistemi embedded

Fasi (MIPS) Dove NPC è un registro temporaneo PC (program counter) è il registro IP (instruction pointer)

Fondamenti di informatica: un po di storia

Struttura del calcolatore

Lezione4: MIPS e Istruzioni (1 Parte)

Introduzione all'architettura dei Calcolatori

Struttura di un elaboratore

Lezione 7 Sommatori e Moltiplicatori

Introduzione alle gerarchie di memoria

Architettura del processore. Modello di calcolatore. Caratteristiche del processore. Caratteristiche del processore. Fondamenti di Informatica

Architettura dei calcolatori. Architettura dei calcolatori. Cos'è un computer?

Calcolatori Elettronici Parte VI: Microarchitetture, Cache e Pipeline

Indirettezza. Fetch/Execute. Fetch/Execute. Introduzione della Indirettezza (indirect)

Architettura dei calcolatori I parte Introduzione, CPU

Architettura dei calcolatori

Hardware. Sommario. Architettura dei computer

Accesso a memoria. Accesso a memoria. Accesso a memoria. Modalità di indirizzamento. Lezione 5 e 6. Architettura degli Elaboratori A.

Hardware. I parte. Sommario

Struttura hw del computer

DEFINIZIONE. particolare l'unità di elaborazione centrale è una tipologia di

Elementi di Architettura

Linguaggio macchina. 3 tipi di istruzioni macchina. Istruzioni per trasferimento dati. Istruzioni logico/aritmetiche

Corso di Architettura (Prof. Scarano) 09/04/2002

Abilità Informa/che. capitolo 3. Prof. Fabio Calefato a.a Giurisprudenza

CPU. Maurizio Palesi

L ARCHITETTURA DEI CALCOLATORI. Il processore La memoria centrale La memoria di massa Le periferiche di I/O

HARDWARE 1.4a: (Processore)

Architettura degli Elaboratori

static dynamic random access memory

Fondamenti di Informatica Architettura del Calcolatore Alessandra Volpato

Elementi di base del calcolatore

Il calcolatore. Architettura di un calcolatore (Hardware)

Cicli di clock e istruzioni

La macchina programmata Instruction Set Architecture (1)

Controllo a ciclo singolo

Architetture Digitali

Tecniche di parallelismo, processori RISC

Pipeline Problemi 1. Pipeline Problemi 2

LEZIONE 2 Il processore e la memoria centrale

Corso di Sistemi di Elaborazione delle informazioni

Ispirata al modello della Macchina di Von Neumann (Princeton, Institute for Advanced Study, anni 40).

Riassunto. Riassunto. Ciclo fetch&execute. Concetto di programma memorizzato. Istruzioni aritmetiche add, sub, mult, div

Sistemi di numerazione

Informatica: Lez. 1. Andrea Payaro. (European Logistics Association)

Il set istruzioni di MIPS Modalità di indirizzamento. Proff. A. Borghese, F. Pedersini

Corso di Informatica

Architettura di Von Neumann. Architettura di Von Neumann. Architettura di Von Neumann INFORMATICA PER LE DISCIPLINE UMANISTICHE 2 (13042)

Lezione 1: L hardware

Transcript:

Processore Presentazione a livelli del calcolatore: dopo porte logiche, circuiti base e memorie, esaminiamo il: Processore (CPU - Central Processing Unit): cuore del calcolatore, l à che esegue le istruzioni macchina (cap. 2 e 4). Nel seguito le altre componenti del calcolatore: bus, I/O, memoria di massa. Struttura schematica di un calcolatore Central processing (CPU) Control Arithmetic logical () Registers I/O devices Main memory Disk Printer (Architettura degli Elaboratori) Processore 1 / 81 (Architettura degli Elaboratori) Processore 2 / 81 Bus Il processore (CPU) Compito del processore: eseguire il ciclo fetch-decode-execute; fetch: preleva un istruzione dalla memoria istruzione macchina; decode: determina il tipo di istruzione e i suoi argomenti; execute: esegui l istruzione: recupera gli argomenti, esegui un operazione, memorizza i risultati; ripete il ciclo. A Componenti processore: Data Path A + B A Registers B input register B input bus output register A + B (Architettura degli Elaboratori) Processore 3 / 81 (Architettura degli Elaboratori) Processore 4 / 81

Formata da: una serie di registri (memorie), un à aritmetica e logica (), dei bus di collegamento. Può eseguire micro-operazioni. Data Path Micro-operazione L operazione eseguibile dal data path in un singolo ciclo di clock. Azioni eseguibili da una micro-operazione: una singola operazione aritmetica-logica (i cui argomenti e risultato risiedono nei registri). una comunicare con la memoria (richiesta di lettura o scrittura di una locazione) Un istruzione macchina viene eseguita mediante una o più micro-operazioni. (Architettura degli Elaboratori) Processore 5 / 81 (Architettura degli Elaboratori) Processore 6 / 81 Unità di controllo Il funzionamento del data path viene regolato, mediante segnali, dall à di controllo. Circuito sequenziale che regola il funzionamento del processore. Esamina l istruzione corrente, contenuta Instruction Register (IR). Invia segnali di lettura e scrittura ai registri. Invia segnali di controllo alla. Gestisce la comunicazione con la memoria principale. Due alternative: Realizzazione cablata: si realizza un circuito sequenziale classico; micro-programmata: il controllo è un piccolo calcolatore capace di eseguire un micro-programma. (Architettura degli Elaboratori) Processore 7 / 81 (Architettura degli Elaboratori) Processore 8 / 81

Dicotomia: cablata - programmata Le stessa funzionalità possono essere implementate mediante: hardware (logica cablata): più complicata e costosa da realizzare, ma offre prestazioni migliori; software (logica programmata): più semplice e flessibile, ma più lenta. Diversi esempi di questa dicotomia: le istruzioni grafiche, l elaborazione dei segnali,... Un po di storia I primi processori: poche istruzioni, logica cablata. Anni 50: prime à di controllo micro-programmato, permette la costruzione di calcolatori economici ma con un ricco insieme di istruzioni. calcolatori con maggiori presazioni usano la logica cablata. Si costruiscono calcolatori molto diversi per prestazioni e costi con lo stesso insieme di istruzioni. (IBM 360) (Architettura degli Elaboratori) Processore 9 / 81 (Architettura degli Elaboratori) Processore 10 / 81 Anni 70 Le potenzialità della micro-programmazione vengo sfruttate al massimo. Linguaggi macchina sempre più sofisticati, vicini ai linguaggi di programmazione standard. Il calcolatore apice di questa filosofia: VAX (Digital DEC). Motivazioni tecnologiche: all epoca i control-store (la memoria micro-programma) sono molti più veloci della memoria principale (RAM). Anni 80, processori RISC Si cambia rotta: poche istruzioni, logica cablata le istruzioni complesse non sono così utili istruzioni semplici molto più veloci; si possono utilizzare controlli cablati; la velocità della RAM si avvicina a quella del control-store (Architettura degli Elaboratori) Processore 11 / 81 (Architettura degli Elaboratori) Processore 12 / 81

Reduced Instruction Set Computer 801 (IBM), I primi RISC CPU-RISC (Patterson - Berkley) Sparc, MIPS (Hennesey - Stanford), Alpha (Digital), PowerPC (Motorola, IBM), ARM, Anni 90, diatriba: RISC CISC Complex Instruction Set Computer. Tutti i processori di nuova concezione sono RISC. Ma i processori usati nei PC: architettura Intel x86, (IA-32), sono CISC. Motivi: compatibilità con il software preesistente, non si vogliono riscrivere i programmi (il codice). (Architettura degli Elaboratori) Processore 13 / 81 (Architettura degli Elaboratori) Processore 14 / 81 Attualmente La contrapposizione RISC CISC è più sfumata. La legge di Moore ha portato alla creazione di processori RISC con insiemi di istruzioni sempre più ampi. Il processori CISC (IA-32) usano al loro interno un cuore RISC, istruzioni semplici, più comuni: eseguite direttamente, istruzioni più complesse: scomposte in più istruzioni semplici, istruzioni sofisticate: eseguite mediante micro-programma. RISC CISC In linea di principio, i processori RISC sono preferibili, le architetture CISC hanno uno svantaggio del (20-30%), per i processori x86, lo svantaggio è compensato dalle economie di scala (vengono prodotti in gran numero). (Architettura degli Elaboratori) Processore 15 / 81 (Architettura degli Elaboratori) Processore 16 / 81

I processori nel libro di testo Per illustrare con maggior dettaglio il funzionamento dei processori, si mostra un esempio concreto di progettazione di un processore. Più precisamente: si mostra come costruire processore (Mic) che eseguire istruzioni del Java bytecode: si realizza la Java Virtual Machine (JVM) Approccio per esempi e bottom-up: prima descrizione delle componenti, poi quadro di insieme. (Architettura degli Elaboratori) Processore 17 / 81 Premessa: i compilatori Un programma ad alto livello (Java, C, C++, Scheme, Pascal,... ) deve essere tradotto in linguaggio macchina (istruzioni eseguibili dal calcolatore). Due alternative: compilatore: programma traduttore, dal programma sorgente genere un programma macchina equivalente. interprete: programma interprete, legge il programma sorgente e lo esegue direttamente (non genera codice intermedio). (Architettura degli Elaboratori) Processore 19 / 81 I processori nel libro di testo Pro: un esempio pratico, consistente con il resto. Contro: presentazione lunga, molti dettagli tecnici, difficile comprensione, linguaggio macchina non standard. A lezione presentazione più superficiale: descrizione dei principi, pochi dettagli. Argomenti affrontati in un ordine diverso. Problema: meno correlazione col libro di testo, non esiste un insieme di pagine che sia completo, autosufficiente e non sovrabbondante (molti più argomenti di quelli presentati a lezione). (Architettura degli Elaboratori) Processore 18 / 81 Java Java si propone come il linguaggio per le applicazioni in rete. I programmi Java devono poter migrare nella rete: codice compilato non ha questa possibilità, è specifico ad una particolare architettura (processore sistema operativo), inoltre: problemi di sicurezza; il codice sorgente non può essere spostato in maniera efficiente. (Architettura degli Elaboratori) Processore 20 / 81

Java Virtual Machine, JVM Soluzione: viene definito un codice intermedio (tra Java e il linguaggio macchina): Java bytecode, viene definita un macchina virtuale la Java Virtual Machine (JVM), capace di eseguire programmi scritti in Java bytecode, macchina virtuale: implementata, via software, su diverse piattaforme (processore, sistema operativo), livello Java bytecode (Architettura degli Elaboratori) Processore 21 / 81 Java bytecode Programmi Java compilati in Java bytecode, eseguibile da ogni calcolatore mediante la Java Runtime Environment (JRE), composto da: JVM (programma interpretare il Java bytecode); librerie. Vantaggi, svantaggi, vantaggi: codice universale, compatto, con meccanismi di protezione; svantaggi: minore efficienza rispetto alla compilazione diretta (mitigata dai compilatori just-in-time). (Architettura degli Elaboratori) Processore 22 / 81 Processori Mic (1,2,3,4) Implementazione hardware, cablata (non virtuale o programmata) della JVM. Mic è un processore capace di eseguire un sottoinsieme del Java bytecode. Progetto didattico, non esistono implementazioni. Esistono delle vere implementazioni, de picojava (Sun Microsystems), ARM926EJ-S, (architettura ARM estesa con il Java bytecode), Java bytecode Simili, per molti aspetti, ai linguaggi macchina. Alcune differenze importanti: meccanismi di protezione contro codice malevolo; compatto, istruzioni lunghe un byte (+ un eventuale argomento di 1-2 byte); primitive object-oriented (chiamate dei metodi). Per semplicità, i processori Mic implementano un piccolo sottoinsieme del Java bytecode. (Architettura degli Elaboratori) Processore 23 / 81 (Architettura degli Elaboratori) Processore 24 / 81

Il modello di memoria Il modello di memoria Memoria standard processori, monolitica, uno stesso spazio per programmi e dati. Memoria della JVM è divisa in quattro parti. area del codice (programmi) area delle costanti (dati utilizza dai programmi) stack delle variabili locali stack degli operandi (dati su cui eseguire operazioni) (Architettura degli Elaboratori) Processore 25 / 81 (Architettura degli Elaboratori) Processore 26 / 81 Stack delle variabili Usato per gestire le chiamate di procedura (metodi). Ogni procedura ha le sue variabili, spazio di memoria. Questi spazi gestiti come una pila. Ad ogni chiamata di procedura si alloca uno spazio. Spazio recuperato quando la procedura termina. Stack degli operandi JVM non è una macchina a registri (come quasi tutti i processori). Le operazioni aritmetiche logiche non fanno riferimento ai registri interni, ma ad uno: Stack degli operandi. Pila su cui: inserire o prelevare word, (sequenze di 32 bit) eseguire operazioni sugli ultimi dati inseriti. Esempio la JVM valuta l espressione (3 + 5) (4 + 2) in... (Architettura degli Elaboratori) Processore 27 / 81 (Architettura degli Elaboratori) Processore 28 / 81

I-Java bytecode Operazioni aritmetiche e logiche: IADD, IAND, IOR, ISUB, IINC vn con. Operazioni trasferimento dati, da e per la memoria: ILOAD vn, ISTORE vn, LDC_W i, (DUP, POP, SWAP, BIPUSH b). Operazioni per il controllo del flusso dell esecuzione: GOTO, IFEQ os, IFLT os, IF_ICMEQ os, Chiamate di metodi: INVOKEVIRTUAL d, IRETURN, Altro: NOP, WIDE Il processore Mic-1 Un semplice processore per il Java bytecode. Funzionamento: ad ogni ciclo di clock il data path può eseguire semplici operazioni, o spostare dati (micro-istruzione) un istruzione del Java bytecode viene realizzata mediante una sequenza di micro-istruzioni, sequenza composta da diverse parti: fetch-decode-execute. (Architettura degli Elaboratori) Processore 29 / 81 (Architettura degli Elaboratori) Processore 30 / 81 Mic-1: data path Unità aritmetica-logica () Componente di ogni processore, può eseguire le operazioni aritmetiche e logiche: Ingressi: due argomenti: 32, 64 bit; codifica operazione da eseguire. Uscite: risultato: 32, 64 bit; bit di condizione: segno, zero, overflow. (Architettura degli Elaboratori) Processore 31 / 81 (Architettura degli Elaboratori) Processore 32 / 81

Unità aritmetica-logica () MIC1 usa una semplice : implementa poche operazioni: AND, OR, NOT, somma, sottrazione, incremento, decremento 1, opposto. Operazioni eseguite bit per bit (locali): scomposta in à elementari, ciascuna operante su una coppia di bit. segnali di controllo: selezionano l operazione da svolgere, abilitano o meno gli ingressi, forniscono il riporto per le cifre meno significative. (Architettura degli Elaboratori) Processore 33 / 81 INVA A ENA B ENB F 0 F 1 Decoder Logical Enable lines AB A + B B Carry out Carry in da un bit Full adder (Architettura degli Elaboratori) Processore 34 / 81 Sum Output da 8-32 bit completa formata da un sequenza di a 1 bit A F1 F 7 B 7 0 1-bit O 7 Carry in A 6 B 6 1-bit O 6 Carry out A 5 B 5 1-bit O 5 A 4 B 4 1-bit O 4 A 3 B 3 1-bit Mic 1 contiene una a 32 bit. O 3 A 2 B 2 1-bit O 2 A 1 B 1 1-bit O 1 A 0 B 0 1-bit O 0 INC Oltre alle ovvie: Funzione calcolabili dalla A + B + 1, somma con Carry in = 1 A + 1, somma con ENB = 0, Carry in = 1 B A, somma con INVA = 1, Carry in = 1 B 1, somma con ENA = 0, INVA = 1 A, somma con ENB = 0, INVA = 1, Carry in = 1 (Architettura degli Elaboratori) Processore 35 / 81 (Architettura degli Elaboratori) Processore 36 / 81

Registri (specializzati) MAR: Memory Address Register, MDR: Memory Data Register; comunicazione memoria dati; PC: Program Counter, MBR: Memory Bytecode Register; comunicazione memoria codice; SP: Stack Pointer, TOS: Top Of Stack; stack degli operandi; LV: Local Variable; puntatore stack variabili; CPP: Constant Pool Pointer; punt. costanti; OPC, H: registri ausiliari. (Architettura degli Elaboratori) Processore 37 / 81 Esempio di implementazione L istruzione IADD viene realizzata dalla sequenza di micro-istruzioni: Main1: PC = PC + 1; fetch; goto (MBR) iadd1: MAR=SP=SP-1; rd iadd2: H = TOS iadd3: MDR=TOS=MDR+H; wr; goto Main1 Le altre istruzioni implementate in maniera analoga. (Architettura degli Elaboratori) Processore 38 / 81 Circuito di controllo Micro-programmato. Formata da memoria ROM (contiene il micro-codice), 2 registri, un multiplexer. semplice sia il circuito che la progettazione relativamente lento Micro-istruzioni di 36 bit in parte segnali di controllo, in parte determinano la prossima micro-istruzione, 6 control MAR MDR PC MBR SP LV CPP TOS OPC H Shifter 3 C bus B bus N Z Memory control signals (rd, wr, fetch) 4-to-16 Decoder 8 High bit 2 MPC 9 O 2 1-bit flip flop Circuito di controllo JMPC 9 4 512 36-Bit control store for holding the microprogram Addr J C M B JAMN/JAMZ MIR Control signals Enable onto B bus Write C bus to register (Architettura degli Elaboratori) Processore 39 / 81 (Architettura degli Elaboratori) Processore 40 / 81

Circuito di controllo: Control store (Architettura degli Elaboratori) Processore 41 / 81 Circuito di controllo Invia: ai registri i segnali di lettura e scrittura; alla memoria le istruzioni: read, write, fetch; alla il codice dell istruzione da eseguire. Determina micro-istruzione successiva via: MBR (prima micro-istruzione nelle esecuzione di un istruzione macchina); la micro-istruzione corrente (micro-istruzioni successive); in alcuni casi, il primo bit dell indirizzo determinato dall uscita della (per poter implementare i salti condizionati). (Architettura degli Elaboratori) Processore 42 / 81 Prestazioni MIC-1, processore (relativamente) completo ma inefficiente (molto più semplice dei processori attuali). Prestazioni: computazione eseguibile nell a di tempo. Due metodi: Miglioramento delle prestazioni Utilizzare istruzioni macchina più potenti, e flessibili. Esempi: Processori Intel x86: 8086 (1978) 80286 386 (1985) MMX 3DNow x86-64 (2000) AVX; ARM: ARMv1... ARMv8; MIPS: R2000 R3000 R4000; IJVM JVM. Eseguire più istruzione nell à di tempo (Architettura degli Elaboratori) Processore 43 / 81 (Architettura degli Elaboratori) Processore 44 / 81

Più istruzioni al secondo Il funzionamento della CPU scandito da un clock, diminuire il numero di micro-istruzioni (cicli di clock) necessari per eseguire un istruzione macchina; aumentare la computazione svolta nel ciclo di clock: ridurre il ciclo di clock. Più computazione per ciclo di clock Aumentare la potenza di calcolo del data path, micro-istruzioni più potenti. con più operazioni, più registri disponibili, più possibilità di scambio dati (3 bus distinti) un à separata per il caricamento delle istruzioni: Instruction Fetch Unit (IFU) (Architettura degli Elaboratori) Processore 45 / 81 (Architettura degli Elaboratori) Processore 46 / 81 To and from main memory Control signals Instruction fetch (IFU) Secondo progetto MIC-2 MAR MDR PC MBR SP LV MBR2 Memory control registers Ridurre il ciclo di clock Segnale di clock abilita la scrittura dei registri. Periodo di clock dato dalla somma dei ritardi. Cycle 1 starts here Shifter output stable Registers loaded instantaneously from C bus and memory on rising edge of clock Clock cycle 1 Clock cycle 2 Enable onto B bus Write C bus to register C bus CPP TOS OPC H B bus w x y z New MPC used to load MIR with next microinstruction here A bus control 6 Shifter N Z Set up signals to drive data path and shifter MPC available here (Architettura degli Elaboratori) Processore 47 / 81 Drive H and Propagation from shifter (Architettura degli Elaboratori) Processore 48 / 81

Due modi: Ridurre il ciclo di clock migliorare la tecnologici nei circuiti integrati: transistor più veloci, migliorare la strutture dei circuiti: realizzare circuiti con meno ritardi (a parità di tipo di transistor impiegati). Velocizzare il data-path: Architettura più veloce circuito di controllo cablato, e circuiti combinatori più veloci, (un intero settore di ricerca): l presentata nel testo particolarmente inefficiente. esecuzione parallela, spezzare l esecuzione della micro-operazione in più stadi: la tecnica della pipeline (Architettura degli Elaboratori) Processore 49 / 81 (Architettura degli Elaboratori) Processore 50 / 81 MAR Terzo progetto: Mic-3 Memory control registers Mic-3 Pipeline To and from main memory Control signals Enable onto B bus Write C bus to register Instruction fetch (IFU) C bus C latch MDR PC MBR1 MBR2 SP LV CPP TOS OPC H A latch A bus B latch B bus Pipeline: l esecuzione della micro-operazione viene divisa in più stadi ogni stadi eseguito più rapidamente i diversi stadi eseguiti in contemporanea su più istruzioni control 6 N Z Shifter (Architettura degli Elaboratori) Processore 51 / 81 (Architettura degli Elaboratori) Processore 52 / 81

Pipeline Paragoni Possibile paragone preso dalla vita comune, una lavanderia: vestiti da lavare micro-operazioni lavaggio acquisire i dati di ingresso asciugatura calcolo del risultato stiratura memorizzazione del risultato Le varie fasi di lavoro sono portata avanti in parallelo. (Architettura degli Elaboratori) Processore 53 / 81 La pipeline, secondo paragone. La catena di montaggio: il lavoro viene scomposto in fasi, ognuna eseguita da un dispositivo specifico, si svolgono le diverse fasi, su componenti diverse, in parallelo. In un processore si parallelizza l esecuzione delle micro-operazioni, (ciclo di clock); si migliora la banda passante ma non i tempi di risposta. Tecnica (Architettura degli utilizzata Elaboratori) in tutti Processore i processori. In ambito Intel: 54 / 81 dal 486 in poi (1989). Esempio di scomposizione: S1 S2 S3 S4 S5 Altro esempio: Instruction fetch Instruction decode Operand fetch Instruction execution Write back 1 2 3 4 5 6 7 (a) IFU Decoder Queue Operands Exec Write back Memory S1: S2: S3: S4: S5: 1 2 3 4 5 6 7 8 9 1 2 3 4 5 6 7 8 1 2 3 4 5 6 7 1 2 3 4 5 6 1 2 3 4 5 1 2 3 4 5 6 7 8 9 Time (b) Processori diversi usano scomposizioni, strutture della pipeline, diverse. Lunghezza tipica di una pipeline: 7 14 stadi. Caso limite Pentium IV: 20 stadi di pipeline (guerra dei GHz). (Architettura degli Elaboratori) Processore 55 / 81 (Architettura degli Elaboratori) Processore 56 / 81

Processori superscalari Aumentano ulteriormente il parallelismo: si migliora il rapporto istruzioni cicli di clock, Iniziano contemporaneamente l esecuzione di più istruzioni: più pipeline operanti in parallelo. S1 S2 S3 S4 S5 Instruction fetch Instruction decode Instruction decode Operand fetch Operand fetch Instruction execution Instruction execution Write back Write back Processori superscalari I primi stadi (singoli) prelevano più istruzioni dalla memoria, e le decodificano. Le istruzioni smistate su stadi successivi multipli. Spesso, uno stadio finale singolo che termina, in ordine, le istruzioni. (Architettura degli Elaboratori) Processore 57 / 81 (Architettura degli Elaboratori) Processore 58 / 81 Pipeline specializzate. Fetch Decode Group Esempio: processore SPARC Execute Register Integer pipeline Cache N 1 N 2 X 1 X 2 X 3 Floating-point/graphics pipeline Attualmente processori con 4-15 pipeline, decine di micro-istruzione in contemporanea. N 3 Write Problemi del parallelismo Processori superscalari possono, potenzialmente, eseguire decine di istruzioni contemporaneamente. Due fenomeni impediscono un completo sfruttamento del parallelismo. Dipendenza tra istruzioni. Istruzioni di salto. (Architettura degli Elaboratori) Processore 59 / 81 (Architettura degli Elaboratori) Processore 60 / 81

Dipendenza tra istruzioni: In un programma le istruzioni sono stato pensate per essere eseguite in ordine. Un esecuzione parallela, senza controlli, può portare a risultati scorretti. Tre casi: RAW Read After Write: R0 = R1 R2 = R0 + 1 WAR Write After Read: R1 = R0 +1 R0 = R2 WAW Write After Write: R0 = R1 (Architettura degli Elaboratori) Processore 61 / 81 R0 = R2 + 1 Dipendenza tra istruzioni Le dipendenze vengono rilevate mediante una tabella delle dipendenze (scoreboard): memoria interna al processore che conta per ogni registro, le operazioni, di lettura e scrittura, in sospeso su quel registro. Le istruzioni dipendenti devono essere sospese: decadimento delle prestazioni, eseguiamo meno operazioni di quelle teoricamente possibili. Si creano bolle, zone inattive, nella pipeline. (Architettura degli Elaboratori) Processore 62 / 81 Gestire la dipendenza tra istruzioni Tecniche per recuperare le prestazioni perse: esecuzione fuori ordine: si mandano in esecuzione le istruzioni non dipendenti; registri ombra: si usano copie di registri su cui memorizzare temporaneamente i dati; register renaming: si usano nuovi registri, non specificati dal codice. multi-threading (hyper-threading): si eseguono più programmi contemporaneamente, necessario duplicare i registri. Primo passo verso processori multicore. (Architettura degli Elaboratori) Processore 63 / 81 Istruzioni di salto condizionato Problematiche per i processori con pipeline: il processore impiega alcuni cicli di clock per valutare la condizione, nel frattempo, non sa quali istruzioni eseguire. Due possibili soluzioni: stall non si inizia alcuna istruzione: corretta ma con decadimento delle prestazioni; si fa una predizione di salto: taken, not taken, si inizia l esecuzione condizionata di alcune istruzioni: esecuzione annullata se la previsione si rivela (Architettura degli Elaboratori) Processore 64 / 81

Tecniche per la predizione di salto Due classi: predizione statica, sul codice: semplice: si eseguono i salti indietro, suggerite dal compilatore, programmatore: istruzioni di salto con suggerimento, predizione dinamica, sull esecuzione: viene usata una history table (ricorda il comportamento passato di alcune istruzioni di salto, poche istruzioni, pochi bit), In un programma numerose istruzioni di salto: una buona predizione di salto è fondamentale per le prestazioni. (Architettura degli Elaboratori) Processore 65 / 81 Esecuzione Speculativa: nel caso di salto condizionato, non si tenta la predizione ma si eseguono entrambe le possibili continuazioni del programma. Pur di alimentare il processore, si eseguono anche alcune istruzioni che sicuramente verranno scartate. Problemi: l esecuzione deve essere reversibile: registri ombra, istruzioni che generano trap, evitare l esecuzione di istruzioni costose: SPECULATIVE LOAD. (Architettura degli Elaboratori) Processore 66 / 81 evensum = 0; oddsum = 0; i = 0; while (i < limit) { Esecuzione Speculativa evensum = 0; oddsum = 0; i = 0; i >= limit while (i < limit) La memoria principale troppo lenta La differenza di velocità tra processore e memoria è aumenta col tempo. } k = i * i * i; k = i * i * i; if ((i/2) * 2) == 0) else evensum = evensum + k; oddsum = oddsum + k; i = i + 1; (a) T if ((i/2) * 2) = = 0) evensum = evensum + k; oddsum = oddsum + k; i = i + 1; (b) F L accesso in memoria operazione costosa: il processore deve attendere il dato per più di una decina di cicli di clock. Memoria Cache: memoria piccola e veloce: contiene i dati utilizzati più frequentemente. (Architettura degli Elaboratori) Processore 67 / 81 (Architettura degli Elaboratori) Processore 68 / 81

Funzionamento: La memoria cache prima si cerca il dato in cache (cache hit), in caso di fallimento (cache miss): si carica il dato in cache dalla memoria principale. Migliori prestazioni solo con numerosi cache hit. (Architettura degli Elaboratori) Processore 69 / 81 Cache a più livelli Aumenta il divario di velocità tra CPU RAM; per evitare cache miss troppe costose, un secondo livello di cache: più ampio tecnologia meno costosa più lento contiene un sovrainsieme della memoria di primo livello Spesso sono presenti 3 livelli di cache. Esempio - Sandy Bridge: livello 1: 32KB; livello 2: 256KB, livello 3: 1 20MB; (Architettura degli Elaboratori) Processore 70 / 81 Split cache Esempio di configurazione cache divisa in due parti: dati e istruzioni normalmente cache L1 (di primo livello) permette di parallelizzare l accesso in memoria l IFU accede alle istruzioni l à Dispatch/Execute accede ai dati CPU package Processor board CPU chip L1-I L1-D Unified L2 cache Keyboard controller Graphics controller Disk controller Unified L3 cache Main memory (DRAM) Split L1 instruction and data caches Board-level cache (SRAM) (Architettura degli Elaboratori) Processore 71 / 81 (Architettura degli Elaboratori) Processore 72 / 81

Valutazione delle prestazioni Le velocità di un calcolatore con processore superscalare dipende fortemente da quanto viene sfruttato il potenziale parallelismo: percentuale delle istruzioni non bloccate per dipendenze, percentuale di predizioni di salto corrette, percentuale cache hit. Queste percentuali difficilmente valutabili a tavolino, dipendono dal tipo di programmi eseguiti. Una corretta valutazione delle prestazione può essere fatto solo tramite test. (Architettura degli Elaboratori) Processore 73 / 81 Architettura Sandy Bridge CPU Corei-7, Architett. Sandy-Bridge multicore, hyper-threading; processore CISC con cuore RISC; i primi stadi della pipeline traducono codice CISC in istruzioni RISC, depositate nella cache L0; più simile al Pentium II (P6) che al Pentium 4; risparmio energetico; predizione di salto sofisticata (algoritmo segreto) controllore memoria, cache L3 (condivisa) e processore grafico integrati nello stesso chip; nuove istruzioni grafiche AVX (Advanced Vector (Architettura degli Elaboratori) Processore 74 / 81 Extensions); Sandy Bridge, pipeline (Architettura degli Elaboratori) Processore 75 / 81 (Architettura degli Elaboratori) Processore 76 / 81

Sandy bridge, chip Architettura Cortex A9 Progettata ARM ltd, realizzata da vari costruttori; core che viene integrato in SoC (System on Chip), (calcolatori su un singolo chip) implemeta istruzione ARMv7 strutturalmente abbastanza simile al Sandy Bridge, manca lo stadio iniziale di traduzione istruzioni CISC -> RISC. (Architettura degli Elaboratori) Processore 77 / 81 (Architettura degli Elaboratori) Processore 78 / 81 Architettura Cortex A9 Architettura Cortex A9 (Architettura degli Elaboratori) Processore 79 / 81 (Architettura degli Elaboratori) Processore 80 / 81

Architettura Cortex A9 (Architettura degli Elaboratori) Processore 81 / 81