Introduzione
ZOTAC International (MCO) Limited è stata fondata nel 2006 con l’obiettivo di fornire soluzioni grafiche NVIDIA di qualità eccellente, oltre a una gamma completa di prodotti innovativi e rivoluzionari quali schede madri mini-ITX e mini-PC. Questa azienda vanta il massimo sostegno del gruppo PC Partner Ltd., con sede a Hong Kong, di cui è parte integrante. Le strutture di produzione con certificazione ISO9001 e ISO14001 di Dongguan, Cina e le filiali di vendita regionali in Europa, Asia Pacifico e Nord America, rendono ZOTAC uno dei più influenti produttori di soluzioni VGA del mondo intero. Le soluzioni più apprezzate dagli appassionati sono sicuramente le schede AMP! Edition, versioni overcloccate di fabbrica con un’indiscussa qualità costruttiva e un design accattivante ed innovativo.
Zotac non accetta compromessi sulla qualità costruttiva del prodotto finale. Tutti i suoi prodotti sono sottoposti a un controllo rigoroso da parte degli ingegneri, al fine di garantire un alto livello qualitativo dei propri prodotti. Uno dei punti di forza di Zotac è la formazione di un team all’avanguardia pronto a elaborare nuove soluzioni tecniche adatte per ogni segmento di mercato.
Prima di andare ad analizzare in dettaglio il comportamento della GeForce GTX 470 è doveroso fare un accenno sulla nuova famiglia di schede video introdotte da Nvidia. Nel mese di ottobre 2009 Microsoft ha commercializzato al pubblico il suo nuovo sistema operativo Windows 7. Tale sistema operativo, tra le tante novità apportate, ha ufficialmente introdotto le nuove librerie grafiche DirectX 11. Nvidia non è stata “pronta” ad introdurre immediatamente nel mercato le nuove soluzioni DirectX 11, accumulando un ritardo medio di circa 6 mesi nei confronti della concorrente ATI. L’architettura Nvidia DirectX 11 prende il nome di “Fermi”, che, in base al “segmento di utilizzo”, viene chiamata Tesla o GF100. Le soluzioni Tesla sono indirizzate al mercato GPU computing, mentre le soluzioni GF100 (Graphics Fermi, “100” ) per il mercato videoludico.
La famiglia di schede video Nvidia GF100 è basata sulla nuova architettura a 40 nm, dal nome in codice di Fermi. Allo stato attuale sono tre le soluzioni di Nvidia per il GF100:
- Nvidia GeForce GTX 480;
- Nvidia GeForce GTX 470;
- Nvidia GeForce GTX 465.
La famiglia di schede video Nvidia GF104 sono sempre basate sulla nuova architettura a 40 nm. Allo stato attuale troviamo le due soluzioni GeForce GTX 460, una dotata di bus a 192 bit e 768MB di memoria e l’altra dotata di 1GB di memoria e bus a 256 bit.
Riassumiamo nella tabella sottostante tutte le caratteristiche tecniche delle tre soluzioni Nvidia GF100:
Riassumiamo nella tabella sottostante tutte le caratteristiche tecniche delle due soluzioni Nvidia GF104:
Nella recensione andremo ad illustrare una della soluzione di fascia alta proposta da Nvidia. In particolar modo analizzeremo le prestazioni velocistiche che è in grado di offrire la GeForce GTX 470. Fermi è un progetto dall’enorme complessità e dalle dimensioni del die molto elevate. Questa sua complessità ha creato non pochi problemi di produzione alla taiwanese TSMC.
Le dimensioni del Die Size GF100 è di 529 millimetri quadrati. La GTX 470 è costituito da 2,15 miliardi di transistor. Il die prende il nome di GF100-275-A3.
Nvidia ha deciso di continuare, anche con queste nuove schede video, con la "filosofia" di progettazione degli anni passati. Infatti anche in questo caso abbiamo lo sviluppo di GPU molto complesse e costituite da un die di dimensioni elevate.
Questa scelta progettuale non consente ad Nvidia di produrre core grafici dal costo contenuto, in grado di poter aggredire il mercato con offerte vantaggiose per l’utente finale.
In futuro non tarderanno ad uscire nuove proposte e soluzioni da parte di Nvidia per il segmento più basso di mercato.
Tutte queste tre soluzioni grafiche di Nvidia sono legate tra loro da due elementi comuni:
- La tecnologia produttiva a 40 nanometri;
- Il supporto hardware alle API DirectX 11.
Architettura Fermi “GF100”:
Il PCB della GeForce GTX 470 è lungo 24 cm, risultando pertanto allineato alla controparte Ati HD 5850 .
La Geforce GTX 470 ha una potenza di calcolo di circa 1,8 TeraFLOPS. Il TDP della scheda è di 215W. Questo valore rientra nel limite dei 300 watt dettato dal PCI-SIG (il consorzio che stabilisce i parametri da seguire per lo sviluppo). La scheda richiede due connettori di alimentazione ausiliaria a sei pin.
A questo proposito, si raccomanda l'uso di un alimentatore da almeno 550 watt per non incappare in spiacevoli sorprese. In caso di SLI di due GTX 470 raccomandiamo almeno un alimentatore di buona fattura da 700 watt.
I CUDA Core hanno preso il posto degli Streaming Processor (SPs), ma le funzionalità di base rimangono le stesse. Praticamente è solo cambiata la terminologia da parte di Nvidia.
Osserviamo come le unità Streaming Multiprocessor (SMs) prendono il posto delle unità Texture Processing Cluster (TPCs); anche questa è una nuova denominazione a livello di marketing. Nei documenti rilasciati da NVIDIA si fa riferimento al modello di GF100 che contempla 512 CUDA Core. Sappiamo che la GTX470 ha solo 448 CUDA Core attivi. Nel progetto originale GF100 è dotato di 512 CUDA core, derivati da quattro Graphics Processing Cluster (GPC), ognuno con quattro Streaming Multiprocessor (SM) equipaggiati di 32 core CUDA ciascuno. La GeForce GTX 470 invece incorpora 448 core CUDA. Pertanto dal progetto originale sono stati tolti 64 core. Nvidia ha optato per questa situazione, disabilitando di fatto due SM sulla GTX 470.
Ogni SM è composto da 30 CUDA Core, quattro texture unit, 16 unità di Load/Store, quattro unità speciali (SFU), 64 KB di memoria e un PolyMorph Engine. Le unità SFU possono eseguire istruzioni come seno, coseno e radice quadrata, inoltre sono adibite anche all’interpolazione grafica.
Ogni unità Streaming Multiprocessor (SM) ha al suo interno 30 CUDA Core, quattro unità di texturing, un PolyMorph engine e della cache dedicata.
Il PolyMorph Engine è responsabile delle operazioni di Vertex Fetch, Tessellation, Viewport Transform, Attribute Setup, e Stream Output; in questo blocco logico possiamo trovare il Tessellator, probabilmente il più grande cambiamento richiesto a livello hardware e introdotto dalle DirectX 11 per le GPU di nuova generazione. Il PolyMorph Engine è distribuito in numero di quattro per ogni GPC per un totale di 16 unità.
Ogni singolo CUDA Core integra al proprio interno un Dispatch Port, una unità per la raccolta degli operandi, una unità in floating point e una per i calcoli interni oltre ad una result queue. Le elaborazioni interne ad ognuno di questi core sono eseguite con precisione IEEE-754 2008 per le operazioni in virgola mobile e a 32bit per quelle con interi: la risultante sono unità di elaborazione indipendenti per le due tipologie che sono pienamente compatibili con gli standard di mercato, caratteristica particolarmente utile non tanto in ambito gaming quanto in quello delle applicazioni GPU Computing.
In Fermi la capacità di elaborazione in double precision in virgola mobile è stata incrementata. Il valore di picco nell'esecuzione di codice a doppia precisione in virgola mobile è ora pari alla metà di quanto ottenibile in singola precisione.
Il sottosistema della memoria è costituito da sei memory controller a 64 bit (6 x 64 = 384 bit in totale), da una cache L2 e da 48 ROP; le ROP sono organizzate in sei gruppi da otto e sono rappresentate nello schema a blocchi dai rettangoli blu scuri adiacenti alla cache L2. Ogni gruppo di ROP è accompagnato da un Memory controller per un totale di sei.
Per ogni streaming microprocessor troviamo una cache dedicata da 64 Kbytes di capacità, partizionabile come memoria condivisa e come cache L1: i rapporti sono 1:3 oppure 3:1. Il rapporto è funzione del tipo di applicazione che viene eseguita.
Riassumiamo nella tabella sottostante le caratteristiche principali del chip GF100:
Il programma Gpu-z rileva correttamente tutte le caratteristiche della scheda.
DirectX 11:
Come abbiamo visto, Nvidia con il chip GF100 ha migliorato l'architettura grafica, sconvolgendo in parte o potenziando le sue precedenti soluzioni grafiche. Essendo la nuova Gpu GF100 studiata per supportare le nuove API DirectX 11, andiamo a vedere che innovazioni tecnologiche offrono per rendere gli ambienti di gioco sempre più dettagliati e coinvolgenti.
I tre elementi "cardine” delle directX11 sono:
-
Tessellation: Direttamente implementata nella GPU per calcolare superfici curve in modo più armonioso, consentendo quindi di ottenere immagini graficamente più dettagliate.
-
Multi-Threading: Maggior supporto e scalabilità per le CPU multi-core.
-
DirectCompute: La possibilità di usare schede video discrete per accelerare videogiochi e applicativi d'uso comune.
Il funzionamento dell'unita di Tessellation non è complicata e permette di partire da un modello 3D poco complesso, per arrivare ad uno molto complesso senza appesantire troppo la GPU.
Un tessellatore prende un poligono e lo suddivide in molti triangoli per amplificare il dettaglio dell'oggetto, applicando ricorsivamente una regola di suddivisione.
Con la tecnologia tessellation si potranno introdurre nei giochi dei personaggi ultra dettagliati e renderizzati in tempo reale che ricorderanno molto quelli dei film di animazione. Tutto è gestito via hardware. I benefici di questa tecnologia paiono evidenti, più poligoni significano maggiori dettagli e perciò maggiore realismo.
In poche parole, questa tecnica consente di aumentare in maniera esponenziale il numero di triangoli per la sua riproduzione, con un livello di dettaglio che è variabile a seconda del punto di osservazione (più questo è vicino, maggiori saranno i triangoli generati così da incrementare il realismo dell'oggetto).
Vediamo di seguito come il tessellation lavora durante una sessione di Heaven Benchmark v2.0 e Stone Giant :
http://www.youtube.com/watch?v=axMAtpYphLA&feature=related
http://www.youtube.com/watch?v=WjA0eVmXa6s&feature=related
Le DirectX 11 introducono anche lo Shader Model 5.0 offrendo cosi agli sviluppatori un approccio di programmazione ben indirizzato. Questa è l'ultima evoluzione dello shader model, dopo quello 4.0 implementato con le API DirectX 10 e lo shader model 3.0 delle prime architetture DirectX 9.0c.
Interessante è la Gestione Multi-threading: Le nuove directX 11 gestiscono in modo più efficiente rispetto alle precedenti i processi multithreading. Le applicazioni DirectX runtime e DirectX driver possono ora essere eseguite in threads separati. Altre operazioni come il caricamento di una texture possono avvenire in parallelo con il principale task di rendering della scena. Questa nuova implementazione nelle API permetterà agli sviluppatori di "ottimizzare" al meglio le cpu Multi-threading, dosando in maniera omogenea il carico di lavoro. In questa maniera si potranno ottenere prestazioni decisamente più elevate con le cpu multi-core.
Le nuove directX 11 implementano la possibilità di usare schede video discrete per accelerare videogiochi e applicativi d'uso comune. Questa nuova funzione, prende il nome di DirectCompute.
Le applicazioni di DirectCompute includono la fisica, il ray-tracing, l'intelligenza artificiale, il post processing dell'immagine, la trasparenza order-independent e il rendering delle ombre, oltre alla transcodifica video con Cuda di Nvidia e Stream di ATi.
Tessellation e Anti-Aliasing:
Nvidia con l’architettura Fermi si è concentrata per migliorare lo sviluppo del tessellation e dell’ anti-aliasing. Entrambe le caratteristiche influiscono in maniera differente sulle applicazioni, ma cercano di ottenere lo stesso risultato, ovvero quello di migliorare il realismo e la qualità dell'immagine. La Tessellation non è una novità assoluta, ma da quando è entrata nelle specifiche DirectX 11 sempre un maggior numero di giochi ne fanno uso.
Nell’architettura GF100 di Fermi ognuno dei 15 Shader Multiprocessor presenti della GTX480, include il suo PolyMorph Engine che lavora con il resto degli SM per prelevare vertici, applicare la tessellation, effettuare le trasformazioni, attribuire la configurazione e inviare il risultato in memoria.
In ogni stadio, l'SM gestisce vertex/hull shading e domain/geometry shading. Da ogni motore PolyMorph, le primitive sono inviate ai raster engine, ognuno in grado di gestire otto pixel per clock (totalizzando 32 pixel per clock per l'intero chip).
Per migliorare le prestazioni e rendere l'uso della tessellation più semplice, Nvidia ha dovuto abbandonare il front-end monolitico per un design parallelo. Questo è il motivo dei 4 raster e dei 15 PolyMorph engine.
Nvidia ha rilasciato diverse demo per dimostrare l’efficienza del suo tessellation:
http://www.youtube.com/watch?v=EfrSaIY0YQA&feature=related
http://www.youtube.com/watch?v=jO0XARYk2TM&feature=related
Come abbiamo detto Nvidia con il progetto Fermi ha innalzato la qualità a video, proponendo un filtro Anti Aliasing 32x che è basato su un classico 8x AA multisample con l’ausilio di 24 coverage sample.
Vediamo con un esempio pratico come la qualità del filtro migliora in maniera consistente. Prendiamo come esempio il gioco Age Of Conan. La prima immagine è con AA a 1616xCSAA. La seconda immagine è fatta con AA a 32xCSAA :
Si vede chiaramente come l’immagine con AA a 32xCSAA sia decisamente più dettagliata e priva di scalettature.
Nvidia con GF100 ha migliorato in maniera consistente la gestione dell'anti aliasing intervenendo di fatto su tre aspetti:
-
32x Coverage Sampling Antialiasing (CSAA): interviene migliorando la riproduzione di linee che sono quasi verticali o quasi orizzontali, per le quali quindi l’angolo rispetto ad un piano a 0 gradi o uno a 90 gradi è molto ridotto.
-
Alpha to Coverage da Coverage Samples: viene abilitato ogni volta che transparency multisampling e CSAA sono abilitati da driver. E’ una funzionalità utile soprattutto in giochi non recenti, mentre nei titoli di ultima uscita è generalmente preferibile adottare il transparency multisampling.
-
Transparency Supersampling migliorato: questa modalità è quella che ha permesso di ottenere il miglior incremento qualitativo rispetto alle precedenti implementazioni, particolarmente evidente in quei titoli che riproducono molti ambienti con vegetazione e foglie. Da pannello di controllo dei driver NVIDIA sono presenti oltre alle tradizionali opzioni di controllo dell'anti aliasing, anche le modalità di Transparency AA configurabili sia in multisample sia in supersample, quest'ultimo sino alla modalità 8x.
Tecnologia 3D Vision Surround:
La tecnologia 3D Vision Surround di Nvidia ci permette di utilizzabili ben 3 schermi in configurazione surround, ciascuno dei tre avrà la visibilità in 3D. Per utilizzare questa tecnologia serviranno due schede video della serie GeForce GF100 , collegate entrambe con la tecnologia SLI. Le due schede lavorano in modalità AFR (alternate frame rendering). Questa tecnica è quella ad oggi più utilizzata e prevede la gestione di ogni singolo frame su una GPU per volta, in modo alternato.
Le due GPU presenti in configurazione SLI si fanno carico in maniera alternata della gestione dei frame, dividendosi il lavoro. Nella modalità Surround il rendering viene gestito in modalità AFR: in questo scenario il carico di lavoro aumenta in maniera consistente, visto che ogni frame viene calcolato due volte da ogni GPU, una per ogni occhio. I due dati elaborati vengono successivamente uniti attraverso il bridge SLI e visualizzati a schermo.
Per poter giocare in modalità stereoscopica su tre schermi contemporaneamente è necessaria una potenza di calcolo ragguardevole, impossibile da erogare con una sola scheda video. Oltre ai driver per questa tecnologia Nvidia fornirà una lista di videogiochi che supportano la tecnologia 3D Vision Surround ed un documento in cui mostra come utilizzare al meglio questa nuova tecnologia.
Di seguito potete scaricare la lista di compatibilità dei giochi con la tecnologia 3D Vision Surround:
http://www.nvidia.com/object/LO-94914.html
I driver che supportano questa tecnologia, allo stato attuale, sono solo i 258.69 beta .
Nvidia pertanto dà la possibilità di abilitare la modalità stereoscopica su tre monitor, a patto di possedere tre monitor LCD da 120 Hz identici, due schede grafiche e in modalità SLI e il kit GeForce 3D Vision.
A differenza della tecnologia multi-monitor di ATI, inoltre, 3D Vision Surround non necessita di monitor DisplayPort: è sufficiente avere 3 normali display LCD con porta DVI dual-link.
Di seguito andiamo a vedere all’atto pratico come funzione questa tecnologia:
http://www.youtube.com/watch?v=95VHrdXZ7i4
- Indietro
- Avanti >>