AMD 3e generatie Ryzen en Zen 2 architectuur preview: tot 16 cores op Socket AM4

Inleiding

Pakt AMD, net als aan het begin van deze eeuw, met zijn nieuwe processors de winst in de desktopmarkt? Op 7 juli zal het bedrijf zijn nieuwe, 3e generatie Ryzen-processors officieel op de markt brengen. Deze zijn gebaseerd op de nieuwe Zen 2-architectuur, hebben in eerste instantie tot 12 cores (maar een 16-core model komt eraan!), worden geproduceerd middels een state-of-the-art 7nm-procedé en zijn volgens AMD op alle fronten sneller en zuiniger dan wat Intel te bieden heeft. In dit diepgravende artikel blikken we vooruit en lees je alles over de technologie van de komende AMD-cpu’s.

Lees ook: AMD Radeon RX 5700 (XT) “Navi” preview: heeft AMD de GPU sweet spot te pakken?

De Zen-architectuur en de daarop gebaseerde Ryzen-processor zijn tot nu toe een succesverhaal voor AMD. Tot twee jaar geleden kon AMD met geen mogelijkheid de strijd aan met de concurrentie: Intels processors waren sneller en zuiniger dankzij een combinatie van een veel slimmere architectuur en een voorsprong qua productieprocedé. Het enige wat AMD kon doen was in het instapsegment de concurrentie aangaan op de prijs. In de markt voor luxere pc’s had Intel bijna 100% marktaandeel. Dat veranderde twee jaar geleden met de komst van de Ryzen-processors: de nieuwe Zen-architectuur waarvan deze gebruikmaakten was op dezelfde klokfrequentie meer dan 50% sneller dan de AMD-processors van dat moment. Bovendien was het Global Foundries 14nm-productieprocedé dat AMD kon gebruiken qua efficiëntie niet bijster ver verwijderd van Intels 14nm-procedé. Door meer cores voor hetzelfde geld te bieden kon AMD al snel op alle prijspunten de winst claimen voor multi-threaded workloads, met nog slechts een kleine achterstand bij single-threaded workloads. De tweede generatie Ryzen-processors die vorig jaar werden geïntroduceerd waren een doorontwikkeling: de Zen+ architectuur bevatte puur kleine optimalisaties ten opzichte van Zen; het 12nm-procedé was niets meer en niets minder dan een geoptimaliseerde variant van het 14nm-procedé. Desalniettemin wist AMD met de Ryzen 2000-serie processors zijn positie te verstevigen.

Waar de 2e generatie Ryzen een relatief kleine stap was, staan we nu aan de vooravond van weer een nieuwe, grote stap: de 3e generatie Ryzen-processor, oftewel de Ryzen 3000-serie, is gebaseerd op de 2e generatie van de Zen-architectuur én maakt gebruik van een nieuw productieprocedé. Deze combinatie moet zorgen voor prestatiewinsten tot boven de 20%, naast nieuwe mogelijkheden zoals méér cores en nieuwe technologieën als PCI-Express 4.0. Op basis van wat we inmiddels te weten zijn gekomen, ziet het er zeer goed uit voor AMD.

Verderop in dit artikel nemen we een diepe duik in de technologie. We beginnen bij de modellen die AMD heeft aangekondigd, inclusief een 16-core processor die later dit jaar op de markt komt.

Modellen

Tijdens de Computex-beurs twee weken geleden kondigde AMD al vijf 3e generatie Ryzen processors aan die we vanaf 7 juli in de winkel mogen verwachten.

Het voorlopige topmodel is de Ryzen 9 3900X, een processor met 12 cores, die dankzij simultaneous multi-threading 24 threads parallel verwerken. De processor krijgt een adviesprijs van 499 dollar, heeft een basisklokfreqentie van 3,8 GHz, een maximale turbo van 4,6 GHz en een tdp van 105 W. De processor heeft een duizelingwekkende hoeveelheid van 70 MB cache (6 MB L2 + 64 MB L3).

Verder komt er een Ryzen 7 3800X, een 8-core (16 threads) processor op 3,9 GHz (4,5 GHz turbo), die 399 dollar gaat kosten. Als derde kondigt AMD de 3700X aan, een processor met eveneens 8 cores (16 threads) op 3,6-4,4 GHz voor 329 dollar. Deze 3700X krijgt een TDP van 65 W. Verder komen er nog twee Ryzen 5’s: de Ryzen 5 3600X is een 6-core (12 thread) processor op 3,8 GHz (4,4 GHz turbo) met 95 W tdp en een prijskaartje van 249 dollar. De Ryzen 5 3600 ten slotte is ook een 6-core processor, maar op een iets lagere klokfrequentie (3,6 GHz en 4,2 GHz turbo), met een 65 W tdp en 199 dollar op het prijskaartje.

AMD positioneert de 12-core Ryzen 9 3900X tegenover de identiek geprijsde 8-core Intel Core i9 9900K. De 8-core Ryzen 7 3800X wordt qua prijs gepositioneerd tegenover de Core i7 9700K. AMD geeft tegelijkertijd aan dat qua prestaties juist de 3800X het prima aan kan tegen de i9 9900K en dat de 3900X eigenlijk alleen van Intels HEDT-processors als de Core i9 9920X iets te duchten heeft, processors die ruim twee keer zo duur zijn. De twee Ryzen 5 exemplaren mogen opboksen tegen de Core i5 9600K en 9600. Verderop in dit artikel vind je AMD’s eigen benchmarks.

Alle tot hier genoemde modellen moeten op 7 juli in de winkel liggen. In september wordt er echter nog een 16-core exemplaar aan toegevoegd, de Ryzen 9 3950X. Deze processor heeft 16 cores en 32 threads, werkt standaard op 3,5 GHz met een 4,7 GHz Boost-klokfrequentie, heeft in totaal 72 MB cache (8 MB L2 + 64 MB L3) en een tdp van 105 W. Vooral dat laatste is op het eerste gezicht bijzonder, maar we moeten niet vergeten dat AMD en Intel tegenwoordig hun tdp baseren op de standaard klokfrequentie van de processor en niet op het maximale stroomverbruik wanneer deze werkt op een Boost/Turbo-frequentie. De 3950X gaat 749 dollar kosten

PCI-Express 4.0

De 3e generatie Ryzen-processors maken gebruik van dezelfde Socket AM4 processorvoet als de eerste en tweede generatie Ryzen-chips. Dat maakt dat je ze kunt plaatsen in bestaande Socket AM4 moederborden, en dus een bestaand systeem kunt upgraden. Tegelijkertijd komt AMD ook met een nieuwe, high-end moederbord chipset voor Socket AM4, de AMD X570 chipset. Wanneer je de nieuwe 3e generatie Ryzen-processors combineert met zo’n X570 chipset moederbord, wordt een nieuwe technologie binnen de processors ingeschakeld: PCI-Express 4.0. Deze nieuwste versie van de PCI-Express standaard biedt de dubbele snelheid van de bestaande 3.0 standaard, waarover verderop in dit artikel meer.

Socket AM4 werd drie jaar geleden geïntroduceerd bij de AMD A-serie processors met Excavator-architectuur, de laatste doorontwikkeling van de Bulldozer-architectuur. In drie jaar tijd is de processorvoet gebruikt voor vier architecturen, is het maximaal aantal cores verviervoudigd, is de PCI-Express snelheid verdubbeld en de geheugensnelheid met 33% toegenomen. Vriend en vijand zullen het erover eens zijn dat de manier waarop AMD deze compatibiliteit bewerkstelligt zeer prijzenswaardig is.

7 nm chiplets

Zoals geschreven worden de nieuwe 3e generatie Ryzen processors geproduceerd middels een state-of-the-art 7nm-procedé. AMD werkt hiervoor samen met de Taiwanese chipfabrikant TSMC. Het 7nm procedé is qua transistorgrootte vergelijkbaar met Intels nieuwe 10nm-procedé, maar waar Intel grote moeite heeft om überhaupt chips op dit procedé te fabriceren, lijkt TSMC het nieuwe proces goed in de vingers te hebben. De opbouw van de nieuwe Ryzen-processors is echter compleet anders dan bij de vorige generaties.

De 1ste en 2e generatie Ryzen processors waren respectievelijk een 14nm of 12nm chip met 8 cores aan boord. Wie de heatspreader van een 3e generatie Ryzen processor verwijdert, komt afhankelijk van het type twee of zelfs drie chips tegen. Voor de nieuwe processors maakt AMD namelijk gebruik van een zogenaamd chiplet-ontwerp: relatief kleine chips met specifieke functionaliteit, die binnen een processor naast elkaar geplaatst worden.

Afhankelijk van het type hebben de Ryzen 3000 processors een of twee op 7 nm geproduceerde cpu-chiplets aan boord. Deze kleine chips bevatten 8 processor-cores, met elk 512 kB L2-cache en 32 MB gedeelde L3-cache. Daarnaast bevatten de processors een op 12nm bij Global Foundries gebaseerde I/O-chip. Deze bevat onder andere de controllers voor dual-channel DDR4-geheugen, de controllers voor PCI-Express, etc.

Er zijn meerdere redenen om voor deze opbouw te kiezen. Allereerst: zaken als geheugen- en I/O-controllers schalen in de praktijk minder goed naar kleinere transistors en kunnen weinig profiteren van een nieuw productieprocedé. Door deze functionaliteit te implementeren middels een bestaand procedé, kan veel geld worden bespaard: 12nm chips zijn immers veel goedkoper om te fabriceren van 7nm chips en de yields (het percentage chips dat volledig werkend van de band rolt) liggen ook hoger. De cpu cores en caches kunnen juist wél profiteren van de voordelen van 7 nm. Door het chiplet-concept zijn deze chips relatief klein, wat de yields weer ten goede komt. Daar komt bij dat AMD een stuk flexibeler is: in de modellen met maximaal 8 cores wordt één cpu-chiplet geplaatst, in de modellen met 12 of 16 cores zitten er twee.

Als AMD voor de conventionele methode had gekozen van alle functionaliteit in één chip, had men vermoedelijk slechts één exemplaar kunnen maken en waren de uiteindelijke kosten per processor veel hoger geweest. Het 7nm-procedé is volgens AMD onder andere duur qua productie omdat er voor veel lagen in het chipontwerp wel tot vier lithografiemaskers nodig zijn.

Volgens AMD’s CTO Mark Papermaster biedt het 7nm-procedé ten opzichte van de bestaande 14nm/12nm procedé’s eerst en vooral een verdubbeling van het aantal transistors dat op een bepaald oppervlak geplaatst kan worden. Dat maakt dat het nieuwe procedé voldoende mogelijkheden biedt om functionaliteit of cachegeheugen uit te breiden. Een andere belangrijke stap is er op het vlak van efficiëntie: volgens Papermaster gebruikt een op 7 nm gefabriceerde processor op een identiek prestatieniveau slechts de helft van de energie van een 14nm-exemplaar. Wanneer juist het energieverbruik gelijkgetrokken wordt, zou een 7nm-processor ruim 25% beter kunnen presteren.

AMD geeft verder aan aangenaam verrast te zijn met hoe TSMC’s 7nm-procedé uiteindelijk presteert. Toen het jaren geleden met de nieuwe Zen 2 architectuur begon, hield men er rekening mee dat 7 nm problemen zou kunnen geven om hoge klokfrequenties te bereiken. Op oude, interne roadmaps stond de Zen 2 architectuur zodoende enkel op de planning voor serverchips met veel cores, maar een relatief lage klokfrequentie. Toen bleek dat het 7nm-procedé qua klokfrequentie niet onderdeed voor 12nm en zelfs misschien wel iets hogereklokfrequenties zou kunnen bieden, kwamen ook desktopproducten in beeld. Overigens lijkt Intel met haar 10nm-procedé wél tegen deze uitdaging aan te lopen: vandaar ook dat op uitgelekte roadmaps voor de komende twee jaar alleen nog 14nm desktop-cpu’s bij Intel op de planning staan.

Kortom, dankzij de overstap naar 7 nm krijgt AMD alleen al dankzij de nieuwe transistors een prestatietoename cadeau. Daar blijft het niet bij: dankzij de verbeterde Zen 2-architectuur gaan de prestaties nog verder omhoog.

Zen 2 architectuur

De cpu-chiplets in de 3e generatie Ryzen-processors maken gebruik van de 2e generatie van de Zen processorarchitectuur, kortweg Zen 2. Tijdens Computex maakte AMD al bekend dat het voor Zen 2 opnieuw een flinke stap voorwaarts qua prestaties heeft bewerkstelligd. De zogenaamde IPC, het gemiddeld aantal instructies dat per klokslag voltooid wordt, is met 15% toegenomen. Tel daar de prestatiewinst bij op die te behalen is met de hogere klokfrequenties dankzij het 7 nm procedé, en je komt op een totale prestatiewinst van zo’n 21%. Dat is volgens AMD voldoende om het gat dat er nog met Intel was op het vlak van single-threaded prestaties eindelijk te dichten.

De Zen 2 architectuur (of eigenlijk micro-architectuur) is een doorontwikkeling van Zen, waarbij AMD verschillende bottlenecks in het oorspronkelijke ontwerp heeft opgelost en tegelijkertijd met dank aan de kleinere 7nm-transistors op belangrijke plekken extra functionaliteit heeft toegevoegd. Onderstaande afbeelding toont het blokschema van de Zen 2 core met de belangrijkste verschillen ten opzichte van Zen 1 opgesomd. Zo is er een nieuwe branch predictor, een grotere micro-op cache, meer L3-cache, een extra address generation unit en een nieuwe floating point unit, die 256-bit tegelijkertijd kan verwerken. We zullende de verschillende onderdelen één voor één bekijken.

Om het nut van de verschillende aanpassingen te begrijpen, eerst even een klein stukje herhaling van hoe moderne processors in staat zijn hoge prestaties te behalen. Als er één belangrijk adagium is om processors zo snel en efficiënt mogelijk te krijgen, dan is het ervoor zorgen dat alle chiponderdelen op ieder moment nuttig werk kunnen verrichten. Dat is makkelijker gezegd dan gedaan. Zo heeft een processor bijvoorbeeld meerdere execution units, onderdelen die daadwerkelijk berekeningen kunnen uitvoeren, die elk slechts een beperkt aantal taken kunnen uitvoeren.

Zo zijn er specifieke execution units voor berekeningen met integers (gehele getallen), berekeningen met floating point getallen (getallen met komma) en voor instructies die met geheugen van doen hebben. De truc is ervoor zorgen dat op ieder moment in tijd zoveel mogelijk execution units nuttig werk kunnen verrichten. Mocht een programma op een bepaald moment echter niet voldoende variëteit aan instructies hebben of mochten de instructies die op dit moment uitgevoerd moeten worden wachten op data uit het geheugen, dan zijn er twee belangrijke trucs die moderne processors toepassen om toch bezig te blijven.

Allereerst worden instructies niet noodzakelijkerwijs in de oorspronkelijke volgorde uitgevoerd: out of order execution in jargon. Om er maar een analogie bij te pakken: een moderne processor zou de Ikea-handleiding voor het in elkaar zetten van een dressoir erbij pakken en daarna zélf de optimale volgorde van alle handelingen bepalen. Wat een processor ook kan doen, is alvast vooruit werken: is er even geen werk dat nu direct moet gebeuren, dan bekijkt een processor welke instructies voor later klaar staan.

Vooruitwerken brengt echter weer een extra uitdaging mee. Software heeft namelijk vertakkingen: op basis van bepaalde zaken (de uitkomst van een berekening, de waarde van bepaalde data, etc.) kan een reeks instructies ofwel op de ene manier, ofwel op de andere manier verdergaan. Wanneer een processor vooruit werkt en bij zo’n vertakking (in jargon: een branch) uitkomt, moet gegokt worden welke vertakking vermoedelijk de juiste is, branch prediction in jargon. Een goede voorspelling is cruciaal: mocht uiteindelijk blijken dat de verkeerde beslissing is genomen, dan kan het zijn dat allerhande instructies voor niets zijn uitgevoerd: zonde van de energie, maar bovenal een flinke vertraging, want op zo’n moment moeten alsnog halsoverkop de juiste instructies uit het geheugen worden opgehaald en door de hele pipeline geloodst worden.

Zen 2 in detail

In de front-end van de processor is de belangrijkste vernieuwing de implementatie van een nieuwe branch-predictor, die volgens het TAGE-principe werkt. Het uiteenzetten van de precieze eigenschappen van een dergelijke branch predictor gaat wat ver voor dit artikel, maar uit wetenschappelijke studies blijkt dat een dergelijke voorspeller de beste resultaten biedt. Het daadwerkelijk implementeren van een TAGE branch predictor is volgens AMD’s hoofd CPU-ontwerpen Mike Clark echter allesbehalve triviaal.

Een andere belangrijke aanpassing is het verdubbelen van de grootte van de micro-op cache naar 4000 instructies. X86 processors worden aangestuurd met duizenden zeer grote instructies, die te complex zijn om in een keer door de processor verwerkt te worden. Vandaar dat die complexe X86-instructies worden gedecodeerd naar micro-op’s, kleinere instructies die de execution units wel kunnen verwerken. Dit decoderen kost uiteraard ook tijd en energie. Door het resultaat van gedecodeerde instructies op te slaan in speciaal cachegeheugen, hoeft het decoderingsproces niet opnieuw plaats te vinden wanneer eenzelfde instructie na korte tijd opnieuw wordt aangeleverd. Hoe groter deze micro-op cache, hoe vaker de decodering kan worden overgeslagen, hoe hoger de prestatiewinst én de winst qua energieverbruik.

Verder heeft AMD in de front-end het bij elkaar voegen van micro-ops tot setjes die gezamenlijk richting de execution units worden gestuurd verbeterd, ook dit met als doel om zo vaak mogelijk zo veel mogelijk execution units tegelijkertijd nuttig werk te laten doen. Het vergroten van de op cache kost natuurlijk de nodige transistors; om dit fysiek mogelijk te maken heeft AMD de L1 instructiecache verkleind van 64 kB naar 32 kB. De instructiecache bevat de x86-instructies die zijn opgehaald uit het geheugen om verwerkt te gaan worden. Door deze cache echter meer in- en uitgangen te geven (8-way associative in plaats van 4-way associative), door de algoritmes voor het zo slim mogelijk vooraf ophalen van instructies (pre-fetching) te verbeteren én door de vergroting van de caches op andere niveaus (specifiek de L3-cache), is het effect van de kleinere instructiecache volgens AMD zeer beperkt.

Vanuit de front-end kunnen per klokslag zes micro-op’s richting de execution units gestuurd worden.

In de back-end van de processor heeft AMD bij de integer (gehele getallen) execution units een aantal veranderingen doorgevoerd. Allereerst is er een derde address generation unit, een rekeneenheid die geheugenadressen kan berekenen, toegevoegd. Het maakt dat het totaal aantal integer rekeneenheden is verhoogd van zes naar zeven. Om alles in evenwicht te houden is het aantal instructies dat klaargezet kan worden om verwerkt te worden verhoogd van 84 naar 92.

Verder is de re-order buffer verhoogd van 192 naar 224 instructies. Zoals we al schreven optimaliseren moderne processors de volgorde van binnenkomende instructies om deze sneller en efficiënter uit te kunnen voeren. Om maar bij de analogie van de vorige pagina te blijven: door deze buffer te vergroten, kan Zen 2 in de spreekwoordelijke Ikea-catalogus de stappen van 224 pagina’s in plaats van 192 pagina’s vooruit lezen en in slimmere volgorde doen.

Binnen de integer unit zijn ook verbeteringen doorgevoerd voor de werking van simultaneous multi-threading, ofwel het door één CPU-core laten uitvoeren van instructies voor twee programma-threads. De CPU herkent nu automatisch wanneer een thread tijdelijk dummy-instructies aan het uitvoeren is omdat er gewacht wordt op data (een zogenaamde spinlock), en geeft dan automatisch de andere thread meer prioriteit. Het maakt dat sporadische nadelen van SMT nog sporadischer worden.

De grootste verandering zit hem vermoedelijk bij de floating point execution units, de rekeneenheden die met gebroken getallen kunnen rekenen. Bij de Zen-architectuur zijn deze geschikt voor 128-bit getallen: wanneer er berekeningen gedaan moesten worden met 256-bit getallen middels AVX2-instructies, moest dat altijd in meerdere stappen gebeuren.

Bij Zen 2 zijn de floating point units en alle periferie volledig geüpgraded naar 256-bit. Hierdoor kunnen AVX2-instructies nu, net als bij moderne Intel processors, in één klokslag verwerkt worden. Bij programma’s die gebruik maken van AVX2-instructies kan de prestatiewinst ten opzichte van de vorige generatie Ryzen-processors dus nog verder oplopen.

Overigens biedt Zen 2 nog geen ondersteuning voor AVX512. Bij navraag gaf AMD te kennen dat het voor de hand zou liggen om 512-bit instructies op een vergelijkbare manier aan te pakken als 256-bit instructies bij eerste generatie Zen, maar dat binnen Zen 2 simpelweg nog geen ondersteuning is ingebakken voor de specifieke nieuwe instructies van AVX512. Tussen neus en lippen door begrepen we echter dat AVX512 zo maar eens bij Zen 3 toegevoegd zou kunnen worden.

Bij de load/store-units, die data van en naar de caches en via die weg van en naar het geheugen transporteren, zijn er ook de nodige verbeteringen doorgevoerd. Daarvan is een verdubbeling van de bandbreedte van 16 bytes per klokslag naar 32 bytes per klokslag de belangrijkste. Deze aanpassing is onder andere nodig om de nieuwe 256-bit floating points snel genoeg data te laten wegschrijven of ophalen. Verder zijn binnen de load/store-unit de nodige buffers vergroot of versneld.

We schreven al dat de L1 instructiecache is gehalveerd van 64 kB naar 32 kB. De L1 datacache was 32 kB bij Zen en is dat bij Zen 2 gebleven. Ook ongewijzigd is de L2 cache, die nog steeds 512 kB per core bedraagt. De door de cores gedeelde L3-cache is echter verdubbeld. Net als bij de eerste generatie Zen zitten vier cores bij elkaar in een groepje genaamd een core-complex (CCX). Had zo’n CCX bij eerdere Zen-processors 8 MB L3-cache, is dat bij Zen 2 verdubbeld naar 16 MB L3-cache. De belangrijkste reden voor de verdubbeling is dat de latencies voor het aanspreken van werkgeheugen iets zijn toegenomen door de opbouw met chiplets, waarbij de geheugencontroller fysiek in een andere chip zit.

De grotere L3-cache zorgt er uiteraard voor dat Ryzen-processors minder vaak naar ram-geheugen hoeven te gaan om data op te halen of weg te schrijven. Het kan in veel gevallen, en zeker bij games, voor meer dan 10% prestatiewinst zorgen, aldus AMD.

Terug naar de twee pagina’s terug beschreven chiplets. De cpu-chiplets (CCD ofwel core complex die in jargon) bevatten zoals geschreven elk acht cores en dus twee CCX’en van elk vier cores. Ze communiceren middels AMD’s Inifinity Fabric-technologie met de I/O-die. Die Infinity Fabric communicatie biedt een snelheid van 32 bytes per klokslag. In de I/O-die (om het juiste jargon te gebruiken: coherent I/O die ofwel cIOD) zitten vervolgens onder meer de geheugen- en pci-express controllers.

We schreven al dat AMD zich vroeg in de ontwerpfase van Zen zorgen maakte over de maximale klokfrequentie die mogelijk zou zijn met het 7nm-procedé. Die zorgen bleken onterecht. Waar het bij de eerste generatie Ryzen (14nm) een maximale klokfrequentie van 4,1 GHz kon behalen en bij de tweede generatie Ryzen (12nm) een maximale klokfrequentie van 4,35 GHz, gaat er bij de 3e generatie Ryzen nog eens 250 MHz bovenop: 4,6 GHz dus. En een klein aantal van de chips gaat zelfs nog iets verder, waardoor de 16-core Ryzen 9 3950X een officiële turbofrequentie van 4,8 GHz kan krijgen.

Waar we ten slotte nog even bij stil moeten staan: de Zen 2-architectuur biedt hardwarematige beveiliging voor de Spectre en Spectre v4 beveiligingsproblemen, waar AMD eerder al firmware/software-remedies voor uitbracht. Voor andere beveiligingsproblemen als Meltdown, Foreshadow en MDS zijn de AMD-processors nooit vatbaar geweest.

Overigens: tijdens de presentatie van de nieuwe Ryzen-processors gaf AMD’s CTO Mark Papermaster te kennen dat de 3e generatie Zen-architectuur keurig op schema ligt. Deze zal in 2020 of 2021 geïntroduceerd worden op een geoptimaliseerd 7nm-procedé.

PCI-Express 4.0 en AMD X570 chipset

Naast de opbouw met chiplets en alle verbeteringen binnen de Zen 2-architectuur is er bij de Ryzen 3000 serie processors nóg een bijzonder nieuwtje te melden. AMD is de eerste die de overstap maakt naar PCI-Express 4.0. Deze nieuwe versie van de pci-express standaard biedt een verdubbeling van de doorvoersnelheid van versie 3.0. Het maakt dat een pci-express x16 videokaart nu met 32 GB/s in plaats van 16 GB/s kan communiceren met de processor. Een pci-express x4 ssd kan in theorie tot 8 GB/s aan data transporteren, in plaats van 4 GB/s.

Om van PCI-Express 4.0 gebruik te maken, moet je de nieuwe Ryzen-processors plaatsen in een Socket AM4 moederbord met AMD X570 chipset. Plaats je de processors in bestaande Socket AM4 moederborden, wat zoals geschreven prima werkt, dan schakelt de controller terug naar PCI-Express 3.0 snelheid.

De AMD X570 chipset is in tegenstelling tot de X370 en X470 door AMD zelf ontworpen. Een interessant detail: de I/O-chip binnen de Ryzen 3000-processors en de AMD X570 chipset zijn in feite dezelfde chips, ware het niet dat de variant in de CPU’s wordt geproduceerd middels Global Foundries’ 12nm procedé en de chipsetvariant middels hun 14nm procedé.

Vanuit de processor zijn er 24 PCI-Express 4.0 lanes beschikbaar: 16 voor de videokaart, 4 voor een rechtstreeks aangesloten ssd en 4 voor de verbinding met de chipset. Verder zijn er nog 4 flexibele lanes, die voor nog een PCI-Express 4.0 x4 ssd-slot gebruikt kunnen worden, maar ook kunnen worden opgedeeld in PCI-Express 2.0 x2 en 2x sata. Daarnaast komen vanuit de processor 4x usb 3.2 Gen 2 (Superspeed 10 Gbps) poorten. Om de I/O-functionaliteit van de processor compleet te maken: de dual-channel DDR4-geheugencontroller biedt officieel ondersteuning voor ddr4-3200, maar gaat in de praktijk veel hoger, waarover meer op de volgende pagina.

De X570 chipset op zijn beurt biedt sowieso 8x usb 3.2 Gen 2, 4x usb 2.0, 4x sata en 8 losse PCI-Express 4.0 lanes. Daarnaast zijn er nog 8 flexibele lanes, die voor PCI-Express en sata gebruikt kunnen worden. Moederbordfabrikanten hebben dus veel vrijheid qua aansluitingen. In theorie zou een AMD X570 moederbord tot vier m.2-sloten voor PCI-Express 4.0 x4 ssd’s kunnen hebben. Voor wie zich afvraagt waarom vanuit de processor slechts een beperkt aantal usb- en sata-poorten worden aangeboden, terwijl de I/O wel controllers heeft voor meer: dat is simpelweg omdat de Socket AM4 processorvoet er niet voldoende pinnen voor heeft en AMD compatibiliteit met bestaande processors en moederborden wil garanderen.

Met het grote aantal PCI-Express 4.0 lanes mogen we concluderen dat AMD op dit moment met afstand met het modernste en het compleetste moederbordplatform aanbiedt. Moederbordfabrikanten lijken ook die mening toegedaan: volgens AMD zijn er tijdens Computex niet minder dan 51 moederborden met de nieuwe X570 chipset aangekondigd. Minder positief nieuws is dat die borden niet goedkoop zullen zijn. Volgens AMD zullen de goedkoopste rond de 200 euro beginnen, maar zullen de meeste X570 borden aanzienlijk duurder zijn. Exemplaren van boven de 500 euro zullen geen uitzondering zijn. Aan de andere kant, wie een betaalbaar 3egeneratie Ryzen systeem wil samenstellen zonder PCI-Express 4.0, kan de nieuwe processors ook prima gebruiken in combinatie met een moederbord met bijvoorbeeld de X470 of B450 chipset.

Windows 10 en overklokken

Zoals op de vorige pagina’s besproken heeft AMD de nodige hardwarematige aanpassingen gedaan om de prestaties van de Ryzen processors te verbeteren. Daar blijft het niet bij. Wie Windows 10 upgrade naar de nieuwe Mei 2019 update, mag nog meer prestatiewinst verwachten.

De scheduler in de kernel van de nieuwe Windows 10 versie is namelijk geoptimaliseerd voor de Ryzen-processors. De belangrijkste optimalisatie is dat de nieuwe versie bij het toewijzen van programmataken aan processorcores waar mogelijk eerst alle cores van één core-complex (CCX) aan het werk zet, voordat cores uit een andere CCX worden ingeschakeld. Hierdoor is er minder onderling verkeer tussen CCX’en of chiplets, en blijven de latencies zo laag mogelijk wanneer er data tussen threads moet worden uitgewisseld. Dit geldt overigens niet alleen voor de nieuwe 3e generatie Ryzen-processors, maar ook voor alle bestaande modellen. Het zou in extreme gevallen tot 15% prestatiewinst moeten kunnen opleveren.

Daarnaast kan de nieuwe Windows 10 versie de nieuwe 3e generatie Ryzen-chips sneller van klokfrequentie laten wisselen. Waar zo’n wisseling tot nu toe rond de 30 milliseconden op zich laat wachten, is het met de nieuwe Windows 10 update in 1 à 2 milliseconden gepiept. Het maakt dat bijvoorbeeld het opstarten van programma’s net wat sneller kan gaan, omdat de processor sneller naar een hoger prestatieniveau kan overschakelen.

Voor overklokkers heeft AMD ook nieuws te melden. Allereerst kun je in de bios van de nieuwe moederborden of anders in de nieuwe Ryzen Master software de Precision Boost Overdrive (PBO) automatische overklokfunctie inschakelen. De maximale turbo-klokfrequentie van de processor wordt dan 200 MHz verhoogd. Met goede koeling gaat je cpu dan geregeld sneller werken.

Voor wie handmatig wil overklokken is er ook goed nieuws: AMD heeft de handen ineen geslagen met de grote moederbordfabrikanten en ervoor gezorgd dat de bios’en van AMD X570 moederborden uitgebreidere OC-menu’s krijgen. Voor meer dan 50 specifieke instellingen heeft AMD duidelijke instructieteksten aangeleverd die moederbordfabrikanten kunnen tonen.

Waar bij de Ryzen-processors tot nu toe het ver overklokken van geheugen lastig was omdat de infinity fabric communicatie binnen de cpu op dezelfde klokfrequentie werkte als het geheugen, is daar bij de 3e generatie Ryzen iets op gevonden. Zodra je hoger gaat dan ddr4-3733, wordt er een 2:1 mutiplier ingeschakeld en gaat infinity fabric op de helft van de geheugenklokfrequentie werken. Het resultaat is dat je het geheugen véél verder kunt overklokken. AMD geeft dat DDR4-4200 in de regel met twee vingers in de neus lukt en dat in de eigen labs DDR4-5133 met luchtkoeling al mogelijk bleek.

Uiteraard heeft die 2:1 multiplier die vanaf DDR4-3733 inschakelt wel een effect op de snelheid waarmee de verschillende core-complexen binnen de cpu met elkaar kunnen communiceren. Voor de beste algehele systeemprestaties raadt AMD overklokkers daarom aan om hun geheugen op DDR4-3600 snelheid te laten werken.

AMD’s eigen benchmarks

De enige vraag die natuurlijk overblijft: welke prestaties mogen we in de praktijk verwachten? Zoals geschreven worden de nieuwe processors op 7 juli officieel geïntroduceerd en uiteraard mag je op die dag van ons een uitgebreide test en review verwachten.

AMD heeft inmiddels zelf al de nodige benchmarks bekend gemaakt. Hoewel we dergelijke benchmarks altijd graag met een korreltje zout nemen, zetten we ze op deze pagina voor je bij elkaar. Laat één ding gezegd zijn: mocht in de praktijk blijken dat de prestaties inderdaad zijn zoals AMD voorspiegelt, dan lijkt het voor de desktop daadwerkelijk goud in handen te hebben.

Belangrijke noot bij de benchmarks: volgens AMD heeft het voor de Intel-processors geen gebruik gemaakt van de laatste Spectre/Meltdown patches, waardoor de Intel-scores in de praktijk lager zouden kunnen uitvallen. Tegelijkertijd heeft men voor de eigen processor nog geen gebruik gemaakt van de Windows 10 Mei update: de eigen scores zouden volgens AMD dus nog hoger kunnen uitvallen.

AMD Ryzen 9 3900X vs. Intel Core i9 9900K

Zoals in onderstaande benchmarks is te zien, zou de Ryzen 9 3900X in games vrijwel even snel moeten zijn dan de Core i9 9900K. Dankzij de extra cores en de nieuwe architectuur is de AMD-processor in multi-threaded workloads 14% tot 47% sneller. Bijzonder: in Cinebench 20 is AMD 47% sneller en wordt dat behaald met een 15W lager stroomverbruik. Dat maakt dat de prestaties-per-watt volgens AMD tot 58% hoger zijn.

AMD Ryzen 7 3800X vs. Intel Core i7 9700K

Bij de Ryzen 7 3800X tegenover de Core i7 9700K zien we opnieuw gameprestaties die ruwweg op hetzelfde niveau liggen. Multi-threaded is AMD wederom double-digit sneller en hoewel de 9700K weliswaar iets zuiniger is, blijft AMD naar eigen zeggen een 30% hoger prestatie-per-watt niveau te bieden.

Wanneer de 9700K wordt vergeleken met de 3700X is het verschil in performance-per-watt volgens AMD zelfs 56%.

AMD Ryzen 5 3600X vs. Intel Core i5 9600K

AMD vergelijkt ten slotte de Ryzen 5 3600X met de Intel Core i5 9600K. Ook hier toont het vergelijkbare prestaties in gaming, maar in multi-threaded workloads is AMD 14% tot 43% sneller. Ook hier een mooie voorsprong qua performance-per-watt.

Ryzen 9 3950X

Van de 16-core Ryzen 9 3950X, die dus pas in september op de markt komt, kregen we nog geen normale benchmarks te zien, maar op het evenement waar we aanwezig waren nam AMD’s overklokteam de processor al onderhanden met vloeibare stikstof en werden meerdere benchmarkrecords aan diggelen geslagen. De exacte behaalde klokfrequenties zijn ons helaas niet bekend, maar één ding mag duidelijk zijn: een Cinebench 15 score van 5434 punten en een Cinebench 20 score van 12167 punten is extreem!

Conclusie

Tot 16 cores op een mainstream platform, een 15% hogere IPC, als eerste met PCI-Express 4.0, compatible met moederborden van ruim twee jaar oud. Met de nieuwe 3e generatie Ryzen-processors laat AMD zich van haar allerbeste kant zien. Leek de processorfabrikant een paar jaar geleden nog bijna ten dode opgeschreven, inmiddels lijken oude tijden terug te komen. Begin deze eeuw was AMD met haar desktopprocessors heer en meester, en als de prestaties in de praktijk overeen blijken te komen met wat AMD ons voorschotelt, zouden de Ryzen-processors vanaf dit jaar niet langer een interessant alternatief zijn voor een desktop-pc, maar de voor de hand liggende keuze. Vanwege de problematiek die het ondervindt met het 10nm procedé lijkt Intel zeker de komende twee jaar geen goed antwoord te kunnen formuleren.

Over een kleine maand, op 7 juli om te precies te zijn, komen de 3e generatie Ryzen processors officieel op de markt. In ons testlab zitten we er klaar voor en uiteraard mag je op die dag een uitgebreide review van ons verwachten. Wordt vervolgd!