Arm Mali-G77 GPU - alle ins en outs

Schrijver: Randy Alexander
Datum Van Creatie: 3 April 2021
Updatedatum: 1 Juli- 2024
Anonim
Should Qualcomm and Arm fear the new IMG A-Series GPU?
Video: Should Qualcomm and Arm fear the new IMG A-Series GPU?

Inhoud


Naast zijn nieuwe Cortex-A77 CPU-kern heeft Arm een ​​GPU van de volgende generatie onthuld die bestemd is voor volgende generatie SoC's voor smartphones. De Mali-G77, niet te verwarren met de nieuwe Mali-D77-displayprocessor, markeert het vertrek van de Bifrost-architectuur van Arm en de overgang naar Valhall.

We gaan zo in op de fijne details van de nieuwe architectuur. Ten eerste springen we meteen in wat gebruikers mogen verwachten op het gebied van prestatieverbeteringen.

Mali-G77 prestatieoverzicht

Arm biedt tot 40 procent betere grafische prestaties met next-gen Mali-G77-apparaten in vergelijking met de hedendaagse Mali-G76-modellen. Dit aantal houdt rekening met zowel het proces als de architecturale verbeteringen. De Mali-G77 kan worden geconfigureerd van 7 tot 16 shader-kernen en elke kern is bijna exact even groot als de G76-kern. Dit betekent dat high-end smartphones waarschijnlijk worden geleverd met vergelijkbare GPU-kerntellingen als vandaag - ergens in de lage tienerjaren. Handig, hiermee kunnen we speculatieve prestatiebeoordelingen uitvoeren op bestaande chipsets.


Kijkend naar de populaire Manhattan GFXBench benchmark, opent een prestatieverbetering van 40 procent een aanzienlijke voorsprong op hardware van de huidige generatie. De volgende generatie Adreno-chip van Qualcomm heeft zijn eigen belangrijke prestatie-upgrade nodig om het speelveld op peil te houden. De tafels lijken in het voordeel van Arm te draaien.

Qua architectuur stijgt de spelprestatie met 20 tot 40%, terwijl machine learning een boost van 60% oplevert

Gebaseerd op deze nogal grove marge, ziet een 10-kern Mali-G77 (een configuratie die we vaak van Huawei zien) er ongeveer net zo goed uit als de beste mobiele grafische hardware van deze generatie. Een 12-kernconfiguratie, meestal te zien in Exynos van Samsung, biedt een grote voorsprong voor de nieuwste GPU van Arm. Echte benchmarks zijn natuurlijk afhankelijk van andere factoren, zoals het procesknooppunt, GPU-cachegeheugen, LPDDR-geheugenconfiguratie en het type toepassing dat u test. Dus neem de bovenstaande grafiek met een flinke dosis zout.


Alleen al met betrekking tot de nieuwe architectuur stelt Arm dat de Mali-G77 gemiddeld 30 procent verbetering biedt aan energie-efficiëntie en prestatiedichtheid. Er is ook een enorme boost van 60 procent voor machine learning-toepassingen, dankzij INT8 dot-productondersteuning. De verwachtingen voor gamingprestaties liggen ergens tussen de 20 en 40 procent, afhankelijk van de titel en het soort grafische workloads dat wordt aangeboden.

Laten we, om precies te begrijpen hoe Arm deze prestatieverhoging heeft bereikt, dieper in de architectuur duiken.

Maak kennis met Valhall, de opvolger van Bifrost

Vahall is de tweede generatie scalaire GPU-architectuur van Arm. Het is een 16-brede-warp uitvoering, wat in wezen betekent dat de GPU 16 instructies parallel uitvoert per cyclus, per verwerkingseenheid, per kern. Dat is 4 tot 8 breed in Bifrost.

Andere nieuwe architecturale functies zijn onder meer dynamische instructieplanning die volledig in hardware wordt beheerd en een geheel nieuwe instructieset die operationele equivalentie met Bifrost behoudt. Andere omvatten ondersteuning voor het AFBC1.3-compressieformaat van Arm, FP16-renderdoelen, gelaagde rendering en hoekpuntuitgangen.

De Mali-G77 doet 33% meer wiskunde parallel dan de G76.

De sleutels tot het begrijpen van de belangrijkste architecturale veranderingen worden gevonden door de uitvoeringseenheid in de kern te onderzoeken. Dit deel van de GPU is verantwoordelijk voor het kraken van cijfers.

Binnen in de executiemotor

In Bifrost bevatte elke GPU-kern drie uitvoeringsmotoren of twee in het geval van enkele lagere Mali-G52-ontwerpen. Elke engine bevat een i-cache, registerbestand en warp-regeleenheid. In de Mali-G72 verwerkt elke motor 4 instructies per cyclus, die zijn toegenomen tot 8 in de Mali-G76 van vorig jaar. Verspreid over deze drie kernen zorgt voor 12 en 24 32-bit floating point (FP32) fused multiply-accumulate (FMA) instructies per cyclus.

Met Valhall en de Mali-G77 is er slechts een enkele uitvoeringsmotor in elke GPU-kern. Zoals eerder bevat deze motor de warp-regeleenheid, register en icache, die nu wordt gedeeld door twee verwerkingseenheden. Elke verwerkingseenheid verwerkt 16 ketting-instructies per cyclus, voor een totale doorvoer van 32 FP32 FMA-instructies per kern. Dat is een boost van 33 procent voor de doorvoer van instructies via de Mali-G76.

Arm is overgegaan van drie naar slechts één uitvoeringseenheid per GPU-kern, maar er zijn nu twee verwerkingseenheden binnen een G77-kern.

Bovendien bevat elk van deze verwerkingseenheden twee nieuwe wiskundige functieblokken. De nieuwe convert unit (CVT) verwerkt basisinstructies voor geheel getal, logica, vertakking en conversie. De speciale functie-eenheid (SFU) versnelt integer-vermenigvuldiging, delingen, vierkantswortel, logaritmen en andere complexe integer-functies.

De standaard FMA-eenheid heeft een paar tweaks gezien, die 16 FP32-instructies per cyclus, 32 FP16 of 64 INT8-puntproductinstructies ondersteunt. Deze optimalisaties zorgen voor een prestatieverhoging van 60 procent in toepassingen voor machine learning.

De Quad Texture Mapper

De andere belangrijke verandering in de Mali-G77 is de introductie van een mapper texture-mapper, vergeleken met een dual texture mapper in de vorige generatie. De texture mapper is verantwoordelijk voor het in kaart brengen van de 3D-polygonen in een scène in de 2D-weergave die u op een scherm ziet. Het is verantwoordelijk voor bemonstering, interpolatie en filtering om schuine en bewegende inhoud glad te strijken om ruwe randen van lage kwaliteit te voorkomen.

Voordelige anti-aliasing blijft aanwezig om de beeldkwaliteit te verbeteren, maar de verdubbeling van de textuurprestaties is hier het grote voordeel. De texture-eenheid verwerkt nu 4 bilineaire texels per klok omhoog van 2 eerder, 2 trilineaire texels per klok en verwerkt sneller FP16- en FP32-filtering.

De quad texture mapper is opgesplitst in twee paden en biedt een kortere pijplijn voor threads die content in de cache raken. Het misspad, dat formaatconversie en textuurdecompressie afhandelt, heeft een bredere interface naar L2-cache. Dit is ook handig voor machinelearning-workloads die vaak nieuwe gegevens uit het geheugen moeten halen.

Alles samenbrengen in de Mali-G77

Arm heeft een aantal andere aanpassingen aangebracht aan de Mali-G77 om samen te vallen met de grote veranderingen in de Valhall-architectuur. Het besturingsblok is vereenvoudigd dankzij het ontwerp van de enkele uitvoeringseenheid, terwijl de interne dynamische planner in feite zorgt voor een flexibelere instructie die binnen elke kern wordt gegeven. Met een hogere doorvoer in elke kern is het datapad ook korter en lager in latentie, tot slechts 4 cycli van 8 eerder.

Het nieuwe ontwerp is ook beter afgestemd op de Vulkan API, waardoor stuurprogrammabeschrijvingen worden vereenvoudigd om de stuurprogrammakosten te verlagen voor betere prestaties van het metaal.

Samenvattend brengen de Mali-G72 en Valhall belangrijke wijzigingen aan van Bifrost die aanzienlijke prestatieverbetering beloven voor gaming- en machine learning-toepassingen. Belangrijk is dat het ontwerp binnen dezelfde stroom- en gebiedsbudgetten past als Bifrost, waardoor mobiele apparaten betere piekprestaties kunnen bieden zonder zich zorgen te maken over de kosten van warmte, stroom en silicium. Op basis van de prestatieprojecties zou de Mali-G77 in staat moeten zijn om de volgende generatie Adreno van Qualcomm een ​​goede run voor zijn geld te geven.

Mobile World Congre 2019 begint over een paar dagen. Al zodanig kunnen we een groot aantal aankondigingen van nieuwe martphone, tablet en andere Android-apparaten verwachten....

Zoal gezegd onderteunen beide verwielbare riemen, hoewel beide implementatie eigen zijn. Apple heeft een hele reek verchillende horlogebandje, waaronder iliconen, nylon, roetvrij taal en meer. Fitbit ...

Populair