W październiku zeszłego roku, Apple zaprezentował nową generację MacBooków serii PRO – najwydajniejszych laptopów dedykowanych najbardziej wymagającym użytkownikom. Odświeżony design to jedno, ale za raz za tym uwagę przykuły dwa nowe układy Apple Sillicon – M1 PRO i M1 MAX.
W artykule wykorzystujemy wnioski ekspertów z Anandtech.
Zaczynamy od modelu M1 Pro, mniejszego rodzeństwa obu modeli. Konstrukcja wydaje się być nową implementacją pierwszej generacji układu M1, ale tym razem zaprojektowaną od podstaw z myślą o zwiększeniu skali i wydajności.
W sercu SoC znajdziemy nową 10-rdzeniową konfigurację CPU, w konfiguracji 8+2, z 8 wysokowydajnymi rdzeniami Firestorm i 2 wydajnymi rdzeniami Icestorm. Eksperci ocenili, że wygląda na to, że nowe układy Apple M1 Pro i Max używają podobnej, jeśli nie tej samej generacji CPU IP co w M1, zamiast aktualizować rzeczy do nowszej generacji rdzeni, które są używane w A15.
Rdzenie CPU taktowane są zegarem o częstotliwości 3228 MHz, jednak ich częstotliwość zmienia się w zależności od tego, ile rdzeni jest aktywnych w klastrze, spadając do 3132 przy 2 i 3036 MHz przy 3 i 4 aktywnych rdzeniach. „W klastrze”, ponieważ 8 wydajnych rdzeni w M1 Pro i M1 Max składa się w rzeczywistości z dwóch 4-rdzeniowych klastrów, z których każdy posiada 12 MB pamięci podręcznej L2 i może taktować procesor niezależnie od siebie, więc w rzeczywistości możliwe jest, aby cztery aktywne rdzenie w jednym klastrze pracowały z częstotliwością 3036 MHz, a jeden aktywny rdzeń w drugim klastrze pracował z częstotliwością 3,23 GHz.
Dwa rdzenie E w systemie taktowane są zegarem do 2064 MHz i w przeciwieństwie do M1, tym razem są tylko dwa, jednak Apple nadal udostępnia im pełne 4 MB pamięci podręcznej L2, tak samo jak w przypadku M1 i układów pochodnych A.
Jedną z ważniejszych cech obu układów jest znacznie zwiększona przepustowość pamięci i interfejsów – M1 Pro jest wyposażony w 256-bitową pamięć LPDDR5 o szybkości 6400 MHz/s, co odpowiada przepustowości 204 GB/s. Jest to znacznie wyższa przepustowość niż w przypadku modelu M1 (68 GB/s), a także ogólnie wyższa niż w przypadku konkurencyjnych platform dla laptopów, które nadal korzystają z interfejsów 128-bitowych.
Ustalono, że „SLC”, czyli pamięć podręczna poziomu systemowego, wynosi 24 MB w modelu M1 Pro i 48 MB w M1 Max. – oznacza to 50% wzrost w stosunku do SLC per-block w modelu M1.
Powyżej M1 Pro znajduje się drugi nowy układ M1 firmy Apple – M1 Max. Pod względem architektury i wielu bloków funkcjonalnych M1 Max jest zasadniczo identyczny z M1 Pro. Wyróżnia natomiast fakt, że firma Apple wyposażyła go w znacznie większy procesor graficzny i kompleksy kodowania/dekodowania multimediów. Ogólnie rzecz biorąc, firma Apple podwoiła liczbę rdzeni GPU i bloków medialnych, dzięki czemu M1 Max ma praktycznie dwukrotnie większą wydajność GPU i multimediów.
Interfejsy GPU i pamięci układu są zdecydowanie najbardziej zróżnicowanymi aspektami układu – zamiast 16-rdzeniowego GPU, Apple podwoiło moc obliczeniową do jednostki 32-rdzeniowej. W modelu M1 Max, procesor graficzny pracuje z częstotliwością do 1296 MHz – dość szybko jak na mobilny układ IP, ale wciąż znacznie wolniej niż w przypadku konwencjonalnych komputerów PC i konsol, gdzie procesory graficzne mogą pracować z częstotliwością do około 2,5 GHz.
Apple podwoiło także liczbę interfejsów pamięci, stosując podsystem pamięci LPDDR5 o szerokości 512 bitów – co jest niespotykane w układach SoC, a nawet rzadkie wśród historycznych konstrukcji dyskretnych układów GPU. Daje to układowi ogromną przepustowość 408 GB/s.
Pamięć podręczna kontrolera pamięci w tym układzie wynosi 48 MB, co teoretycznie pozwala na zwiększenie przepustowości pamięci dla różnych bloków SoC, a także na zmniejszenie ruchu DRAM poza układem, co z kolei zmniejsza pobór mocy i energii przez układ.
Przepustowość pamięci
Bardzo intrygującym aspektem modelu M1 Max, a może w mniejszym stopniu M1 Pro, jest ogromna przepustowość pamięci dostępnej dla układu SoC. Firma Apple chętnie promowała liczbę 400 GB/s podczas premiery, ale liczba ta jest tak duża, że pozostaje wiele pytań dotyczących tego, w jaki sposób układ jest w stanie wykorzystać taką przepustowość, więc jest to jedna z pierwszych rzeczy, które należy zbadać.
Zaczynając od testów opóźnień pamięci, nowy M1 Max dość znacząco zmienia zachowanie pamięci systemowej w porównaniu z tym, co widzieliśmy w modelu M1. Po stronie rdzenia i L2 nie zaszły żadne zmiany i w związku z tym nie widzimy większych zmian w wynikach – nadal jest to rdzeń o częstotliwości szczytowej 3,2 GHz z 128 KB pamięci L1D przy opóźnieniach 3 cykli load-load i 12 MB pamięci podręcznej L2.
Zupełnie inaczej jest w przypadku pamięci podręcznej systemu – zamiast 8 MB w M1 Max jest ona teraz duża – 48 MB, a także znacznie bardziej zauważalna na wykresie opóźnień. Mimo że jest ona znacznie większa, jest też wyraźnie wolniejsza niż M1 SLC – dokładne wartości zależą od wzorca dostępu, ale nawet dostęp liniowy łańcuchowy pokazuje, że dane muszą pokonać dłuższą drogę niż w przypadku M1 i odpowiadających mu układów A.
Opóźnienie DRAM, mimo że na papierze jest szybsze w przypadku M1 Max pod względem częstotliwości i przepustowości, w tej generacji idzie w górę. Przy porównywalnej głębokości testu 128 MB nowy układ jest wolniejszy o około 15ns. Większe układy SLC, bardziej złożona struktura chipu, a także możliwe gorsze timingi nowej pamięci LPDDR5 mogą przyczynić się do regresji, którą tutaj obserwujemy. W praktyce, ponieważ pamięć SLC jest znacznie większa w tej generacji, opóźnienia w obciążeniach roboczych powinny być niższe w przypadku M1 Max ze względu na wyższy współczynnik trafień w pamięci podręcznej, więc wydajność nie powinna ulec pogorszeniu.
Z perspektywy pojedynczego rdzenia, czyli pojedynczego wątku programowego, sytuacja jest dość imponująca, ponieważ układ jest w stanie obciążyć strukturę pamięci do 102 GB/s. Jest to niezwykle imponujące i wielokrotnie przewyższa inne konstrukcje w branży. Eksperci już wcześniej zauważyli, że układ M1 był w stanie w pełni wykorzystać przepustowość pamięci przy pojedynczym rdzeniu, a wąskie gardło stanowiła sama pamięć DRAM. W przypadku M1 Max wygląda na to, że dochodzimy do granicy możliwości jednego rdzenia – a dokładniej, do granicy możliwości klastra CPU.
Mały garb pomiędzy 12MB a 64MB powinien być SLC o rozmiarze 48MB, a zmniejszenie BW przy wartości 12MB sygnalizuje, że rdzeń jest w jakiś sposób ograniczony w przepustowości podczas ewakuacji linii pamięci podręcznej z powrotem do górnego systemu pamięci. Nasz test polega na odczytywaniu, modyfikowaniu i zapisywaniu linii pamięci podręcznej w stosunku R/W 1:1.
Przechodząc od 1 rdzenia/wątków do 2, system w rzeczywistości rozkłada obciążenie na dwa klastry SoC, dzięki czemu oba wątki znajdują się w swoim własnym klastrze i mają pełny dostęp do 12 MB pamięci L2. Garb” po 12 MB zmniejsza się, kończąc się wcześniej na +24 MB, co ma sens, ponieważ 48 MB pamięci SLC jest teraz dzielone między dwa rdzenie. Przepustowość wzrasta tutaj do 186 GB/s.
Po dodaniu trzeciego wątku następuje lekka nierównowaga pomiędzy klastrami, przepustowość DRAM wzrasta do 204 GB/s, ale czwarty wątek daje nam 224 GB/s i wydaje się, że jest to limit przepustowości SoC, który procesory są w stanie osiągnąć, ponieważ dodawanie kolejnych rdzeni i wątków poza ten punkt w ogóle nie zwiększa przepustowości DRAM. Dopiero po dodaniu rdzeni E, które znajdują się w osobnym klastrze, przepustowość ponownie wzrasta, osiągając maksymalną wartość 243 GB/s.
Chociaż 243 GB/s to ogromna przepustowość, która przyćmiewa wszelkie inne konstrukcje w branży, to nadal jest to dość daleko od 409 GB/s, do których układ jest zdolny. Co ważniejsze dla M1 Max, jest to tylko nieznacznie więcej niż 204GB/s w M1 Pro, więc z perspektywy obciążenia tylko procesora, zakup modelu Max nie ma sensu, jeśli ktoś koncentruje się tylko na przepustowości procesora.
Nasuwa się więc pytanie, dlaczego M1 Max ma tak dużą przepustowość? Naturalnie przychodzi na myśl GPU, jednak podczas testów wystąpiły ogromne problemy ze znalezieniem zadań, które obciążałyby GPU w stopniu wystarczającym do wykorzystania dostępnej przepustowości. Oczywiście, jest to także kwestia brakujących obciążeń, ale w przypadku renderowania 3D i benchmarków nie zaobserwowano, by GPU wykorzystywał więcej niż 90 GB/s (mierzone za pomocą systemowych liczników wydajności).
Pozostaje więc wszystko inne, co znajduje się w SoC, silnik medialny, NPU oraz zadania, które po prostu obciążałyby wszystkie części układu jednocześnie. Nowy silnik medialny w M1 Pro i Max jest teraz w stanie dekodować i kodować formaty ProRes RAW, poniższy klip to próbka 5K 12bit z bitrate 1,59Gbps, a M1 Max jest w stanie nie tylko odtworzyć go w czasie rzeczywistym, ale także zrobić to z wielokrotnie większą prędkością, z płynnym natychmiastowym wyszukiwaniem. Wykonanie tej samej czynności na maszynie 5900X skutkuje jednocyfrową liczbą klatek. Przepustowość pamięci DRAM układu SoC podczas wyszukiwania wynosiła około 40-50 GB/s.
CPU ST Performance
Apple nie powiedziało zbyt wiele o wydajności rdzeni w nowych M1 Pro i Max, a to prawdopodobnie dlatego, że nie zmieniła się ona zbytnio w porównaniu do M1. Nadal mamy do czynienia z tymi samymi rdzeniami o wydajności Firestrom i nadal są one taktowane zegarem 3,23 GHz. Nowy układ ma więcej pamięci podręcznej i większą przepustowość DRAM, ale w scenariuszach ST nie spodziewamy się dużych różnic.
Kiedy po raz pierwszy testowano M1, eksperci kompilowali SPEC pod kompilatorem Xcode firmy Apple i nie posiadali kompilatora Fortranu. W publikowanych tutaj wynikach użyto zestaw narzędzi LLVM11 i GFortran (GCC11), co pozwala na porównania typu apple-to-apples. Liczby nie zmieniają się zbytnio dla obciążeń C/C++, ale otrzymujemy bardziej kompletny zestaw liczb dla pakietu dzięki obciążeniom Fortranem. Flagi są bardzo proste – wystarczy „-Ofast” i nic więcej.
M1 Max ląduje jako najwydajniejszy układ do laptopów w SPECint2017, niewiele ustępując najlepszemu procesorowi w ogóle, który nadal należy do 5950X, ale jest w stanie przejąć i utrzymać koronę M1 w pakiecie FP.
Ogólnie rzecz biorąc, nowy M1 Max nie sprawił większych niespodzianek w zakresie wydajności jednowątkowej.
CPU MT Performance
Co ciekawsze od wydajności ST, to wydajność MT. Dzięki 8 rdzeniom wydajnościowym i 2 rdzeniom efektywnościowym jest to największa iteracja Apple Silicon, jaką widzieliśmy.
Jako wstęp do wyników, kilka rzeczy dotyczących poprzedniego, mniejszego układu M1. Konfiguracja 4+4 w M1 sprawiła, że znaczna część wydajności MT została zapewniona przez rdzenie E (efektywne). W szczególności w wyniku SPECint zaobserwowano wzrost wydajności o +33% w porównaniu z 4 rdzeniami P (wysokowydajne) w systemie. Ponieważ nowe M1 Pro i Max mają o 2 rdzenie E mniej, zakładając liniowe skalowanie, teoretyczny szczyt wydajności M1 Pro/Max powinien wynosić +62% w stosunku do M1. Oczywiście, nowe układy powinny zachowywać się lepiej niż liniowo, ze względu na lepszy podsystem pamięci.
W wynikach zbiorczych – są dwie strony. W pakiecie roboczym SPECint, M1 Max wyprzedza najlepszych konkurentów o +37%, jest to bardzo wyraźne zwycięstwo, a biorąc pod uwagę poziomy mocy i TDP, przewaga wydajności na wat jest wyraźna. M1 Max jest również w stanie prześcignąć takie układy do komputerów stacjonarnych, jak 11900K czy 5800X firmy AMD.
W pakiecie SPECfp, M1 Max należy do własnej kategorii krzemu i nie ma sobie równych na rynku. Całkowicie demoluje wszystkich rywali w laptopach, wykazując 2,2-krotną wydajność w stosunku do drugiego najlepszego układu dla laptopów. M1 Max zdołał nawet prześcignąć 16-rdzeniowy 5950X – układ, którego moc w pakiecie wynosi 142 W, a reszta systemu nawet sporo powyżej tej wartości. Jest to absolutnie absurdalne porównanie i sytuacja, jakiej jeszcze nie eksperci nie widzieli.
Uruchomiono także układ z aktywnymi tylko 8 wydajnymi rdzeniami, jak można się było spodziewać, wyniki są nieco niższe i wynoszą -7-9%, przy czym 2 rdzenie E stanowią tutaj znacznie mniejszy odsetek całkowitej wydajności MT niż w przypadku M1.
GPU
W najnowszych komputerach Mac SoC firmy Apple gwiazdą programu jest bez wątpienia procesor graficzny i znaczne środki, które zostały przeznaczone na jego zasilanie. Choć firma Apple nie ujawnia, ile z ogromnego budżetu 57 miliardów tranzystorów w modelu M1 Max przeznaczono na procesor graficzny, to właśnie on i związany z nim sprzęt były jedynymi elementami, których liczbę zwiększono czterokrotnie w porównaniu z oryginalnym układem SoC M1. W zeszłym roku firma Apple udowodniła, że jest w stanie opracować konkurencyjne, wysokowydajne rdzenie CPU dla laptopów; teraz chce zrobić to samo w kwestii GPU.
Motorem tych działań była jedna z największych potrzeb firmy Apple – i jeden z największych punktów spornych między firmą Apple a byłym partnerem, firmą Intel – czyli wydajność procesorów graficznych. Dzięki ścisłej kontroli nad swoim ekosystemem i niewielkim obawom związanym z popychaniem (lub ciągnięciem) deweloperów do przodu, firma Apple od niemal dwóch ostatnich dekad znajduje się w czołówce firm zwiększających rolę układów GPU w systemie. Kompozycja akcelerowana przez GPU (Quartz Extreme), OpenCL, uczenie maszynowe akcelerowane przez GPU i inne rozwiązania zostały opracowane lub po raz pierwszy wdrożone przez Apple. Choć często u ich podstaw leżał wzrost wydajności i odciążenie procesora centralnego od wykonywania niezwykle obciążających zadań, spowodowały one także wzrost wymagań Apple dotyczących wydajności układów GPU.
Z tego powodu przez większość ostatnich 10 lat firma Apple korzystała z zaawansowanych konfiguracji procesorów graficznych Iris firmy Intel (często była jedynym producentem OEM, który w znacznym stopniu z nich korzystał). Jednak nawet Iris nigdy nie była wystarczająca do tego, co chciałaby robić firma Apple. W największych 15/16-calowych MacBookach Pro firma Apple była w stanie wykorzystać dyskretne procesory graficzne, aby zniwelować różnicę, ale brak miejsca i mocy na procesor graficzny w 13-calowym MacBooku Pro był nieco bardziej ograniczający. Wszystko to sprawiło, że firma Apple zdecydowała się opracować własną architekturę procesorów graficznych, nie tylko po to, by zaoferować kompletny SoC dla urządzeń z niższej półki, ale także po to, by zintegrować procesor graficzny w urządzeniach z wyższej półki.
To właśnie to ostatnie rozwiązanie jest prawdopodobnie wyjątkowym aspektem pozycji, jaką zajmuje obecnie Apple. Tradycyjnym producentom OEM wystarczał niewielki (mniej więcej) procesor główny, a następnie, w razie potrzeby, dodawanie dyskretnego układu graficznego. Jest to rozwiązanie efektywne kosztowo i wydajnościowo: wystarczy dodać tylko tak duży układ GPU, jak klient potrzebuje wydajności, a nawet układy dGP klasy laptopowej mogą zaoferować bardzo wysoką wydajność. Ale jak każda decyzja inżynierska, jest to kompromis: dyskretne procesory graficzne wymagają stosowania wielu adapterów wyświetlaczy, własnej pamięci VRAM i wiążą się z kosztami zasilania/chłodzenia.
Apple od dawna jest firmą zintegrowaną pionowo, więc nie dziwi fakt, że koncentruje się także na integracji układów SoC. Wprowadzenie tego, co byłoby dGPU, do układów SoC laptopów klasy high-end eliminuje wady części dyskretnej. I, ponownie wykorzystując przewagę Apple w ekosystemie, oznacza to, że firma może zapewnić infrastrukturę umożliwiającą programistom wykorzystanie GPU w sposób heterogeniczny – w celu szybkiego przekazywania danych z powrotem do CPU, ponieważ wszystkie bloki przetwarzania znajdują się na tym samym układzie i korzystają z tej samej pamięci. Firma Apple już od lat forsuje ten paradygmat w swoich układach SoC z serii A, ale w segmencie laptopów jest to wciąż nowość – żaden procesor dla komputerów PC nigdy nie był dostarczany z tak wydajnym układem GPU zintegrowanym z głównym SoC.
Z kolei dla firmy Apple kompromisem jest to, że M1 odziedziczy koszty związane z zapewnieniem tak wydajnego układu GPU. Obejmują one nie tylko miejsce w matrycy dla samych bloków GPU, ale także grubszą tkaninę potrzebną do przesłania tak dużej ilości danych, dodatkową pamięć podręczną potrzebną do natychmiastowego zasilenia GPU oraz dodatkową przepustowość pamięci zewnętrznej potrzebną do zasilenia GPU w dłuższym okresie. Zintegrowanie układu GPU klasy high-end oznacza, że Apple odziedziczyło koszty projektowania i produkcji układów GPU klasy high-end.
Abstrahując od jednostek ALU i rdzeni GPU, najbardziej interesującą rzeczą, jaką firma Apple zrobiła, aby to umożliwić, jest podsystem pamięci. Układy GPU wymagają dużej przepustowości pamięci, dlatego też dyskretne procesory graficzne są zazwyczaj wyposażone w sporą ilość dedykowanej pamięci VRAM, wykorzystującej szybkie interfejsy, takie jak HBM2 lub GDDR6. Jednak Apple, mając na uwadze moc obliczeniową i budując własny SoC, zdecydowało się na zastosowanie niewiarygodnie dużego interfejsu pamięci LPDDR5; M1 Max ma 512-bitowy interfejs, czterokrotnie większy od 128-bitowego interfejsu oryginalnego M1. Oczywiście, takie skalowanie pamięci LPDDR zawsze było możliwe, ale przynajmniej w konsumenckich układach SoC nigdy wcześniej tego nie robiono. Dzięki tak szerokiemu interfejsowi, Apple jest w stanie zapewnić M1 Max przepustowość pamięci na poziomie 400 GB/s (technicznie 409,6 GB/s), co jest porównywalne z przepustowością najszybszych laptopów firmy NVIDIA.
W ostatecznym rozrachunku umożliwia to firmie Apple zasilanie swojego high-endowego układu GPU podobną przepustowością, jak w przypadku dyskretnego układu GPU dla laptopów, ale przy ułamku kosztów energii. GDDR6 jest bardzo szybki w przeliczeniu na pin – ponad dwukrotnie szybszy – ale nie jest wydajny. Choć Apple traci część korzyści wynikających z konieczności stosowania tak dużej magistrali pamięci, to z nawiązką rekompensuje to sobie stosując LPDDR5. Pozwala to zaoszczędzić kilkanaście watów pod obciążeniem, co nie tylko korzystnie wpływa na zużycie energii, ale także zmniejsza ilość ciepła generowanego przez laptopy.
M1 Max i M1 Pro: Wybierz rozmiar
Jest jeszcze jeden efekt domina, który firma Apple odniosła stosując zintegrowane układy GPU w całej linii układów SoC dla laptopów: potrzebowała sposobu, aby dorównać skalowalności układów dGPU. Choć byłoby miło, gdyby każdy MacBook Pro był wyposażony w procesor M1 Max o mocy 57 miliardów tranzystorów, koszty i wydajność takiego układu są niepraktyczne. Rzeczywiste potrzeby konsumentów również nie są zaspokojone; M1 Max został zaprojektowany tak, aby konkurować z wysokiej klasy rozwiązaniami z zakresu dyskretnych układów GPU, ale w większości konsumenckich (a nawet wielu deweloperskich) obciążeń roboczych po prostu nie ma wystarczającej liczby pikseli, aby w pełni wykorzystać M1 Max. I nie ma to być subtelny komplement pod adresem Apple – M1 Max jest zbyt mocny do pracy w komputerach stacjonarnych i prawdopodobnie nawet w wielu grach w rozdzielczości 1080p.
Firma Apple przygotowała więc nie jeden, lecz dwa nowe układy SoC M1, dzięki czemu w ofercie Apple pojawiła się druga, średnio zaawansowana opcja graficzna poniżej M1 Max. Układ ten, nazwany M1 Pro, ma połowę liczby klastrów procesora graficznego M1 Max, połowę pamięci podręcznej poziomu systemowego i połowę przepustowości pamięci. Pod każdym innym względem jest taki sam. M1 Pro jest znacznie mniejszym układem – Andrei szacuje, że jego powierzchnia wynosi około 245 mm2 – dzięki czemu jego produkcja jest tańsza dla Apple. Dlatego w przypadku 14- i 16-calowych MacBooków Pros z niższej półki, które nie wymagają wysokiej wydajności graficznej, Apple może zaoferować mniejszy kawałek swojego dużego zintegrowanego procesora graficznego w połączeniu z pozostałym sprzętem, który sprawia, że najnowsze układy SoC M1 są tak wydajne jako całość.
Jeśli przyjrzeć się specyfikacjom układów GPU w całej rodzinie M1, to okaże się, że firma Apple w zasadzie podwoiła (a potem jeszcze raz podwoiła) liczbę zintegrowanych procesorów graficznych. Podczas gdy oryginalny M1 miał 8 rdzeni GPU, M1 Pro ma ich 16, a M1 Max – 32. Każdy aspekt tych układów GPU został odpowiednio przeskalowany – jest 2x/4x więcej jednostek teksturujących, 2x/4x więcej jednostek ROP, 2x/4x większa szerokość magistrali pamięci itp. Przez cały czas taktowanie GPU pozostaje praktycznie niezmienione i wynosi około 1,3 GHz. Oczekiwania co do wydajności GPU w M1 Pro i M1 Max są więc bardzo proste: w idealnej sytuacji Apple powinno być w stanie uzyskać 2x lub 4x wyższą wydajność GPU niż w oryginalnym M1.
W przeciwnym razie, czego nie widać ani w specyfikacji, ani w komentarzach samej firmy Apple, Apple będzie musiało również zwiększyć wydajność swojego procesora. Podłączenie 32 rdzeni oznacza przesyłanie ogromnej ilości danych, a tkanina oryginalnego M1 z pewnością nie sprostałaby temu zadaniu. Mimo tego wszystko, co firma Apple musiała zrobić, zostało zrealizowane (i ukryte) w bardzo zgrabny sposób. Z zewnątrz procesory graficzne M1 Pro/Max zachowują się tak samo, jak M1, więc nawet po tych zmianach w architekturze procesorów graficznych widać, że jest to praktycznie identyczna architektura.
Synthetic Performance
Przechodząc wreszcie do samej wydajności GPU, zacznijmy od naszych syntetycznych benchmarków.
Aby uzyskać jak najwięcej porównywalnych danych, zaczęto od testu GFXBench 5.0 Aztec Ruins. Jeśli chodzi o sam program Aztec Ruins, jest to benchmark, który można stosować zarówno w telefonach, jak i laptopach klasy high-end; jest on natywnie dostępny na wielu platformach i nie ma prawie żadnego narzutu na procesor centralny, więc jeśli chodzi o czcionkę procesora graficznego, niebo jest nieograniczone.
Aztec to bardzo dobry pierwszy wynik dla nowych układów SoC firmy Apple. M1 Max nie zdołał zająć najwyższego miejsca w rankingu, plasując się o kilka FPS-ów za GE76 firmy MSI, notebookiem wyposażonym w GeForce RTX 3080 Laptop. Jak zobaczymy, będzie to prawdopodobnie najlepszy scenariusz dla Apple, ponieważ Aztec skaluje się tak czysto z wydajnością GPU (i ma bardzo dobrą implementację Metal). Pokazuje to jednak, jak wiele może osiągnąć Apple, gdy wszystko jest w porządku.
Widzimy tu także w akcji skalowalność rodziny M1. Wydajność M1->M1 Pro ->M1 Max wzrasta niemal dokładnie dwukrotnie na każdym etapie,
Ponieważ macOS może także uruchamiać aplikacje dla iOS, dorzucono także benchmark 3DMark Wild Life Extreme. Jest to kolejny wieloplatformowy benchmark dostępny zarówno na urządzeniach mobilnych, jak i stacjonarnych, przy czym wersja Extreme nadaje się szczególnie do pomiaru wydajności zarówno komputerów PC, jak i Mac. Test został uruchomiony w trybie Unlimited, w którym rysowanie odbywa się poza ekranem, aby upewnić się, że procesor graficzny jest w pełni obciążony.
Wydajność Produkcyjna
Na koniec przyjrzyjmy się kilku obciążeniom związanym z produktywnością, w których główną rolę odgrywa procesor graficzny.
Zaczniemy od PugetBench for Premiere Pro firmy Puget System, który obecnie jest de facto benchmarkiem Premiere Pro. Test ten obejmuje wiele testów odtwarzania i eksportu wideo, a także testy, w których zastosowano efekty silnie akcelerowane przez GPU i silnie akcelerowane przez CPU. Jest to więc bardziej wszechstronny test systemowy niż test z wykorzystaniem wyłącznie GPU, choć w przypadku Premiere Pro jest to jak najbardziej na miejscu, biorąc pod uwagę jego ogromne wymagania systemowe.
Krótka uwaga: wydaje się, że ten benchmark jest wrażliwy zarówno na rozdzielczość, jak i częstotliwość odświeżania pulpitu – zwłaszcza wyższe częstotliwości odświeżania wydają się zwiększać wydajność. Oznacza to, że monitory ProMotion 120 Hz w MacBookach Pro z roku 2021 uzyskują tu nieoczekiwaną przewagę. Dlatego, aby przybliżyć sytuację, wszystkie testy przeprowadzono na pulpicie o rozdzielczości 1920×1080 i częstotliwości odświeżania 60 Hz. (Dla porównania, MBP16 osiągnął wynik 1170 punktów przy korzystaniu z natywnego wyświetlacza).
Okazuje się, że oba komputery Mac wypadają w tym benchmarku bardzo dobrze – wynik bliski 1000 punktów dorównuje wysokiej klasy komputerowi stacjonarnemu wyposażonemu w układ RTX 3080.
Jeśli chodzi o to, jak dużą rolę odgrywa sam procesor graficzny, widzimy, że M1 Max dodaje około 100 punktów w wynikach standardowych i rozszerzonych. Szybszy układ GPU pomaga w akcelerowanych przez GPU efektach i powinien pomóc w niektórych zadaniach związanych z odtwarzaniem i kodowaniem. Jednak pozostałe elementy obciążają procesor centralny, więc sam układ GPU nie jest w stanie wygrać tego benchmarku.
Kolejnym benchmarkiem produktywności jest DaVinci Resolve, wieloaspektowy edytor wideo, pakiet do korekcji kolorów i obróbki filmów VFX. Resolve często pojawia się w materiałach promocyjnych Apple; nie tylko jest popularny wśród profesjonalnych użytkowników komputerów Mac, ale także korekcja kolorów i inne efekty oferowane przez ten edytor są akcelerowane przez procesor graficzny i bardzo zasobożerne. Jest to więc dokładnie ten rodzaj profesjonalnej pracy, w której przydaje się wysokiej klasy procesor graficzny.
Benchmark Rocket Science firmy AndreeOnline wykorzystuje różne klipy rakietowe o wysokiej rozdzielczości, przetwarzając je za pomocą serii coraz bardziej złożonych filtrów rozmycia lub czasowej redukcji szumu. W naszych testach wykorzystujemy jako dane wejściowe plik wideo 4K ProRes, choć konkretny plik wideo ma minimalny wpływ w porównaniu z wysokim kosztem filtrów.
Tymczasem jest to kolejny przypadek, w którym wydajność GPU w M1 Max jest bardzo zbliżona do 2x wydajności GPU w M1 Pro. Z wyjątkiem 18-stopniowego rozmycia, M1 Max jest o 80% szybszy lub lepszy. Wszystko to świadczy o tym, że w przypadku zadań wymagających przetwarzania miliardów pikseli, takich jak Resolve, jeśli są one akcelerowane przez procesor graficzny, to z pewnością mogą skorzystać na wydajności procesora M1 Max.
Ogólnie rzecz biorąc, widać wyraźnie, że ciągłe doświadczenie firmy Apple w dziedzinie procesorów graficznych opłaciło się podczas opracowywania układów z serii A, a teraz także układów SoC z rodziny M1. Apple udało się rozbudować mały i wydajny układ M1 do znacznie potężniejszej konfiguracji; Apple stworzyło układy SoC z 2x/4x większą liczbą jednostek GPU niż oryginalny M1, i niemal dokładnie to samo udało się uzyskać w układach M1 Pro i M1 Max. Krótko mówiąc, nowe układy SoC M1 dowodzą, że Apple potrafi konstruować tak duże i wydajne procesory graficzne, jakich potrzebuje w swoich maszynach klasy high-end. AMD i NVIDIA nie muszą się o to ubiegać.
Mimo to, wydajność GPU nowych układów w porównaniu z najlepszymi w świecie Windows jest bardzo zróżnicowana. GFXBench wygląda naprawdę dobrze, podobnie jak wydajność MacBooków w zadaniach związanych z wydajnością. Dla prawdziwych profesjonalistów – osób korzystających z aparatów, które kosztują tyle, co MacBook Pro, i pakietów oprogramowania, które są tylko nieznacznie tańsze – M1 Pro i M1 Max powinny okazać się bardzo przydatne. W tych układach SoC dostępna jest ogromna moc przetwarzania pikseli, jeśli tylko użytkownik ma odpowiednie obciążenie, by ją wykorzystać.
W grach jednak wrażenia są gorsze, ponieważ komputery Mac nie dorównują najlepszym układom w żadnej z gier. Biorąc pod uwagę wykorzystanie translacji binarnej x86 i status macOS jako tradycyjnego obywatela drugiej kategorii w grach, nie są to porównania typu apple-to-apple. Ale biorąc pod uwagę utratę Boot Camp, warto o tym pamiętać. Jeśli jesteś typem osoby, która lubi intensywnie grać na MacBooku Pro, nowy system M1 może nie być dla Ciebie – przynajmniej nie w tej chwili.
Wnioski i pierwsze wrażenia
Układy M1 Pro i M1 Max to konstrukcje, na które czekaliśmy, od kiedy Apple zapowiedziało M1 i urządzenia napędzane przez M1. M1 był bardzo prostym przejściem z platformy mobilnej na platformę laptopa/desktopu, ale niezaprzeczalnie był to układ, który był zorientowany na urządzenia o znacznie niższej mocy, z ograniczeniami termicznymi. M1 imponował pod względem wydajności jednowątkowej, ale pod względem ogólnej wydajności pozostawał wyraźnie w tyle za konkurencją.
Modele M1 Pro i M1 Max całkowicie zmieniają tę sytuację – te konstrukcje sprawiają wrażenie prawdziwych SoC, które zostały stworzone z myślą o użytkownikach o dużej mocy obliczeniowej, a Apple zwiększyło w nich wydajność we wszystkich wektorach. Spodziewaliśmy się dużych skoków wydajności, ale nie spodziewaliśmy się tak monstrualnych wzrostów, jakie są w stanie osiągnąć nowe układy.
Po stronie procesorów podwojenie liczby wydajnych rdzeni jest oczywistym sposobem na zwiększenie wydajności – konkurencja też tak robi w niektórych swoich konstrukcjach. Apple robi to inaczej, ponieważ skaluje nie tylko rdzenie CPU, ale także wszystko, co je otacza. To nie są tylko 4 dodatkowe wydajne rdzenie, ale cały nowy klaster wydajności z własnym procesorem L2. Jeśli chodzi o pamięć, Apple przeskalowało podsystem pamięci do niespotykanych wcześniej rozmiarów, dzięki czemu M1 Pro i Max osiągają wydajność, która w przypadku układów stosowanych w laptopach nie była nawet brana pod uwagę. Układy te nie tylko są w stanie zdeklasować konkurencyjne laptopy, ale także konkurują z najlepszymi dostępnymi systemami stacjonarnymi – aby wyprzedzić M1 Max, trzeba by wprowadzić sprzęt klasy serwerowej – to po prostu absurd.
Jeśli chodzi o procesory graficzne, Apple również odnotowuje wyraźne wzrosty. M1 Pro jest zasadniczo 2x większy od M1, a M1 Max jest 4x większy od M1 pod względem wydajności. Gry nadal znajdują się w bardzo dziwnym miejscu dla macOS i ekosystemu, być może jest to sytuacja typu „kura i jajko”, być może gry są nadal czymś w rodzaju niszy, która będzie potrzebować dużo czasu, aby zobaczyć, jak nowe układy wykorzystują wydajność GPU. Jasne jest natomiast, że nowy procesor graficzny zapewnia ogromny skok wydajności w przypadku tworzenia treści i obciążeń związanych z produktywnością, które wymagają akceleracji GPU.
Aby jeszcze bardziej usprawnić tworzenie treści, kluczową cechą układu jest nowy silnik medialny. Szczególnie edytorzy wideo pracujący z formatami ProRes i ProRes RAW odczują wielokrotną poprawę wydajności pracy, ponieważ nowe układy bez trudu radzą sobie z tymi formatami – dzięki temu wielu profesjonalistów szybko sięgnie po nowe MacBooki Pro.
Dla innych wydaje się, że firma Apple zna typowych użytkowników MacBooków Pro i zaprojektowała układy scalone pod kątem zastosowań, w których komputery Mac błyszczą. Połączenie wysokiej wydajności, wyjątkowego przyspieszenia i czystej energooszczędności jest czymś, czego nie można znaleźć na żadnej innej platformie, co prawdopodobnie sprawia, że nowe MacBooki Pro są nie tylko najlepszymi laptopami, ale wręcz najlepszymi urządzeniami do pracy.