W ramach wiosennej imprezy produktowej Apple „Peek Performance”, która odbyła się 8 marca, firma Apple zaprezentowała czwartego i ostatniego członka rodziny M1 układów SoC Apple Silicon – M1 Ultra. Układ M1 Ultra, przeznaczony dla komputerów stacjonarnych – a konkretnie dla nowego komputera Mac Studio. Apple po raz kolejny podnosi poprzeczkę w zakresie wydajności układów SoC zarówno dla CPU, jak i GPU. W trakcie tego procesu Apple rzuciło branży nowe wyzwanie, nie tylko łącząc dwie matryce M1 Max w jednym układzie, ale także sprawiając, że te dwie matryce prezentują się jako pojedynczy, monolityczny procesor graficzny, co jest kolejną nowością w branży układów scalonych.
Gdy jesienią ubiegłego roku firma Apple ogłosiła model M1 Pro i potężny M1 Max, myśleliśmy, że to już koniec z układami M1. W końcu, jak można by przebić pojedynczy układ o powierzchni 432 mm2, który już teraz przekracza granice możliwości produkcyjnych w procesie N5 firmy TSMC? Cóż, jak się okazuje, Apple może zrobić to jeszcze lepiej. Trafniej byłoby powiedzieć, że dwa razy lepiej. W ostatecznej i najbardziej zaawansowanej konstrukcji układu M1, M1 Ultra, Apple połączyło dwie matryce M1 Max w jeden układ, uzyskując wszystkie korzyści wynikające z podwojenia wydajności sprzętu.
W rezultacie powstał układ, który bez wątpienia jest jedną z najciekawszych konstrukcji, jakie kiedykolwiek widziano w konsumenckim SoC. I choć strategia podwójnej matrycy przynosi znacznie większe korzyści w przypadku wielowątkowych obciążeń CPU i GPU niż w przypadku zadań jednowątkowych – czyli w obszarze, w którym Apple już zaczyna zostawać w tyle – to w procesie projektowania układy te otwierają nowe możliwości w dziedzinie GPU. Umożliwiając dwóm matrycom M1 Ultra jawne prezentowanie się jako pojedynczy procesor graficzny, firma Apple rozpoczęła nowy wyścig technologiczny w zakresie umieszczania wielodyskowych procesorów graficznych w konsumenckim sprzęcie klasy high-end i stacjach roboczych.
M1 Max + M1 Max = M1 Ultra
Sercem nowego M1 Ultra jest coś nieco starszego: M1 Max. Konkretnie, firma Apple wykorzystała w nim dwie matryce M1 Max, a następnie połączyła je w jeden potężny układ składający się z 114 miliardów tranzystorów.
Ponieważ sam M1 Max jest sprzedawany od 5 miesięcy, podstawowa architektura układu (i jego podstawowych bloków) jest w tym momencie znana. M1 Ultra nie wprowadza nic nowego pod względem funkcji dla użytkownika końcowego, a zamiast tego układ ten polega na przeskalowaniu architektury M1 firmy Apple o jeden krok dalej poprzez umieszczenie drugiej matrycy krzemowej na pojedynczym układzie scalonym.
Dzięki umieszczeniu dwóch matryc M1 Max w jednej obudowie, Apple podwoiło ilość sprzętu do dyspozycji w praktycznie każdym aspekcie. Oznacza to dwa razy więcej rdzeni CPU, dwa razy więcej rdzeni GPU, dwa razy więcej rdzeni silnika neuronowego, dwa razy więcej kanałów pamięci LPDDR5 i dwa razy więcej wejść/wyjść dla urządzeń peryferyjnych.
Jeśli chodzi o procesor, oznacza to, że Apple oferuje teraz łącznie 20 rdzeni CPU. Na tę liczbę składa się 16 rdzeni Firestorm, ukierunkowanych na wydajność, oraz 4 rdzenie Icestorm, ukierunkowane na efektywność. Biorąc pod uwagę, że M1 Ultra jest przeznaczony wyłącznie do komputerów stacjonarnych (w przeciwieństwie do M1 Max), rdzenie zwiększające wydajność nie odgrywają tu aż tak dużej roli, ponieważ Apple nie musi oszczędzać energii do ostatniego dżula. Mimo to, jak widzieliśmy, są to dość mocne rdzenie i pomogą zwiększyć przepustowość procesora w scenariuszach z dużą liczbą wątków.
Jak to zwykle bywa w przypadku zapowiedzi produktów Apple, firma nie ujawnia częstotliwości taktowania. Skupiona na komputerach stacjonarnych natura układu oznacza, że jeśli Apple zechce, może podnieść taktowanie zegarów nieco wyżej niż w M1 Max, ale w tym celu będzie musiało opuścić swój ulubiony obszar wydajności energetycznej.
W przypadku obciążeń wielowątkowych 16 rdzeni Firestorm zapewni wystarczającą przepustowość, by znaleźć się na szczycie niektórych rankingów wydajności, jednak w przypadku obciążeń jednowątkowych Firestorm został już wyprzedzony przez nowsze architektury, takie jak architektura Golden Cove firmy Intel. Nie spodziewamy się więc, że Apple odzyska prowadzenie w kategorii wydajności jednowątkowej – zamiast tego liczy się przede wszystkim MT, a zwłaszcza energooszczędność.
Tymczasem podwojenie liczby matryc w M1 Max oznacza, że Apple jest w stanie podwoić liczbę kanałów pamięci na chipie, a tym samym ogólną przepustowość pamięci. Podczas gdy M1 Max miał 16 kanałów LPDDR5-6400 o łącznej przepustowości 408 GB/s, M1 Ultra podwaja tę liczbę do 32 kanałów LPDDR5 i 800 GB/s przepustowości pamięci. Podobnie jak w modelu M1 Max, jest to możliwe dzięki przylutowaniu układów LPDDR5 bezpośrednio do obudowy, co w sumie daje 8 układów w M1 Ultra.
Podwojenie liczby układów pamięci pozwala też firmie Apple podwoić całkowitą ilość pamięci dostępnej w sprzęcie. Podczas gdy M1 Max ma pojemność 64 GB, M1 Ultra ma pojemność 128 GB. To wciąż mniej pamięci, niż można znaleźć w prawdziwie high-endowych stacjach roboczych (takich jak Mac Pro), ale dzięki temu Apple wyprzedza wszystkie komputery stacjonarne PC z wyjątkiem tych z najwyższej półki. Jednak i tak proponowana pojemność w zupełności wystarczyć dla twórców treści.
Jak widzieliśmy przy okazji premiery modelu M1 Max, Apple już teraz dostarcza do swoich układów SoC więcej przepustowości, niż mogą wykorzystać same rdzenie CPU, więc podwojenie przepustowości nie będzie miało większego wpływu niż zapewnienie, że rdzenie CPU są tak samo dobrze zasilane, jak w modelu M1 Max. Zamiast tego, cała dodatkowa przepustowość pamięci ma za zadanie dotrzymać kroku rosnącej liczbie rdzeni GPU. Co prowadzi nas do najbardziej interesującego aspektu M1 Ultra: GPU. Mając 32 rdzenie GPU, M1 Max już wtedy bił rekordy wśród monolitycznych, zintegrowanych układów GPU. Teraz Apple podwoiło tę liczbę, zwiększając ją do 64 rdzeni GPU w pojedynczym układzie.
W przeciwieństwie do konfiguracji wielodyskowych/wieloukładowych CPU, które są powszechnie stosowane w stacjach roboczych od dziesięcioleci, konfiguracje wielodyskowe GPU to zupełnie inna bestia. Ilość wewnętrznej przepustowości, jaką zużywają układy GPU, wynosząca w przypadku układów high-end grubo ponad 1 TB/s, zawsze sprawiała, że łączenie ich ze sobą było technologicznie nieopłacalne. W rezultacie, w tradycyjnym systemie z wieloma układami GPU (takim jak Mac Pro), każdy układ GPU jest traktowany w systemie jako osobne urządzenie, a zadaniem producentów oprogramowania jest znalezienie innowacyjnych sposobów na ich wspólne wykorzystanie. W praktyce oznaczało to, że wiele układów GPU pracowało nad różnymi zadaniami, ponieważ brak przepustowości nie pozwalał im na efektywną współpracę w ramach jednego zadania graficznego.
Gdyby jednak udało się w jakiś sposób połączyć wiele układów GPU o wysokiej przepustowości w trybie die-to-die – wystarczającej do zreplikowania ich wewnętrznej przepustowości możliwe byłoby wykorzystanie ich razem w pojedynczym zadaniu. Z tego powodu łączenie wielu układów GPU w przejrzysty sposób stało się czymś w rodzaju świętego Graala w dziedzinie projektowania układów multi-GPU. Jest to problem, nad którym wiele firm pracuje od ponad dekady, ale wygląda na to, że Apple jako pierwsza firma, która go rozwiązała, wyznacza nowe standardy.
UltraFusion: Apple proponuje opakowanie 2,5 chipa
Tajemniczym składnikiem, który to wszystko umożliwia – i który Apple do dziś trzyma w tajemnicy – jest fakt, że M1 Max ma bardzo szybki interfejs wzdłuż jednej ze swoich krawędzi. Interfejs, który z pomocą krzemowego interpozytora umożliwia połączenie dwóch matryc M1 Max.
Firma Apple nazywa tę architekturę opakowania UltraFusion i jest to najnowszy w branży przykład pakowania układów scalonych w technologii 2,5D. Choć szczegóły różnią się w zależności od implementacji, podstawy tej technologii są takie same. We wszystkich przypadkach pod dwoma układami umieszcza się pewnego rodzaju interpozytor krzemowy, a następnie przez interpozytor prowadzi się sygnały między tymi układami. Bardzo precyzyjne możliwości produkcyjne krzemu sprawiają, że między dwoma układami można poprowadzić ogromną liczbę ścieżek – w przypadku firmy Apple jest to ponad 10 000 ścieżek – co umożliwia uzyskanie bardzo szerokiego i bardzo szerokopasmowego połączenia między dwoma układami.
Oficjalnie firma Apple podaje tylko, że używa tutaj interpozytora krzemowego, co jest ogólnym określeniem tej technologii. Jednak na podstawie filmów promocyjnych Apple i animacji makiet wygląda na to, że używają małego, krzemowego mostka jakiegoś rodzaju. Byłoby to rozwiązanie podobne do technologii EMIB lub EFB (Elevated Fanout Bridge) firmy Intel. Obie te technologie są już dostępne na rynku i stosowane od lat, więc Apple nie jest pierwszym producentem, który korzysta z tej technologii. Ale to, do czego ją wykorzystuje, jest całkiem interesujące
Dzięki UltraFusion, Apple jest w stanie zaoferować niesamowitą przepustowość 2,5 TB/s pomiędzy dwoma matrycami M1 Max. Nawet jeśli przyjmiemy, że jest to wartość zbiorcza – sumując oba kierunki naraz – to i tak oznacza to, że w każdym kierunku mamy do dyspozycji 1,25 TB/s przepustowości. Wszystko to zbliża się do tego, jak dużą przepustowość wewnętrzną wykorzystują niektóre układy i przekracza łączną przepustowość pamięci DRAM firmy Apple wynoszącą 800 GB/s.
Należy jednak zauważyć, że istnieje wiele szczegółów, które mogą zadecydować o przydatności tego podejścia. Na przykład, czy 2,5 TB/s jest wystarczające, biorąc pod uwagę wysoką wydajność układów GPU? A jaki wpływ na wydajność mają dodatkowe opóźnienia w przechodzeniu z jednego układu GPU na drugi? To, że firma Apple podwoiła liczbę rdzeni procesorów graficznych poprzez ich sklejenie, nie oznacza, że podwoiła wydajność swoich układów GPU. Jeśli jednak rozwiązanie to będzie działać choćby w najmniejszym stopniu poprawnie, to jego wpływ na konstrukcje układów GPU będzie ogromny.
Wydajność układów GPU: Lepsza niż GeForce RTX 3090
Dzięki UltraFusion firma Apple stała się pierwszym producentem, który wprowadził na rynek układ, który w przejrzysty sposób łączy w sobie dwa oddzielne układy GPU. I choć musimy poczekać na recenzje, by przekonać się, jak to rozwiązanie sprawdza się w prawdziwym świecie, to Apple ze zrozumiałych względów jest podekscytowane swoim osiągnięciem i wynikającą z niego wydajnością.
W szczególności firma podkreśla, że wydajność procesora graficznego M1 Ultra przewyższa wydajność GeForce’a RTX 3090 firmy NVIDIA, który w tej chwili jest najszybszą kartą graficzną dostępną na rynku. Co więcej, osiąga to przy zużyciu nieco ponad 100 W, czyli o 200 W mniej niż RTX 3090.
Z punktu widzenia wydajności, zapewnienia firmy Apple wyglądają rozsądnie, zakładając, że technologia multi-GPU działa tak, jak w reklamie. Choć RTX 3090 jest tak szybki, nie da się przecenić tego, o ile więcej tranzystorów włożyła w tę kwestię firma Apple niż NVIDIA; procesor graficzny GA102 stosowany przez NVIDIA ma 28,3 miliarda tranzystorów, podczas gdy połączony układ M1 Ultra ma ich 114 miliardów. Oczywiście nie wszystkie z nich są wykorzystywane przez układ graficzny w M1 Ultra, ale przy tak dużej liczbie tranzystorów Apple nie musi się krępować przed wyrzuceniem większej ilości krzemu w kierunku rozwiązania problemu.
Ilość krzemu, jaką Apple ma do dyspozycji, jest także jednym z kluczy do niskiego zużycia energii. Jak już widzieliśmy na przykładzie modelu M1 Max, Apple zbudowało na tyle szeroki procesor graficzny, że może utrzymywać taktowanie zegarów na niskim poziomie krzywej napięcia/częstotliwości, co obniża ogólne zużycie energii. Z kolei RTX 3090 został zaprojektowany tak, by gonić za wydajnością, nie zwracając uwagi na zużycie energii, dzięki czemu NVIDIA jest w stanie uzyskać świetną wydajność, ale tylko podążając wysoko po krzywej częstotliwości napięcia. Oczywiście, Apple ma tutaj ogromną przewagę w procesie produkcyjnym, wykorzystując proces N5 firmy TSMC w porównaniu z 8nm procesem Samsunga.
Pierwsze przemyślenia
Choć firma Apple już od pierwszych dni komputerów Mac z krzemowym układem scalonym zapowiadała, że zamierza zwiększać skalę swoich konstrukcji, śmiało można powiedzieć, że M1 Ultra przewyższa większość oczekiwań. Osiągnąwszy praktyczne granice wielkości pojedynczej matrycy, firma Apple wykonała kolejny logiczny krok i zaczęła umieszczać wiele matryc na jednym układzie, aby zbudować procesor klasy stacji roboczej. Krok, który jest konieczny ze względu na ograniczenia, ale też krok, który z historycznego punktu widzenia jest bardziej nowatorski niż typowy nawet dla Apple. W rezultacie firma Apple zaprezentowała układ SoC, który nie ma sobie równych w branży na wielu poziomach. Stosowanie w stacjach roboczych układów wielodyskowych/wieloukładowych jest sprawdzoną strategią w przypadku procesorów centralnych, ale w przypadku układów graficznych takie rozwiązanie może sprawić, że Apple wejdzie na zupełnie nowy poziom. Jeśli przezroczysta technologia multi-GPU będzie działać tak dobrze, jak twierdzi firma, Apple będzie jeszcze bardziej wyprzedzać konkurencję zarówno pod względem wydajności, jak i rozwoju najnowocześniejszych technologii niezbędnych do zbudowania takiego układu.
Wszystko to sprawia, że nie możemy się doczekać, by zobaczyć, jak M1 Ultra sprawdzi się w prawdziwym świecie. Firma Apple już w przypadku modelu M1 Max ustawiła dość wysoko poprzeczkę, a teraz chce ją przekroczyć za pomocą M1 Ultra. Jeśli uda im się zrealizować te cele, to w ciągu zaledwie 6 miesięcy dwukrotnie ustanowią nowy rekord w dziedzinie projektowania układów SoC. To naprawdę ekscytujące czasy.
Zapraszamy do zapoznania się z całym artykułem Anandtech – https://www.anandtech.com/show/17306/apple-announces-m1-ultra-combining-two-m1-maxes-for-even-more-performance