Ang Cerebras Systems, isang startup na nakabatay sa US, ay naglunsad ng pinakamalaking chip na nagsasama ng higit sa 1.2 trilyong transistor at laki sa 46,225 square millimeter. Ang bagong Cerebras Wafer Scale Engine (WSE) chip ay na-optimize para sa AI at 56.7 beses na mas malaki kaysa sa pinakamalaking unit ng pagpoproseso ng graphics na sumusukat sa 815 square millimeter at naglalaman ng 21.1 bilyong transistor. Ang bagong Cerebras Wafer Scale Engine (WSE) ay nagbibigay ng 3,000 beses na mas mataas ang bilis, on-chip memory at mayroong 10,000 beses na higit pang bandwidth bandwidth. Ang mas malaking sukat ng maliit na tilad ay tinitiyak na ang impormasyon ay maaaring maproseso nang mas mabilis at maaaring mabawasan pa ang time-to-insight, o "oras ng pagsasanay" na nagbibigay-daan sa mga mananaliksik na subukan ang mas maraming ideya, gumamit ng mas maraming data at malutas ang mga bagong problema.
Ang Cerebras WSE ay dinisenyo para sa AI at naglalaman ng pangunahing mga makabagong ideya na isulong ang estado ng sining sa pamamagitan ng paglutas ng mga dekada na mga teknikal na hamon na limitado ang laki ng maliit na tilad - tulad ng pagkakakonekta ng cross-reticle, ani, paghahatid ng kuryente at pag-iimpake. Maaaring mapabilis ng WSE ang mga kalkulasyon at komunikasyon, na binabawasan ang oras ng pagsasanay. Ang WSE ay may 56.7 beses na mas maraming lugar ng silikon kaysa sa pinakamalaking yunit sa pagpoproseso ng graphics. Gayundin, ang WSE ay maaaring magbigay ng maraming mga core upang makagawa ng mas maraming mga kalkulasyon at nagtatampok ng higit na memorya na mas malapit sa mga core, kaya't ang mga core ay maaaring gumana nang mahusay. Ang lahat ng komunikasyon ay itinatago sa silicon mismo dahil sa kanyang malawak na hanay ng mga core at memorya ay naka-embed sa isang solong maliit na tilad.
Naglalaman ang Cerebras WSE chip ng 46,225mm2 ng silikon at mga bahay na 400,000 na na-optimize ng AI, walang cache, walang overhead, mag-compute ng mga core at 18 gigabyte ng lokal, naipamahagi, nakapagpapanatili ng memorya ng SRAM. Ang maliit na tilad ay mayroong 9 petabytes bawat segundo ng memory bandwidth kung saan ang mga core ay naka-link kasama ang isang fine-grained, all-hardware, on-chip mesh-connected na network ng komunikasyon na naghahatid ng pinagsamang bandwidth na 100 petabits bawat segundo. Nangangahulugan ito na ang mababang latency na bandwidth ng komunikasyon ng WSE ay labis na malaki na gumagawa ng mga pangkat ng mga core na makipagtulungan sa maximum na kahusayan, at ang bandwidth ng memorya ay hindi na isang bottleneck. Mas maraming lokal na memorya, maraming mga core at isang mababang latency mataas na bandwidth na tela na pinagsama sama-sama bumubuo ng pinakamainam na arkitektura para sa pinabilis na trabaho ng AI.
Ang mga tampok ng Cerebras WSE chip:
- Tumaas na mga core: Isinasama ng WSE ang 400,000 AI-optimize na mga compute core na tinatawag na SLAC (Sparse Linear Algebra Cores) na mai-program, nababaluktot, at na-optimize para sa kalat-kalat na linear algebra na sumasailalim sa lahat ng pagkalkula ng neural network. Ang tampok na kakayahang mai-program ng SLAC ay tinitiyak na ang mga core ay maaaring madaling patakbuhin ang lahat ng mga neural network algorithm sa palaging pagbabago ng patlang ng pag-aaral ng makina. Isinasama ng mga WSE core ang teknolohiyang sparsity na pag-aani ng Cerebras na nagpapabilis sa pagganap ng computational sa kalat-kalat na mga workload (mga workload na naglalaman ng mga zero) tulad ng malalim na pag-aaral.
- Pinahusay na memorya: Ang Cerebras WSE ay nagsasama ng mas maraming lokal na memorya kasama ang maraming mga core na higit sa anumang maliit na tilad na nagbibigay-daan sa kakayahang umangkop, mabilis na pagkalkula sa mas mababang latency at may mas kaunting enerhiya. Ang WSE ay mayroong 18 GB (Gigabytes) ng on-chip memory na naa-access ng core nito sa isang orasan ng orasan. Ang koleksyon ng pangunahing-lokal na memorya na ito ay gumagawa ng WSE upang maghatid ng pinagsamang 9 petabytes bawat segundo ng memory bandwidth na 10,000 X higit pang memory bandwidth at 3,000 X