DETIKEPRI.COM, TEKNOLOGI – Google Cloud melakukan pembaruan untuk sistem Artificial Intelegent (AI) Hypercompter, pada tahun baru ini bagi pengguna baru akan mendapatkan kredit sebesar $300, seperti apa sebenarnya AI Hypercomputer dari Google Cloud ini.
Dari penjelasan yang disampaikan di laman Google Cloud Blog bahwa ini adalah sistem Artificial Intelegent (AI) yang menggunakan Hypercomputer, bahwa Google Cloud melakukan pembaharuan untuk kemajuan dalam Infrastruktur AI.
Termasuk ketersediaan umum Trillium, TPU Generasi ke enam, VM A3 Ultra yang di dukung oleh GPU NVIDIA H200, dukungan hingga 65.000 node di Google Kubernetes Enggine (GKE).
Dan parallelstore dalam layanan sistem file terdistribusi yang menawarkan penyimpanan latensi rendah dan throughput tinggi yang penting untuk beban kerja HPC dan AI. Untuk memberikan kemampuan yang luar biasa.
Inovasi-inovasi ini hadir bersama dalam AI Hypercomputer, pendekatan tingkat sistem yang diambil dari pengalaman selama bertahun-tahun dalam menyediakan pengalaman AI bagi miliaran pengguna.
Dan menggabungkan perangkat keras yang dioptimalkan untuk performa, perangat lunak dan kerangka kerja terbuka, serta model konsumsi yang flexible.
Ini berarti saat membangun solusi AI di Google Cloud, dapat melihat dari serangkaian komponen infrastruktur yang dibuat khusus dan di rancang untuk bekerja sama dengan baik.
Kebebasan untuk memilih solusi yang tepat untuk kebutuhan beban kerja spesifik merupakan hal mendasar bagi pendekatan Google Cloud,
Berikut adalah beberapa pembaruan utama pada AI Hypercomputer dari kuartal terakhir berdasarkan komponen infrastruktur baru dan bagaimana komponen tersebut mengaktifkan kasus penggunaan AI tertentu.
Menjalankan beban kerja terdistribusi (multi-node)
Performa aplikasi multi-node (multi-host) seperti pelatihan AI skala besar dan beban kerja HPC dapat sangat sensitif terhadap konektivitas jaringan, yang memerlukan pengaturan yang tepat dan pemantauan proaktif.
Ingin memudahkan pelanggan untuk menjalankan beban kerja multi-node besar pada GPU, dan meluncurkan VM A3 Ultra dan Hypercompute Cluster, sistem pengelompokan baru kami yang sangat skalabel. Kedua penawaran tersebut tersedia secara umum hingga akhir tahun 2024.
A3 Ultra, dengan GPU NVIDIA H200 merupakan tambahan baru pada keluarga A3 VM yang dipercepat GPU NVIDIA Hopper dengan bandwidth jaringan GPU-ke-GPU dua kali lipat dan memori bandwidth tinggi (HBM) dua kali lipat dibandingkan dengan A3 Mega dengan GPU NVIDIA H100.
VM A3 Ultra menawarkan performa terbaik dalam keluarga A3. VM tersebut dibuat dengan adaptor jaringan Titanium ML baru kami dan menggabungkan kartu antarmuka jaringan (NIC) NVIDIA ConnectX-7 untuk menghadirkan pengalaman cloud yang aman dan berkinerja tinggi untuk beban kerja AI.
Dikombinasikan dengan jaringan rel 4 arah di seluruh pusat data kami, VM A3 Ultra menghadirkan komunikasi GPU-ke-GPU non-pemblokiran hingga 3,2 Tbps dengan RDMA melalui Ethernet Terkonvergensi (RoCE).
VM A3 Ultra juga tersedia melalui GKE, yang menyediakan platform yang terbuka, portabel, dapat diperluas, dan sangat skalabel untuk melatih dan melayani beban kerja AI. Untuk mencoba VM A3 Ultra, Anda dapat dengan mudah membuat kluster dengan GKE atau mencoba resep GPU prapelatihan ini.
Sementara itu, Hypercompute Cluster adalah platform layanan komputasi super yang dibangun di atas AI Hypercomputer yang memungkinkan Anda menerapkan dan mengelola sejumlah besar akselerator sebagai satu unit.
Dengan fitur-fitur seperti kolokasi sumber daya yang padat dengan jaringan latensi yang sangat rendah, penempatan beban kerja yang ditargetkan, kontrol pemeliharaan tingkat lanjut untuk meminimalkan gangguan beban kerja
dan penjadwalan yang memahami topologi yang terintegrasi ke dalam penjadwal populer seperti Slurm dan GKE, kami membangun Hypercompute Cluster untuk membantu Anda mencapai sasaran throughput dan ketahanan Anda.
Anda dapat menggunakan satu panggilan API dengan templat yang telah dikonfigurasikan dan divalidasi sebelumnya untuk penerapan yang andal dan dapat diulang, dan dengan kemampuan pengamatan tingkat kluster, pemantauan kesehatan, dan perkakas diagnostik, Hypercompute Cluster dapat menjalankan beban kerja Anda yang paling berat dengan mudah di Google Cloud. Hypercompute Cluster kini tersedia dengan VM A3 Ultra.
LG Research adalah pengguna aktif infrastruktur Google Cloud, yang mereka gunakan untuk melatih model bahasa besar mereka, Exaone 3.0. Mereka juga merupakan pengadopsi awal VM A3 Ultra dan Hypercompute Cluster, yang mereka gunakan untuk mendukung rangkaian inovasi berikutnya.
“Sejak kami mulai menggunakan Google Cloud A3 Ultra dengan Hypercompute Cluster, yang didukung oleh GPU NVIDIA H200, kami langsung terkesima dengan peningkatan performa yang luar biasa dan skalabilitas yang lancar untuk beban kerja AI kami. Yang lebih mengesankan lagi, klaster kami sudah aktif dan berjalan dengan kode kami dalam waktu kurang dari sehari — peningkatan yang sangat besar dari yang biasanya kami perlukan 10 hari. Kami berharap dapat terus mengeksplorasi potensi infrastruktur canggih ini untuk inisiatif AI kami.” – Jiyeon Jung, AI Infra Sr Engineer, LG AI Research
Mempermudah inferensi pada TPU
Untuk memungkinkan agen AI generasi berikutnya yang mampu melakukan penalaran multi-langkah yang kompleks, Anda memerlukan akselerator yang dirancang untuk menangani persyaratan komputasi yang menuntut dari model-model canggih ini.
TPU Trillium memberikan kemajuan yang signifikan untuk beban kerja inferensi, memberikan peningkatan hingga 3x dalam throughput inferensi dibandingkan dengan TPU v5e generasi sebelumnya.
Ada beberapa cara untuk memanfaatkan TPU Google Cloud untuk inferensi AI berdasarkan kebutuhan spesifik Anda. Anda dapat melakukannya melalui Vertex AI, platform pengembangan AI terpadu yang dikelola sepenuhnya untuk membangun dan menggunakan AI generatif, dan yang didukung oleh arsitektur AI Hypercomputer di balik layar.
Namun, jika Anda memerlukan kontrol yang lebih besar, kami memiliki opsi yang lebih rendah dalam tumpukan yang dirancang untuk penyajian yang optimal pada TPU Cloud: JetStream adalah mesin penyajian yang dioptimalkan untuk memori dan throughput untuk LLM. MaxDiffusion menawarkan titik peluncuran untuk model difusi.
Dan untuk komunitas Hugging Face, kami bekerja sama erat dengan Hugging Face untuk meluncurkan Optimum TPU dan Hugging Face TGI untuk mempermudah penyajian pada TPU Cloud.
Baru-baru ini, kami mengumumkan dukungan eksperimental untuk vLLM pada TPU dengan PyTorch/XLA 2.5. Termotivasi oleh respons yang luar biasa untuk opsi penyajian yang populer ini, kami telah menjalankan pratinjau dengan sekelompok kecil pelanggan untuk mencapai tahap menghadirkan manfaat performa (dan harga-kinerja) Cloud TPU ke vLLM.
Tujuan kami adalah memudahkan Anda untuk mencoba Cloud TPU dengan pengaturan vLLM yang ada — cukup buat beberapa perubahan konfigurasi untuk melihat manfaat performa dan efisiensi di Compute Engine, GKE, Vertex AI, dan Dataflow. Anda dapat mencoba vLLM di Trillium TPU dengan tutorial ini. Semua inovasi ini terjadi secara terbuka, dan kami menyambut kontribusi Anda.
Dan jika Anda melewatkannya, Google Colab sekarang mendukung Cloud TPU (TPU v5e) jika Anda ingin mencoba TPU untuk proyek Anda.
Mendorong batas-batas infrastruktur AI
Saat kita memasuki tahun baru, kami bersemangat untuk terus mendorong batas-batas infrastruktur AI dengan AI Hypercomputer. Pembaruan ini merupakan bentuk komitmen berkelanjutan kami untuk menyediakan kinerja, efisiensi, dan kemudahan penggunaan yang Anda butuhkan untuk mempercepat perjalanan AI Anda. Kami berharap dapat melihat apa yang Anda capai dengan kemampuan baru ini.

Saya seorang Wartawan di DETIKEPRI.COM yang dilindungi oleh Perusahaan Pers bernama PT. Sang Penulis Melayu, dan mendedikasikan untuk membuat sebuah produk berita yang seimbang sesuai kaidah Jurnalistik dan sesuai Etik Jurnalistik yang berdasarkan Undang-Undang Pers.