クラウドで成熟する科学コンピューティングのオプション

アガム・シャー著

2023年8月31日

スーパーコンピューティングは、馬力、セキュリティ、システム管理などのさまざまな理由から、依然として大部分がオンプレミスで行われています。企業がワークロードをクラウドに移行するにはさらに時間が必要ですが、選択肢は増えています。 (Intersect 360 Research が最近投稿した HPC-AI 予測を参照してください。)

8 月、Google Cloud とアマゾンウェブサービスは、ハイパフォーマンスコンピューティング仮想マシンを発表しました。これは事実上、オンプレミスシステムによって提供されるコンピューティングのオンラインバージョンです。 HPC VM は、最新のプロセッサ、超高速相互接続、セキュリティ機能、メモリ容量など、クラウドプロバイダーの独自技術に基づいて構築されています。

HPC VM はハイブリッド展開をサポートしており、企業はオンプレミスシステムと AWS および Google が提供する仮想マシンの間でワークロードを分割できます。一部の HPC ユーザーは、優先度の低いワークロードをクラウドにディスパッチすることを好みます。これにより、オンプレミスのコンピューティングリソースが解放され、より重要なワークロードを実行できるようになります。

クラウドにおける HPC の最大の欠点は、地理的に離れた場所ではネットワーク速度が遅いため、依然として帯域幅の制限です。それにもかかわらず、多くのエンジニアリング会社や製薬会社は、顧客が利用できる豊富な開発ツール、豊富なデータセット、分析ツールやデータベースツール、その他のミドルウェアを理由にクラウドに目を向けています。 Rescale や Altair などのインテグレーターは、HPC アプリケーション用の共有ハイブリッド環境を作成するためのソフトウェアとサポートを提供しています。

クラウドプロバイダーの新しい VM は、従来の科学コンピューティングに重点を置いています。このシステムは AI をターゲットとしていないため、GPU はバンドルされていません。 AWS と Google は、並列コンピューティングと AI アプリケーションを対象とした、Nvidia の H100 GPU の高価なインスタンスを提供しています。

AWS は最近、コード名 Genoa という AMD の第 4 世代 Epyc チップをベースにした VM である EC2 Hpc7 を発表しました。 Hpc7a は x86 であり、コード名 Milan という AMD の前世代の Epyc チップをベースにした最近の EC2 Hpc6a インスタンスからのアップグレードです。

Hpc7a は、フルロードされた VM 構成で 2 倍のメモリ容量と 300 Gbps のネットワーク帯域幅を備えています。 Amazon は、Hpc7a は Hpc6a インスタンスよりも 2.5 倍高速であると主張しました。最大の hpc7a.96xlarge インスタンスは、192 個の CPU コアと 768GB の DDR5 メモリを提供します。 VM は、HPC で一般的な Elastic Fiber Adaptor と Lustre などのファイルシステムをサポートします。

AWS は、自社開発の Graviton3E チップ上で実行される ARM ベースの Hpc7g など、他の HPC VM を提供しています。理化学研究所計算科学研究センターは、世界 2 番目に高速なスーパーコンピューターである富岳のソフトウェアスタックのクラウド版である Hpc7g 用の「仮想富岳」を AWS 上に構築しました。富岳もARMプロセッサ上に構築されており、ソフトウェア環境の複製が可能です。

Google は 8 月に HPC 用の H3 VM インスタンスを発表しました。これは、高速ネットワーク速度と多数の CPU コアを利用して、価格とパフォーマンスのバランスをとりました。

H3 構成は Intel の最新の Sapphire Rapids CPU に基づいており、各ノードには 88 個の CPU コアと 352GB のメモリが集約されています。 VM は、並列化されておらず、シングルスレッド環境で実行されるアプリケーションを対象としています。

この仮想マシンは、Intel と Google が共同開発したカスタムデータプロセッサ E2000 (コード名 Mount Evans) 上に構築されています。 H3 ノードは 200 Gbps の速度で通信でき、ARM ベースの Neoverse N1 CPU コアを 16 個搭載しています。

Google のベンチマークでは、H3 を、Sapphire Rapids より 2 世代古い、Intel Cascade Lake CPU に基づく以前の C2 VM と比較しました。 H3 CPU 専用 VM はノードあたりのパフォーマンスが 3 倍高速であり、顧客のコストを 50% 節約できます。

サーバーチップは通常、前世代のチップ (この場合は Ice Lake) に対してベンチマークされるため、この比較は完全に一致するものではありません。しかし、Google の比較は、2 ～ 3 年ごとに行われるサーバーのアップグレードサイクルとより一致しています。

最近の Google Cloud Next サミットで、同社は AI 向けのハイパフォーマンスコンピューティングのオプションを拡張しました。同社は、最新の TPU v5e AI チップを搭載したポッドを発表し、26,000 個の Nvidia GPU をホストして並列コンピューティングをサポートできる A3 スーパーコンピューティングシステムの一般提供を発表しました。どちらのチップも、AI アプリケーションのトレーニングと推論を対象としています。