ニュース

ソフトバンク、クラウドサービス「AIデータセンター GPUクラウド」

10月から提供開始。β版の利用を本日開始

編集部：中野信二

2026年5月25日 15:56

　ソフトバンクは、新たな成長戦略「Activate AI for Society」のもと、ネオクラウド事業として、AIデータセンター向けのソフトウエアスタック「Infrinia（インフリニア） AI Cloud OS」を搭載したクラウドサービス「AIデータセンター GPUクラウド」の提供を10月から開始する。提供に先立ち、本日からβ版の利用を、ソフトバンクおよびグループ会社で開始した。

　AIデータセンター GPUクラウドは、マルチテナント環境に対応したKubernetes as a Service（KaaS）や、大規模言語モデル（LLM）の推論機能をAPI（Application Programming Interface）として提供するInference as a Service（Inf-aaS）を利用可能なAIデータセンター向けソフトウエアスタック「Infrinia AI Cloud OS」と、ソフトバンクのAI計算基盤を組み合わせたクラウドサービス。

　ソフトバンクが国内のデータセンターに構築した「NVIDIA GB200 NVL72」など、最先端のGPU（Graphics Processing Unit）搭載のAI計算基盤を活用することで、日本国内における安全なデータ管理・運用の下、AIモデルの学習から推論、データ処理まで幅広いAIワークロードを効率的かつ柔軟に実行できる。

　また、GPUの管理やKubernetesによる運用、AIワークロードの実行などを一元管理および自動化することで、最適な環境で各ワークロードの処理が可能となり、開発環境の構築や計算リソースの調整などにかかる手間を削減し、運用負荷とコストの低減を実現するとともに、変化する要件にも柔軟に対応できる安定した環境を実現する。

　同社では、「通信基盤を生かしてAI時代の社会インフラを構築するTelco AI Cloud構想に基づき、『AIデータセンター GPUクラウド』と『AI-RAN』を統合することで、学習から推論までのAIの計算処理の最適化を図るとともに、低遅延・高信頼を実現するソブリン性を備えた分散型のAIインフラの構築を目指していきます」としている。

「AIデータセンター GPUクラウド」の特徴

学習から推論まで幅広いワークロードに対応可能

　LLMの開発など大量の計算資源を必要とするAIの学習用途から、迅速なレスポンスが求められる推論用途まで、幅広いワークロードに対応したGPU環境を提供。「NVIDIA GB200 NVL72」をはじめとする最先端のアクセラレーテッドコンピューティング基盤上で、NVIDIA NVLinkを介して相互接続された高性能なNVIDIA Blackwell GPU間通信と高性能なストレージを組み合わせることで、マルチテナント環境においても、LLMの学習や複雑な推論処理に適した環境を実現する。

Kubernetes as a Service（KaaS）による柔軟な運用

　Kubernetesの活用で、多数のコンテナを一元的かつ自動的に管理することができ、開発環境の構成変更やスケーリングといった煩雑な運用負荷を軽減する。また、コンテナ技術によって、アプリケーションの起動を高速化。デプロイやスケーリングを効率化し、AIモデルの開発から実装、運用までの一連のプロセスを迅速化する。さらに、Kubernetesによる負荷分散で安定したサービス提供を可能にすると同時に、障害発生時に自動復旧する仕組みにより、高い継続性を実現する。

Inference as a Service（Inf-aaS）によるモデル推論環境の提供

　Kubernetes上でのモデル推論基盤の構築・運用を自動化により、推論API（Application Programming Interface）の構築を支援。インフラ管理にかかる負荷を軽減して、独自開発のAIモデルや任意のAIモデルを選択するだけで、安定した推論環境を利用できるようになる。

「Infrinia AI Cloud OS」について

　Infrinia AI Cloud OSは、次世代のAIインフラアーキテクチャーやシステムの開発を担うInfriniaチームにより開発された、AIデータセンター向けのソフトウエアスタック。マルチテナント環境に対応したKaaSと、LLMの推論機能をAPIとして提供するInf-aaSを自社のGPUクラウドサービスの機能として構築できる。

　また、オーダーメードのソリューションの導入や自社開発をした場合と比較して、TCO（Total Cost of Ownership：総所有コスト）や運用負荷の低減が期待できるため、AIモデルの学習から推論まで効率的かつ柔軟にできるGPUクラウドサービスを提供可能となる。