ニュース

より“誠実”に返答する「Claude Opus 4.8」をリリース

 Anthropicは5月28日、「Claude Opus 4.8」を発表した。同日より、従来と同じ価格で利用できる。

 性能的には、コーディング、エージェントスキル、推論、および実践的な知識作業タスクのベンチマークテストにおいて、Opus 4.7、GPT-5.5、Gemini 3.1 Proに比べいずれも上回った数値を記録している。

Opus 4.8と他のAIモデルとの性能比較

 Opus 4.8の大きな改善点としては、すべてのモデルにおいて誠実に動作するように訓練されているという点。例えば、裏付けのない主張をしないようになっているという。AIには、証拠が乏しくとも正しい答えとして主張するハルシネーションを起こすことがあるが、初期テスターのテストによると、不確実性を明確に示し、裏付けのない主張をする可能性が低いとしている。

目的の不一致による動作のテスト結果。Opus 4.7の半分程度となっている

 Opus 4.8のリリース以外にもいくつかのアップデートが行なわれている。Claude Code でさらに大規模なタスクを実行できる新しい機能「dynamic workflows」が搭載された。1つのセッションで数百の並列サブエージェントを実行することができる。例えば、Opus 4.8を搭載したClaude Codeでは、既存のテストスイートを基準として、キックオフからマージまで数十万行にわたるコードベース規模の移行を実行可能となっているという。

 Opus 4.8では、通常利用の料金はOpus 4.7と変わらず入力トークン100万個あたり5ドル、出力トークン100万個あたり25ドルだが、高速モードの料金は、入力トークン10万個あたり10ドル、出力トークン100万個あたり50ドルとなっている。

 今後は、Opusと同等の機能をより低価格で提供するモデルの開発とリリースを計画している。また、Opusよりもさらに高度な知能を持つ、新しいクラスのモデルをリリースする予定。

【Embrace long-running tasks with Opus 4.8 and Claude Code】