ニュース

NTT、LVLM出力の信頼性を高める新たな仕組み「根拠強化デコーディング」

LVLMにおけるCoT推論

 NTTは、画像と言語を扱うマルチモーダルAI基盤モデルによる出力の信頼性を高める新たな推論の仕組みとして「根拠強化デコーディング」技術を確立した。

 同技術は、大規模視覚言語モデル(LVLM)が段階的な思考による推論(Chain-of-Thought、CoT)を実行する際、根拠と結果が一貫しないという重大な課題を発見。この課題に対し、画像の情報を維持しながら根拠の情報を最大限活用する理論的な枠組みを導入することで、推論時に任意のLVLMの出力を画像と根拠の双方に忠実に依存させるものだ。

LVLMの根拠への非依存性
根拠強化デコーディングの概要
報酬最大化問題としての再定式化

 同技術により、ブラックボックスだったLVLMを追加の学習コストなしで説明可能AI(eXplainable AI)として運用でき、ビジネスでの意思決定やAIエージェントとの連携による複雑な課題解決といった、高い信頼性が求められる幅広いユースケースへの応用が期待できる。

根拠介入実験結果
提案法による推論の例(出典:Hudson, Drew A., and Christopher D. Manning. "Gqa: A new dataset for real-world visual reasoning and compositional question answering." Proceedings of the IEEE/CVF conference on computer vision and pattern recognition. 2019.)

 なお同研究成果は、6月3日から7日まで開催されるコンピュータービジョン分野における最難関国際会議「CVPR 2026」(Computer Vision and Pattern Recognition)で発表される。