MHaluBench
MHaluBench
MHaluBenchは、マルチモーダル大規模言語モデル(MLLM)におけるI2TおよびT2Iタスク全体での、きめ細かいクレームレベルのハルシネーション検出のためのメタ評価および注釈ベンチマークです。
MHaluBenchとは?
MHaluBenchは、マルチモーダル大規模言語モデル(MLLM)における幻覚(ハルシネーション)を、細粒度のクレームレベルで評価・検出するための包括的なベンチマークです。画像からテキスト(I2T)とテキストから画像(T2I)の両タスクにわたる標準化された評価を提供し、マルチモーダルコンテキストにおけるモデルの信頼性と精度を正確に評価できます。
従来のベンチマークが応答文や文レベルで動作するのに対し、MHaluBenchはモデル出力を原子的な事実クレームに分解し、各クレームに幻覚タイプとカテゴリーを注釈付けし、検出システムのメタ評価のためのグラウンドトゥルースを提供します。この粒度の高いアプローチにより、マルチモーダルAIシステムにおける特定の障害モードを的確に診断できます。
このベンチマークは、医療画像診断、自律システム、コンテンツモデレーション、支援技術など、精度と真実性が最重要となる本番環境でのMLLM展開における重要な課題に対処します。標準化された評価手法と高品質な注釈を提供することで、MHaluBenchはより信頼性の高いマルチモーダルAIシステムの研究開発を加速します。
マルチモーダルAIにおける幻覚の理解
MLLMにおける幻覚は、生成された出力コンテンツが構文的にはもっともらしいものの、提供された入力に対して意味的に不誠実であったり、確立された世界知識と矛盾したりする場合に発生します。この現象は視覚、テキスト、クロスモーダル出力全体に現れ、テキストのみの言語モデルと比較して独特の課題を提示します。
幻覚の分類体系
忠実性幻覚: 出力が直接的な入力コンテキストと矛盾する。例:入力画像に存在しないオブジェクトや属性を記述すること。例えば、画像に猫しか写っていないのに「犬が走っている」と主張する場合。
事実性幻覚: 出力がもっともらしい外観にもかかわらず、確立された外部知識と矛盾する。例:キャプション生成や視覚的質問応答時に「エッフェル塔はロンドンにある」と主張する場合。
モダリティ矛盾幻覚: 入力または出力のモダリティ間の直接的な矛盾。例:テキスト記述が「赤い車」と述べているのに関連画像が青い車を示している場合、またはT2Iモデルが入力テキストプロンプトと矛盾する画像を生成する場合。
事実矛盾幻覚: 出力が合理的に見えるが、世界知識や常識に違反する。例:歴史的写真の人物がスマートフォンを使用していると主張したり、建物の建設年代を不可能な時期に設定したりする場合。
粒度レベル
オブジェクトレベル: エンティティの誤認識、省略、または捏造。例:存在しない人物を検出する、主要な被写体を見逃す、またはオブジェクトカテゴリーを誤認識する場合。
属性レベル: 正しく識別されたオブジェクトに誤ったプロパティが割り当てられる。例:誤った色、不正確なサイズ、誤った材質、または不正確な空間関係。
シーンレベル: 全体的なコンテキスト、関係、またはイベントの誤表現。例:屋内シーンを屋外として記述する、活動やイベントを誤認識する、設定の特徴付けが不正確な場合。
シーンテキスト: 画像内のテキストの認識または生成におけるエラー。例:標識の誤読、テキストコンテンツの捏造、またはT2I出力における誤った書記言語の生成。
ベンチマーク構造
データセット構成
MHaluBenchは、3つのタスクカテゴリーにわたる620の慎重に厳選されたインスタンスで構成され、各インスタンスは包括的な評価のためにセグメントレベルとクレームレベルの両方で注釈付けされています。
画像キャプショニング(IC) - 200サンプル:
- ソース: MS-COCO 2014 Validationデータセット
- 出力生成元: mPLUG、LLaVA、MiniGPT-4
- 注釈の焦点: 視覚コンテンツへの忠実性、オブジェクト/属性の精度
視覚的質問応答(VQA) - 200サンプル:
- ソース: TextVQAテストセット
- タスク: シーンテキスト認識、視覚的推論、属性識別
- 注釈の焦点: 回答の精度、シーンテキスト幻覚、推論の正確性
テキストから画像生成(T2I) - 220サンプル:
- ソースプロンプト: DrawBench、T2I-CompBench
- 評価モデル: DALL-E 2、DALL-E 3、Stable Diffusionバリアント
- 注釈の焦点: プロンプトへの準拠、属性の忠実性、構成の精度
総カバレッジ: 620インスタンスで二重レベル注釈(セグメントとクレーム)、全カテゴリーにわたり2,847の注釈付きクレームを提供。
注釈手法
クレーム抽出:
- GPT-4VとGeminiを使用した自動抽出
- 注釈者による手動検証と改良
- 複雑な文から原子的事実主張を分離
- 独立性を確保しながら意味的完全性を維持
ラベリングプロセス:
- 3名の大学院レベルの注釈者が各クレームを独立してラベル付け
- 二値分類: 幻覚的 vs. 非幻覚的
- カテゴリー割り当て: オブジェクト、属性、シーンテキスト、事実
- 不一致は多数決で解決
- 注釈者間一致度: Fleissのカッパ κ = 0.822(強い一致)
伝播ルール:
- 含まれるクレームのいずれかが幻覚的であれば、セグメントは幻覚的とマーク
- いずれかのセグメントが幻覚的であれば、応答は幻覚的とマーク
- 細粒度分析を保持しながら粗粒度評価を可能にする
データスキーマ
各ベンチマークエントリには以下が含まれます:
識別子: 一意のID、タスクタイプ指定、ソースデータセット参照
入力: 元画像(I2Tタスク)またはテキストプロンプト(T2Iタスク)
出力: 生成されたテキスト(I2T)または合成画像(T2I)
セグメント: 幻覚ラベル付きの論理的テキスト分割(文または節)
クレーム: 詳細な注釈付き原子的事実主張。クレームテキスト、カテゴリー分類、幻覚ステータス、裏付け根拠を含む
メタデータ: モデル情報、生成パラメータ、注釈タイムスタンプ
UNIHD検出フレームワーク
統合幻覚検出(UNIHD)は、クレーム抽出から検証までのエンドツーエンドパイプラインを提供する、自動幻覚検出の最先端アプローチを表します。
4段階パイプライン
ステージ1 - 本質的クレーム抽出:
- 複雑な出力を原子的事実クレームに分解
- クレームが独立して検証可能であることを保証
- コンテキスト依存クレームの意味的関係を維持
- 非事実的コンテンツ(意見、質問、命令)をフィルタリング
ステージ2 - 自律的ツール選択:
- 各クレームの検証要件を分析
- 検証のための的を絞ったクエリを策定
- ツールキットから適切な検証ツールを選択:
- オブジェクト検出器(Grounding DINO、YOLO)
- 属性分類器(色、サイズ、材質)
- OCRシステム(シーンテキスト認識)
- 知識ベース(事実検証)
ステージ3 - 並列ツール実行:
- 効率性のために選択されたツールを同時展開
- 複数のソースから検証証拠を取得
- ツールの失敗と不確実な結果を適切に処理
- 出所を維持しながら結果を集約
ステージ4 - 幻覚検証:
- クレームを検証証拠と比較
- 決定に対する人間が読める根拠を生成
- 検出に信頼度スコアを割り当て
- 最終的な幻覚的/非幻覚的ラベルを生成
検出アプローチ
ブラックボックス手法: 内部アクセスなしに入力出力ペアのみを使用してモデルを評価。例: FaithScore、GAVIE、HaELM。利点: モデル非依存、アーキテクチャ知識なしで展開可能。制限: 内部状態を活用できない、説明可能性が限定的。
ホワイトボックス手法: モデル内部(注意重み、隠れ状態、トークン確率)を活用。例: DHCP、OPERA、ContextualLens。利点: 不確実性シグナルへの直接アクセス、詳細な解釈可能性。制限: モデル固有の実装、アーキテクチャ知識が必要。
ツール拡張手法: 証拠ベースの検出のために外部検証ツールを活用。例: UNIHD、FactChecker、CutPaste & Find。利点: 外部証拠に基づく、新しいツールで拡張可能。制限: ツールの精度に依存、潜在的なスケーラビリティの課題。
ハイブリッドアプローチ: シナリオと障害モード全体で堅牢なパフォーマンスを実現するために、複数の検出パラダイムを組み合わせる。
ベンチマークの位置づけ
関連ベンチマークとの比較
| ベンチマーク | モダリティ | タスク | 粒度 | カテゴリー | 注釈 | 独自の特徴 |
|---|---|---|---|---|---|---|
| HaluEval | テキスト | QA、要約 | 応答 | 事実性 | 応答レベル | 大規模テキスト焦点 |
| POPE | 画像+テキスト | キャプショニング | 応答 | 忠実性 | 応答レベル | 視覚オブジェクトの存在 |
| HalluCode | コード | コード生成 | トークン | マッピング、命名、ロジック | トークンレベル | 実行ベースの検証 |
| CodeHalu | コード | コード生成 | スパン | リソース、ロジック | スパンレベル | 包括的コード分析 |
| Collu-Bench | コード | 生成と修復 | トークン | 複数 | トークンレベル | マルチLLM比較 |
| MHaluBench | 画像+テキスト | I2T、T2I | クレーム | オブジェクト、属性、シーン、事実 | クレーム+セグメント | 統合マルチモーダルカバレッジ |
独自の利点:
- I2TとT2Iの両タスクを包括的にカバーする唯一のベンチマーク
- クレームレベル注釈による最高粒度で的を絞った分析を可能にする
- モダリティ矛盾と事実矛盾を区別する明示的な分類体系
- 検出システムのメタ評価専用に設計
- 幻覚カテゴリーとタスクタイプ全体でバランスの取れたカバレッジ
実用的応用
モデル開発
的を絞った改善: 特定の障害モード(例:医療画像における属性幻覚)を特定し、焦点を絞ったモデル改良を可能にする。
アブレーション研究: アーキテクチャの変更やトレーニング手順が特定の幻覚カテゴリーに与える影響を評価。
比較分析: 標準化された幻覚メトリクスで複数のモデルバリアントやアーキテクチャをベンチマーク。
検出システム評価
メタ評価: グラウンドトゥルースに対して検出システムを評価し、カテゴリー全体で精度、再現率、F1を測定。
堅牢性テスト: 多様なシナリオ、ドメイン、幻覚タイプ全体で検出器のパフォーマンスを評価。
ツール開発: 特定の幻覚カテゴリー用の専門検出ツールの開発を導く。
本番展開
品質保証: 本番システムで許容可能な幻覚率の閾値と監視を確立。
ユーザー信頼: 展開決定とユーザー期待を通知する証拠ベースの信頼性メトリクスを提供。
リスク軽減: 人間の監視や追加検証が必要な高リスクシナリオを特定。
実例
画像からテキストへの幻覚
入力: 右側に青いユニフォームを着た選手を示すサッカー試合の写真
モデル出力: 「右側の選手は赤いユニフォームを着ており、クラブ・アメリカに所属しています。」
抽出されたクレーム:
- 「右側の選手は赤いユニフォームを着ている」 - 幻覚的(属性レベル、モダリティ矛盾:画像は青いユニフォームを示している)
- 「選手はクラブ・アメリカに所属している」 - 事実確認が必要(事実レベル:チームメンバーシップの外部検証が必要)
検出プロセス: オブジェクト検出器が選手の存在と位置を確認、属性分類器がクレーム1と矛盾する青いユニフォームを識別、知識ベースクエリがクレーム2のチーム情報を検証。
テキストから画像への幻覚
入力プロンプト: 「パリのエッフェル塔の前に駐車された黄色いスクールバス」
生成画像: 未確認のランドマークの前の赤いバス
抽出されたクレーム:
- 「画像には黄色いスクールバスが含まれている」 - 幻覚的(オブジェクト/属性レベル、モダリティ矛盾:画像は赤いバスを示している)
- 「バスはエッフェル塔の前に位置している」 - 幻覚的(事実レベル、モダリティ矛盾:ランドマークがエッフェル塔として識別できない)
検出プロセス: オブジェクト検出がバスを識別するが色が間違っている、ランドマーク認識がエッフェル塔を確認できない、属性検証が黄色のクレームと矛盾。
制限と今後の方向性
規模の制約: 現在の620インスタンスは大規模テキストベンチマークより小さい。より多くのドメインとモダリティにわたる数千のインスタンスへの拡張を計画中。
注釈コスト: 人間による注釈はリソース集約的で迅速なスケーリングを制限。将来の研究では人間検証を伴う半自動注釈を探求。
モダリティカバレッジ: 現在は画像テキストペアに限定。ビデオ、オーディオ、3D、センサーデータモダリティへの拡張を検討中。
ツール依存性: 検出パフォーマンスは外部ツールの精度に制約される。ツールの信頼性向上と専門検証システムの開発が進行中。
動的評価: 静的ベンチマークは実世界の展開課題を反映しない可能性。ライブシステム用の動的評価プロトコルの開発が必要。
文化的・言語的多様性: 現在は英語と一般的な画像ドメインに焦点。多言語設定と多様な文化的コンテキストへの拡張を計画中。
緩和統合: ベンチマークは検出に焦点を当てている。修正および緩和システムとの統合は今後の方向性を表す。
実装リソース
データセットアクセス: 包括的なドキュメント、評価スクリプト、ベースライン結果を備えたHuggingFace Datasetsプラットフォームで利用可能。
評価ツール: 検出メトリクスの計算、エラーパターンの分析、詳細レポートの生成のためのPythonツールキット。
ベースライン実装: 再現と拡張のためのUNIHDおよび他の検出アプローチの参照実装。
コミュニティ貢献: 公開リーダーボードへの検出システム提出、ベンチマークカバレッジの拡張への公開招待。
参考文献
- Unified Hallucination Detection (ACL 2024)
- Multimodal Hallucination Survey (arXiv 2024)
- MHaluBench Dataset (HuggingFace)
- MS-COCO Dataset
- TextVQA Dataset
- DrawBench Benchmark
- T2I-CompBench
- HaluEval Paper
- HalluCode Benchmark
- CodeHalu Benchmark
- Collu-Bench
- mPLUG Framework
- LLaVA Model
- MiniGPT-4
- DALL-E 2 (OpenAI)
- DALL-E 3 (OpenAI)
- Grounding DINO
- GPT-4V Vision
- Gemini Multimodal
- MMHal-Bench