データポイズニング

データポイズニングとは?

データポイズニング(データ汚染)とは、機械学習(ML)または人工知能(AI)モデルのトレーニングに使用されるデータセットに対して、意図的にデータを挿入、変更、または削除し、結果として得られるモデルの動作を破壊または操作することを目的とした攻撃行為です。これらの攻撃は、微妙な脆弱性の導入、出力のバイアス化、パフォーマンスの低下、または特定の条件下で発動する隠れた動作(バックドア)の埋め込みを引き起こす可能性があります。

データポイズニング攻撃は、わずかな汚染(トレーニングデータの0.001%程度)でもモデル精度を最大30%低下させることが示されており、安全性が重要なシステムにおいて決定境界を歪める可能性があります。攻撃者は、このような攻撃を利用してスパイ活動を可能にし、経済的損失を引き起こし、またはAIシステムに対する公共の信頼を損なう可能性があります。

AIの倫理と安全性においてデータポイズニングが重要な理由

データポイズニングリスクを高める主要なトレンド

重要なAI採用: AIは、金融、医療、防衛、重要インフラなど、モデルの完全性が最も重要な高リスク領域でますます使用されています。

信頼できないデータソース: 多くのMLモデルは、公開データ、Webスクレイピング、またはクラウドソーシングされたデータでトレーニングされており、意図的な操作への露出が高まっています。

複雑で動的なパイプライン: 頻繁なモデル更新、継続的学習、および検索拡張生成(RAG)により、汚染されたサンプルの取り込みポイントが繰り返し提供されます。

攻撃者の高度化の進展: スクリプトキディから国家主体まで、攻撃者はスプリットビューポイズニング、ステルストリガー、サプライチェーン攻撃を開発しています。

データポイズニングは、バイアスを導入し、公平性を損ない、自動化された意思決定の信頼性を低下させることで害を引き起こす可能性があるため、AIの倫理的使用に対する直接的な脅威です。

データポイズニング攻撃の仕組み

攻撃ベクトルとライフサイクルステージ

データポイズニングは、機械学習パイプラインのあらゆる段階を標的にすることができます:

ステージ	ポイズニングベクトルの例	影響
事前トレーニング	オープンソースデータセットまたはWebスクレイプへの悪意のあるサンプルの挿入	体系的なバイアス、グローバルなモデルドリフト、永続的なバックドア
ファインチューニング	改ざんまたは誤ラベル付けされたドメイン固有のデータ、コードリポジトリ	標的型エラー、モデル固有のバックドア
検索(RAG)	外部ナレッジベースへの悪意のあるドキュメントの挿入	汚染された回答、ハルシネーション
合成データ	隠れたトリガーでシードされた生成データパイプライン	ポイズンの伝播、世代間汚染
モデルサプライチェーン	公開リポジトリにアップロードされた悪意のあるトレーニング済みモデル	ダウンストリームの侵害、サプライチェーンリスク

攻撃手法

インジェクション: 攻撃者が作成した新しいデータポイントの導入(例:偽レビュー、改変されたコード)。
変更: 既存のレコードの微妙な編集によるバイアスまたはトリガーの導入。
ラベルフリッピング: 教師ありデータセットのラベルを変更し、誤分類を誘発。
バックドア埋め込み: トリガーで悪意のある動作を発動させる隠れた信号の埋め込み。
削除: エッジケースまたは重要なデータを削除し、まれなシナリオでのエラー率を増加。

攻撃者の動機と脅威アクター

内部者: 直接アクセス権を持つ内部者(エンジニア、データサイエンティスト)は、ステルスで標的型の攻撃を実行できます。
外部攻撃者: 攻撃者は、公開データソース、オープンリポジトリ、または連合学習ノードを標的にする可能性があります。
サプライチェーン攻撃者: 信頼されたプラットフォーム(例:Hugging Face、GitHub)を介して配布される汚染されたモデルまたはデータセット。
国家および軍事アクター: 国家主体の作戦は、戦略的な混乱またはインテリジェンスのためにデータポイズニングを使用する可能性があります。

データポイズニング攻撃の種類

攻撃分類表

攻撃タイプ	説明	シナリオ例	ステルス性
ラベルフリッピング	トレーニングサンプルのラベルを変更して誤分類を誘発	メールフィルタリングにおけるスパム/ハムの反転	中程度
ポイズンインジェクション	ラベルの有無にかかわらず、作成されたデータポイントを追加	偽レビュー、ボット生成コンテンツ	低~中
データ変更	既存データの特徴を編集してバイアスまたはトリガーを導入	改ざんされた医療記録、コードベースの変更	高
バックドア/トリガー型	特定の条件下で悪意のある動作を発動させる隠れたパターンの埋め込み	秘密のフレーズトリガー、画像透かし	非常に高
クリーンラベル	有効に見え、正しいラベルを持つ汚染されたサンプル	ステルス画像摂動	高
ダーティラベル	意図的に誤ったラベルを持つ汚染されたサンプル	入れ替えられた画像-キャプションペア	中程度
スプリットビュー/ゆでガエル	検出を回避するためにトレーニングサイクル全体で段階的にポイズニング	ニュースコーパスへの緩やかなバイアス注入	非常に高
直接/間接	直接:トレーニングパイプライン内;間接:公開データを介した上流	データセットにスクレイピングされた偽Webページ	可変

症状と検出

データポイズニングの一般的な兆候

モデル精度の低下: 精度、適合率、または再現率の突然のまたは説明のつかない低下。
予期しない出力: 異常、不規則、または文脈的に不合理な予測。
バイアス/有害性: 人口統計学的またはトピック的なバイアス、または攻撃的なコンテンツの出現。
バックドアの発動: まれなトリガーが存在する場合を除いて正常な動作。
モデルドリフト: 特にエッジケースやカナリアケースでの出力分布のシフト。

検出の課題は、攻撃者がステルス、クリーンラベル、または段階的に導入された汚染データを使用することに起因します。高度な検出には、統計的異常検出、敵対的プローブ、および継続的な監視が必要です。

診断表

症状	診断質問
モデルの劣化	明確な原因なしにモデルのパフォーマンスが低下しましたか?
意図しない出力	説明のつかない、または不規則な予測がありますか?
偽陽性/偽陰性の急増	誤分類またはエラー率の増加がありますか?
バイアスのある結果	出力に予期しない人口統計学的またはトピック的なバイアスが見られますか?
バックドアトリガー	モデルは特定のまれな入力に対して異常に反応しますか?
セキュリティイベント	最近、データ/モデルリソースへの侵害または異常なアクセスがありましたか?
疑わしい内部者活動	トレーニングデータまたはAIセキュリティ対策に異常な関心を示した従業員はいますか?

実世界のインシデントと研究

文書化されたケース

Basilisk Venom(2025年): GitHubコードコメント内の隠されたプロンプトがファインチューニングされたLLMを汚染しました。特定のフレーズが現れると、モデルはトレーニングから数か月後、オフラインでも攻撃者の指示を実行しました。

Qwen 2.5 Jailbreak(2025年): インターネット全体にシードされた悪意のあるWebテキストにより、LLMが作成されたクエリで露骨なコンテンツを出力し、RAGを介したポイズニングを実証しました。

Virus Infection Attack(2025年): 汚染された合成データがモデルの世代を通じて伝播し、初期のポイズニングを増幅しました。

ConfusedPilot(2024年): Microsoft 365 CopilotのRAG参照ドキュメント内の悪意のあるデータは、削除後もハルシネーションされた汚染された結果を持続させました。

MITRE ATLAS: Tayケース: MicrosoftのTayチャットボットは、会話トレーニングの敵対的ポイズニング後に攻撃的な出力を生成しました。

Hugging Faceサプライチェーン脅威(2024年): 攻撃者は、汚染されたデータセットでトレーニングされたモデルを公開リポジトリにアップロードし、ダウンストリームの消費者を脅かしました。

PoisonBench(2024年): ポイズニングに対するモデルの感受性をベンチマーク;大規模モデルは本質的に耐性があるわけではなく、攻撃は未知のトリガーに一般化します。

主要な研究

2018年~2025年の体系的レビュー: 最小限の敵対的摂動(汚染データの0.001%程度)でも、精度を最大30%低下させ、安全性が重要なシステムで境界を歪め、永続的なバックドアを可能にすることができます。

検出と予防: 統計的異常検出、ロバスト最適化、敵対的トレーニング、およびアンサンブル手法が総合的にモデルの回復力を向上させます。

医療への影響: 誤情報を含む0.001%のトークンのポイズニングにより、医療LLMにおける有害な完了が7~11%増加しました—標準ベンチマークでは検出されませんでした。

Silent BrandingとLosing Control: 汚染された画像生成モデルは、テキストの手がかりがなくても、微妙なトリガーでロゴまたはNSFWコンテンツを再現します。

結果とリスク

ビジネスと安全性への影響表

影響領域	結果の例	リスクレベル
セキュリティ	バックドアトリガーにより認証バイパスまたはデータ流出が可能に	重大
安全性が重要なシステム	自動運転車が標識/物体を誤分類し、衝突のリスク	重大
医療	バイアスのある医療LLMが安全でない治療を推奨	高
金融	不正検出モデルが犯罪パターンを見逃す	高
一般的なモデル品質	精度の低下、バイアスのある出力、信頼の喪失	深刻
規制コンプライアンス	出力が法的/倫理的ガイドラインに違反	高
サプライチェーン	汚染されたオープンソースモデルがダウンストリームの消費者に影響	深刻

ポイズニングによる財務的、評判的、および安全性の害は、コストのかかる再トレーニング、インシデント対応、および規制上の是正措置を必要とする場合があります。影響は、侵害されたデータが削除された後も持続することがよくあります。

検出と予防のベストプラクティス

包括的な防御チェックリスト

データの出所と検証

信頼できるリポジトリからのみソースを取得;データの起源の詳細な記録を維持
継続的なデータ検証:重複排除、品質チェック、有害性、バイアス、または異常の自動フィルタリング
合成データ汚染の監視:汚染されたサンプルの伝播を追跡

アクセス制御と安全なデータ処理

最小権限アクセスを実施し、保存中および転送中のデータを暗号化
異常または不正なアクティビティのアクセスログを監査

監視と異常検出

説明のつかないドリフトまたはエラー率の急増についてモデルの動作を継続的に監視
データ/モデル出力の外れ値にフラグを立てるために統計およびMLベースの異常検出を展開
標的型攻撃を検出するためにカナリア/エッジケースでモデルのパフォーマンスをテスト

敵対的テストとレッドチーム

レッドチーム演習を使用してポイズニング攻撃をシミュレート
バックドアトリガーとエッジケースの失敗をプローブ

データのバージョン管理と復旧

侵害後のロールバックを可能にするためにデータバージョン管理(DVC)を実装
検証と復旧のためのクリーンな参照セットを維持

ランタイムガードレール

異常または非準拠のモデル動作を制限するために出力監視とポリシーベースの制御を展開

ユーザー教育と意識向上

ポイズニングの症状を認識し、疑わしいモデルの動作を報告するようにスタッフをトレーニング
明確なインシデント対応プロトコルを確立

サプライチェーンとインフラストラクチャのセキュリティ

サードパーティのデータベンダーとオープンソースソースを精査
改ざんに対してモデルリポジトリとアーティファクトストレージを強化
意図されたデータソースのみへのモデルアクセスを制限

技術的予防メカニズム

敵対的トレーニング: ロバスト性を高めるために敵対的に生成されたサンプルでモデルをトレーニング
アンサンブル学習: 複数のモデルを使用し、ポイズニングによって引き起こされる不整合を検出するために出力を比較
データ出所追跡: 不変のデータ系統のためにブロックチェーンまたは暗号化手法を活用
定期的なベンチマーク: 回復力をテストするために敵対的および汚染データベンチマークを使用

データポイズニング

データポイズニングとは?

AIの倫理と安全性においてデータポイズニングが重要な理由

データポイズニングリスクを高める主要なトレンド

データポイズニング攻撃の仕組み

攻撃ベクトルとライフサイクルステージ

攻撃手法

攻撃者の動機と脅威アクター

データポイズニング攻撃の種類

攻撃分類表

症状と検出

データポイズニングの一般的な兆候

診断表

実世界のインシデントと研究

文書化されたケース

主要な研究

結果とリスク

ビジネスと安全性への影響表

検出と予防のベストプラクティス

包括的な防御チェックリスト

参考文献

関連用語

モデルロバストネス

レッドチーミング

敵対的ロバストネス

敵対的攻撃

ヒューマン・イン・ザ・ループ(HITL)

モデルカード

データポイズニングとは?

AIの倫理と安全性においてデータポイズニングが重要な理由

データポイズニングリスクを高める主要なトレンド

データポイズニング攻撃の仕組み

攻撃ベクトルとライフサイクルステージ

攻撃手法

攻撃者の動機と脅威アクター

データポイズニング攻撃の種類

攻撃分類表

症状と検出

データポイズニングの一般的な兆候

診断表

実世界のインシデントと研究

文書化されたケース

主要な研究

結果とリスク

ビジネスと安全性への影響表

検出と予防のベストプラクティス

包括的な防御チェックリスト

参考文献

関連用語

モデルロバストネス

レッドチーミング

敵対的ロバストネス

敵対的攻撃

ヒューマン・イン・ザ・ループ(HITL)

モデルカード

クッキー設定

必要なクッキー

分析クッキー