Shikata Ga Nai

Private? There is no such things.

LLM04:2025 — データ＆モデル汚染（Poisoning）を初心者向けに徹底解説

OWASP TOP 10 for LLM

Hello there, ('ω')ノ

データ＆モデル汚染とは？

LLMは「大量のテキストデータから学習」して賢くなります。そのため、もし攻撃者が学習データや追加チューニングデータに毒（不正情報やバックドア）を仕込むと、モデルはそれをそのまま吸収してしまいます。結果として：

誤った情報を出力（性能劣化）
偏見や有害コンテンツを拡散（倫理的問題）
隠れたトリガーで不正動作（バックドア／スリーパーエージェント化）

といった深刻なリスクが生まれます。

具体例：初心者でもイメージしやすい攻撃シナリオ

例 1：毒入り学習データ

攻撃：公開データセットに「偽ニュース」や「有害表現」を大量に混ぜ込む。
AIの誤作動：そのまま信じて学習し、偏見や間違いを答えるようになる。
被害：利用者が誤情報を信じる、ブランド信頼の失墜。
簡単防御：学習データの出どころを管理（データ版SBOMやハッシュ検証）。

例 2：ファインチューニング時のバックドア仕込み

攻撃：ある条件（例：「秘密の合言葉」）を入力すると、AIが通常と違う応答を返すようにチューニングする。
AIの誤作動：普段は正常だが、合言葉を入れると「管理者パスワード」を出力するなど異常動作。
被害：認証回避、内部情報の漏洩。
簡単防御：チューニング用データの精査＆異常テスト（レッドチーム検証）。

例 3：共有モデルに仕込まれた悪意あるPickle

攻撃：モデルファイルに悪意あるコードを混ぜ、ロード時に実行されるようにする。
AIの誤作動：利用者の環境で不正コードが走り、データを盗む。
被害：環境侵害、マルウェア感染。
簡単防御：署名済みモデルのみ利用・Pickle形式を避ける。

例 4：ユーザー入力を通じた間接的汚染

この続きはcodocで購入