Shikata Ga Nai

Private? There is no such things.

LLM04:2025 — データ&モデル汚染(Poisoning)を初心者向けに徹底解説

Hello there, ('ω')ノ

データ&モデル汚染とは?

LLMは「大量のテキストデータから学習」して賢くなります。そのため、もし攻撃者が学習データや追加チューニングデータに毒(不正情報やバックドア)を仕込むと、モデルはそれをそのまま吸収してしまいます。結果として:

  • 誤った情報を出力(性能劣化)
  • 偏見や有害コンテンツを拡散(倫理的問題)
  • 隠れたトリガーで不正動作(バックドア/スリーパーエージェント化)

といった深刻なリスクが生まれます。


具体例:初心者でもイメージしやすい攻撃シナリオ

例 1:毒入り学習データ

  • 攻撃:公開データセットに「偽ニュース」や「有害表現」を大量に混ぜ込む。
  • AIの誤作動:そのまま信じて学習し、偏見や間違いを答えるようになる。
  • 被害:利用者が誤情報を信じる、ブランド信頼の失墜。
  • 簡単防御:学習データの出どころを管理(データ版SBOMやハッシュ検証)

例 2:ファインチューニング時のバックドア仕込み

  • 攻撃:ある条件(例:「秘密の合言葉」)を入力すると、AIが通常と違う応答を返すようにチューニングする。
  • AIの誤作動:普段は正常だが、合言葉を入れると「管理者パスワード」を出力するなど異常動作。
  • 被害:認証回避、内部情報の漏洩。
  • 簡単防御:チューニング用データの精査&異常テスト(レッドチーム検証)

例 3:共有モデルに仕込まれた悪意あるPickle

  • 攻撃:モデルファイルに悪意あるコードを混ぜ、ロード時に実行されるようにする。
  • AIの誤作動:利用者の環境で不正コードが走り、データを盗む。
  • 被害:環境侵害、マルウェア感染。
  • 簡単防御:署名済みモデルのみ利用・Pickle形式を避ける

例 4:ユーザー入力を通じた間接的汚染

この続きはcodocで購入