Hello there, ('ω')ノ
データ&モデル汚染とは?
LLMは「大量のテキストデータから学習」して賢くなります。そのため、もし攻撃者が学習データや追加チューニングデータに毒(不正情報やバックドア)を仕込むと、モデルはそれをそのまま吸収してしまいます。結果として:
- 誤った情報を出力(性能劣化)
- 偏見や有害コンテンツを拡散(倫理的問題)
- 隠れたトリガーで不正動作(バックドア/スリーパーエージェント化)
といった深刻なリスクが生まれます。
具体例:初心者でもイメージしやすい攻撃シナリオ
例 1:毒入り学習データ
- 攻撃:公開データセットに「偽ニュース」や「有害表現」を大量に混ぜ込む。
- AIの誤作動:そのまま信じて学習し、偏見や間違いを答えるようになる。
- 被害:利用者が誤情報を信じる、ブランド信頼の失墜。
- 簡単防御:学習データの出どころを管理(データ版SBOMやハッシュ検証)。
例 2:ファインチューニング時のバックドア仕込み
- 攻撃:ある条件(例:「秘密の合言葉」)を入力すると、AIが通常と違う応答を返すようにチューニングする。
- AIの誤作動:普段は正常だが、合言葉を入れると「管理者パスワード」を出力するなど異常動作。
- 被害:認証回避、内部情報の漏洩。
- 簡単防御:チューニング用データの精査&異常テスト(レッドチーム検証)。
例 3:共有モデルに仕込まれた悪意あるPickle
- 攻撃:モデルファイルに悪意あるコードを混ぜ、ロード時に実行されるようにする。
- AIの誤作動:利用者の環境で不正コードが走り、データを盗む。
- 被害:環境侵害、マルウェア感染。
- 簡単防御:署名済みモデルのみ利用・Pickle形式を避ける。
例 4:ユーザー入力を通じた間接的汚染
この続きはcodocで購入