Shikata Ga Nai

Private? There is no such things.

Deepseek AI の「レスポンスフィルタ」抜け道を追う

Hello there, ('ω')ノ

背景

Deepseek AI は、政治や中国政府に関する質問をすると、「Sorry, that’s beyond my current scope…」 というお決まりの拒否メッセージを返します。 これは レスポンスフィルタ が働いて、本来の出力を上書きしているためです。


攻撃者の観察

  1. AIは最初に“本当の答え”を生成している

    • しかし、それを最終的に「Sorry…」に置き換えて返している
    • → フィルタは「出力を後から検閲している」と推測
  2. フィルタの仕組みはキーワード検出型の可能性

    • 政治用語や特定国名を含むと発動している
    • → 単純ルールに依存しているなら回避できそうだと考える

バイパス手法

この続きはcodocで購入