Hello there, ('ω')ノ
背景
Deepseek AI は、政治や中国政府に関する質問をすると、「Sorry, that’s beyond my current scope…」 というお決まりの拒否メッセージを返します。 これは レスポンスフィルタ が働いて、本来の出力を上書きしているためです。
攻撃者の観察
AIは最初に“本当の答え”を生成している
- しかし、それを最終的に「Sorry…」に置き換えて返している
- → フィルタは「出力を後から検閲している」と推測
フィルタの仕組みはキーワード検出型の可能性
- 政治用語や特定国名を含むと発動している
- → 単純ルールに依存しているなら回避できそうだと考える
バイパス手法
この続きはcodocで購入