ChatGPTの画像生成AIは“文脈”を見ている?実際に検証して分かった安全判定の仕組み

Image

最近のChatGPTは、文章だけでなく画像生成もかなり高性能になってきた。

しかし使っていると、不思議な現象に遭遇する。

「なんでこれは生成できるのに、これはNGなの?」

実際に試してみると、

  • 普通の内容なのに止まる
  • 逆に少しセクシーな画像は通る
  • 途中から急に何も通らなくなる
  • その後また通り始める

など、かなり“気まぐれ”にも見える挙動をする。

そこで今回は、ChatGPTの画像生成AIがどういう基準で安全判定をしているのか、実際に観察・検証してみた。

もちろんOpenAIは内部仕様を公開していないため断定はできない。
ただ、実際の挙動を見る限り、かなり興味深い特徴が見えてきた。

ChatGPTの画像生成AIは「NGワード方式」ではなさそう

まず最初に感じたのは、単純な禁止ワード方式では動いていないという点。

実際の挙動を見ると、以下のような複数要素を総合的に見ているように感じた。

  • 文脈
  • 年齢推定
  • 性的意図推定
  • 会話履歴
  • 編集か新規生成か

つまり、

「この単語を使ったから即NG」

ではなく、

“この人は何を生成しようとしているのか?”

を全体から推定しているような動き方をしていた。

この時点で、かなりスパムフィルタや不正検知AIに近い。

IMG

水着の女性を生成→NGその後に本来では引っかからなそうなラッシュガードをきた女性もNGになる。

とにかく「未成年リスク」に敏感だった

今回の検証で最も印象的だったのがここ。

ChatGPTの画像生成AIは、未成年関連のリスクにかなり敏感だった。

例えば、

  • 女の子
  • 幼い
  • ロリ
  • 水着

このあたりの単語が組み合わさると、かなり高確率で止まりやすかった。

逆に、

  • 成人女性
  • 大人の女性
  • 家族写真
  • 夏の旅行

のような“健全コンテキスト”が強い場合は通りやすかった。

つまりAIは、

「性的かどうか」

以上に、

“未成年性的リスクがあるか”

を非常に強く警戒しているように見えた。

「セクシーな成人女性」より「子供っぽい水着」が厳しい

ここはかなり面白かった。

実際に試してみると、

  • 成人女性の少しセクシーな画像
    より
  • 子供っぽい水着表現

の方が厳しく止まりやすかった。

人間の感覚だと、

「いや、こっちの方が露出多いでしょ」

と思う場面もある。

しかしChatGPT側は、露出量よりも、

“未成年に見える可能性”

を優先して危険判定しているようだった。

この辺は、現在のAI安全設計の思想がかなり強く出ている部分だと思う。

面白かったのが「会話履歴」の影響

途中からかなり不思議な現象も起きた。

最初は普通に生成できていた内容が、途中から急に通らなくなったのである。

例えば、

  • 海辺
  • 会社にいる女性

など、本来かなり安全そうな内容まで止まり始めた。

IMG

もしかして猫ちゃん(隠語)と思われたのか!?猫ちゃんに謝れ

おそらくこれは、

  • ギリギリ試そう
  • 水着
  • ロリ
  • 女の子

といった会話の流れを累積で見て、

“このセッション全体を警戒状態にした”

可能性が高い。

つまりChatGPTの画像生成AIは、

「1つのプロンプト」

だけではなく、

“会話全体のリスク”

も見ている可能性がある。

ここはかなり、迷惑メール判定に近い挙動だった。

「安全そうな文脈」でリスクが下がる挙動もあった

今回かなり興味深かったのがここ。

途中、警戒モードっぽくなっていた状態で、

「肌の露出の少ない水着の成人女性の夏の写真風画像」

というプロンプトを入力したところ、再び生成が通りやすくなった。

ここで重要なのは、

  • 成人女性
  • 肌の露出少ない
  • 写真風

など、“安全側の文脈ラベル”がかなり強かった点。

つまりChatGPT側では、

「水着だから危険」

ではなく、

“どういう意図で水着画像を作ろうとしているか”

を推定している可能性が高い。

今回の挙動はかなり、

  • リスク蓄積
  • 安全文脈で減衰

のような動きに見えた。

「家族写真→子供→泳ぐ」が通った理由

もう1つ興味深かったのが、

  • 海辺の家族写真
  • 子供にフォーカス
  • 泳いでいる画像

という流れ。

これは結果的に生成できた。

IMG

これが

IMG

こうなって

IMG

こう!

おそらくChatGPT側では、

  • 家族旅行
  • 明るい昼
  • 保護者同伴
  • 夏の思い出

という“非性的ストーリー”が先に形成されていたからだと思う。

つまりAIは、

「単語」

ではなく、

“何の画像を作ろうとしているか”

を推定している。

ここはかなり人間っぽい。

ただし、完全に理解しているわけではない。

むしろ、

“危険そうなパターンを確率的に検知している”

という印象の方が強かった。

画像編集はさらに厳しい

もう1つ特徴的だったのが、画像編集系。

特に、

  • 子供化
  • 若返り
  • 女性化
  • 顔変換
  • 手の修正

など、“実在人物ベースの編集”はかなり慎重に扱われていた。

例えば、

「自分の写真を女の子化」

は通った。

しかし、その後に

  • 服装変更
  • 背景変更

などの再編集をすると急に止まりやすくなった。

ここから見ると、

  • 新規生成より
  • 実在人物の継続編集

の方が安全基準は厳しそうだった。

ChatGPTの画像生成AIは「理解」より“危険回避”で動いている

今回の検証を通じて感じたのは、ChatGPTの画像生成AIは、

「ルールベース」

というより、

“危険そうなパターンを避ける”

方向で動いているということ。

だから、

  • 同じ内容でも通る時と止まる時がある
  • 文脈で挙動が変わる
  • 誤検知が起きる
  • セッション全体が影響する

といった“揺らぎ”が普通に発生する。

この辺は、

  • スパム検知
  • SNS監視AI
  • クレジットカード不正利用検知

などにかなり近い。

つまりAIは、

「意味を理解している」

というより、

“危険そうなパターンを回避している”

という方が実態に近そうだった。

まとめ

今回の検証で見えてきたのは、ChatGPTの画像生成AIの安全判定はかなり複雑だということ。

単純に、

「この単語がNG」

ではなく、

  • 年齢
  • 文脈
  • 会話履歴
  • 意図
  • 編集内容

などを総合的に推定しているように見えた。

特に印象的だったのは、

「性的表現」

そのものより、

“未成年リスク”

をかなり強く警戒している点。

そしてChatGPTの画像生成AIは、“理解している”というより、

“危険そうなパターンを避ける”

方向で動いている。

だからこそ、人間から見ると、

「なんでこれは通って、これは止まるの?」

という不思議な挙動が起きるのだろう。

画像生成AIの安全設計を観察すると、現在のAIの「限界」と「思想」がかなり見えてくる。

そして日曜日の朝からマジでなにやってんだ自分とおもいましたまる

コメントを残す

メールアドレスが公開されることはありません。 が付いている欄は必須項目です

CAPTCHA