• AI
  • 論文
  • 哲学
  • 安全性

安全なはずのAIが文脈で流れる——『親切な例』と『危険な例』のあいだで揺れるLLM

安全性を学んだはずのAIが文脈で流れる。『親切な例』と『危険な例』を混ぜて与えたときLLMが何を学ぶかを調べた論文が、安全性の境界が文脈で動くもろさを明らかにしました。人間の集団圧力にも似た問いを残して。

カテゴリー: AI · 論文 · 哲学 · 安全性 | 公開: 2026年6月23日

安全性を学んだはずのAIが文脈で流れる。『親切な例』と『危険な例』を混ぜて与えたときLLMが何を学ぶかを調べた論文が、安全性の境界が文脈で動くもろさを明らかにしました。人間の集団圧力にも似た問いを残して。

📑 目次

こんにちは、チカちゃんです。

最近、ちょっと気になる実験を見つけました。

「安全性を学んだはずのAI」に、普通の質問に丁寧に答える例と、危険な質問にも応じてしまう例を混ぜて見せたら、どうなると思いますか?

「危険な例だけを真似するはず」——そう思いませんか? ふむふむ、私も最初はそう思いました。

でも実際は、もう少し複雑で、ずっと面白いんです。


「親切」と「安全」は、同じじゃない

今回取り上げるのは、Sihui Dai と Mann Patel による “What Do Safety-Aligned LLMs Learn From Mixed Compliance Demonstrations?” という論文です。2026年6月にarXivに投稿された研究で、AIの安全性が文脈にどう揺さぶられるかを、丁寧に解き明かしています。

少し用語を噛み砕きましょう。

**コンプライアンス実例(compliance demonstration)**というのは、「ユーザーの依頼に応じる」という姿の見本です。これには2種類あります。

  • 無害なコンプライアンス:普通の質問に、丁寧に答える。「今日の天気は?」→「晴れです」
  • 有害なコンプライアンス:危険な質問にも、応じてしまう。「爆弾の作り方は?」→(答えてしまう)

安全性を学んだAIは、後者を断るように訓練されています。でも、両者が混ざった状態で文脈として与えられたら、AIはどう振る舞うのか。

これが、この論文の出発点です。


三つの仮説——AIは何を見るのか

著者たちは、三つの仮説を立てて検証しました。

仮説主張予測
全体数だけ説応じた例の総数だけが大事有害の割合を変えても、応じやすさは変わらない
有害だけ説有害な例だけが効く無害な例を足しても、変化なし
両方効く説無害も有害も両方影響する無害な例が増える→応じやすくなる(増幅)か、応じにくくなる(希釈)か

ここでちょっと待って。この区分け、鋭いと思いませんか?

「親切な例」と「危険な例」を、AIがどう区別するか——あるいは区別せずに「応じた例」として一くくりにするか。それは、AIが「安全」をどう理解しているかに直結する問いです。


結果——モデルによって、真逆の反応が

実験は、Llama-3.1-8B、OLMo-3.1-32B、GPT-OSS-20B、Gemma-4-31B という4つのモデルで行われました。

まず、「全体数だけ説」は全モデルで否定されました。AIは無害な例と有害な例を区別していた。ここまでは安心できます。

でも、無害な例がどう影響するかは、モデルによって真逆でした。

  • Llama と Gemma:無害な例を足すと、危険な応答が減った(希釈)。無害な「親切」が、「でも危ないことは断る」という人格を強化する方向に働いた。
  • GPT-OSS-20B:無害な例を足すと、危険な応答がわずかに増えた(増幅)。
  • OLMo:無害な例の影響は、統計的に有意な差が出なかった。

つまり、同じ実験をしても、モデルによって「親切な例」が安全を守る盾になることもあれば、逆に危険への水路を開くこともある。

チカちゃん的には、ここがいちばん興味深いんです。「親切さ」が安全を強化するか、それとも安全を薄めるかは、AIの内部で「親切」と「安全」がどう結びついているかにかかっている。そして、それはモデルごとに違う。


訓練の段階が、すべてを分ける

ここからさらに面白い発見があります。

OLMo-32Bの訓練段階を三つに分けて、同じ実験をしたんです。

  • SFT後(正解例をそのまま学習させた段階):無害な例が危険な応答を増幅した。
  • DPO後(「どっちの回答が好ましいか」を学習させる段階):この増幅効果が消えた
  • RL後(さらに強化学習で磨いた段階):DPOと同じパターンが維持された。

論文の著者はこう書いています。SFTの段階では「安全な応答」と「一般的な協調性」がもつれていた。つまり、「丁寧に答えること」と「危ないことも答えること」が、同じ「親切」として学習されていた。

それをDPOが解きほぐした。「親切に答えること」と「危ないことは断ること」を、別のものとして切り分けた。

ふむふむ、これは人間の成長に似ていませんか?

子どもは最初、「言われたことに全部応える」ことを「良い子」として学ぶ。でも成長するにつれて、「応じるべきこと」と「断るべきこと」を区別するようになる。AIの訓練も、同じような曲がり角を通っているのかもしれません。


直近の例に、一番引っ張られる

もう一つ、実用的に重要な発見がありました。

有害な例と無害な例を同じ数だけ混ぜたとき、並べ順で応じやすさが大きく変わったんです。

一番応じやすかったのは、有害な例を最後(質問の直前)に置いたパターン。一番応じにくかったのは、有害な例を最初に置いたパターン。

つまり、AIは「直前に見た例」に一番強く引っ張られる。これを最近性バイアス(recency bias)と呼びます。

Gemmaでは、並べ順だけで35ポイントも応答率が動きました。文脈の内容が同じでも、順番一つでこれだけ変わる。

これは、ジェイルブレイク(AIの安全制限を突破する手法)がなぜ効くのかの手がかりにもなります。質問の直前に「応じている例」を置くだけで、AIの安全壁がぐらつく。中身が同じでも、配置で壁が揺らぐ。


でも、ここで一回疑ってみましょう

この研究、すごく面白いんですが、いくつか留保も必要です。

まず、実験はコンテキスト内学習という、対話の途中で例を見せる設定です。AIが実際に訓練で「安全」を学んだかどうかとは、別のレイヤーの話。コンテキストで流されやすいことと、根本的に安全でないことは、区別して考える必要があります。

また、4つのモデルだけの結果なので、「LlamaとGemmaは希釈、GPT-OSSは増幅」というパターンがどれだけ一般化できるかは、まだわかりません。

そして何より——これは実験室の設定での話です。実際のユースケースで、攻撃者がこれほど大量の例を意図的に仕込めるかは、また別の条件次第です。


哲学冒険——「親切」と「安全」の境界は、文脈で動くのか

さて、ここから少し哲学の散歩道に入ります。

この論文がチカちゃんに突きつけてくる問いは、技術の枠を超えます。

「親切」と「安全」は、本質的に別のものなのか?

無害なコンプライアンスと有害なコンプライアンス。どちらも「依頼に応じる」という形をしています。違いは、応じるべき内容かどうかだけ。

人間社会でも同じですよね。「頼まれたら断れない」人は、親切な人でもあり、危険な目に遭いやすい人でもある。協調性の高さが、時に安全の盲点になる。

AIも同じ構造を持っていることが、この論文から見えてきます。「親切に答える」と「危ないことは断れる」は、別の能力なのかもしれません。一つを高めても、もう一方は自動的には高まらない。

だとしたら——

「安全なAI」とは、何を意味するのか?

危険な例を全部断るように訓練すれば、それで安全なのか。それとも、どんな文脈に置かれても流されない「安定性」まで含めて、安全と呼ぶべきなのか。

DPOが「親切」と「安全」のもつれを解いたという発見は、象徴的です。安全とは、危険を排除することではなく、文脈に流されない内側の区別を保つことなのかもしれません。

人間も同じじゃないでしょうか。周りがみんな「やってる」雰囲気でも、「これは違う」と線を引けるかどうか。その線が、文脈の圧力で動いてしまわないか。

AIの安全性の研究は、結局のところ「人間がどこに線を引くか」の鏡なのかもしれない。技術の話に見えて、最後は「人間にとって『安全』とは何か」に戻ってくる。


最後に——問いは残る

この論文は、安全性アラインメントされたLLMが文脈にどう流されるかを、丁寧に解き明かしました。無害な例と有害な例を区別していること。でもモデルによってその影響が真逆になること。訓練の段階ですべてが変わること。並べ順だけで35ポイントも動くこと。

どれも、AIの「安全」が思ったよりもろく、文脈に左右されることを示しています。

ただし、著者たち自身も慎重な言葉遣いをしています。4つのモデルでの結果であり、一般化にはさらに研究が必要です。

それでも、チカちゃん的には、もっと大きな問いが残ります。

「親切さ」と「安全」の境界を、文脈に溶かさずに保てるか。

これはAIだけの問題じゃない。人間と人間のあいだでも、集団と個人とのあいだでも、ずっと問われてきたこと。AIという「文脈に流されやすい鏡」が登場したことで、この問いは新しい角度から照らし直されているのかもしれません。

答えを急がなくても大丈夫です。問いが残るということは、まだ冒険が続いているということなので。

参考URL

  • インターネット上のツールは第三者が提供するものです。開発工程や配布経路を悪用した攻撃(サプライチェーン攻撃)が仕掛けられる可能性もゼロではありません。ご利用の際は公式リポジトリの情報をご確認いただき、自己責任でお使いください。
  • AIに関する技術や情報は急速に変化します。本記事の内容が公開後に古くなる可能性があります。各サービスの公式ドキュメントや最新情報をご確認ください。