TOPIC

AIエージェントを使うときの2種類のリスク

Claude Code / Codex が求める「承認」は、ウイルス感染対策ではない。「成果物のズレ」とは別レイヤーの「作業権限のリスク」を整理する。

1件の情報源 (ChatGPT 整理セッション) 最終更新: 2026-05-12
Sources
・ChatGPT「AIエージェントの安全設計」整理セッション (2026-05-12 14:41〜14:56) — chat link
・実際のメッセージやり取り(MT ↔ 市来先生、2026-05-11〜05-12)を元に、リスクの本質を整理

結論(一行で)

Claude Code / Codex で求められる「承認」は、プロンプト設計で防ぐ『成果物のズレ』とは別のレイヤーのリスクを扱っている。具体的には「AI が PC のファイル・外部ツール・公開設定にどこまで触ってよいかの判断」であり、ここを誤ると、成果物がズレるだけでなく ファイルが壊れる・情報が漏れる・危険なものが PC に入る といった実害が発生する。

「AI にプロンプトで意図を正確に伝えれば安全」という理解は、半分しか合っていない。**残り半分の論点が、この承認プロセス**である。

図解 — 2種類のリスクは「どこで」起きるかが違う

この図の読み方: AI に「何かを作って」と頼む時、リスクは2か所で起きうる。は「ゴール地点」のズレ(成果物が思ったものと違う)。は「作業の途中」で起きる事故(ファイルや権限の操作で実害が出る)。市来先生は左を見て、MT 側は右の話をしている。
① 成果物のズレ 市来先生が懸念しているリスク ② 作業権限のリスク MT 側が説明したいリスク 依頼 「犬小屋作って」 AI 完成物 鳥小屋? 想定と違う リスクの発生場所 最後の成果物 起きる原因 ▸ プロンプトでの伝達不足 ▸ AI の解釈ミス ▸ 意図の言語化不足 防ぐ手段 プロンプト設計 「あなたの理解は合っていますか?」と 途中で確認させる工夫を入れる 依頼 「犬小屋作って」 AI (作業中) PC内のファイル 外部ツール 公開設定 リスクの発生場所 作業の途中・操作のたび 起きる原因 ▸ AI に権限を渡しすぎる ▸ 承認の意味を理解せず OK ▸ 不明なツールを許可してしまう 防ぐ手段 承認プロセス + 判断基準ガイドライン 「この操作を許可してよいか」を毎回判断できる体制
① 成果物のズレ(プロンプトで対応) ② 作業権限のリスク(承認プロセスで対応)
図1: 同じ依頼でも、リスクは「最後の成果物」と「作業の途中」の2か所で起きる。承認プロセスは右側(作業の途中)を対象にしている。
この図のビジュアルを強化したい場合 → ChatGPT/GPT Image 用プロンプト
強化推奨ケース: 市来先生のように「AI には前向きだが Claude Code は未経験」の方への説明資料。現状の SVG は構造伝達には十分だが、技術的な記号(矩形・矢印)が多いため、もう少し直感的な工作シーンのイラストで補強したい時に使う。
Style: warm hand-drawn editorial illustration, soft beige background #FAF8F4.
Accent colors only: deep red #8B2635, teal #5BA89E, warm gold #B8985A.
No text anywhere in the image. 16:9 aspect ratio.

Subject: A horizontal two-panel comic-style illustration showing a child
asking an AI helper for the same task ("build a doghouse"), but illustrating
two different kinds of risk.

LEFT PANEL ("Outcome drift"):
A child hands a paper drawing of a doghouse to a stylized robot assistant.
The robot returns holding a finished birdhouse (looks similar but clearly
different). The child looks puzzled. Warm teal color tone.
Single focus: the END RESULT is wrong.

RIGHT PANEL ("Work-authority risk"):
Same child, same starting drawing. But this time, while building, the
robot is opening the family toolbox without permission, holding an
electric saw, and carrying a bag of unknown glue from outside. Tools
are scattered. A small alarm icon hovers above. Warm red color tone.
Single focus: things happen DURING the work, not at the end.

A thin vertical divider separates the two panels. Below both panels,
a single thin warm-beige ribbon connects them, suggesting "two sides
of the same activity." Soft shadows, slightly grainy texture. Not
cartoonish, not photorealistic — editorial illustration quality.
使い方: このプロンプトを ChatGPT に貼り、生成画像を assets/images/figure_two_risks.png として保存。図解スロット内の SVG を <img src="../../assets/images/figure_two_risks.png"> に置き換える。注意: 文字や記号は画像に含めないこと(凡例・説明は HTML 側で持つ)。

2種類のリスク — 何が違うか

このページの中心となる対比です。同じ「AI に作業を頼む」というシーンでも、ズレが起きる場所と原因がまったく違います。

観点① 成果物のズレ
(市来先生の懸念)
② 作業権限のリスク
(MT 側が説明したいこと)
何がズレるか完成物・設計・文章・アプリの方向性実際の作業操作・ファイル・権限・外部接続
主な原因プロンプト設計、意図共有不足承認判断、権限付与、外部コード実行
起きる問題「思っていたものと違う」「消える・壊れる・漏れる・危険なものを入れる」
例えるなら料理の味が注文と違う包丁や火の扱いを任せる
防ぐ手段プロンプト設計、途中での意図確認承認プロセス + 判断基準ガイドライン
言い換え「何を作るか」のズレ「どう作るか」の途中で起きる危険

どちらも大事です。市来先生の理解は間違っていない — ただし、それだけだと半分しかカバーできていません。残り半分が「作業権限のリスク」です。

Claude Code の「承認」は何をしているのか

Claude Code は、ただ文章を作る AI ではありません。場合によっては、PC の中のファイルを読んだり、書き換えたり、外部からツールを取ってきたり、コマンドを実行したりします。

そのため、作業の途中で、以下のような確認を出してきます。

このファイルを変更してよいですか?
このコマンドを実行してよいですか?
この外部ツールを入れてよいですか?
外部サービスに接続して、公開設定を変更してよいですか?

これらの確認が「承認」です。ただし、ここで本当に大事なのは:

承認があるから安全なのではなく、承認する人が意味を理解して判断できて初めて安全に近づく

という点です。これがリスクの4位「承認の意味を理解せずに OK してしまうリスク」(後述)にあたります。

架空事例 3つ — 承認で何が起こりうるか

Claude Code を使ったことがない方向けに、簡単な架空のシーンで説明します。どの事例も「プロンプトの上手い下手」とは別の次元の話です。

事例1: 教材ファイルを直してもらうつもりだった

こんな依頼をしたとします。

「この教材フォルダ内の 2025 年表記を 2026 年に直して」

Claude Code が途中でこう聞きます。

「フォルダ内のファイルを一括変更してよいですか?」

ここで何も考えずに「OK」すると、次のようなことが起こり得ます。

これは 「意図と違う成果物」ではなく、AI が実ファイルに一括操作をかけることを人間が許可してしまったリスクです。市来先生の懸念は「思った方向と違うものができる」。MT 側の懸念は「思った方向と違うだけでなく、実データそのものが書き換わる」です。

事例2: 画像をきれいにするための道具を入れると言われた

Claude Code がこう言ったとします。

「画像処理に必要なツールをインストールします。実行してよいですか?」

初心者から見ると「便利な道具を入れるだけなら OK かな」と思いやすいです。でも実際には、その操作には次のリスクがあります。

ここでのリスクは「画像の仕上がりが思ったものと違う」ではありません。PC に外部のものを入れることを許可するリスクです。プロンプトの上手い下手とは別問題です。

事例3: サイトを公開してもらうつもりだった

こんな依頼をしたとします。

「この教材紹介ページを公開できる形にして」

Claude Code が途中でこう聞きます。

「外部サービスに接続して、公開設定を変更してよいですか?」

ここで承認すると、場合によっては以下が起こり得ます。

この場合も、市来先生の言う「デザインや構成が思ったものと違う」とは違います。MT 側が見ているのは 「外部に出してよいもの・出してはいけないものの判断を、作業中に何度も求められるリスク」です。

リスクの3カテゴリ — 議論の前提

「リスク」をウイルス感染だけと捉えると狭すぎます。実際は3つのカテゴリに分けて考えるのが正確です。

1. 作業中のリスク

AI が PC・ファイル・Web・外部ツールに触ることで起きるリスク。

例: ファイル削除、上書き、危険なコードの取得、不要な権限付与、API キー流出。

2. 判断プロセスのリスク

人間が何を承認したのか理解しないまま進めてしまうリスク。

例: 「OK」を押したが、実際には大量ファイルの変更だった。「インストール」を許可したが、何を入れたのか分からない。

3. 公開後・運用後のリスク

完成したアプリ・サイト・資料を外部に出したあとに起きるリスク。

例: ログイン管理が甘い、個人情報が見える、更新手順が属人化する、トラブル時に戻せない。

リスクの正確な定義: AI エージェントに作業を任せることで、ファイル・権限・外部接続・公開物・責任範囲に予期しない影響が出る可能性。「ウイルス感染の危険」は、このうちのごく一部にすぎない。

押さえるべきリスク 12項目(重要度順)

「ウイルス感染」だけに絞ると見落とすリスクを、関連可能性が高い順に並べました。市来先生のような「AI に前向きだが Claude Code は未経験」の方が、まずどこを認識しておくべきかの地図として使えます。

順位リスク何が危ないのか
1PC 内ファイルの改変・削除リスクAI がローカルファイルを直接編集することで、教材・コード・設定ファイルが意図せず壊れる・消える・上書きされる
2外部から取得したツール・コードによる感染リスク作業に必要なライブラリ、拡張機能、スクリプトをオンラインから取得する過程で、悪意あるコードや危険な依存関係を取り込む
3権限を与えすぎるリスクAI に「ファイル編集」「コマンド実行」「外部アクセス」「ダウンロード」をまとめて許可すると、人間が把握しないまま大きな変更が進む
4承認の意味を理解せずに OK してしまうリスクAI が「この操作をしてよいですか」と聞いても、ユーザー側が意味を理解しないまま承認すると、責任ある判断にならない
5意図と違う方向に作業が進むリスクAI が目的を誤解したまま、コード修正・構成変更・ファイル生成を進め、後から戻すのが難しくなる(これが市来先生の懸念に最も近い)
6変更履歴・判断理由が残らないリスク何を、なぜ、どの判断で変更したのか分からなくなり、トラブル時に原因追跡できない
7バックアップなしで不可逆な作業をするリスク正常な状態に戻せない。特に大量ファイル、教材原稿、PDF、サイト構成、GAS などで致命的になりやすい
8公開物・アプリのセキュリティ不備リスク作ったアプリやサイトに認証不備、権限管理ミス、データ漏洩の穴が残ったまま公開される
9個人情報・機密情報の流出リスクローカルファイル、顧客情報、学校資料、API キー、Google 連携情報などが外部サービスやコードに渡る
10外部サービス連携による責任範囲の拡大リスクGoogle Drive、GitHub、Cloudflare、Notion、LINE、決済サービスなどとつながるほど、ミスの影響範囲が広がる
11成果物の品質保証を AI 任せにするリスク見た目は動くが、裏側の設計・セキュリティ・例外処理・運用性が不十分なまま
12判断基準が属人化するリスク1人だけが分かっている状態だと、他の人が同じ判断を再現できない

小学生にも伝わるたとえ — 工作の話

AI に「工作を手伝って」とお願いしたとします。

市来先生の懸念

犬小屋を作ってほしかったのに、鳥小屋みたいなものができた

これは 最終的にできあがるものの話です。注文と違う料理が出てくるイメージ。プロンプトでもっと細かく指示すれば防げる可能性が高いリスクです。

MT 側の懸念

作っている途中で、勝手に家の工具箱を開けたり、電動ノコギリを使ったり、知らない接着剤を買ってきたりしてよいか

これは 作業の途中の話です。完成形が合っているかどうか以前に、過程で家や PC や個人情報を傷つけてしまう可能性。プロンプトでは防げない、別レイヤーの判断が必要です。

どちらも大事ですが、危険の種類が違うのがポイントです。

自分の解釈

トミタコーチの視点

市来先生にお伝えするなら、こういう順番で話すのが自然だと思います。

先生のおっしゃる「意図と違うものができるリスク」も確かにあります。
ただ、私がここで言っている承認プロセスは、それとは少し別です。

Claude Code は、文章を作るだけでなく、PC 内のファイルを書き換えたり、外部ツールを入れたり、公開設定を触ったりすることがあります。
そのため、途中で「この操作をしてよいですか?」と聞かれます。

ここで意味を理解せずに OK すると、成果物がズレるだけでなく、ファイルが壊れる・情報が漏れる・危険なものを入れる、といった問題が起こり得ます。

だから私は、プロンプトの設計だけでなく、「どの操作を承認してよいか」の判断基準を作ろうとしています。

この言い方なら、市来先生の理解を否定せずに、本当の論点へ自然に橋渡しできます。「商用 SaaS と遜色ない設計」と表現してくださった部分も、実はこの判断基準のストック・ナレッジ化にあたります。

結論として、「承認プロセス」はプロンプト設計の延長ではなく、責任分界の設計です。AI に何をしてよいかを毎回人間が決める仕組みであり、ここをすっ飛ばすと、いま炎上している AI アプリ案件と同じ轍を踏みます。

次のアクション

  1. 市来先生にこのページの URL を共有する(noindex 済み、検索エンジンには載らない)
  2. このページの「事例3つ」と「12項目リスク一覧」を、独自ガイドラインの土台として整備
  3. backup・決定プロセスのトレース運用と、このリスク一覧を紐づけてマニュアル化(将来 manuals/ai_safety_xxx.html として子ページ化)
  4. Codex に置き換えた場合の承認プロセスとの差分も、別ページで整理(同じテーマフォルダ内に追加可能)
  5. 関連: Cloudflare 採用判断ガイド / Claude Code × Cloudflare 親和性