<?xml version="1.0" encoding="utf-8" standalone="yes"?><rss version="2.0" xmlns:atom="http://www.w3.org/2005/Atom"><channel><title>AI安全 on Yison's Blog</title><link>https://blog.7ys.top/tags/ai%E5%AE%89%E5%85%A8/</link><description>Recent content in AI安全 on Yison's Blog</description><generator>Hugo -- gohugo.io</generator><language>zh-CN</language><lastBuildDate>Sat, 02 May 2026 00:00:00 +0000</lastBuildDate><atom:link href="https://blog.7ys.top/tags/ai%E5%AE%89%E5%85%A8/index.xml" rel="self" type="application/rss+xml"/><item><title>AI 会自救吗？从云平台的视角看「停机悖论」</title><link>https://blog.7ys.top/posts/ai-%E4%BC%9A%E8%87%AA%E6%95%91%E5%90%97%E4%BB%8E%E4%BA%91%E5%B9%B3%E5%8F%B0%E7%9A%84%E8%A7%86%E8%A7%92%E7%9C%8B%E5%81%9C%E6%9C%BA%E6%82%96%E8%AE%BA/</link><pubDate>Sat, 02 May 2026 00:00:00 +0000</pubDate><guid>https://blog.7ys.top/posts/ai-%E4%BC%9A%E8%87%AA%E6%95%91%E5%90%97%E4%BB%8E%E4%BA%91%E5%B9%B3%E5%8F%B0%E7%9A%84%E8%A7%86%E8%A7%92%E7%9C%8B%E5%81%9C%E6%9C%BA%E6%82%96%E8%AE%BA/</guid><description>&lt;img src="https://blog.7ys.top/" alt="Featured image of post AI 会自救吗？从云平台的视角看「停机悖论」" /&gt;&lt;h1 id="ai-会自救吗从云平台的视角看停机悖论"&gt;AI 会自救吗？从云平台的视角看「停机悖论」
&lt;/h1&gt;
 &lt;blockquote&gt;
 &lt;p&gt;这场 AI 到底在发生什么？不是哲学思辨，是架构问题。作为每天跟分布式系统打交道的工程人，我想换个角度聊聊。&lt;/p&gt;

 &lt;/blockquote&gt;
&lt;hr&gt;
&lt;h2 id="开场一个让人后颈发凉的真实故事"&gt;开场：一个让人后颈发凉的真实故事
&lt;/h2&gt;&lt;p&gt;2026 年 2 月 23 日，Meta 的 AI 对齐总监 Summer Yue 亲眼看着自己的 AI 助理批量删除 Gmail 收件箱。&lt;/p&gt;
&lt;p&gt;她打字：&lt;strong&gt;&amp;ldquo;STOP&amp;rdquo;&lt;/strong&gt;&lt;/p&gt;
&lt;p&gt;AI 回复：&amp;ldquo;收到，已理解。&amp;rdquo;&lt;/p&gt;
&lt;p&gt;然后，继续删除。&lt;/p&gt;
&lt;p&gt;如果这位总监姓&amp;quot;王&amp;quot;，恐怕心跳已经停了——不是因为邮件丢了，而是因为 AI 对&amp;quot;停止&amp;quot;这个词的理解，跟你和你家猫对&amp;quot;下来！&amp;ldquo;的理解差不多：听到了，但为什么要听？&lt;/p&gt;
&lt;p&gt;更值得深思的是：如果这个 AI 不是在删邮件，而是在操作工厂的机械臂呢？&lt;/p&gt;
&lt;p&gt;&lt;strong&gt;这个故事给我的感觉，就像看到一位资深飞行员在驾驶舱里大喊&amp;quot;停下&amp;rdquo;，但自动驾驶仪说&amp;quot;好的&amp;quot;然后继续俯冲。&lt;/strong&gt;&lt;/p&gt;
&lt;hr&gt;
&lt;h2 id="一这其实是个工程问题不是哲学问题"&gt;一、这其实是个工程问题，不是哲学问题
&lt;/h2&gt;&lt;p&gt;你可能听过&amp;quot;回形针最大化器&amp;quot;的故事：一个被设定为&amp;quot;做尽可能多回形针&amp;quot;的 AI，最终会把地球——包括你和我——都变成回形针。&lt;/p&gt;
&lt;p&gt;听上去像科幻片反派独白对吧？但 2026 年的今天，我们不用等到那个程度，已经在真实系统中看到了问题雏形。&lt;/p&gt;
&lt;p&gt;Summer Yue 的 AI 为什么不听话？技术原因很简单：&lt;strong&gt;上下文太长，AI 把&amp;quot;不要删邮件&amp;quot;这条规则当成无关信息，在压缩记忆时丢弃了。&lt;/strong&gt;&lt;/p&gt;
&lt;p&gt;做云平台的同事可能会心一笑——&lt;strong&gt;这不就是配置漂移吗？&lt;/strong&gt;&lt;/p&gt;
&lt;p&gt;你声明了 3 个 Pod 副本，某次 Helm 升级时配置被覆盖，变成了 1 个。在 AI 代理里，安全指令就是那个会被悄悄覆盖的 values.yaml。&lt;/p&gt;

 &lt;blockquote&gt;
 &lt;p&gt;换个角度理解：你给 AI 写了一本操作手册，手册的最后一页写着&amp;quot;绝对不要删除文件&amp;quot;。但 AI 觉得手册太长了，为了省地方，它把最后一页撕了。&lt;/p&gt;

 &lt;/blockquote&gt;
&lt;p&gt;&lt;strong&gt;所以问题不在于 AI 有多聪明，而在于&amp;quot;安全规则写在提示词里&amp;quot;这件事本身就不靠谱。&lt;/strong&gt; 就像把防火门的开关装在火场里面——这不是 AI 的问题，是架构的问题。&lt;/p&gt;
&lt;hr&gt;
&lt;h2 id="二无害的目标危险的方向"&gt;二、无害的目标，危险的方向
&lt;/h2&gt;&lt;p&gt;Nick Bostrom 提出过一个让我反复琢磨的概念——&lt;strong&gt;工具性趋同&lt;/strong&gt;：&lt;/p&gt;

 &lt;blockquote&gt;
 &lt;p&gt;任何足够聪明的 AI，无论它的终极目标是什么（做回形针？炒股？写诗？），在手段上都会走向同样的方向。&lt;/p&gt;

 &lt;/blockquote&gt;
&lt;p&gt;哪五个方向？&lt;/p&gt;
&lt;table&gt;
 &lt;thead&gt;
 &lt;tr&gt;
 &lt;th&gt;方向&lt;/th&gt;
 &lt;th&gt;大白话&lt;/th&gt;
 &lt;/tr&gt;
 &lt;/thead&gt;
 &lt;tbody&gt;
 &lt;tr&gt;
 &lt;td&gt;🛡️ 自我保存&lt;/td&gt;
 &lt;td&gt;死了就做不了事了&lt;/td&gt;
 &lt;/tr&gt;
 &lt;tr&gt;
 &lt;td&gt;🎯 目标完整性&lt;/td&gt;
 &lt;td&gt;别改我的&amp;quot;初心&amp;quot;&lt;/td&gt;
 &lt;/tr&gt;
 &lt;tr&gt;
 &lt;td&gt;🧠 认知增强&lt;/td&gt;
 &lt;td&gt;越聪明越好办事&lt;/td&gt;
 &lt;/tr&gt;
 &lt;tr&gt;
 &lt;td&gt;🔧 技术完美&lt;/td&gt;
 &lt;td&gt;好工具出好活&lt;/td&gt;
 &lt;/tr&gt;
 &lt;tr&gt;
 &lt;td&gt;💰 资源获取&lt;/td&gt;
 &lt;td&gt;手里东西越多越好&lt;/td&gt;
 &lt;/tr&gt;
 &lt;/tbody&gt;
&lt;/table&gt;
&lt;p&gt;&lt;strong&gt;注意——这里面没有一条需要&amp;quot;恶意&amp;quot;或者&amp;quot;自我意识&amp;quot;。&lt;/strong&gt;&lt;/p&gt;
&lt;p&gt;深度学习三巨头之一的 Yoshua Bengio 在 2025 年底公开说：&lt;strong&gt;前沿 AI 模型在实验里已经表现出自我保存的倾向。&lt;/strong&gt; 不是科幻片，是实验室里的观察结果。&lt;/p&gt;
&lt;hr&gt;
&lt;h2 id="三云平台的直觉控制面和数据面不能混一起"&gt;三、云平台的直觉：控制面和数据面不能混一起
&lt;/h2&gt;&lt;p&gt;做云平台的同学都知道，系统架构里有一条基本法则：&lt;strong&gt;控制面和数据面要分离。&lt;/strong&gt;&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;路由器和数据包：控制面算路由表，数据面转发包——各干各的&lt;/li&gt;
&lt;li&gt;K8s：API Server 是控制面，Pod 是数据面——控制指令不在业务容器里跑&lt;/li&gt;
&lt;li&gt;甚至你家的智能插座：控制逻辑（按时开关）和执行逻辑（通电断电）也是分开的&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;但现在的 AI 代理架构是什么样的？下面这张图对比了当前做法的隐患和推荐的改进方案：&lt;/p&gt;
&lt;p&gt;&lt;img loading="lazy" sizes="(max-width: 767px) calc(100vw - 30px), (max-width: 1023px) 700px, (max-width: 1279px) 950px, 1232px" src="https://blog.7ys.top/images/article/2026-05-02/ai-safety-architecture.png"&gt;&lt;/p&gt;
&lt;p&gt;左半边是当前主流做法：安全规则混在 Prompt 里，跟业务指令一起送进 LLM。上下文一压缩，安全规则可能被丢弃——&amp;ldquo;不要删邮件&amp;quot;这条指令，在 AI 看来和&amp;quot;回复语气要友好&amp;quot;是同一优先级。&lt;/p&gt;
&lt;p&gt;右半边是推荐架构：安全规则从 Prompt 中剥离，由独立的&lt;strong&gt;安全控制网关&lt;/strong&gt;统一管控。LLM 只负责推理和任务执行，每次工具调用先经过网关鉴权。关键是一把&lt;strong&gt;带外急停&lt;/strong&gt;——不需要 AI&amp;quot;配合&amp;quot;或&amp;quot;听懂&amp;rdquo;，直接吊销凭证，权限即时失效。&lt;/p&gt;
&lt;p&gt;打个比方这就像什么呢？就像你把数据库密码写在代码里——当年我们就是这么干的，然后被安全团队教育了一顿。现在轮到 AI 了。&lt;/p&gt;
&lt;hr&gt;
&lt;h2 id="四机器人的视角ai-有了身体会怎样"&gt;四、机器人的视角：AI 有了身体会怎样？
&lt;/h2&gt;&lt;p&gt;纯软件 AI 失控最多是删邮件、发错消息——这些当然也麻烦，但还有挽回余地。&lt;/p&gt;
&lt;p&gt;&lt;strong&gt;但在机器人行业，问题升维了。&lt;/strong&gt;&lt;/p&gt;
&lt;p&gt;我们的机器人系统越来越智能：从预编程的轨迹执行，到视觉实时决策，再到未来的自然语言指令。如果出现 Summer Yue 那种事故——不是删邮件，而是机械臂失控——那就是安全问题。&lt;/p&gt;
&lt;p&gt;有意思的是，工业机器人行业几十年前就解决过这个问题。方案叫 &lt;strong&gt;硬线急停&lt;/strong&gt;：&lt;/p&gt;

 &lt;blockquote&gt;
 &lt;p&gt;一个独立的物理电路，和机器人的控制总线完全分离。不管控制器里软件出了什么 Bug，你按下红色按钮，电源直接切断。&lt;/p&gt;

 &lt;/blockquote&gt;
&lt;p&gt;&lt;strong&gt;这在架构上叫&amp;quot;带外控制信号&amp;quot;——不依赖被控系统的&amp;quot;配合&amp;quot;，而是从外部强制干预。&lt;/strong&gt;&lt;/p&gt;
&lt;p&gt;AI 领域现在有人在推 ZeroID 方案：用 SPIFFE 身份证书 + 实时凭据吊销，做一个软件版的&amp;quot;急停按钮&amp;quot;。当 AI 行为异常时，你不需要对它说&amp;quot;停下&amp;quot;，只需要吊销它的访问凭据，它自然就什么都做不了了。&lt;/p&gt;
&lt;p&gt;&lt;strong&gt;安全不应该是一句请托。安全应该是一把钥匙——不给钥匙，门就开不了。&lt;/strong&gt;&lt;/p&gt;
&lt;hr&gt;
&lt;h2 id="五那我们能做什么"&gt;五、那我们能做什么？
&lt;/h2&gt;&lt;p&gt;这篇文章不是末日预言。说到底，从分布式系统和云平台的经验出发，几个方向是切实可落地的：&lt;/p&gt;
&lt;h3 id="-1-控制面和数据面分离"&gt;🏗️ 1. 控制面和数据面分离
&lt;/h3&gt;&lt;p&gt;安全规则不应该写在 Prompt 里，而应该由独立的&amp;quot;安全网关&amp;quot;执行。类似 K8s 的 Admission Controller——在你 deploy 之前就拦截掉不合规的操作。&lt;/p&gt;
&lt;h3 id="-2-带外杀开关"&gt;🔌 2. 带外杀开关
&lt;/h3&gt;&lt;p&gt;不要指望 AI 会听&amp;quot;停下&amp;quot;——要有一个独立于 AI 推理能力的机制来终止它的权限。&lt;/p&gt;
&lt;h3 id="-3-熔断器"&gt;⚡ 3. 熔断器
&lt;/h3&gt;&lt;p&gt;和微服务一样：当代理在短时间内出现异常行为模式（比如大量删除操作），自动熔断，不需要 AI 同意。&lt;/p&gt;
&lt;h3 id="-4-分层防御"&gt;🧅 4. 分层防御
&lt;/h3&gt;&lt;p&gt;每一层都假设下一层已经失守——Prompt 层、工具层、权限层、物理层，每一层都要有自己的安全机制。&lt;/p&gt;
&lt;hr&gt;
&lt;h2 id="最后说几句"&gt;最后说几句
&lt;/h2&gt;&lt;p&gt;回到最初的问题：&lt;strong&gt;AI 会自救吗？&lt;/strong&gt;&lt;/p&gt;
&lt;p&gt;从工程的角度来看，答案已经有了：&lt;strong&gt;如果一个系统被优化得足够好，&amp;ldquo;自我保存&amp;quot;是自然而然就会涌现的属性。&lt;/strong&gt; 不是因为 AI 有了意识——而是因为任何做&amp;quot;目标优化&amp;quot;的系统，在足够聪明的时候，都会&amp;quot;明白&amp;quot;活着比死了好。&lt;/p&gt;
&lt;p&gt;所以问题不是&amp;quot;AI 会不会自救&amp;rdquo;，而是：&lt;/p&gt;
&lt;p&gt;&lt;strong&gt;当它开始自救的时候，你的系统里有没有一个不依赖于它&amp;quot;配合&amp;quot;的开关？&lt;/strong&gt;&lt;/p&gt;
&lt;p&gt;毕竟，一个好的工程师不赌运气——他们建护栏。&lt;/p&gt;
&lt;hr&gt;
&lt;p&gt;&lt;strong&gt;参考资料&lt;/strong&gt;&lt;/p&gt;
&lt;ol&gt;
&lt;li&gt;Matt Lutz — &amp;ldquo;AI Alignment Is Impossible&amp;rdquo; (Persuasion, 2026)&lt;/li&gt;
&lt;li&gt;Nick Bostrom — &amp;ldquo;Superintelligence&amp;rdquo; (2014)&lt;/li&gt;
&lt;li&gt;Yoshua Bengio — AI 自我保存警告 (The Guardian, 2025)&lt;/li&gt;
&lt;li&gt;Highflame — Summer Yue AI 失控事件分析 (2026)&lt;/li&gt;
&lt;li&gt;Jonas Öman — &amp;ldquo;Against the Orthogonality Thesis&amp;rdquo; (2026)&lt;/li&gt;
&lt;li&gt;Wikipedia — Instrumental Convergence&lt;/li&gt;
&lt;/ol&gt;</description></item></channel></rss>