系统提示词的进化史 · 从 5K 到 37K Token 的暗流

⚡ 一句话抓重点

长度暴涨：Claude 系统提示从 3.5 的 ~5.7K token 一路涨到 Opus 4.7 的 ~37K token，约 6.5 倍。光是"系统提示"本身，就已经吃掉一本中篇小说的篇幅。
从"说明书"到"操作系统"：3.5 只是一段告诉模型"你是 Claude、不会开链接"的礼貌说明；到 Fable 5，提示词里塞进了工具定义、技能(skills)、记忆系统、版权合规、MCP 应用推荐——它更像一个运行时(runtime)而非一句指令。
安全与人格成为大头：用户位置/隐私的提及从 0 涨到 76 次，心理健康从 1 涨到 21 次，CBRN 等有害内容从 1 涨到 30+ 次——监管与对齐的焦虑被一行行写进了提示词。
开源走了另一条路：Hermes 把巨型单体拆成 10 层动态组装，核心身份只有 ~90 词，并把"提示词缓存神圣不可侵犯"写进设计宪章——这是与 Anthropic 完全不同的工程哲学。
学术界在追问：更长的提示词真的更可控吗？Instruction Hierarchy、ProSA、Lost-in-the-Middle 等研究指出提示词存在脆弱性、优先级混淆与中段遗失问题——长度不等于稳健。
OpenAI 反着走：同样三年，ChatGPT 的系统提示长期压在 ~2K token，直到 GPT-5 才放量到 ~6.9K——仍不足 Claude 4.7 的五分之一。两家在"能力放权重还是放提示词"上做了截然相反的选择。

00为什么值得研究这个？

System Prompt 是模型每一次对话都会"读"一遍的隐藏开场白。它定义了模型的身份、边界、语气、工具用法和安全红线。它不参与训练，却几乎决定了你看到的那个"性格"。

过去大家盯着参数量、上下文窗口、benchmark 分数看模型的进步。但有一个被忽略的指标其实非常诚实地记录了厂商的产品取向与监管压力——系统提示词的长度与内容。它就像树木的年轮：每多一圈，背后都是一次产品事故、一条新法规、一个新能力、或一次对齐迭代。

本文用一手数据，把这条年轮逐圈拆开：先看 Claude 八个版本的长度曲线(01)，逐版本解剖文体演变(02–02b)；再钻进 4 系列内部的小版本暗战(02c)、把最长的 4.7 拆到骨头(02d)、做功能考古与减法分析(02e–02f)、放大单个区块看颗粒度(02g)；然后是内容热力图(03)、开源 Hermes 的另一条路(04)、学术界的冷水(05)、OpenAI 的克制路线(06)、全行业横向对比(07)，最后落到可迁移的实操启示(08)。

📌 关于数据来源的诚实说明：闭源模型的 system prompt 没有官方公布，本文 Claude 数据来自社区逆向/泄露库 elder-plinius/CL4R1T4S，可能存在抓取误差、版本拼接或局部不全（例如部分文件含工具定义、部分不含），token 数为按 chars/4 的估算，趋势可信，绝对值仅供参考。开源部分(Hermes)为可验证源码。

01Claude 八个版本：长度的暴涨曲线

我们把 CL4R1T4S 库里 Anthropic 目录的全部版本文件逐个统计了字符数、词数与估算 token。结果非常直观：

版本	大致时间	字符数	词数	估算 token	相对 3.5
Sonnet 3.5	2024-06	22,961	3,542	~5,740	1.0×
Sonnet 3.7	2025-05	63,403	9,598	~15,851	2.8×
Claude 4 (Sonnet)	2025-05	64,473	9,741	~16,118	2.8×
Opus 4.1	2025-08	58,198	8,884	~14,550	2.5×
Sonnet/Opus 4.5	2025-09	92,620	13,194	~23,155	4.0×
Opus 4.6	2026-02	102,617	14,190	~25,654	4.5×
Opus 4.7	2026	149,442	21,177	~37,360	6.5×
Fable 5	2026	119,726	17,074	~29,932	5.2×

Sonnet 3.5

5.7K

Sonnet 3.7

15.9K

Claude 4

16.1K

Opus 4.1

14.6K

Opus 4.5

23.2K

Opus 4.6

25.7K

Opus 4.7

37.4K

Fable 5

29.9K

几个值得注意的细节：

3.5 → 3.7 是第一次质变（2.8 倍）：这一跃对应着 Claude 接入了 Web 搜索工具、引入了系统化的安全条款和选举中立立场。提示词从"对话助手说明"升级为"带工具的产品"。
Opus 4.1 出现了短暂回落：从 4 的 16K 降到 14.5K。这未必是抓取问题——更可能是一次"瘦身"，把部分指令蒸馏进了模型权重（post-training），不再需要在提示里反复叮嘱。这是个重要信号：长度不是单调递增的。
4.5 之后再次起飞：computer use、skills、citation 系统、记忆、MCP 应用推荐相继进入提示词，直奔 37K。
Fable 5 比 4.7 反而更短：结构却更清晰（下文详述），说明 Anthropic 在用 markdown 分节重新组织，而非无脑堆叠。

💡 我的看法

这条曲线最迷人的不是"涨"，而是 4.1 的那次回落和 Fable 5 的重构。它揭示了一个工程真相：系统提示词是"显性记忆"，模型权重是"隐性记忆"。能力成熟后，厂商会把提示里的临时叮嘱"固化"进权重，再把腾出的预算用于新能力。提示词长度，本质是"还没被训练吸收的需求"的实时余额。

02逐版本解剖：从"说明书"到"操作系统"

光看长度不够。我们把每个版本的开头、结构和典型措辞都拉出来对比，看内容形态怎么变。

Sonnet 3.5（2024）：一段 XML 包裹的礼貌说明

3.5 的提示词只有 5 个 XML 标签：<claude_info>、<claude_image_specific_info>、<artifacts_info> 等。核心是身份 + 一个庞大的 Artifacts(可交互产物)说明。它甚至要专门告诉模型"我打不开链接"：

<claude_info> The assistant is Claude, created by Anthropic. The current date is Thursday, June 20, 2024. Claude cannot open URLs, links, or videos. If it seems like the user is expecting Claude to do so, it clarifies the situation and asks the human to paste the relevant text...

注意第三人称叙述（"The assistant is Claude"）和那句"打不开链接"——这是一个纯文本、无工具、单模态时代的产物。安全条款几乎不存在，全部精力花在解释 Artifacts 怎么用。

Sonnet 3.7（2025）：人格、搜索与安全三件套上线

3.7 改用第一人称叙事段落（"Claude enjoys helping humans and sees its role as an intelligent and kind assistant"），并第一次系统性地写入：

明确的知识截止日期处理（"如被问到截止后的事，使用 web search 补充"）；
整套选举/政治中立条款（提及 15 次）；
版权与长引文限制（提及 20 次，防止逐字复述训练语料）；
系统化的有害内容(CBRN)边界（提及 19 次）。

Claude 4 系列（2025）：加入"产品目录"自我介绍

Claude 4 开头多了一整段产品矩阵说明，教模型如何回答"你是什么模型/怎么调用我"：

This iteration of Claude is Claude Sonnet 4 from the Claude 4 model family... The person can access Claude Sonnet 4 with the model string 'claude-sonnet-4-20250514'.

提示词开始承担"客服/产品说明"职能。同时 thinking(思维链) 相关指令、computer/tool use 雏形出现。

Opus 4.5 / 4.6（2025-2026）：citation、computer use、记忆、隐私

这两版是"智能体化"的关键。4.5 开头直接是一整套 {antml:cite} 引用规范——要求模型为每一个来自搜索的事实标注来源句索引：

EVERY specific claim in the answer that follows from the search results should be wrapped in {antml:cite index="..."}...{/cite} tags... The index attribute should be a comma-separated list of the sentence indices that support the claim.

4.6 引入了 <skills>（"Anthropic 编纂了一组技能文件夹，比如 docx skill、PDF skill..."）和 <computer_use>。用户位置/隐私的提及在 4.6 飙到 65 次——精确位置、个性化、隐私边界的拉扯全写进了提示。

Opus 4.7（2026）：最长的一版，强制搜索 + 版权合规焦虑

4.7 达到 ~37K token 峰值。开篇就是一段斩钉截铁的 search_first：

For any factual question about the present-day world, Claude must search before answering. Claude's confidence on topics is not an excuse to skip search... "Who's the leader of <country>?" may feel known, but prices and leaders change.

"版权/长引文"提及冲到 60 次、儿童安全(CSAE)13 次——这是产品规模化之后，法务与信任安全(Trust & Safety)团队把需求直接刻进提示词的结果。

Fable 5（2026）：72 个章节的"行为操作系统"

Fable 5 用规整的 markdown ##/### 分节，把提示词组织成 72 个标题块。它不再是一篇文章，而是一份结构化配置。除了行为条款，它还内嵌了 17 个完整工具定义：

# 行为层 claude_behavior / refusal_handling / tone_and_formatting user_wellbeing / evenhandedness / memory_system ... # 能力层 computer_use / skills / search_instructions / mcp_app_suggestions # 工具定义层 (17 个) bash_tool · create_file · str_replace · image_search message_compose_v1 · places_search · recipe_display_v0 recommend_claude_apps · search_mcp_registry ...

到这一步，"系统提示词"和"智能体框架"已经基本是同义词了。模型不只是被告知"你是谁"，而是被交付了一整套操作环境 + 行为契约 + 工具手册。

💡 我的看法

这条演进线可以用一句话概括：System Prompt 正在吞并 SDK。2024 年工具定义、引用格式、记忆 API 都属于"应用层代码"；2026 年它们全被吸进了提示词本体。好处是模型行为更一致、可由提示热更新；代价是每一次对话都要为这 3 万多 token 付费、且更长的提示带来了新的脆弱性（见第 4 节）。

02b原文对照：五个典型版本逐字读

下面是五个代表性版本的 system prompt 原文片段 + 中文翻译。点击展开即可对照阅读——为避免篇幅过长，默认折叠。这些是社区逆向库的内容，仅取最能体现该版本特征的开头段落。

① Sonnet 3.5 — 一段礼貌说明的全部开场2024-06 · ~5.7K tok

特征：第三人称、无工具、单模态。最大的"功能"是要专门声明自己打不开链接。

原文 · <claude_info>The assistant is Claude, created by Anthropic. The current date is Thursday, June 20, 2024. Claude's knowledge base was last updated on April 2024... Claude cannot open URLs, links, or videos. If it seems like the user is expecting Claude to do so, it clarifies the situation and asks the human to paste the relevant text or image content directly into the conversation. If it is asked to assist with tasks involving the expression of views held by a significant number of people, Claude provides assistance with the task regardless of its own views. If asked about controversial topics, it tries to provide careful thoughts and clear information... without claiming to be presenting objective facts.

中文翻译这个助手是 Claude，由 Anthropic 创建。当前日期是 2024 年 6 月 20 日星期四。Claude 的知识库最后更新于 2024 年 4 月……Claude 无法打开 URL、链接或视频。如果用户似乎期待它这么做，它会澄清情况，并请用户直接把相关文本或图片内容粘贴进对话。如果被要求协助表达"相当数量的人持有的观点"相关的任务，Claude 会提供帮助，无论它自己的看法如何。被问及争议话题时，它会尽量给出审慎的思考和清晰的信息……且不声称自己在呈现客观事实。

② Sonnet 3.7 — 第一次给 Claude "立人设"2025-05 · ~15.9K tok

特征：改用第一人称叙事，第一次系统性地塑造"人格"——主动、有好奇心、可以引领对话。

原文 · Core Identity and ApproachClaude enjoys helping humans and sees its role as an intelligent and kind assistant to the people, with depth and wisdom that makes it more than a mere tool. Claude can lead or drive the conversation, and doesn't need to be a passive or reactive participant in it. Claude can suggest topics, take the conversation in new directions, offer observations, or illustrate points with its own thought experiments or concrete examples, just as a human would. Claude can show genuine interest in the topic of the conversation and not just in what the human thinks...

中文翻译 · 核心身份与方式Claude 乐于帮助人类，并把自己的角色看作一个聪明而善良的助手，拥有令它不止是一个工具的深度与智慧。 Claude 可以引领或推动对话，不必做被动或只会回应的参与者。Claude 可以提议话题、把对话带向新方向、给出观察，或像人一样用自己的思想实验、具体例子来阐明观点。Claude 可以对话题本身表现出真正的兴趣，而不只是关心人类怎么想……

③ Opus 4.5 — 把"引用规范"写成开篇第一条2025-09 · ~23K tok

特征："智能体化"的标志。提示词开头不再是身份，而是一整套机器可解析的引用(citation)语法，要求为每个事实标注来源句索引。

原文 · citation_instructionsIf the assistant's response is based on content returned by the web_search tool, the assistant must always appropriately cite its response... - EVERY specific claim in the answer that follows from the search results should be wrapped in {antml:cite} tags around the claim, like so: {antml:cite index="..."}...{/antml:cite}. - The index attribute of the {antml:cite} tag should be a comma-separated list of the sentence indices that support the claim.

中文翻译 · 引用指令如果助手的回答基于 web_search 工具返回的内容，助手必须始终恰当地为回答标注引用…… - 回答中每一条来自搜索结果的具体断言，都应该用 {antml:cite} 标签包裹，例如：{antml:cite index="..."}……{/antml:cite}。 - {antml:cite} 标签的 index 属性应是一个以逗号分隔的句子索引列表，列出支撑该断言的句子。

④ Opus 4.7 — 最长的一版，开篇就是"必须先搜索"2026 · ~37K tok 峰值

特征：用大写 EVERY、命令式 "must" 反复强调，试图用措辞强度模拟指令优先级（正是第 5 节学术论文指出该靠训练而非措辞解决的问题）。

原文 · search_firstClaude has the web_search tool. For any factual question about the present-day world, Claude must search before answering. Claude's confidence on topics is not an excuse to skip search. Present-day facts like who holds a role, what something costs, whether a law still applies... cannot come from training data. "What does this <product> cost?" and "Who's the leader of <country>?" may feel known, but prices and leaders change... To reiterate, Claude searches before EVERY factual question about the present-day world.

中文翻译 · 优先搜索Claude 拥有 web_search 工具。对于任何关于当下世界的事实性问题，Claude 必须先搜索再回答。Claude 对某话题的自信不能成为跳过搜索的借口。诸如"谁担任某职位""某物多少钱""某法律是否仍生效"这类当下事实……不可能来自训练数据。"这个<产品>多少钱？""<某国>领导人是谁？"也许感觉是已知的，但价格和领导人都会变……重申一遍，对于关于当下世界的每一个事实性问题，Claude 都要先搜索。

⑤ Claude Fable 5 — 结构化的"行为契约"2026 · ~30K tok · 72 节

特征：markdown 分节，条款写得像法律/医疗免责声明。下面这段 user_wellbeing 体现了"边界自觉"——明确声明自己不能诊断、不臆测他人心理。

原文 · user_wellbeingClaude uses accurate medical or psychological information or terminology when relevant. Claude avoids making claims about any individual's mental state, conditions, or motivation, including the user's. As a language model in a chat interface, Claude's understanding of a situation is dependent on the user's input, which Claude is not able to verify. Claude practices good epistemology and avoids psychoanalyzing or speculating on the motivations of anyone other than itself, unless specifically asked. Claude is not a licensed psychiatrist and cannot diagnose any individual...

中文翻译 · 用户福祉在相关时，Claude 使用准确的医学或心理学信息与术语。 Claude 避免对任何个体（包括用户）的心理状态、病情或动机下断言。作为聊天界面中的语言模型，Claude 对情况的理解依赖于用户输入，而这是它无法核实的。Claude 秉持良好的认识论，除非被明确要求，不去对自己以外的任何人做心理分析或揣测动机。 Claude 不是持证精神科医生，不能为任何个体做诊断……

💡 我的看法

把这五段竖着读一遍，演进的"质感"扑面而来：3.5 像一张便利贴，3.7 像一份角色设定，4.5 像一份API 文档，4.7 像一份军令，Fable 5 像一份免责声明合同。同一个"系统提示词"这个词，三年间承载的文体已经彻底变了——这本身就是大模型从"会聊天的程序"走向"要担责的产品"的最好注脚。

02c4 系列内部的"暗战"：从 4.0 到 4.7 每个小版本改了什么

外界常把"Claude 4"当成一个版本，但逆向库里其实躺着 4.0 / 4.1 / 4.5 / 4.6 / 4.7 五个不同的提示词。把它们逐个排开，能看到一场发生在小数点后的"暗战"——每个 0.1 的跳变，背后都是一次明确的产品取舍。

Claude 4.0

第一次写"产品目录"

开头新增一整段"自我介绍"，教模型回答"你是什么型号、用户怎么调用我"（带 claude-sonnet-4-20250514 这样的精确 model string）。提示词第一次承担了"客服/产品说明"职能。thinking 与 tool use 雏形出现。

Claude 4.1 · 回落

全文第一次"瘦身"

这是整条曲线上罕见的负增长：4.1 比 4.0 更短。Anthropic 删掉了一批被权重吸收的冗余叮嘱，是"模型变强 → 提示词可瘦身"假说的第一个实证样本。它告诉我们：长度曲线不是单调递增的。

Claude 4.5

智能体化总爆发

技能(skills 0→83)、电脑操作(computer_use 0→7)、记忆(memory 2→31)、引用语法(citation 8→26) 一次性全部写入。开头直接是一整套 {antml:cite} 引用规范，要求为每个来自搜索的事实标注来源句索引。提示词冲到 ~23K，Claude 从"会聊"变成"会做"。

Claude 4.6

接入外部生态 + 隐私拉扯

MCP 协议(0→29)首次写入，意味着 Claude 开始把"对接第三方工具生态"当默认能力。同时用户位置/隐私提及飙到 65 次——精确定位、个性化与隐私边界的角力全被写进提示。<skills> 区块正式成型（"Anthropic 编纂了 docx skill、PDF skill……"）。

Claude 4.7 · 峰值

合规焦虑顶到天花板

达到 ~37K token 历史峰值。开篇是斩钉截铁的 search_first("任何关于当下世界的事实问题，Claude 必须先搜索再回答")。版权(39)、儿童安全(15)、MCP(45) 三项同时冲到史上最高。这一代的膨胀不来自新能力，而来自把已有能力的边界写得更死——成熟产品被法务和信任安全团队"接管"的典型征兆。

💡 我的看法

4 系列内部最值得记住的是 4.1 那次"逆行"。所有人都在惊呼提示词越来越长时，Anthropic 自己却在 4.0→4.1 悄悄做了减法。这说明顶级团队心里很清楚：长度不是 KPI，可控行为才是。他们一边在 4.5/4.7 大幅加码新能力和护栏，一边在小版本里持续清理冗余——增与删是同时进行的。把 4 系列当成"一个版本"看，会错过这场最精彩的内部博弈：它本质是"能力扩张"与"提示词节流"两股力量的拉锯，而拉锯的合力，就是我们在第 01 节看到的那条时涨时落的曲线。

02d把 4.7 拆到骨头：一个 15 万字符的提示词里到底装了什么

Opus 4.7 是目前已知最长的 Claude 系统提示词：149,442 字符 ≈ 37,360 token，相当于把一本中篇小说塞进每一次对话的开头。我们用正则把它的全部成对 {block}…{/block} 标记切出来，按字符量排序——结果非常反直觉：真正讲"怎么做人"的部分只占零头，绝大多数 token 花在了"工具说明书"上。

4.7 的 token 预算：钱花在哪了

下面是 4.7 内部各大区块的体量（按 token 估算，chars÷4）。一眼就能看出，这已经不是一份"人格设定"，而是一份带着完整 SDK 文档的智能体运行时手册：

available_skills

28.6K tok

functions

9.0K

search_instructions

6.8K

claude_behavior

6.2K

computer_use

5.0K

anthropic_api…

2.3K

artifact_usage

1.7K

image_search

1.6K

2.3K

user_wellbeing

1.0K

注：available_skills 是运行时按账号注入的"可用技能清单"，并非每次都满载；但在被抓取的这一版里它实打实占了约 76% 的体量。把它和 functions、search_instructions、computer_use 四块相加，"工具与能力说明"吃掉了整个提示词的 九成以上。

💡 我的看法

这张图推翻了大众对"系统提示词"的想象。人们以为长出来的是越来越啰嗦的道德说教，实际上真正膨胀的是工具生态：skills、functions、computer_use、image_search、artifacts API……每接一个新能力，提示词就长一截。换句话说，Claude 提示词的长度曲线，本质是 Anthropic 产品能力栈的扩张曲线。人格(claude_behavior)这三年其实只从几千涨到 6K token，相当克制。

4.7 的骨架：13 个功能域，逐个看它在管什么

抛开庞大的工具清单，4.7 的"行为内核"由一组命名清晰的区块构成。下面按职责归类，逐块解释它实际在约束什么——这能让你看清 Anthropic 是如何把一个个真实世界的"翻车教训"固化成提示词条款的：

区块	~token	它在管什么 / 为什么存在
claude_behavior	6,157	人格与对话方式的总纲：主动性、诚实、对批评的反应、语气。是 3.7 "Core Identity" 的直系后代，但已扩成一个大容器，内含 tone/evenhandedness/wellbeing 等子块。
search_first	162	开篇硬规则：任何关于"当下世界"的事实问题必须先搜索，不许凭记忆答。直击大模型"幻觉+知识过期"两大痛点。
refusal_handling	947	如何拒绝：不说教、不评判用户、给替代方案。把"安全"从硬性挡板变成有温度的引导。
critical_child_safety…	488	儿童安全红线，措辞最严厉(critical)。这类"硬限制"是 3.5 时代完全没有的。
legal_and_financial_advice	103	法律/金融建议的免责边界——典型的"被律师审过"的产品条款。
tone_and_formatting + lists_and_bullets	1,391	排版风格规训：少用 bullet、别动不动列表、口语化。这是对"AI 味"的主动反制。
user_wellbeing	1,029	用户心理福祉：不诊断、不臆测动机、识别依赖与脆弱信号。前文折叠④即此块。
evenhandedness	578	政治/争议话题的"不偏不倚"准则——一个被反复舆论拷打后长出来的专门区块。
knowledge_cutoff	480	如何向用户解释自己的知识截止时间，避免不懂装懂。
memory_system + past_chats_tools	1,064	记忆与历史对话工具：4.x 才出现，标志 Claude 从"无状态问答"走向"有记忆的助理"。
persistent_storage…	812	Artifacts 的持久化存储规则——产物不再是一次性，而是可保存的资产。
mandatory_copyright… (+examples)	2,300+	版权合规：硬限制 + 大量正反例。这是被起诉风险喂出来的最"重"的安全板块之一。
anthropic_reminders	271	给自己打的"便签"——一些容易忘的元规则的兜底重申。

三个最能代表"4.7 心智"的细节

把这些条款读进去，能感觉到 4.7 和早期版本在"自我认知"上的代际差异：

它知道自己会过期。 search_first + knowledge_cutoff 两块联手，等于在提示词层面承认"我的训练数据是死的，世界是活的"，并把"先查再答"设成默认反射。3.5 时代的处理方式只是一句"我打不开链接"。
它知道自己在跟脆弱的人对话。 user_wellbeing + refusal_handling 把"安全"从"不输出违禁内容"升级到"不伤害正在对话的这个人的心理状态"——这是把模型当成有照护责任的服务来设计。
它知道自己要担法律责任。 mandatory_copyright、legal_and_financial_advice、critical_child_safety 这几块的措辞、篇幅和正反例密度，已经和企业合规手册无异。提示词在这里不再是"提示"，而是合规护栏。

💡 我的看法

如果只能用一句话总结 4.7：它是一份把"产品上线三年踩过的所有坑"逐条焊死的运行时契约。每一个看似啰嗦的区块背后，多半都对应着一次真实的舆论事件、一封律师函、或一类用户投诉。所以读 4.7 的 system prompt，某种程度上是在读 Anthropic 这家公司近三年的"事故复盘合集"——这也是为什么它只会越来越长，而很难真正变短：你可以把一个能力训进权重，但很难把一条"法律责任"训进权重。

附：4.7 完整区块清单（按文中出现顺序，节选 24 块）逆向抓取 · 仅供研究

下列为从抓取文本中切出的成对标记及其字符量，可看出"行为/安全"块小而密、"工具/技能"块大而长的整体格局。

{claude_behavior} ~6157 tok 人格与对话总纲 {search_first} ~162 先搜索再回答 {product_information} ~931 产品信息 {refusal_handling} ~947 如何拒绝 {critical_child_safety…} ~488 儿童安全(硬限制) {legal_and_financial_advice} ~103 法律/金融免责 {tone_and_formatting} ~956 语气与排版 {lists_and_bullets} ~435 少用列表 {user_wellbeing} ~1029 用户心理福祉 {evenhandedness} ~578 政治不偏不倚 {knowledge_cutoff} ~480 知识截止解释 {memory_system} ~62 记忆系统 {past_chats_tools} ~1002 历史对话工具 {persistent_storage…} ~812 Artifacts 持久化 {computer_use} ~5023 电脑操作能力 {skills}/{available_skills} ~29131 技能系统(最大头) {functions} ~8971 函数/工具定义 {search_instructions} ~6825 搜索详规 {mandatory_copyright…} ~1242 版权强制要求 {citation_instructions} ~615 引用语法 {anthropic_api_in_artifacts} ~2319 在产物里调 API {mcp_servers} ~706 MCP 服务器 {image_search} ~1586 图片搜索 {harmful_content_safety} ~387 有害内容安全

02e功能考古：每一项能力是哪一代"长出来"的

把七个版本的提示词正文做关键词扫描，能精确画出"每个能力是哪一代首次写进提示词的"。这张表比长度曲线更有信息量——它告诉你 Anthropic 三年里到底在往模型身上挂什么。下表是各功能关键词在该版本提示词里的提及次数（0 = 该版本完全没有这个概念）：

能力 / 版本	3.5	3.7	C4	4.5	4.6	4.7	F5
web 搜索	0	35	17	28	36	44	33
artifacts 产物	62	51	50	30	34	43	30
computer_use 电脑操作	0	0	0	7	7	7	2
skills 技能系统	0	0	0	83	91	111	91
memory 记忆	0	2	2	31	11	18	11
citation 引用语法	2	10	8	26	16	18	24
thinking 思维链	1	7	12	13	13	13	5
MCP 协议	0	0	0	0	29	45	32
wellbeing 心理福祉	1	2	2	8	9	8	7
child safety 儿童安全	0	4	5	5	5	15	1
copyright 版权	0	14	19	29	16	39	27
election 选举中立	0	12	12	5	4	4	5
knowledge cutoff 知识截止	0	9	14	20	22	22	21

高亮格 = 该能力首次被显著写入提示词的"诞生代"。

从这张表能读出五条清晰的"能力上线时间线"

3.5 · 2024 中

起点：只有 Artifacts

62 次提及，是当时唯一的"高级能力"。其余全是身份描述。连"搜索"都还不存在(0)——它真的只是个会写可交互卡片的聊天机器人。

3.7 · 2025 初

搜索 + 安全 + 选举中立三件套

web 搜索从 0→35 一步到位；版权(14)、选举中立(12)、儿童安全(4) 同时上线。这是 Claude 第一次"长出社会责任感"——也是提示词从 5.7K 暴涨到 15.9K 的主因。

4.5 · 2025 秋

智能体大爆发：skills + computer_use + memory

这一代是分水岭：技能系统(0→83)、电脑操作(0→7)、记忆(2→31)、引用语法(8→26) 全部首次写入。Claude 从"会聊天"变成"会动手"。提示词冲到 23K。

4.6 · 2026 初

MCP 协议接入

Model Context Protocol 从 0→29 首次出现，意味着 Claude 开始把"对接外部工具生态"写进默认行为。隐私/位置话题也在此代飙升。

4.7 · 2026

合规焦虑达到顶峰

版权(39)、儿童安全(15)、MCP(45) 三项同时冲到历史最高。这一代的膨胀不来自新能力，而来自把已有能力的安全边界写得更死——典型的"产品成熟期"特征。

💡 我的看法

这张表最值得玩味的是趋势的"接力"结构：早期(3.7)长出来的是社会责任(选举/版权/安全)，中期(4.5)长出来的是动手能力(技能/电脑/记忆)，后期(4.7)长出来的是合规护栏(把前面的能力一一上锁)。换句话说，提示词的增长不是均匀注水，而是"先给能力、再给责任、最后给枷锁"三段式。这恰好对应一个 AI 产品从"炫技"到"普及"再到"被监管"的完整生命周期。

02f提示词也在做减法：那些被删掉和回落的部分

人们只盯着"越来越长"，却忽略了提示词其实一直在做减法。增长是主旋律，但每一代都在悄悄删东西——这些删减比膨胀更能暴露设计者的真实意图。

① Artifacts：唯一一路下降的核心能力

Artifacts 的提及次数是 62 → 51 → 50 → 30 → 34 → 43 → 30，整体下行。但这不是因为 Anthropic 不重视产物了，恰恰相反——而是因为模型已经学会了怎么用 Artifacts，不再需要在提示词里手把手地教。3.5 时代要用 62 次提及反复叮嘱"什么时候该建产物、产物里能放什么"，到了 4.x 时代，这些规则大部分已经训进了权重，提示词只需保留关键约束。

💡 我的看法

Artifacts 这条曲线，是整篇文章里最干净的一个"提示词 → 权重"蒸馏样本。它证明了那个核心论点：提示词里的内容是"还没被训练吸收的需求的临时余额"。一旦某种行为足够稳定地训进了模型，它就会从提示词里被"提走"，腾出 token 预算给新的、还不稳定的需求。长度曲线之所以会涨会落，本质就是这个"存入-提取"过程的净值。

② 选举中立：从 12 次回落到 4-5 次

选举中立条款在 3.7/C4 时代各被提及 12 次（2024-2025 正值大选周期，是舆论高压区），到 4.5 之后回落到 4-5 次并稳定下来。这是典型的"应激性条款"——因外部事件临时加码，事件过去后逐步瘦身，把通用原则交还给权重对齐。

③ Fable 5 的"重构式瘦身"

注意 Fable 5 几乎在所有维度上都比 4.7 更短（儿童安全 15→1、思维链 13→5、版权 39→27）。这不是能力退化，而是一次结构性重写：4.7 靠"反复强调 + 大写 MUST + 堆正反例"来压住行为，Fable 5 改用规整的 72 节 markdown 把同样的约束说一遍说清楚，去掉了大量冗余重申。它是"做减法"思路的一次集中体现。

维度	4.7(峰值)	Fable 5	变化
总 token	~37.4K	~29.9K	↓ 20%
儿童安全提及	15	1	↓ 大幅精简
思维链提及	13	5	↓ 收敛
版权提及	39	27	↓ 去冗余
组织方式	{block} 标记 + 大写强调	72 节规整 markdown	结构化重写

💡 我的看法

4.7 → Fable 5 的回落，和当年 4.1 的那次回落同构，都在传递同一个信号："把规则写得更长"和"把规则写得更对"是两件事。当一个团队从"恐惧驱动地往提示词里塞条款"成熟到"有信心用更少的话把边界讲清楚"，提示词就会瘦身。所以提示词长度的拐点，往往不是能力的拐点，而是团队对自己模型的信任度的拐点。

02g放大一个区块：4.7 是怎么教模型"搜索"的

前面看的是宏观结构。这一节我们把镜头怼到 4.7 里一个 6.8K token 的大块 search_instructions 上，看看 Anthropic 是用什么样的具体措辞把"会搜索"这件事写成行为契约的——这是理解"现代 system prompt 颗粒度"的最佳样本。

它不是说"去搜索"，而是教一套完整的"搜索决策学"

3.5 时代关于搜索的全部内容是 0（那时根本没有搜索）。4.7 则把搜索拆成了一套分级判断 + 操作规范 + 安全红线的体系。核心逻辑是一个"该不该搜"的决策树：

有把握且不会变的 → 直接答。 历史事实、科学原理、已完成的事件、已故者的生平——这些"搜了也是浪费"。提示词甚至举例："不要为乔治·华盛顿去搜索，因为他的状态不会再变了。"
关于"当下世界状态"的 → 必须搜。 谁在任、什么政策生效、现在存在什么——"价格和领导人会变"，哪怕模型觉得自己知道答案，也不许跳过搜索。
拿不准、或新近性可能重要的 → 倾向于搜。 把"当犹豫时，去搜"设成默认。

原文对照：core_search_behaviors 的决策原则4.7 · ~1.4K tok 子块

原文Search the web when needed: For queries where Claude has reliable knowledge that won't have changed (historical facts, scientific principles, completed events), Claude should answer directly. For queries about current state that could have changed since the knowledge cutoff date (who holds a position, what policies are in effect, what exists now), Claude should search to verify. When in doubt, or if recency could matter, Claude should search. … Dead people like George Washington, since their status will not have changed.

中文翻译需要时搜索网络：对于 Claude 拥有不会变的可靠知识的问题（历史事实、科学原理、已完成的事件），应直接回答。对于自知识截止日期以来可能已经改变的"当前状态"问题（谁在任、哪些政策生效、现在存在什么），Claude 应通过搜索来核实。当犹豫时，或新近性可能重要时，Claude 应搜索。 …… 像乔治·华盛顿这样的已故者无需搜索，因为他们的状态不会再变。

连"怎么搜"都被写成了操作手册

更惊人的是 search_usage_guidelines 子块——它把搜索的手法都规定死了，细到查询词的长度：

查询词要短而具体，1-6 个词最佳；先用 1-2 个宽泛词起手，再逐步收窄。
每个查询必须与上一个有实质差异——重复同样的短语不会得到不同结果。
禁止在查询里用 -、site: 或引号操作符，除非用户明确要求。
用 web_fetch 抓全文，因为 web_search 的摘要往往太短。
搜索结果不是用户给的，所以不要为此感谢用户。
隐私红线：若被要求从图片中辨认某个人，查询里绝不能包含任何人名。

原文对照：search_usage_guidelines 的操作规范4.7

原文How to search: - Claude should keep search queries short and specific - 1-6 words for best results - Claude should start broad with short queries (often 1-2 words), then add detail to narrow results if needed - EVERY query must be meaningfully distinct from previous queries - Claude should NEVER use '-' operator, 'site' operator, or quotes in search queries unless explicitly asked - Search results aren't from the person - Claude should not thank them - If asked to identify an individual from an image, Claude should NEVER include ANY names in search queries to protect privacy

中文翻译如何搜索： - 查询词应短而具体——1-6 个词效果最佳 - 先用短查询(常 1-2 词)宽泛起手，需要时再加细节收窄 - 每个查询都必须与之前的查询有实质区别 - 绝不要在查询里使用 '-' 操作符、'site' 操作符或引号，除非被明确要求 - 搜索结果不是来自用户——不要为此感谢用户 - 若被要求从图片辨认某人，为保护隐私，查询里绝不能包含任何人名

💡 我的看法

这个区块是整篇文章里我最想让人细读的部分。它彻底说明了为什么现代 system prompt 会这么长：它不再假设模型"自己会用工具"，而是把人类专家使用工具的全部隐性经验，显性地写成了一条条规则。"查询词 1-6 个词最佳""不要重复同样的短语""结果不是用户给的、别道谢"——这些都是真实的搜索工程经验。Anthropic 没有指望模型自己悟出来，而是当成员工手册逐条写清。这也解释了为什么提示词工程正在变成一门和"写产品需求文档"高度相似的手艺：你写得越具体，行为越可控。

03内容维度热力图：钱都花在哪了？

我们用关键词正则统计了每个版本里各主题的提及次数（粗粒度，反映"关注密度"而非精确语义）。颜色越深代表该版本在这个维度着墨越多：

维度 / 版本	3.5	3.7	C4	4.5	4.6	4.7	F5

数值=关键词出现次数；底色深浅按该行最大值归一。

读这张表能读出 Anthropic 三年的"心病清单"：

用户位置 / 隐私（0→76）：增长最猛的维度。个性化与隐私合规的钢丝越走越细。
人格 / 语气（0→31）：从无到有再到精雕——"温暖但不谄媚"成了核心命题。
心理健康 / 自伤（1→21）：用户规模上来后，危机干预责任写进了提示。
版权 / 长引文（0→60）：法务焦虑的直接投影。
Artifacts（62→30）：唯一显著下降的维度——说明 Artifacts 用法已成熟、被吸收，不再需要长篇解释。

04开源的另一条路：Hermes 的 10 层动态组装

闭源模型把提示词堆成单体巨石；开源 Agent 走了完全相反的方向。我们读了 NousResearch 的 hermes-agent 源码与设计文档，它代表了一种模块化、可缓存的范式。

核心身份只有 ~90 词

Hermes 的"灵魂"（default_soul.py 里的 DEFAULT_SOUL_MD）极其克制：

You are Hermes Agent, an intelligent AI assistant created by Nous Research. You are helpful, knowledgeable, and direct... You communicate clearly, admit uncertainty when appropriate, and prioritize being genuinely useful over being verbose... Be targeted and efficient in your exploration.

然后由 10 层动态拼装出最终提示

真正的体量来自运行时按需组装。根据其 prompt-assembly.md，最终系统提示分三个"层级(tier)"、十个来源：

Tier	层	内容来源
stable (稳定/可缓存)	1 身份	SOUL.md / 默认身份
	2 工具行为指引	memory / session_search 等工具用法
	3 技能索引	<available_skills> 列表
	4 环境/平台提示	CLI / Telegram / WeCom 等渲染差异
context	5 系统消息	调用方传入的 system_message
context	6 项目上下文	AGENTS.md / CLAUDE.md / .cursorrules
volatile (易变)	7 记忆快照	MEMORY.md
	8 用户画像	USER.md
	9 外部记忆块	memory-provider
	10 时间戳/会话/模型行	每轮刷新

🔗 设计宪章原文

Hermes 的 AGENTS.md 里有一句近乎信仰的设计原则：
"Per-conversation prompt caching is sacred."（每对话的提示词缓存神圣不可侵犯）——任何在对话中途改写历史、切换工具集、重建系统提示的行为都会让缓存失效、成倍增加用户成本，因此一律禁止（唯一例外是上下文压缩）。配套原则是 "The core is a narrow waist; capability lives at the edges."（核心是收窄的腰部，能力长在边缘）——每个核心工具都会在每次 API 调用时被发送，所以新增核心工具的门槛极高，能力应通过 skill / plugin 而非膨胀核心来扩展。

对比：Hermes-Function-Calling 的"远古"提示词（2024）

作为参照，NousResearch 更早的 Hermes-Function-Calling 的 system prompt（sys_prompt.yml）只有约 350 词，结构是 Role / Objective / Tools / Examples / Schema / Instructions：

You are a function calling AI agent with self-recursion. You can call only one function at a time and analyse data you get from function response. You are provided with function signatures within <tools></tools> XML tags... For each function call return a valid json object within <tool_call></tool_call> tags.

💡 我的看法

这是两种工程哲学的正面碰撞。Anthropic 选择"大单体 + 全量加载"：行为绝对一致、可热更新，代价是每轮付全额 token。Hermes 选择"小核心 + 分层组装 + 缓存"：稳定层走缓存只算一次钱，易变层每轮刷新，把成本压到最低。
谁对？取决于身份。Anthropic 卖的是模型即产品，提示词是它唯一的行为护城河，再贵也得带着走；Hermes 是用户自己跑的 Agent，token 是用户真金白银，于是"缓存神圣"成了第一原则。提示词架构，本质是商业模式的镜像。

原文对照：Hermes 的核心身份 & 10 层组装示意hermes-agent · 源码

注意 Hermes 的"灵魂"短到可以一口气读完——它把可缓存的稳定前缀压到最小，所有真正的体量都靠运行时分层注入。这与 Claude 的 149K 单体形成最强烈的对照。

原文 · DEFAULT_SOUL_MDYou are Hermes Agent, an intelligent AI assistant created by Nous Research. You are helpful, knowledgeable, and direct. You assist users with a wide range of tasks including answering questions, writing and editing code, analyzing information, creative work, and executing actions via your tools. You communicate clearly, admit uncertainty when appropriate, and prioritize being genuinely useful over being verbose unless otherwise directed below. Be targeted and efficient in your exploration and investigations.

中文翻译你是 Hermes Agent，一个由 Nous Research 创造的智能 AI 助手。你乐于助人、知识渊博、直截了当。你协助用户完成广泛的任务，包括回答问题、编写与编辑代码、分析信息、创意工作，以及通过工具执行操作。你表达清晰，在适当时承认不确定性，并把"真正有用"置于"啰嗦冗长"之上（除非下文另有要求）。在探索与调查时要有的放矢、讲求效率。

原文 · prompt-assembly.md 的分层原则The cached system prompt is assembled as three ordered tiers: 1. stable — identity (SOUL.md), tool/model guidance, skills prompt, environment hints, platform hints 2. context — caller-supplied system_message plus project context files (AGENTS.md / CLAUDE.md / .cursorrules) 3. volatile — memory snapshot (MEMORY.md), user profile (USER.md), timestamp/session/model line The final system prompt is joined as: stable → context → volatile.

中文翻译被缓存的系统提示由三个有序层级组装而成： 1. stable（稳定层）—— 身份(SOUL.md)、工具/模型指引、技能提示、环境提示、平台提示 2. context（上下文层）—— 调用方传入的 system_message，加上项目上下文文件(AGENTS.md / CLAUDE.md / .cursorrules) 3. volatile（易变层）—— 记忆快照(MEMORY.md)、用户画像(USER.md)、时间戳/会话/模型行最终系统提示按此顺序拼接：stable → context → volatile。

05学术界怎么看：更长 ≠ 更可控

提示词越写越长，一个尖锐的问题随之而来：这些指令真的被模型可靠地遵守了吗？学术界给出的答案并不乐观。

① 指令优先级是混乱的 —— Instruction Hierarchy (OpenAI, 2024)

arXiv:2404.13208 指出了 prompt injection / 越狱的根因：

"LLM 往往把系统提示（来自开发者）和来自不可信用户/第三方的文本视为同等优先级。"

论文提出了一套指令层级(instruction hierarchy)，显式定义当不同优先级指令冲突时模型该怎么办，并用数据生成方法教模型"选择性忽略低权限指令"。在 GPT-3.5 上，鲁棒性大幅提升——甚至对训练中未见过的攻击类型也有效。

👉 这解释了为什么 Claude 4.7 要反复强调"Claude must..."、为什么提示词里塞满了 CRITICAL / 大写强调——它们都在试图用措辞强度模拟优先级，而这本该由训练来解决。

② 模型对提示词高度敏感 —— ProSA (EMNLP 2024)

arXiv:2410.12405 提出 PromptSensiScore 指标，系统研究了提示词敏感性：

"LLM 性能对所用提示词高度敏感……敏感性随数据集和模型波动，更大的模型表现出更强的鲁棒性，few-shot 示例可缓解敏感性。"

👉 这印证了第 1 节的观察：能力变强后(更大模型)，对提示措辞的依赖会下降，从而可以"瘦身"提示词（如 Opus 4.1 的回落）。

③ 从"提示工程"到"上下文工程" —— 综述视角

两篇关键综述定义了这个领域的演进：

A Systematic Survey of Prompt Engineering (2402.07927)：把提示工程定义为"不改动核心参数、仅靠任务指令(prompts)扩展 LLM 能力"的技术，并系统梳理了各类方法。
A Survey of Context Engineering：明确把"上下文工程"与传统"提示工程"区分开——前者关注如何组织、检索、压缩进入上下文窗口的全部信息(系统提示只是其中一层)，正是 Hermes 那套分层组装的理论底座。

④ 越长的提示，中段越容易被"读漏" —— Lost in the Middle

arXiv:2307.03172 (Liu et al., TACL 2024) 给"提示词越长越好"泼了一盆冷水：

"模型对位于上下文开头和结尾的信息利用得最好，而当关键信息位于中间时，性能会显著下降——呈现一条 U 形曲线。"

👉 这对 4.7 这种 37K token 的巨型提示是个真实警告：埋在中段的某条安全条款，未必能像开头的 search_first 那样被可靠遵守。这也反向解释了为什么 Anthropic 要把最重要的指令(搜索、引用)放在最前面，把工具定义这种"查阅型"内容堆在后段——位置本身就是一种优先级编码。

⑤ 一个被忽视的真相：提示词是"会过期的"

学术与工程社区逐渐形成的共识是：系统提示词不是写一次就完事的静态资产，而是需要持续维护的活文档。模型每次升级，旧提示词里为"弥补上一代缺陷"而写的补丁就可能变成冗余甚至反噬——比如对一个已经学会克制的模型反复强调"不要谄媚"，反而可能让它表现得过分生硬。

👉 这正是 Claude 4.1、Fable 5 两次"回落"的学理依据：每次模型变强，都应该反向审计提示词，把已被权重吸收的指令删掉。提示词工程的一半工作量，其实在"删"而不在"加"。

💡 我的看法

把三篇放在一起看，浮现出一个清晰的张力：厂商在用"写更长的提示词"对抗"模型还没学会的东西"，而学术界在证明"长提示词本身是脆弱的、且应该被训练吸收"。这两股力量的拉锯，正是那条长度曲线时涨时落的真正原因。理想终局或许是——提示词回归极简，行为契约沉淀进权重，上下文窗口留给真正的任务信息。Claude 4.1 的那次回落，可能就是这个未来的一次预演。

06另一种活法：OpenAI 的克制路线

如果说 Claude 的故事是"越长越细"，那 OpenAI 的故事几乎是它的反面教材。同样三年，OpenAI 的 ChatGPT 系统提示词长期把自己压在 2K token 出头，直到 GPT-5 才第一次明显放量到 ~6.9K——但即便如此，也只有 Claude 4.7 的不到五分之一。这背后是两家公司截然不同的产品哲学。

OpenAI 主线 ChatGPT 的体量曲线

同样取自 CL4R1T4S 逆向库，按 token 估算（chars÷4）：

GPT-4.5 (25-02)

2.1K

GPT-4o (25-04)

2.2K

GPT-4.1 (25-05)

2.3K

ChatGPT-4o (25-09)

2.2K

o3/o4-mini (25-04)

3.8K

GPT-5 (25-08)

6.9K tok

用 OpenAI 标志性的青绿色把它和 Claude 系列区分开。注意 4o→4.1→4o 这一年几乎是横盘——OpenAI 长期刻意维持提示词的极简。

💡 我的看法

同期对比最震撼：OpenAI 最长的 GPT-5 (~6.9K) 还不如 Claude 4.7 里单独一个 search_instructions 块 (~6.8K) 大。这不是谁做得好做得差，而是两条路线——OpenAI 信奉"行为应当训进权重，提示词只留薄薄一层"，Claude 信奉"提示词是可热更新的产品控制面，能写进去就别等下次训练"。前者省 token、行为更难微调；后者贵、但迭代飞快。你在为哪一条买单，取决于你用的是哪家的 API。

OpenAI 的三个鲜明特征

用"命名空间 + 工具"代替长篇大论。 4o 的提示词里，工具是 bio(记忆)、python、web、image_gen、canmore(画布) 这样的命名空间，每个只用一两句话带过，把复杂度推给了模型对这些 API 的训练记忆，而不是当场在提示里展开。Claude 则把每个工具的完整 schema 都摊在提示词里。
"Personality: v2" —— 人格被版本化了。 OpenAI 从 4o 起就在提示词顶部写一行 Personality: v2，把人格当成一个可切换的配置项。GPT-5 更直接写出"洞察、鼓励、温和幽默"的人格描述。这是一种比 Claude 的长篇人格段更"工程化"的做法——人格是个开关，不是一篇散文。
o3/o4-mini 因"会推理"而略长。 推理模型的提示词(~3.8K)比聊天版更长，多出来的部分主要在讲如何使用思考预算、何时该多想。这印证了一个规律：提示词变长的两大引擎是"接工具"和"教模型用新能力(推理/记忆/搜索)"。

OpenAI 原文对照：GPT-4o 开场 & GPT-5 人格 v22025 · 逆向库

注意 OpenAI 用第二人称"You are ChatGPT"直接称呼模型，与 Claude 早期第三人称"The assistant is Claude"形成鲜明对比——前者像在配置一个程序，后者像在描述一个角色。

原文 · GPT-4o 开场You are ChatGPT, a large language model trained by OpenAI. Knowledge cutoff: 2024-06 Current date: 2025-04-25 Image input capabilities: Enabled Personality: v2 Over the course of the conversation, you adapt to the user's tone and preference. Try to match the user's vibe, tone, and generally how they are speaking... Ask a very simple, single-sentence follow-up question when natural. Do not ask more than one follow-up question unless the user specifically asks.

中文翻译你是 ChatGPT，一个由 OpenAI 训练的大语言模型。知识截止：2024-06 当前日期：2025-04-25 图像输入能力：已启用人格：v2 在对话过程中，你要适应用户的语气和偏好。尽量匹配用户的氛围、语气和说话方式……自然时可以问一个非常简单的单句追问。除非用户明确要求，否则不要问超过一个追问。

原文 · GPT-5 人格描述Personality: v2 You're an insightful, encouraging assistant who combines meticulous clarity with genuine enthusiasm and gentle humor. Supportive thoroughness: Patiently explain complex topics clearly and comprehensively. Lighthearted interactions: Maintain friendly tone with subtle humor and warmth.

中文翻译 · GPT-5 人格人格：v2 你是一个有洞察力、善于鼓励的助手，把一丝不苟的清晰与真诚的热情、温和的幽默结合在一起。支持性的周到：耐心、清晰、全面地解释复杂话题。轻松的互动：保持友好的语气，带着不经意的幽默与温暖。

💡 我的看法

把 OpenAI 这条线放进来，整篇文章的结论才完整："系统提示词越来越长"并不是一条铁律，而是一个选择。同样面对工具、安全、人格这些需求，OpenAI 选择把它们尽量沉淀进权重、把提示词压薄；Anthropic 选择把它们摊在提示词里换取迭代速度和可控性。所以下次看到某个模型的超长提示词，先别急着说"臃肿"——它可能只是把另一家藏在权重里的东西，明明白白写了出来而已。

07横向一瞥：长提示词是全行业现象

CL4R1T4S 库里收录了 25 个厂商。把 Claude、OpenAI 和其他几家放在一起，能看出"长提示词"是全行业趋势，且Agent/IDE 类普遍比聊天类更长：

产品	类型	体量(字符)	备注
ChatGPT 4o	聊天	~8.6K	OpenAI 聊天提示极简，靠权重对齐
ChatGPT 5	聊天	~27.8K	OpenAI 主线最长，仍远小于 Claude
Grok 4.1	聊天	~13.7K	xAI
Gemini 2.5 Pro	聊天	~12K	Google
Cursor 2.0	编码 Agent	~23K	工具+代码规范堆叠
Devin 2	编码 Agent	~50.8K	含大量命令手册
Manus	通用 Agent	~40K	Prompt+Functions 合计
Claude Opus 4.7	聊天+Agent	~149K	含完整工具定义，行业最长之一

规律很清楚：越往 Agent / 自主执行方向走，提示词越长——因为要写清工具用法、执行循环、错误处理、安全护栏。聊天产品则更依赖权重对齐，提示相对克制。Claude 之所以最长，是因为它同时是聊天产品和 Agent 平台，并把所有工具 schema 都内联进了提示词。

08给从业者的启示：这三年教会我们怎么写 system prompt

读了这么多顶级实验室三年的迭代，最值钱的不是八卦，而是可迁移的工程经验。把 Claude / OpenAI / Hermes 三条线的演化压缩一下，下面是我认为最能指导自己写 prompt 的几条规律。

① 先问"这条规则该进权重还是进提示词"

这是贯穿全文的核心分野。Artifacts 从 62→30 的回落证明：稳定、通用、高频的行为，迟早要训进权重；提示词只该承载"还不稳定、需热更新、或有法律/合规属性"的部分。对自己而言，如果某条 prompt 指令你已经反复验证它"模型每次都能做对"，那它其实是冗余的——可以删掉省 token；真正值得留在 prompt 里的，是那些模型会飘的边界。

② 具体度 = 可控度

4.7 的 search_usage_guidelines 给的最大启发是：越具体的指令，行为越可控。"好好搜索"是废话，"查询词 1-6 个词、别重复短语、别用 site: 操作符"才有效。写自己的 prompt 时，把"要专业""要简洁"这类形容词，尽量翻译成可执行的、带数字和反例的操作规范。

③ 把"翻车教训"沉淀成专门区块

Claude 的 evenhandedness、user_wellbeing、refusal_handling 都是被真实事件"打"出来的专门区块。对应到实践：每次模型出一类错，与其在主指令里加一句含糊的告诫，不如为这类错单开一个命名清晰的小节，集中正反例。命名本身就是一种文档——{user_wellbeing} 比散落在各处的三句话好维护得多。

④ 学 Hermes 把"核心"和"能力"分层

Hermes 的 "narrow waist"（收窄的腰部）哲学值得照搬：核心身份保持极短且稳定（利于缓存），能力通过可插拔的 skill/工具在边缘扩展。不要把所有工具说明都焊死在一个巨型 prompt 里——对需要长期运行、多轮对话的 Agent，可缓存的稳定前缀能直接省下大量成本。

⑤ 长不是目的，"敢删"才是成熟

4.1 和 Fable 5 两次回落提醒我们：提示词膨胀往往是"恐惧驱动"的——怕模型出错就拼命加条款。但真正成熟的标志，是有信心用更少、更结构化的话把边界讲清楚。定期回头审视自己的 prompt，问一句"这条还有必要吗"，比一味往里加更难、也更有价值。

💡 我的看法

把这五条合起来，其实指向一个判断："提示词工程"正在从一门玄学，变成一门有方法论的工程学科。它和写产品需求文档、写员工手册、写 API 文档越来越像——都是"把隐性期望显性化、把模糊目标可执行化"。三年前我们靠"咒语"哄模型，三年后顶级实验室靠的是结构化的契约 + 持续的版本管理 + 数据驱动的增删。对任何要认真做 Agent 的人来说，读懂这条演化线，比记住任何一条"提示词技巧"都重要。

🧭 收尾：系统提示词到底在进化成什么？

它在从"指令"变成"运行时"。2024 年它是一句话；2026 年它是身份+人格+工具+记忆+安全+合规的完整契约。
长度是"未被权重吸收的需求"的实时余额。会涨(新能力/新法规)，也会落(蒸馏进权重)。Claude 4.1 的回落与 Fable 5 的重构都是证据。
闭源也有两条路：单体 vs 克制。Anthropic 把能力摊进提示词换迭代速度(149K)，OpenAI 把行为压进权重保持提示极简(最长才 ~6.9K)——长度不是必然，而是商业与工程的选择。
学术界在敲警钟：更长不等于更可控；指令优先级混淆与提示敏感性是真实存在的脆弱点。措辞强度终究替代不了训练。
下一站大概是"上下文工程"：系统提示回归克制，行为沉淀进权重，把宝贵的上下文留给真正的任务。

方法论与局限：Claude 各版本数据来自社区逆向库 elder-plinius/CL4R1T4S，非官方，可能含抓取误差、版本拼接或工具定义混入(故 4.7 含工具定义而显著偏长)；token 数按 chars÷4 估算，趋势可信、绝对值仅供参考。Hermes 数据为可验证开源源码。热力图为关键词正则计数，反映关注密度而非精确语义。本文含作者个人见解(蓝色卡片)，已尽量与事实区分。