提示词也是工程产物 — 空岛云技术

Prompt 作为代码的管理方式

在很多团队中，Prompt 的管理方式还停留在”某个人的飞书文档里”或”代码里的一段硬编码字符串”。当 Prompt 的质量直接决定了产品体验时，这种粗放的管理方式就不可接受了。Prompt 应该和代码一样，有版本管理、有 Code Review、有发布流程。

我们的做法是将 Prompt 模板存储在独立的 Git 仓库中，每个 Prompt 有自己的目录，包含模板文件、测试用例和变更日志。修改 Prompt 需要提 Pull Request，经过至少一位 Prompt Engineer 的 Review 后才能合入。这看起来很”重”，但避免了无数次”改了一个词导致线上效果崩盘”的事故。

Prompt 测试框架

代码有单元测试，Prompt 也需要自动化测试。但 Prompt 测试的难点在于：大模型的输出是非确定性的，你无法像断言函数返回值一样精确地验证 Prompt 的输出。我们采用的方法是”多维度评估”——对同一个 Prompt，准备一组测试输入，然后从准确性、完整性、格式规范性和安全性四个维度进行评分。

评分可以是自动化的（使用另一个 LLM 作为评判者），也可以是半自动化的（先自动筛选出可能有问题的 case，再由人工审核）。关键是建立一个可重复执行的测试流水线，每次 Prompt 变更都能快速得到质量反馈，而不是发布到生产环境后才发现问题。

Prompt 的灰度发布与 A/B 测试

Prompt 的发布策略和代码发布一样需要灰度机制。我们的 Prompt 服务支持流量分桶——同一个场景可以同时运行多个版本的 Prompt，按比例分配流量，收集各版本的效果数据后再决定全量切换到哪个版本。

A/B 测试的关键是定义好评估指标。对于对话类 Prompt，我们关注用户满意度评分和对话轮次；对于生成类 Prompt，我们关注输出的准确率和格式合规率。所有这些数据都会自动汇总到 Prompt 管理平台的看板上，让 Prompt Engineer 能够基于数据而非直觉做出决策。这套体系建立后，Prompt 的迭代效率提升了不少，线上事故率也显著下降。

2026年8月10日

大模型时代，基础设施团队的位置在哪里

AI 时代

2026年7月30日

AI 改变的不是代码，是研发流程

AI 时代

2026年7月25日

从 Swagger 到 MCP

AI 时代