DesignOS

把设计专家方法论封装成 AI Skill 矩阵

2026.05.19 · young · v0.1.2 · M1 内测版

从 7 个分散的 Agent 原型说起

每个设计师脑子里都有方法论,但只有自己会用。100+ 人的设计师团队,方法论沉淀不下来。

🔍

UXEval

启发式评估、可用性测试

📐

PRD → 原型

从需求文档生成可交互原型

🎨

设计系统

Token 体系、组件规范

IP 设计

品牌 IP 形象设计

💼

品牌咨询

品牌策略、视觉创意

📊

竞品分析

AI Analytics 能力

🧠

治理底盘

跨 Agent 调度、记忆

更多...

持续扩展中

核心问题:怎么让一个人脑子里的方法论,变成 100 个人共享、还能持续进化的工具?

DesignOS = Design + Operating System

不是 App,不是网站。是装到设计师工作流里的能力包。

Skills 层 · 设计师视角
UXEval / PRD→Proto / Design System / IP Design / Brand / Analytics
Kernel 层 · 基础设施
Pipeline 引擎 · MCP 客户端 · 三级记忆 · LLM 路由 · Checkpoint
MCP Servers 层 · 工具
PDF 解析 · Excel 生成 · 启发式判断 · 视觉分析 · Playwright · ...
每个新设计师,都能站在前 100 个设计师的肩膀上。

Skill 是什么

一套"可执行的方法论",包含 Prompt + 流程 + 宪法 + 知识库 + 黄金样本

目录结构

skills/uxeval/
├── SKILL.md           入口(frontmatter)
├── constitution.md    宪法 · 硬约束
├── pipeline.yaml      流水线 · 12 stages
├── prompts/v1.0.0/    版本化 Prompt
├── reference/         领域知识
├── templates/         输出模板
└── eval/
    ├── golden/        黄金样本
    └── failure/       失败案例

关键设计

  • 版本化 Prompt:每次改动可 git diff、可回归
  • 独立宪法:硬约束放单独文件,每次输出后校验
  • 声明式流水线:YAML 写阶段 / 依赖 / Checkpoint
  • 双格式样本:金样本驱动 Few-shot,失败案例驱动改进

两种 Skill 类型

Pipeline固定阶段,串行执行(UXEval)
Skill Group多个子 Skill + workflow(Brand)

UXEval 12 阶段流水线

把"做一次体验评估"拆成可控、可干预、可断点续跑的 12 步

1. PRD 理解
2. 角色推导
3. 场景推导
4. 启发式映射
5. 旅程图 ⚠ C1
6. 任务清单 ⚠ C2
7. (Web 自动化)
8. 截图加载
9. 启发式检测
10. 问题归因 ⚠ C3
11. 报告生成
12. 输出 Excel

三个 Checkpoint 是核心

在关键产物点暂停,让人类有干预入口 — 避免 AI 自嗨跑偏。

C1 · 旅程图这个用户旅程是否准确?
C2 · 任务清单任务粒度是否合理?是否覆盖关键场景?
C3 · 严重等级问题分级是否合理?建议是否可执行?

双模式 · IDE 原生 vs CLI

设计师不愿装 Python,IDE 已经有 LLM。所以 IDE 原生模式是默认。

🎨 IDE 原生模式(默认)

谁在跑:IDE 里的 AI 读 AGENTS.md + prompts,自己执行 12 stage

用什么模型:IDE 已配的 Claude / GPT / DeepSeek

谁用:100% 设计师

✓ 0 安装 0 配置 0 命令行

⚙️ CLI 模式(可选)

谁在跑:Python 引擎调 LLM API

用什么模型:自配 API Key

谁用:工程师 / CI 集成 / 批量评估

需要 pip install + API Key 配置

设计师的实际体验

# 一句话上手
克隆 designos 仓库 → IDE 打开 → 把 PRD 拖进 work/ → 对 AI 说 /uxeval → 完。

# 三个暂停点回复"继续 / 修改 / 补充"
# 6-8 分钟后拿到:旅程图 + 任务清单 + 问题清单 + Excel 报告

技术栈选型

每个选择都有理由 — 不为新而新,为合适而选

选型为什么
语言Python 3.11+设计师生态、AI/ML 库丰富、MCP 官方 SDK
包管理uv比 pip 快 10×,比 poetry 简单
构建hatchling标准 PEP 621,PyPI 友好
类型 / SchemaPydantic v2严格类型,错误在边界暴露
CLITyper类型驱动 CLI
日志structlog结构化,可上 OpenTelemetry
工具协议MCP跨厂商标准化,未来兼容性好
默认模型Claude Opus 4.7长上下文 + 多模态视觉 + 调优最稳
分发PyPI + GitHub集团已有镜像,零额外基础设施
LicenseApache 2.0可商用 + 专利保护

Kernel 内核 · 6 大模块

⚙️

pipeline/

编排器 + Stage Runner,处理 LLM/Tool 两类 stage、依赖、retry、checkpoint

🔌

mcp/

MCP 客户端:stdio + InProcessTransport(开发期内联调用提速 5×)

🧠

llm/

多 Provider 路由(Anthropic / OpenAI / DeepSeek)+ fallback 链

💾

memory/

三级记忆:会话 → 项目 → 组织(GitHub 沉淀)

📂

workspace/

自动初始化、PRD 智能定位、scope 推断

📍

checkpoint/

暂停状态机,支持 auto_confirm 跳过和断点 resume

InProcessTransport:开发期关键优化

标准 MCP 走 stdio = 每次启动 Server 都要 spawn 子进程。开发改代码 → 反复重启 → 调试痛苦。

解法:开发模式直接 import 工具函数调用,绕过子进程;生产环境仍走标准 stdio。+5× 开发体验

三级记忆 + Eval 驱动自演进

不是专家反复改 Prompt,而是给 Skill 灌数据让它自己长

三级记忆

Session  内存中,单次跑
   ↓ 归档
Project  本地 .designos/memory/
   ↓ 价值认定 + 提交
Org      GitHub repo + 专家审核

每一级都有人工 gate,防止脏数据污染

自演进闭环

跑评估 → 收失败案例 → failure/
            ↓
       DSPy 自动 prompt 优化
            ↓
       golden samples 回归
            ↓
       通过 → PR → 专家审核
            ↓
       合并 → 新版本 prompt

工具:promptfoo / DSPy / golden+failure 数据集

每次跑出来的 run 都是养料 — 好的进 golden,坏的进 failure,累积到一定量自动触发优化。

核心设计思路

哲学层 · AI-native

×

做网页/App,里面塞 AI 功能

让 AI 成为执行主体,工具数据 Prompt 围绕它编排

知识层 · 让方法论可执行

把脑子里的经验拆三个文件:constitution.md(硬约束)+ prompts/(推理)+ reference/(知识库)。

✓ 可版本化 ✓ 可 diff ✓ 可回归测试

流程层 · 流水线 + Checkpoint

×

一个 20 页大 prompt 跑完所有事

12 个 stage,每个明确产物,关键节点 Checkpoint

工具层 · MCP 解耦

工具不是 prompt 里的"请帮我处理 PDF",而是真实代码 — 通过 MCP 协议暴露给 LLM。

✓ 可独立测试 ✓ 多 Skill 共用 ✓ 可热替换

关键决策的迭代过程

没有银弹 — 走过的弯路才是真正的经验

弯路 1 · CLI-first 而非 IDE-first

初版

pip install designosdesignos init → 配 API Key → designos run uxeval

设计师不愿装 Python、不想配 Key(IDE 里明明已经有了)

纠正

默认走 IDE 原生模式,CLI 降级为"工程师 / 批量"可选项

AGENTS.md 明确告诉 AI"不要让用户配 API Key"

弯路 2 · 让设计师 git clone 整个仓库

当前

把 designos 仓库当工作目录用

这是开发者视角不是用户视角

下一步

designos install 一键注入 Skill 到当前目录

对标 oh-my-zsh / husky 体验

开发踩坑速查

LLM 相关

表现解法
JSON 带 markdown 代码块JSONDecodeError写 JSON 提取器去掉 ```json 包裹
多产物只填了第一个下游拿不到数据严格 schema + 解析时拆分
.md 文件被当图片 base64编码失败显式判断后缀,文本走 text block
长文档超 token 限制context_length_exceeded用长上下文模型或先 summary

工程相关

表现解法
from __future__ import annotations 让 Pydantic 拿不到注解校验失败typing.get_type_hints() 解析字符串注解
Frozen 模型不接受 Nonevalidation error_drop_none_recursive() 预清洗
Pipeline 字段名 ≠ Tool 参数名映射失败_ARG_ALIASES 别名表
data.get(name, data) 兜底整个 dict 塞进单字段改成 data.get(name),None 即 None

分发相关

表现解法
pip --user 后 binary 不在 PATHcommand not found__main__.py 兜底 + 自动改 .zshrc
Trae 沙箱不能写 ~/.designosPermissionErrorDESIGNOS_HOME env + 项目级降级
集团镜像同步慢找不到新版本临时 -i pypi.org/simple/ 强制官方源

Agent Skill 开发最佳实践

Skill 设计

  • DO 把宪法独立成单文件
  • DO 流水线显式化(YAML 比大 prompt 可控 100×)
  • DO 关键节点加 Checkpoint
  • DO 用 MCP 解耦工具调用
  • DO 版本化 prompt(git diff + 回归测试)
  • DON'T 追求"一个 prompt 解决所有"
  • DON'T 让 AI 自由决定流程顺序
  • DON'T 在 prompt 里硬编码工具调用

Prompt 编写结构

1. 角色定义
2. 输入说明
3. 任务目标
4. 约束(不能做什么)
5. 输出格式(严格 JSON schema)
6. Few-shot examples(黄金样本)
7. 自检清单

避坑要点

  • 不写"请尽量...",改"必须..."
  • 不让 LLM 自由发挥结构 → 给 JSON schema
  • 不信单次输出 → 宪法校验 + retry

产品设计三大原则

从 IDE 视角

设计师在哪、AI 在哪、就在哪交互

零配置优先

能从 IDE 拿到的,不要再问用户

简洁触发

/uxeval 比一长串 CLI 好 10×

当前进展 & 下一步

12
Pipeline Stages
160
单元测试
v0.1.2
PyPI 已发布
6
IDE 已适配

M1(已交付)

  • UXEval Skill 完整流水线跑通
  • Kernel 内核 + 4 个 MCP Server
  • 多 IDE 集成(AGENTS.md / .claude / .cursor)
  • PyPI 自动发版(GitHub Actions OIDC)
  • 设计师内测手册

M2(下一阶段)

  • Web 自动化模式(Playwright + Chromium)
  • 剩余 5 个 Skill(PRD2Proto / IP / Brand / Analytics / DesignSystem)
  • designos install 一键注入命令
  • 组织级记忆 + 专家审核流
  • DSPy + promptfoo 自演进闭环

远期愿景

DesignOS 不只是工具
它是设计师集体智慧的载体
每个新加入的设计师,都能站在前 100 个设计师的肩膀上

GitHub: github.com/Eryooo/designos  ·  PyPI: pypi.org/project/designos  ·  维护:young

谢谢 · Q&A