把设计专家方法论封装成 AI Skill 矩阵
每个设计师脑子里都有方法论,但只有自己会用。100+ 人的设计师团队,方法论沉淀不下来。
启发式评估、可用性测试
从需求文档生成可交互原型
Token 体系、组件规范
品牌 IP 形象设计
品牌策略、视觉创意
AI Analytics 能力
跨 Agent 调度、记忆
持续扩展中
核心问题:怎么让一个人脑子里的方法论,变成 100 个人共享、还能持续进化的工具?
不是 App,不是网站。是装到设计师工作流里的能力包。
每个新设计师,都能站在前 100 个设计师的肩膀上。
一套"可执行的方法论",包含 Prompt + 流程 + 宪法 + 知识库 + 黄金样本
skills/uxeval/
├── SKILL.md 入口(frontmatter)
├── constitution.md 宪法 · 硬约束
├── pipeline.yaml 流水线 · 12 stages
├── prompts/v1.0.0/ 版本化 Prompt
├── reference/ 领域知识
├── templates/ 输出模板
└── eval/
├── golden/ 黄金样本
└── failure/ 失败案例
| Pipeline | 固定阶段,串行执行(UXEval) |
|---|---|
| Skill Group | 多个子 Skill + workflow(Brand) |
把"做一次体验评估"拆成可控、可干预、可断点续跑的 12 步
在关键产物点暂停,让人类有干预入口 — 避免 AI 自嗨跑偏。
| C1 · 旅程图 | 这个用户旅程是否准确? |
|---|---|
| C2 · 任务清单 | 任务粒度是否合理?是否覆盖关键场景? |
| C3 · 严重等级 | 问题分级是否合理?建议是否可执行? |
设计师不愿装 Python,IDE 已经有 LLM。所以 IDE 原生模式是默认。
谁在跑:IDE 里的 AI 读 AGENTS.md + prompts,自己执行 12 stage
用什么模型:IDE 已配的 Claude / GPT / DeepSeek
谁用:100% 设计师
✓ 0 安装 0 配置 0 命令行
谁在跑:Python 引擎调 LLM API
用什么模型:自配 API Key
谁用:工程师 / CI 集成 / 批量评估
需要 pip install + API Key 配置
# 一句话上手
克隆 designos 仓库 → IDE 打开 → 把 PRD 拖进 work/ → 对 AI 说 /uxeval → 完。
# 三个暂停点回复"继续 / 修改 / 补充"
# 6-8 分钟后拿到:旅程图 + 任务清单 + 问题清单 + Excel 报告
每个选择都有理由 — 不为新而新,为合适而选
| 层 | 选型 | 为什么 |
|---|---|---|
| 语言 | Python 3.11+ | 设计师生态、AI/ML 库丰富、MCP 官方 SDK |
| 包管理 | uv | 比 pip 快 10×,比 poetry 简单 |
| 构建 | hatchling | 标准 PEP 621,PyPI 友好 |
| 类型 / Schema | Pydantic v2 | 严格类型,错误在边界暴露 |
| CLI | Typer | 类型驱动 CLI |
| 日志 | structlog | 结构化,可上 OpenTelemetry |
| 工具协议 | MCP | 跨厂商标准化,未来兼容性好 |
| 默认模型 | Claude Opus 4.7 | 长上下文 + 多模态视觉 + 调优最稳 |
| 分发 | PyPI + GitHub | 集团已有镜像,零额外基础设施 |
| License | Apache 2.0 | 可商用 + 专利保护 |
编排器 + Stage Runner,处理 LLM/Tool 两类 stage、依赖、retry、checkpoint
MCP 客户端:stdio + InProcessTransport(开发期内联调用提速 5×)
多 Provider 路由(Anthropic / OpenAI / DeepSeek)+ fallback 链
三级记忆:会话 → 项目 → 组织(GitHub 沉淀)
自动初始化、PRD 智能定位、scope 推断
暂停状态机,支持 auto_confirm 跳过和断点 resume
标准 MCP 走 stdio = 每次启动 Server 都要 spawn 子进程。开发改代码 → 反复重启 → 调试痛苦。
解法:开发模式直接 import 工具函数调用,绕过子进程;生产环境仍走标准 stdio。+5× 开发体验
不是专家反复改 Prompt,而是给 Skill 灌数据让它自己长
Session 内存中,单次跑
↓ 归档
Project 本地 .designos/memory/
↓ 价值认定 + 提交
Org GitHub repo + 专家审核
每一级都有人工 gate,防止脏数据污染
跑评估 → 收失败案例 → failure/
↓
DSPy 自动 prompt 优化
↓
golden samples 回归
↓
通过 → PR → 专家审核
↓
合并 → 新版本 prompt
工具:promptfoo / DSPy / golden+failure 数据集
每次跑出来的 run 都是养料 — 好的进 golden,坏的进 failure,累积到一定量自动触发优化。
做网页/App,里面塞 AI 功能
让 AI 成为执行主体,工具数据 Prompt 围绕它编排
把脑子里的经验拆三个文件:constitution.md(硬约束)+ prompts/(推理)+ reference/(知识库)。
✓ 可版本化 ✓ 可 diff ✓ 可回归测试
一个 20 页大 prompt 跑完所有事
12 个 stage,每个明确产物,关键节点 Checkpoint
工具不是 prompt 里的"请帮我处理 PDF",而是真实代码 — 通过 MCP 协议暴露给 LLM。
✓ 可独立测试 ✓ 多 Skill 共用 ✓ 可热替换
没有银弹 — 走过的弯路才是真正的经验
pip install designos → designos init → 配 API Key → designos run uxeval
设计师不愿装 Python、不想配 Key(IDE 里明明已经有了)
默认走 IDE 原生模式,CLI 降级为"工程师 / 批量"可选项
AGENTS.md 明确告诉 AI"不要让用户配 API Key"
把 designos 仓库当工作目录用
这是开发者视角不是用户视角
designos install 一键注入 Skill 到当前目录
对标 oh-my-zsh / husky 体验
| 坑 | 表现 | 解法 |
|---|---|---|
| JSON 带 markdown 代码块 | JSONDecodeError | 写 JSON 提取器去掉 ```json 包裹 |
| 多产物只填了第一个 | 下游拿不到数据 | 严格 schema + 解析时拆分 |
| .md 文件被当图片 base64 | 编码失败 | 显式判断后缀,文本走 text block |
| 长文档超 token 限制 | context_length_exceeded | 用长上下文模型或先 summary |
| 坑 | 表现 | 解法 |
|---|---|---|
from __future__ import annotations 让 Pydantic 拿不到注解 | 校验失败 | typing.get_type_hints() 解析字符串注解 |
| Frozen 模型不接受 None | validation error | _drop_none_recursive() 预清洗 |
| Pipeline 字段名 ≠ Tool 参数名 | 映射失败 | 写 _ARG_ALIASES 别名表 |
data.get(name, data) 兜底 | 整个 dict 塞进单字段 | 改成 data.get(name),None 即 None |
| 坑 | 表现 | 解法 |
|---|---|---|
| pip --user 后 binary 不在 PATH | command not found | __main__.py 兜底 + 自动改 .zshrc |
| Trae 沙箱不能写 ~/.designos | PermissionError | DESIGNOS_HOME env + 项目级降级 |
| 集团镜像同步慢 | 找不到新版本 | 临时 -i pypi.org/simple/ 强制官方源 |
1. 角色定义
2. 输入说明
3. 任务目标
4. 约束(不能做什么)
5. 输出格式(严格 JSON schema)
6. Few-shot examples(黄金样本)
7. 自检清单
设计师在哪、AI 在哪、就在哪交互
能从 IDE 拿到的,不要再问用户
/uxeval 比一长串 CLI 好 10×
designos install 一键注入命令DesignOS 不只是工具
它是设计师集体智慧的载体
每个新加入的设计师,都能站在前 100 个设计师的肩膀上
GitHub: github.com/Eryooo/designos · PyPI: pypi.org/project/designos · 维护:young
谢谢 · Q&A