================================================================================
Scanner v2.0 — 8 节点质量分析报告
目标: 识别 LLM 输出缺陷，优化 prompt 以提升大规模扫描质量
================================================================================

================================================================================
一、发现的问题（按严重程度排序）
================================================================================

P0 严重 — 影响数据可用性
--------------------------------------------------------------------------------

P0-1. 评分区分度严重不足（"中庸陷阱"）
  现象: 18 个 numeric_profile 中 12 个 std < 0.5
        节点间余弦相似度平均 0.969，最高 0.995
        8 个节点的评分向量几乎无法区分
  根因: Gemini 对 1-5 量表偏好给 3-4 分（占 79.2%）
        极端值 (1, 5) 合计仅占 5.6%
  影响: 大规模扫描后 2325 节点的 numeric_profile
        将高度相似，无法支撑聚类/排序等二次分析

P0-2. 变化状态和置信度无差异
  现象: 8 个节点全部判为「已变」+ 置信度「中」
        跨 PCF/ITIL/SCOR/AI-era 四框架，L3/L4 两级
  典型: 13.11.1「评估AI能力成熟度」是 AI-era 新增流程
        判为「已变」不合逻辑（该流程本身因AI而生）
  根因: prompt 未给出变化状态的判定锚点和否定性示例
        LLM 倾向于选择「已变+中」的安全区间

P1 重要 — 影响数据质量
--------------------------------------------------------------------------------

P1-1. model_id 和 scan_timestamp 幻觉
  现象: LLM 自创 model_id (如 "AI_Impact_Scanner_V1.0")
        timestamp 固定在 2024 年，与实际不符
  影响: JSON 中这两个字段完全不可信
  修复: 从 prompt JSON 模板中删除，后处理注入

P1-2. evidence_type 与 change_status 逻辑矛盾
  现象: 13.11.1 和 8.5.7.3 使用「类型B」(预测性)证据
        却判定为「已变」(需要实际发生的证据)
  影响: 违反 prompt 中规则1-3 的精神
  修复: 增加显式约束: 类型B证据不得支撑「已变」结论

P1-3. D3 type_a 全部 = 4，零区分度
  现象: 所有节点增强型得分完全相同
        type_c(消亡型) 全部 = 0
  影响: D3 维度对节点分类无实际贡献
  修复: 提供锚定示例和极端参考值

P2 改进 — 优化效率
--------------------------------------------------------------------------------

P2-1. Thinking tokens 占 39%
  现象: 总 44,803 tokens 中 17,451 为思考 token
        2325 节点预估消耗: ~13M tokens
  优化: 考虑使用非 thinking 模型减少 40% 成本

P2-2. basis 字段基本合规但偶有超长
  现象: 129 个 basis 中仅 1 个超 30 字 (31字)
  评价: 规则6 执行良好，可保留


================================================================================
二、Prompt 优化建议
================================================================================

优化 1: 增加评分锚定，打破中庸倾向
--------------------------------------------------------------------------------
  在 System Prompt 中增加:
  "规则8: 评分应使用完整的1-5量表。
   1分=几乎不存在/极低; 2分=较低; 3分=中等;
   4分=较高; 5分=极高/几乎完全。
   避免将所有评分集中在3-4区间。"

  在各维度子项后增加锚定示例:
  例如 D8.data_intensity:
    "1分参考: 纯人际沟通流程(如领导力辅导)"
    "5分参考: 高频交易/实时定价等数据密集流程"

优化 2: 修复变化状态判定标准
--------------------------------------------------------------------------------
  增加判定规则:
  "change_status 判定标准:
   已变: >=30%普遍企业已实施，有规模化部署证据
   将变: 有明确技术路径但尚未普遍部署，标杆企业先行
   稳定: 当前技术条件下无显著AI介入，或该流程因AI而生"

  增加约束:
  "evidence_type=类型B 不得支撑 status=已变"

优化 3: 删除 LLM 无法可靠填写的字段
--------------------------------------------------------------------------------
  从 JSON 模板中移除:
  - model_id (后处理从 API 元数据注入)
  - scan_timestamp (后处理用实际时间)
  减少 prompt 字符数约 80，也避免幻觉干扰

优化 4: D3 增加区分度指导
--------------------------------------------------------------------------------
  修改 D3 说明:
  "type_a(增强型)评分指南:
   1-2分: AI仅辅助极少数子任务
   3分: AI增强了核心环节但未改变流程结构
   4-5分: AI深度嵌入，显著改变了流程的效率和质量"

  "type_c(消亡型)不应全部为0。
   如果流程中有明确被AI完全替代的子任务,
   即使整体流程存续, type_c 也应 > 0。"

优化 5: 批量扫描 Token 优化
--------------------------------------------------------------------------------
  方案A: System Prompt 只发一次 (OpenAI API 支持)
         但 Gemini 不支持会话级缓存
  方案B: 同框架相邻节点合并为 2-3 节点一次调用
         减少 prompt 重复，但增加解析复杂度
  方案C: 关闭 thinking 模式 (如果 API 支持)
         预计减少 39% token 消耗


================================================================================
三、数据质量统计
================================================================================

1. basis 字段合规率: 128/129 = 99.2%
2. numeric_profile 一致性: 144/144 = 100%
3. JSON 解析成功率: 8/8 = 100% (修复 max_output_tokens 后)
4. 评分分布:
   0分: 15 (10.4%) — 全部来自 D3 不适用
   1分:  1 ( 0.7%)
   2分:  7 ( 4.9%)
   3分: 51 (35.4%) ← 集中
   4分: 63 (43.8%) ← 集中
   5分:  7 ( 4.9%)
5. D1 rating-score 映射一致性: 100%
   高→4-5, 中→3, 低→1-2 无例外

6. 节点间余弦相似度矩阵:
      .1.1.5   3.11.1    3.3.3   4.19.1   .4.6.2    7.9.1   10.4.1   .5.7.3
   .1.1.5     ---     0.942    0.977    0.935    0.967    0.972    0.979    0.966
   3.11.1    0.942     ---     0.969    0.985    0.965    0.970    0.947    0.968
    3.3.3    0.977    0.969     ---     0.976    0.988    0.983    0.975    0.980
   4.19.1    0.935    0.985    0.976     ---     0.959    0.959    0.956    0.960
   .4.6.2    0.967    0.965    0.988    0.959     ---     0.995    0.962    0.988
    7.9.1    0.972    0.970    0.983    0.959    0.995     ---     0.962    0.993
   10.4.1    0.979    0.947    0.975    0.956    0.962    0.962     ---     0.966
   .5.7.3    0.966    0.968    0.980    0.960    0.988    0.993    0.966     --- 


================================================================================
四、大规模扫描成本预估
================================================================================

当前参数 (8节点实测平均):
  avg_prompt_tokens:      1,848
  avg_completion_tokens:   1,570
  avg_thinking_tokens:     2,182
  avg_total_tokens:        5,600
  avg_response_time:       18.2s

2325 节点 Gemini 2.5 Flash 全量扫描:
  Total tokens:   ~13,020,000
  Prompt cost:    $0.64 ($0.15/1M)
  Completion:     $2.19 ($0.60/1M)
  Thinking:       $3.04 ($0.60/1M)
  Total cost:     $5.88
  Time (serial):  11.8 h
  Time (3并发):   3.9 h

优化后预估 (关闭 thinking + prompt 精简):
  Total tokens:   ~7,835,250
  Total cost:     $2.82 (节省 52%)

================================================================================
END OF ANALYSIS
================================================================================