面向 Agent 的代码仓库知识基础设施
让 AI 不再猜测,有据可查
以上三大困境共同导致一个结果:Agent 大量依赖猜测,产生幻觉——凭空推测不存在的函数、错误的调用路径、或者根本不存在的模块。
基于 Tree-sitter 对所有源文件进行 AST 解析,支持 12 种主流语言,统一提取四类信息并写入 Kuzu 嵌入式图数据库。
中等规模仓库(~3000 个函数)可产生超过 5000 条调用边,覆盖全部跨文件调用关系。
每一步都有独立缓存层,支持按需重建,无需重跑全量流程。
传统代码分析工具普遍以 JSON 格式输出结构化数据。CGB 选择 Markdown 作为主要知识表示格式,直接影响 Agent 的理解质量。
CGB 不是在事后修复幻觉,而是从信息供给端根除幻觉产生的条件。
通过 MCP(Model Context Protocol)标准协议暴露,任何支持 MCP 的 AI 客户端均可直接接入,无需额外适配。
长时间任务(建图、嵌入)支持实时进度回调,在客户端侧显示进度条。
源码中 parse_btype(ctx) 需解析为 tinycc.tccgen.parse_btype,才能在图中建立精确的调用边。
核心思想:在保证可靠性的条件下最大化覆盖率。宁可边不建立,也不引入错误的边。注册表采用 Trie 树 + 哈希表双索引,支持 O(1) 精确查找与高效前缀/后缀匹配。
代码检索存在固有的语义不对称:查询是自然语言,文档是代码。直接用同一模型处理两者,效果通常不理想。
Qwen3 Embedding 支持任务特定指令机制:查询端附加"为代码检索任务编码此查询",文档端不加指令。这种不对称嵌入有助于弥合语义距离。
通过将代码仓库的全部显性结构与隐性语义预先提取、索引,并以 LLM 最友好的 Markdown 格式呈现,从根源上系统性地压缩 Agent 的幻觉风险。