Metadata-Version: 2.4
Name: dhcckb-guji-wordfreq-mcp-20260618b
Version: 0.1.1
Summary: 面向古籍、古诗文和课堂文本分析的中文词频统计 MCP Server
License: MIT
Classifier: Development Status :: 4 - Beta
Classifier: Intended Audience :: Education
Classifier: Intended Audience :: Science/Research
Classifier: Topic :: Text Processing :: Linguistic
Classifier: Topic :: Scientific/Engineering :: Information Analysis
Classifier: Programming Language :: Python :: 3
Classifier: Programming Language :: Python :: 3.10
Classifier: Programming Language :: Python :: 3.11
Classifier: Programming Language :: Python :: 3.12
Classifier: License :: OSI Approved :: MIT License
Requires-Python: >=3.10
Description-Content-Type: text/markdown
Requires-Dist: jieba>=0.42
Requires-Dist: mcp>=1.0.0
Provides-Extra: dev
Requires-Dist: pytest>=7.0; extra == "dev"
Requires-Dist: pytest-asyncio>=0.21; extra == "dev"

# dhcckb-guji-wordfreq-mcp-20260618b

面向古籍、古诗文和课堂文本分析的中文词频统计 MCP Server。

底层使用 Python 生态的 [jieba](https://github.com/fxsjy/jieba) 做中文分词与词频统计，支持单段或多段文本输入，返回总字数、分词数、词频 Top-K、停用词过滤和最小词长过滤，所有输出为可复现的标准 JSON 格式。适用于数字人文学者、古文研究者及课堂教学场景的量化文本分析。

## 安装与启动

```bash
uvx dhcckb-guji-wordfreq-mcp-20260618b
```

## MCP 客户端配置

在 MCP 客户端（如 Claude Desktop）的配置文件中添加：

```json
{
  "mcpServers": {
    "dhcckb-guji-wordfreq-mcp-20260618b": {
      "type": "stdio",
      "command": "uvx",
      "args": ["dhcckb-guji-wordfreq-mcp-20260618b"]
    }
  }
}
```

## 工具

### word_frequency

对输入的中文文本执行分词与词频统计。支持单段或多段文本同时分析，返回总字数、分词总数、词频 Top-K 排名、停用词过滤后的有效词数，以及最小词长过滤后的结果。所有输出为可复现的 JSON 结构，确保同一输入多次调用得到一致结果。

参数：
- `texts` (array, required): 待分析的中文文本列表
- `topK` (integer, default: 20): 返回词频最高的前 K 个词
- `stopWords` (array, default: []): 自定义停用词列表
- `minWordLength` (integer, default: 1): 最小词长过滤
- `useBuiltinStopWords` (boolean, default: true): 是否启用内置停用词

### health_check

返回当前 MCP Server 的健康状态、版本信息和底层依赖版本。

## 版本

0.1.1

## 许可

MIT
