# Minimal Chinese dictionary for cclab-pulsar-jieba
# Format: word frequency [pos_tag]
# This is a subset for demonstration; production would have 100k+ entries

# Single characters (high frequency)
我 100000 r
你 90000 r
他 85000 r
她 80000 r
的 500000 uj
是 300000 v
在 200000 p
了 400000 ul
不 150000 d
有 120000 v
这 100000 r
个 180000 q
上 80000 f
大 90000 a
中 85000 f
来 70000 v
到 75000 v
为 60000 p
和 80000 c
与 40000 p

# Common words
我们 50000 r
你们 40000 r
他们 45000 r
这个 30000 r
那个 28000 r
什么 35000 r
怎么 25000 r
可以 40000 v
没有 35000 v
就是 30000 v
因为 25000 c
所以 22000 c
但是 20000 c
如果 18000 c
虽然 15000 c

# Verbs
来到 20000 v
去到 15000 v
看到 25000 v
听到 18000 v
想到 16000 v
做到 14000 v
学习 30000 v
工作 35000 vn
研究 25000 vn
发展 28000 vn
进行 22000 v
实现 20000 v
提高 18000 v

# Nouns - Places
北京 80000 ns
上海 75000 ns
广州 50000 ns
深圳 45000 ns
杭州 40000 ns
南京 38000 ns
天津 35000 ns
成都 33000 ns
武汉 32000 ns
西安 30000 ns
中国 100000 ns
美国 60000 ns
日本 55000 ns
韩国 40000 ns
英国 35000 ns

# Nouns - Organizations
清华大学 50000 nt
北京大学 48000 nt
复旦大学 35000 nt
浙江大学 33000 nt
中国科学院 25000 nt
公司 80000 n
学校 60000 n
医院 45000 n
银行 40000 n
政府 35000 n

# Nouns - Common
时间 50000 n
问题 45000 n
方法 40000 n
工作 35000 n
发展 32000 n
经济 38000 n
社会 36000 n
国家 42000 n
人民 30000 n
世界 35000 n
生活 33000 n
技术 28000 n
系统 25000 n
数据 22000 n
信息 26000 n
网络 24000 n
服务 27000 n
管理 23000 n
教育 29000 n
文化 25000 n

# Adjectives
好 80000 a
大 75000 a
小 70000 a
多 65000 a
少 55000 a
新 60000 a
高 58000 a
长 52000 a
重要 40000 a
主要 38000 a
不同 35000 a
可能 45000 a

# Numbers
一 150000 m
二 80000 m
三 75000 m
四 70000 m
五 68000 m
六 65000 m
七 62000 m
八 60000 m
九 58000 m
十 90000 m
百 50000 m
千 45000 m
万 55000 m
亿 30000 m
第一 25000 m
第二 22000 m

# Time words
今天 35000 t
明天 30000 t
昨天 28000 t
现在 40000 t
以前 25000 t
以后 26000 t
时候 32000 n
年 100000 q
月 80000 q
日 75000 q
号 50000 q
点 60000 q

# Particles and auxiliaries
的 500000 uj
地 100000 uv
得 80000 ud
着 90000 uz
了 400000 ul
过 120000 ug
吗 50000 y
呢 45000 y
吧 40000 y
啊 35000 y
