帮助文档

简要介绍 BCC 在线语料库,以及如何使用检索功能与检索式。

一、简介

BCC 汉语在线语料库总字数约 62 亿字,覆盖当代社会语言生活的多个领域,包括: 新闻、文学、口语、近代汉语、古汉语以及多领域等。

其中,多领域为平衡语料库,从新闻、文学、口语三类现代汉语语料中等规模抽样,并补充同等规模的科技类文本而成。

下表按领域列出语料库各部分的字符规模:

领域 字符数 约计
新闻 1,899,226,784 19.0 亿
文学 185,016,332 1.85 亿
口语 232,250,341 2.32 亿
近代汉语 1,537,547,831 15.4 亿
古汉语 1,595,262,026 16.0 亿
多领域 751,699,675 7.52 亿
合计 6,201,002,989 62.0 亿
上表为各领域语料规模;如需各领域的字词频统计数据,可前往下载中心检索或下载。
数据统计时间:2026 年 5 月 21 日

二、主要功能

1. 多频道与子频道检索

  • 一、多频道选择
    首页支持在多领域、新闻、文学、口语、近代汉语、古汉语六个主频道之间切换。
  • 二、子频道/范围选择
    频道 可选项 说明
    多领域 不可再选择子频道/范围,直接进入检索。
    口语 口语由对话语料构成。不可再选择子频道/范围,直接进入检索。
    新闻 子频道 + 时间范围
    子频道:人民日报、新闻联播
    时间选择:支持多种时间粒度与范围设置,包括起止年份、某年某月、某年某日、某年某月某日。例如“1946–2026年1月1日”表示检索或统计1946年至2026年间,每年1月1日对应的语料数据。
    除常规起止年份区间检索外,系统还支持特定日期的精确定位检索,既可用于特殊事件节点定点分析,也可用于跨年度周期性对比。
    近代汉语 时间范围 由《申报》(1872–1949年)构成。时间范围可选起止年份。
    文学 子范围 按作者或作品限定。 自定义子范围:在自定义范围搜索框内进行搜索
    古汉语 子范围 按藏类、作品集、作品等限定。藏类包括:佛藏儒藏医藏史藏子藏易藏艺藏诗藏道藏集藏 自定义子范围:在自定义范围搜索框内进行搜索
  • 三、语料结构与标注情况
    频道 标注层级 说明
    新闻 分词+词性 句法结构 篇章结构 版面属性 支持词性检索与句法结构检索。篇章结构区分“标题/正文”(写在限制条件中,pos=标题/正文)。 示例:n改革{pos=正文}n改革{pos=标题} 人民日报子语料另含版面字段:BanCiBanMing(写在限制条件中)。 示例:n改革{BanCi=1}n改革{BanMing=要闻}
    文学 分词+词性 句法结构 支持词性检索与句法结构检索。
    口语 分词+词性 可进行词性检索;不支持句法结构检索。
    近代汉语 分词+词性 可进行词性检索;不支持句法结构检索。
    古汉语 仅字切分 可进行字符串检索;不支持词性检索与句法结构检索。
    多领域 分词+词性 可进行词性检索;不支持句法结构检索。

2. 上下文检索(KWIC)与结果阅读

  • KWIC 展示:默认关键词居中显示,便于观察搭配与共现。
  • 显示模式切换:支持“关键词居中 / 整句显示”两种阅读方式。
  • 高亮显示:结果行的高亮内容由检索式的输出对象决定。默认情况下,输出对象为完整检索对象,可通过添加条件限制修改输出对象。例如,检索式 喜欢n 会高亮并统计"喜欢+名词"整体;而 喜欢(n){print($1)} 只会高亮并统计"喜欢"后紧邻的名词,"喜欢"本身不再作为高亮对象。(具体见检索语言 · 输出限制
  • 默认输出对象示例
    图:默认输出对象(完整检索对象)
    print 输出限制示例
    图:print 输出限制
  • 浏览控制:支持上下文窗口大小、每页条数和翻页控制。
  • 来源查看:每条结果可查看“出处”信息,便于回溯语料来源。
  • 检索结果下载:检索结果支持下载。

3. 实例统计

  • 实例统计:对检索结果进行词形-频次统计,快速识别高频表达。(给出前1000项)
  • 频率统计示例
    图:频率统计示例
  • 词形联查:在频率统计面板中可点击词形,系统会在新窗口打开该词的检索结果,便于从统计结果快速回看上下文实例。
  • 结果下载:统计结果支持下载。

4. 二次筛选

  • 包含筛选(AND):在已有结果中保留满足二次检索条件的实例。
  • 排除筛选(NOT):在已有结果中剔除满足二次检索条件的实例。
  • 注意:筛选条件会在“整段上下文”范围内进行匹配。若筛选后某条结果在当前页面显示的上下文窗口中看不到匹配痕迹,通常是因为匹配位置落在该条结果的显示窗口之外。
  • 二次筛选界面
    图:二次筛选界面

5. 历时分析

  • 历时分布分析:当前支持新闻与近代汉语语料按年份分布进行统计分析。
  • 历时统计分析1
    图:历时统计分析界面示意(新闻)
    历时统计分析2
    图:历时统计分析界面示意(近代汉语)
  • 双检索式对比:在新闻或近代汉语频道中,可输入“检索式 + 对比检索式”,并在选定子频道与时间范围内同图比较两条检索式的频次变化。
  • 统计对比示例图
    图:统计对比界面示意
  • 图表交互:统计图与对比图均支持点击柱状条,跳转新窗口显示对应范围的检索实例结果;同时支持通过横轴滑动轴拖拽或鼠标滚轮放大/缩小可视范围,便于在全局分布与局部细节之间切换。
  • 图表交互示意图
    图:图表交互示意图
  • 结果下载:统计结果支持下载。

6. 下载中心

  • 下载中心当前提供 BCC 在线语料库的字词频统计数据,均可免费下载使用;如在研究中使用相关数据,请规范引用 BCC 论文。
  • 入口:首页右上角“下载”可进入下载中心页面。
  • 在线浏览与检索:按频道切换数据集,支持“按字/按词”查询频次、查看排名与命中情况。
  • 在线浏览与检索示意图
    图:在线浏览与检索示意图
  • 多视图分析:支持柱状图、折线图、表格三种展示方式。可滑动或换组浏览,通过横轴滑动轴拖拽或鼠标滚轮放大/缩小可视范围,便于在全局分布与局部细节之间切换。
  • 跨频道对比:可开启“对比”模式,选择另一频道并行展示同一批词项在不同频道中的频次。
  • 跨频道对比示意图
    图:跨频道对比示意图
  • 数据下载:支持从数据集列表直接下载原始频次文件,也可通过图表工具栏快速下载当前数据文件。

7. 帮助与反馈

  • 全站可达:页面右下角提供“帮助”浮动入口,任意页面均可打开。
  • 问答回复:集中展示管理员已公开回复的问题,支持分页查看。
  • 我要提问:可提交具体问题(支持填写邮箱/电话等联系方式),并在“我的提问记录”中查看处理状态与回复内容。
  • 联系我们:如有其他需求,可查看平台公开联系人信息,获取进一步沟通渠道。
  • 帮助与反馈示意图
    图:帮助与反馈示意图

三、检索式示例

下表给出了一些常用检索表达式模板。你可以将其中的 词语、词性或结构 替换为自己的研究对象,直接在检索框中使用。

点击下方任一示例检索式,也可直接带入右下角的检索式构造器,边看文档边继续改写。

序号 检索式 含义
1 高大的n 高大的 + 名词(n)
2 v了一v 动词(v) + 了一 + 动词(v)
3 洗*澡 后面离合出现 不跨标点)。
中间字符数任意,且不跨标点,如“洗个澡”“洗个热水澡”
4 买^水果 后面离合出现 水果可跨标点)。
中间字符数任意,可以跨标点,如“卖些水果”“买些苹果、香蕉等水果”
5 是*的w 检索 是……的 句式。
检索逻辑 后面离合出现 , 中间字符数任意,不跨标点, 的 后接 标点(x)
6 把*v过来 检索 谓语中心含趋向补语“过来”的把字句
检索逻辑 离合出现动词(v)+ 过来
7 洗(*)澡{len($1)=1} 隔 1 个字
8 洗(~)澡{len($1)=2} + 任意一个词(~) + 词为双音节
9 是*的(w){$1!=[“ ‘]} 检索 是……的 句式,并排除“的”后标点为引号的句子(例如:阔叶乔木是吸附PM2.5的“高手”)。
10 (v)一(v){$1=$2} 动词(v)1 + 一 + 动词(v)2动词(v)1 和动词(v)2相同, 如“跳一跳”“看一看”
11 (v)一(v){$1!=$2} 动词(v)1 + 一 + 动词(v)2动词(v)1 和动词(v)2不相同, 如“算一算帐”“回头一看”
12 (nr)说{len($1)>2} 人名(nr) + 说, 且 人名(nr)长度超过2
13 (nr)说{len($1)>1;beg($1)=[老]} 人名(nr) + 说, 且 人名(nr)长度超过1, 并且 以“老”字开头, 如“老张说”“老谭说”
14 VP-PRD[]MOD[过来] 谓语(VP-PRD) + 修饰语(MOD), 且 修饰语为“过来”, 即“过来”充当补语的中补结构
15 VP-PRD[(v)一(v)]{$1=$2} 动词(v)1 + 一 + 动词(v)2动词(v)1 和动词(v)2相同, 且该结构充当 谓语或谓语中心
16 打击NP-OBJ[*犯罪] 打击 + 名词性宾语(NP-OBJ), 且 宾语以“犯罪”结尾, 如“打击犯罪”“打击经济犯罪”等名词性宾语的中心语为“犯罪”的动宾结构
17 MOD[把*]VP-PRD[] 修饰语(MOD) + 谓语(VP-PRD), 且 修饰语以“把”开头, 即检索把字句
18 发挥(NP-OBJ[*性]) 发挥 + 名词性宾语(NP-OBJ), 且 宾语以“性”结尾, 如“发挥积极性”“发挥主动性”等动宾结构
速查表

词性标记集

BCC 基于pku词性体系,构建了一套词性标记系统。下表按词类分组,列出词性及其含义:

词性编码 词性名称 词性编码 词性名称 词性编码 词性名称 词性编码 词性名称
n 名词 nr 人名 ns 地名 nt 机构团体
nz 其他专名 Ng 名语素
v 动词 vd 副动词 vn 名动词 Vg 动语素
a 形容词 ad 副形词 an 名形词 Ag 形语素
b 区别词 z 状态词
d 副词 Dg 副语素
m 数词 q 量词
r 代词
t 时间词 Tg 时语素 s 处所词 f 方位词
p 介词 c 连词 u 助词 y 语气词
e 叹词 o 拟声词
i 成语 l 习用语 j 简称略语
g 语素 h 前接成分 k 后接成分
w 标点符号 x 非语素字 un 未知词
速查表

组块属性标记集

组块属性标记用于表示句法结构中的不同成分。本系统共包含 18 个组块标签。 参考:卢露,矫红岩,李梦,荀恩东.基于篇章的汉语句法结构树库[J].自动化学报,2022,48(12):2911-2921.

组块属性标记 组块属性名称 组块属性标记 组块属性名称
ROOT 根节点 IP 小句或句子
NP-SBJ 体词性主语组块 VP-SBJ 谓词性主语组块
UNK-SBJ 谓词与体词并列的主语组块
VP-PRD 谓词性谓语组块 NP-NPRE 体词性谓语
NP-OBJ 体词性宾语组块 VP-OBJ 谓词性宾语组块
UNK-OBJ 谓词与体词并列的宾语组块
MOD 修饰组块(状语块或补语块) CON 连接组块
AUX 辅助组块 w-CON 标点作衔接组块
NP-HLP 体词性独词句或片段 VP-HLP 谓词性独词句或片段
HLP 独词句或片段(非体词性/谓词性)

四、检索语言

BCC 在线版的检索表达式由 查询对象(Query)限制条件(Conditions) 两部分构成,基本形式为:

Query{Condition1;Condition2;……}

其中 Query 表示要检索的对象,花括号 {} 内是限制条件集合,多个限制条件之间用英文分号 ; 分隔。

如果对括号、引用对象或条件写法还不熟,可以先打开 右下角的检索式构造器, 从基础 Query 开始逐步添加限制条件。

查询对象(Query)

常见查询对象类型如下表所示:

类型 符号 作用 示例
字符 字 / 字符串 直接匹配文本 洗澡
词性符号 词性标记集 匹配指定词性 喜欢n
组块符号 组块属性标记集 匹配相应属性的组块。可再进一步对其单元内部进行描述,形式为“标记符号[单元内部描述]” VP-PRD[喜欢]NP-OBJ[]
通配符 . 一个字符 洗..澡
通配符 ~ 一个词 洗~澡
限定符 () 用于标出Query中的限定内容,在Condition中用$n引用(n为其限定顺序,如$1、$2、$3) (v)一(v){$1=$2}
离合符 * 表示不跨完句标点的离合或接续 洗*澡
离合符 ^ 表示离合或接续 吃^水果

限制条件(Conditions)

多个限制语句用英文分号 ";" 在 "{}" 内隔开。

内容限制

形式 含义 示例
$n=[] 内容属于集合 VP-PRD[](MOD[]){$1=[过来 下来]}
$n!=[] 内容不属于集合 (a)的女生{$1!=[漂亮 可爱 美丽]}
$n=$k 内容相同 (v)一(v){$1=$2}
$n!=$k 内容不同 (v)一(v){$1!=$2}
beg($n)=[] 以某元素开头 beg($1)=[被]
beg($n)!=[] 不以某元素开头 beg($1)!=[被]
end($n)=[] 以某元素结尾 end($1)=[犯罪]
end($n)!=[] 不以某元素结尾 end($1)!=[犯罪]
mid($n)=[] 包含某元素 mid($1)=[打击]
mid($n)!=[] 不包含某元素 mid($1)!=[打击]

长度限制

形式 含义 示例
len($n)=x 长度等于 x (a)的女生{len($1)=2}
len($n)>x 长度大于 x (nr)说 m q{len($1)>1}
len($n)<x 长度小于 x (nr)说 m q{len($1)<4}
len($n)=len($k) 两者长度相同 (v)一(v){len($1)=len($2)}
len($n)!=len($k) 两者长度不同 (v)一(v){len($1)!=len($2)}

词性限制

形式 含义 示例
word/pos 限定词 word 的词性为 pos,取值参见 词性标记集 理想/a

输出限制

形式 含义 示例
print($n) 将输出对象限定为第 n 个限定成分(结果高亮以该成分为准) 喜欢(n){print($1)}

五、常见问题(FAQ)

如何快速上手 BCC 检索? 推荐
建议从上文“检索式示例”中选择一个与你研究主题接近的模板,直接在检索框中尝试运行,然后再逐步替换其中的 词语、词性或结构,观察结果变化。
检索结果为空怎么办?
可按以下步骤排查:
① 检查是否使用了正确的 词性标记组块符号
② 确认条件限制使用的是英文输入法的半角符号(如 {}[](););
③ 检查所选频道是否支持当前检索类型:
    — 句法结构检索目前不支持口语、近代汉语、古汉语、多领域;
    — 词性检索目前不支持古汉语;
④ 先去掉部分限制条件,仅用核心检索式测试是否有结果。
可以同时使用多个限制条件吗?
可以。多个限制条件用英文分号 ; 分隔,并放在同一对花括号中,例如: {len($1)>1;beg($1)=[老]}
条件限制里符号输入有什么注意事项?
请使用 英文输入法,并确保符号为 半角(如 {}[]();=!=><)。 若误用中文全角符号(如“;”“( )”“【 】”),系统可能无法正确解析条件限制。

六、引用

若 BCC 语料库及在线检索系统对您的研究有所帮助,欢迎在论文中引用以下文献。

GB/T 7714 格式

  1. 荀恩东, 饶高琦, 肖晓悦, 臧娇娇. 大数据背景下BCC语料库的研制[J]. 语料库语言学, 2016, 3(01): 93-109+118.
  2. 荀恩东, 饶高琦, 谢佳莉, 黄志娥. 现代汉语词汇历时检索系统的建设与应用[J]. 中文信息学报, 2015, 29(03): 169-176.

BibTeX 格式

@article{YLYY201601009,
  author  = {荀恩东 and 饶高琦 and 肖晓悦 and 臧娇娇},
  title   = {大数据背景下BCC语料库的研制},
  journal = {语料库语言学},
  volume  = {3},
  number  = {01},
  pages   = {93-109+118},
  year    = {2016},
}

@article{MESS201503025,
  author  = {荀恩东 and 饶高琦 and 谢佳莉 and 黄志娥},
  title   = {现代汉语词汇历时检索系统的建设与应用},
  journal = {中文信息学报},
  volume  = {29},
  number  = {03},
  pages   = {169-176},
  year    = {2015},
  issn    = {1003-0077},
}