帮助文档

简要介绍 BCC 在线语料库,以及如何使用检索功能与检索式。

一、简介

BCC 汉语在线语料库总字数约 62 亿字,覆盖当代社会语言生活的多个领域,包括: 新闻(约 19 亿字)、文学(约 2 亿字)、口语(约 2 亿字)、近代汉语(约 15 亿字)、古汉语(约 16 亿字)以及多领域(约 7 亿字)等。

二、主要功能

1. 多频道与子频道检索

  • 一、多频道选择
    首页支持在多领域、新闻、文学、口语、近代汉语、古汉语六个主频道之间切换。
  • 二、子频道/范围选择
    频道 可选项 说明
    多领域 不可再选择子频道/范围,直接进入检索。
    口语 口语由对话语料构成。不可再选择子频道/范围,直接进入检索。
    新闻 子频道 + 时间范围
    子频道:人民日报、新闻联播
    时间选择:支持多种时间粒度与范围设置,包括起止年份、某年某月、某年某日、某年某月某日。例如“1946–2026年1月1日”表示检索或统计1946年至2026年间,每年1月1日对应的语料数据。
    除常规起止年份区间检索外,系统还支持特定日期的精确定位检索,既可用于特殊事件节点定点分析,也可用于跨年度周期性对比。
    近代汉语 时间范围 由《申报》(1872–1949年)构成。时间范围可选起止年份。
    文学 子范围 按作者或作品限定。 自定义子范围:在自定义范围搜索框内进行搜索
    古汉语 子范围 按藏类、作品集、作品等限定。藏类包括:佛藏儒藏医藏史藏子藏易藏艺藏诗藏道藏集藏 自定义子范围:在自定义范围搜索框内进行搜索
  • 三、语料结构与标注情况
    频道 标注层级 说明
    新闻 分词+词性 句法结构 篇章结构 版面属性 支持词性检索与句法结构检索。篇章结构区分“标题/正文”(写在限制条件中,pos=标题/正文)。 示例:n改革{pos=正文}n改革{pos=标题} 人民日报子语料另含版面字段:BanCiBanMing(写在限制条件中)。 示例:n改革{BanCi=1}n改革{BanMing=要闻}
    文学 分词+词性 句法结构 支持词性检索与句法结构检索。
    口语 分词+词性 可进行词性检索;不支持句法结构检索。
    近代汉语 分词+词性 可进行词性检索;不支持句法结构检索。
    古汉语 仅字切分 可进行字符串检索;不支持词性检索与句法结构检索。
    多领域 分词+词性 句法结构(部分) 整体可进行词性检索;句法结构检索仅覆盖部分书面语语料,检索范围不完整。

2. 上下文检索(KWIC)与结果阅读

  • KWIC 展示:默认关键词居中显示,便于观察搭配与共现。
  • 显示模式切换:支持“关键词居中 / 整句显示”两种阅读方式。
  • 高亮显示:结果行的高亮内容由检索式的输出对象决定。默认情况下,输出对象为完整检索对象,可通过添加条件限制修改输出对象。例如,检索式 喜欢n 会高亮并统计"喜欢+名词"整体;而 喜欢(n){print($1)} 只会高亮并统计"喜欢"后紧邻的名词,"喜欢"本身不再作为高亮对象。(具体见检索语言 · 输出限制
  • 默认输出对象示例
    图:默认输出对象(完整检索对象)
    print 输出限制示例
    图:print 输出限制
  • 浏览控制:支持上下文窗口大小、每页条数和翻页控制。
  • 来源查看:每条结果可查看“出处”信息,便于回溯语料来源。
  • 检索结果下载:检索结果支持下载。

3. 实例统计

  • 实例统计:对检索结果进行词形-频次统计,快速识别高频表达。(给出前1000项)
  • 频率统计示例
    图:频率统计示例
  • 词形联查:在频率统计面板中可点击词形,系统会在新窗口打开该词的检索结果,便于从统计结果快速回看上下文实例。
  • 结果下载:统计结果支持下载。

4. 二次筛选

  • 包含筛选(AND):在已有结果中保留满足二次检索条件的实例。
  • 排除筛选(NOT):在已有结果中剔除满足二次检索条件的实例。
  • 注意:筛选条件会在“整段上下文”范围内进行匹配。若筛选后某条结果在当前页面显示的上下文窗口中看不到匹配痕迹,通常是因为匹配位置落在该条结果的显示窗口之外。
  • 二次筛选界面
    图:二次筛选界面

5. 历时分析

  • 历时分布分析:当前支持新闻与近代汉语语料按年份分布进行统计分析。
  • 历时统计分析1
    图:历时统计分析界面示意(新闻)
    历时统计分析2
    图:历时统计分析界面示意(近代汉语)
  • 双检索式对比:在新闻或近代汉语频道中,可输入“检索式 + 对比检索式”,并在选定子频道与时间范围内同图比较两条检索式的频次变化。
  • 统计对比示例图
    图:统计对比界面示意
  • 图表交互:统计图与对比图均支持点击柱状条,跳转新窗口显示对应范围的检索实例结果;同时支持通过横轴滑动轴拖拽或鼠标滚轮放大/缩小可视范围,便于在全局分布与局部细节之间切换。
  • 图表交互示意图
    图:图表交互示意图
  • 结果下载:统计结果支持下载。

6. 下载中心

  • 下载中心当前提供 BCC 在线语料库的字词频统计数据,均可免费下载使用;如在研究中使用相关数据,请规范引用 BCC 论文。
  • 入口:首页右上角“下载”可进入下载中心页面。
  • 在线浏览与检索:按频道切换数据集,支持“按字/按词”查询频次、查看排名与命中情况。
  • 在线浏览与检索示意图
    图:在线浏览与检索示意图
  • 多视图分析:支持柱状图、折线图、表格三种展示方式。可滑动或换组浏览,通过横轴滑动轴拖拽或鼠标滚轮放大/缩小可视范围,便于在全局分布与局部细节之间切换。
  • 跨频道对比:可开启“对比”模式,选择另一频道并行展示同一批词项在不同频道中的频次。
  • 跨频道对比示意图
    图:跨频道对比示意图
  • 数据下载:支持从数据集列表直接下载原始频次文件,也可通过图表工具栏快速下载当前数据文件。

7. 帮助与反馈

  • 全站可达:页面右下角提供“帮助”浮动入口,任意页面均可打开。
  • 问答回复:集中展示管理员已公开回复的问题,支持分页查看。
  • 我要提问:可提交具体问题(支持填写邮箱/电话等联系方式),并在“我的提问记录”中查看处理状态与回复内容。
  • 联系我们:如有其他需求,可查看平台公开联系人信息,获取进一步沟通渠道。
  • 帮助与反馈示意图
    图:帮助与反馈示意图

三、检索式示例

下表给出了一些常用检索表达式模板。你可以将其中的 词语、词性或结构 替换为自己的研究对象,直接在检索框中使用。

点击下方任一示例检索式,也可直接带入右下角的检索式构造器,边看文档边继续改写。

序号 检索式 含义
1 高大的n 高大的 + 名词(n)
2 v了一v 动词(v) + 了一 + 动词(v)
3 洗*澡 后面离合出现 不跨标点)。
中间字符数任意,且不跨标点,如“洗个澡”“洗个热水澡”
4 买^水果 后面离合出现 水果可跨标点)。
中间字符数任意,可以跨标点,如“卖些水果”“买些苹果、香蕉等水果”
5 是*的x 检索 是……的 句式。
检索逻辑 后面离合出现 , 中间字符数任意,不跨标点, 的 后接 标点(x)
6 把*v过来 检索 谓语中心含趋向补语“过来”的把字句
检索逻辑 离合出现动词(v)+ 过来
7 洗(*)澡{len($1)=1} 隔 1 个字
8 洗(~)澡{len($1)=2} + 任意一个词(~) + 词为双音节
9 是*的(x){$1!=[“ ‘]} 检索 是……的 句式,并排除“的”后标点为引号的句子(例如:阔叶乔木是吸附PM2.5的“高手”)。
10 (v)一(v){$1=$2} 动词(v)1 + 一 + 动词(v)2动词(v)1 和动词(v)2相同, 如“跳一跳”“看一看”
11 (v)一(v){$1!=$2} 动词(v)1 + 一 + 动词(v)2动词(v)1 和动词(v)2不相同, 如“算一算帐”“回头一看”
12 (nr)说{len($1)>2} 人名(nr) + 说, 且 人名(nr)长度超过2
13 (nr)说{len($1)>1;beg($1)=[老]} 人名(nr) + 说, 且 人名(nr)长度超过1, 并且 以“老”字开头, 如“老张说”“老谭说”
14 VP-PRD[]MOD[过来] 谓语(VP-PRD) + 修饰语(MOD), 且 修饰语为“过来”, 即“过来”充当补语的中补结构
15 VP-PRD[(v)一(v)]{$1=$2} 动词(v)1 + 一 + 动词(v)2动词(v)1 和动词(v)2相同, 且该结构充当 谓语或谓语中心
16 打击NP-OBJ[*犯罪] 打击 + 名词性宾语(NP-OBJ), 且 宾语以“犯罪”结尾, 如“打击犯罪”“打击经济犯罪”等名词性宾语的中心语为“犯罪”的动宾结构
17 MOD[把*]VP-PRD[] 修饰语(MOD) + 谓语(VP-PRD), 且 修饰语以“把”开头, 即检索把字句
18 发挥(NP-OBJ[*性]) 发挥 + 名词性宾语(NP-OBJ), 且 宾语以“性”结尾, 如“发挥积极性”“发挥主动性”等动宾结构

四、检索语言

BCC 在线版的检索表达式由 查询对象(Query)限制条件(Conditions) 两部分构成,基本形式为:

Query{Condition1;Condition2;……}

其中 Query 表示要检索的对象,花括号 {} 内是限制条件集合,多个限制条件之间用英文分号 ; 分隔。

如果对括号、引用对象或条件写法还不熟,可以先打开 右下角的检索式构造器, 从基础 Query 开始逐步添加限制条件。

查询对象(Query)

常见查询对象类型如下表所示:

类型 符号 作用 示例
字符 字 / 字符串 直接匹配文本 洗澡
词性符号 词性标记集 匹配指定词性 喜欢n
组块符号 组块属性标记集 匹配相应属性的组块。可再进一步对其单元内部进行描述,形式为“标记符号[单元内部描述]” VP-PRD[喜欢]NP-OBJ[]
通配符 . 一个字符 洗..澡
通配符 ~ 一个词 洗~澡
限定符 () 用于标出Query中的限定内容,在Condition中用$n引用(n为其限定顺序,如$1、$2、$3) (v)一(v){$1=$2}
离合符 * 表示不跨标点的离合或接续 洗*澡
离合符 ^ 表示不跨标点或跨标点的离合或接续 吃^水果

限制条件(Conditions)

多个限制语句用英文分号 ";" 在 "{}" 内隔开。

内容限制

形式 含义 示例
$n=[] 内容属于集合 VP-PRD[](MOD[]){$1=[过来 下来]}
$n!=[] 内容不属于集合 (a)的女生{$1!=[漂亮 可爱 美丽]}
$n=$k 内容相同 (v)一(v){$1=$2}
$n!=$k 内容不同 (v)一(v){$1!=$2}
beg($n)=[] 以某元素开头 beg($1)=[被]
beg($n)!=[] 不以某元素开头 beg($1)!=[被]
end($n)=[] 以某元素结尾 end($1)=[犯罪]
end($n)!=[] 不以某元素结尾 end($1)!=[犯罪]
mid($n)=[] 包含某元素 mid($1)=[打击]
mid($n)!=[] 不包含某元素 mid($1)!=[打击]

长度限制

形式 含义 示例
len($n)=x 长度等于 x (a)的女生{len($1)=2}
len($n)>x 长度大于 x (nr)说 m q{len($1)>1}
len($n)<x 长度小于 x (nr)说 m q{len($1)<4}
len($n)=len($k) 两者长度相同 (v)一(v){len($1)=len($2)}
len($n)!=len($k) 两者长度不同 (v)一(v){len($1)!=len($2)}

输出限制

形式 含义 示例
print($n) 将输出对象限定为第 n 个限定成分(结果高亮以该成分为准) 喜欢(n){print($1)}

五、词性标记集

BCC 使用一套简明的词性标记系统。本系统共包含 39 个词性标签(由原 59 个标签合并而来)。常见词性及其含义如下:

词性编码 词性名称 词性编码 词性名称
n 普通名词 nr 人名
ns 地名 nt 机构团体名
nz 其他专名 r 代词
v 动词 vd 副动词
vi 不及物动词+“于” vn 名动词
vq 扩展标签 a 形容词
ad 副形词 an 名形词
d 副词 df 副词扩展细分
m 数词 mq 数量词
q 量词 p 介词
c 连词 u 助词
t 时间词 s 处所词
f 方位词 b 区别词
z 状态词 o 拟声词
e 叹词 y 语气词
i 成语 l 习用语
j 简称略语 g 语素
eng 英文字符串 h 前接成分
k 后接成分 x 标点等杂类符号

六、组块属性标记集

组块属性标记用于表示句法结构中的不同成分。本系统共包含 18 个组块标签。 参考:卢露,矫红岩,李梦,荀恩东.基于篇章的汉语句法结构树库[J].自动化学报,2022,48(12):2911-2921.

组块属性标记 组块属性名称 组块属性标记 组块属性名称
ROOT 根节点 IP 小句或句子
NP-SBJ 体词性主语组块 NP-OBJ 体词性宾语组块
VP-PRD 谓词性谓语组块 VP-OBJ 谓词性宾语组块
VP-SBJ 谓词性主语组块 MOD 修饰组块(状语块或补语块)
CON 连接组块 AUX 辅助组块
NP-HLP 体词性独词句或片段 VP-HLP 谓词性独词句或片段
HLP 独词句或片段(非体词性/谓词性) NP-NPRE 体词性谓语
UNK-OBJ 谓词与体词并列的宾语组块 UNK-SBJ 谓词与体词并列的主语组块
w-CON 标点作衔接组块

七、常见问题(FAQ)

如何快速上手 BCC 检索? 推荐
建议从上文“检索式示例”中选择一个与你研究主题接近的模板,直接在检索框中尝试运行,然后再逐步替换其中的 词语、词性或结构,观察结果变化。
检索结果为空怎么办?
可按以下步骤排查:
① 检查是否使用了正确的 词性标记组块符号
② 确认条件限制使用的是英文输入法的半角符号(如 {}[](););
③ 检查所选频道是否支持当前检索类型:
    — 句法结构检索目前不支持口语、近代汉语、古汉语;多领域仅部分书面语语料支持 (注意:在多领域中使用句法结构检索,其检索范围不完整)
    — 词性检索目前不支持古汉语;
④ 先去掉部分限制条件,仅用核心检索式测试是否有结果。
可以同时使用多个限制条件吗?
可以。多个限制条件用英文分号 ; 分隔,并放在同一对花括号中,例如: {len($1)>1;beg($1)=[老]}
条件限制里符号输入有什么注意事项?
请使用 英文输入法,并确保符号为 半角(如 {}[]();=!=><)。 若误用中文全角符号(如“;”“( )”“【 】”),系统可能无法正确解析条件限制。