Chinese-Simile-Recognition-Dataset
收藏github2023-12-27 更新2024-05-31 收录
下载链接:
https://github.com/cnunlp/Chinese-Simile-Recognition-Dataset
下载链接
链接失效反馈官方服务:
资源简介:
这是一个用于中文比喻识别的数据集,包含超过11.3k个带有比较词‘像’的句子,每个句子都经过人工标注,以确定是否包含比喻以及相关的比喻成分。
This dataset is designed for Chinese metaphor recognition, comprising over 11.3k sentences containing the comparative word 'like'. Each sentence has been manually annotated to determine whether it contains a metaphor and to identify the relevant metaphorical components.
创建时间:
2018-08-28
原始信息汇总
数据集概述
数据集名称
Chinese-Simile-Recognition-Dataset
数据集内容
- 数据集大小:包含11,337个句子,均来自中国学生的作文,每个句子都包含“像”这个比较词。
- 数据集划分:分为训练集、开发集和测试集,比例约为0.64:0.16:0.20。
- 数据标注:每个句子都手动标注了是否为比喻句,以及比喻成分(本体和喻体)。
数据集统计
| 项目 | 数量 |
|---|---|
| 总句子数 | 11,337 |
| 比喻句数 | 5,088 |
| 字面句数 | 6,249 |
| 总词数 | 334,000 |
| 本体数量 | 5,183 |
| 喻体数量 | 5,119 |
| 本体-喻体对数 | 5,214 |
| 平均每本体词数 | 1.033 |
| 平均每喻体词数 | 1.056 |
| 平均每句词数 | 29.47 |
| 平均每比喻句本体-喻体对数 | 1.024 |
数据格式
- 格式类型:CoNLL-type tab-separated格式。
- 结构:每句首行是分类标签,后续每词一行,词与标签分离,句间空行。
标签定义
-
比喻句分类标签:
标签 含义 比喻 包含比喻 字面 不包含比喻 -
比喻成分提取标签:
标签 含义 ts 单字本体 tb 本体开始 tm 本体中间 te 本体结束 vs 单字喻体 vb 喻体开始 vm 喻体中间 ve 喻体结束 O 无
任务定义
- 比喻句分类(SC):判断包含比较词的句子是否为比喻句。
- 比喻成分提取(CE):从比喻句中提取本体和喻体。
搜集汇总
数据集介绍

构建方式
Chinese-Simile-Recognition-Dataset的构建基于中文学生作文中的句子,这些句子均包含中文比喻词“像”。数据集的构建过程包括从大量作文中筛选出含有“像”的句子,并通过人工标注的方式对这些句子进行分类和成分提取。标注工作涉及判断句子是否为比喻句,并提取比喻句中的本体(tenor)和喻体(vehicle)。整个数据集被划分为训练集、开发集和测试集,比例约为0.64:0.16:0.20,以确保模型训练和评估的有效性。
特点
该数据集包含11,337个句子,其中5,088个为比喻句,6,249个为字面句。每个句子都经过详细的标注,标注内容包括句子是否为比喻句以及比喻句中的本体和喻体。数据集的特点在于其丰富的比喻句样本和细致的成分标注,特别是采用了IOBES标注方案,使得每个词的比喻成分位置信息得以精确捕捉。此外,数据集中还包含了大量的独特本体和喻体概念,为比喻识别任务提供了丰富的语义信息。
使用方法
使用该数据集时,首先需要加载训练集、开发集和测试集。数据格式为CoNLL类型的表格分隔格式,每行包含一个词及其对应的成分标签。用户可以通过训练集进行模型训练,利用开发集进行超参数调优,最后在测试集上评估模型性能。数据集支持比喻句分类和比喻成分提取两个子任务,用户可以根据任务需求选择合适的模型架构和训练策略。此外,数据集中提供的预训练词嵌入文件可以用于提升模型的语义理解能力。
背景与挑战
背景概述
Chinese-Simile-Recognition-Dataset 是由 Lizhen Liu、Xiao Hu、Wei Song、Ruiji Fu、Ting Liu 和 Guoping Hu 等研究人员于2018年发布的一个中文比喻识别数据集。该数据集旨在支持数据驱动的方法,用于识别中文中的比喻句,并提取比喻句中的本体(tenor)和喻体(vehicle)。数据集包含约11,300个包含“像”这一比较词的句子,每个句子都经过人工标注,以确定其是否为比喻句,并标注出相应的比喻成分。该数据集的发布为中文自然语言处理领域中的比喻识别任务提供了重要的资源支持,推动了相关研究的发展。
当前挑战
Chinese-Simile-Recognition-Dataset 面临的挑战主要包括两个方面。首先,比喻识别任务本身具有较高的复杂性,尤其是在区分隐喻性比较和字面比较时,由于比较词的多义性和句法角色的多样性,识别比喻句的准确性受到限制。其次,在数据集的构建过程中,人工标注的准确性和一致性是一个重要的挑战。由于比喻句的识别和成分提取需要较高的语言学知识,标注过程中可能会出现主观性偏差,影响数据集的质量。此外,数据集中比喻句与非比喻句的比例不平衡,也可能对模型的训练和评估带来一定的困难。
常用场景
经典使用场景
在自然语言处理领域,Chinese-Simile-Recognition-Dataset被广泛用于中文比喻句的识别与成分提取研究。该数据集通过提供包含“像”这一比较词的句子,帮助研究者训练和评估模型,以区分比喻句与非比喻句,并从中提取比喻的本体和喻体。这一过程不仅提升了模型在中文语境下的比喻识别能力,还为跨语言比喻研究提供了宝贵的数据支持。
实际应用
在实际应用中,Chinese-Simile-Recognition-Dataset为中文文本分析、情感计算以及机器翻译等任务提供了重要支持。例如,在情感分析中,比喻句的识别能够帮助系统更准确地理解文本的情感倾向;在机器翻译中,比喻成分的提取则有助于生成更为自然的目标语言表达。这些应用场景展示了该数据集在提升中文文本处理技术中的广泛价值。
衍生相关工作
基于Chinese-Simile-Recognition-Dataset,研究者们开发了多种多任务学习模型,如LSTM和BERT等,用于比喻句识别与成分提取。这些模型不仅在中文比喻识别任务中取得了显著进展,还为其他语言的比喻研究提供了借鉴。此外,该数据集还激发了更多关于比喻生成、比喻理解等衍生研究,进一步拓展了比喻研究的深度与广度。
以上内容由遇见数据集搜集并总结生成



