Chinese-abbreviation-dataset
收藏数据集概述
数据集名称
A corpus of Chinese abbreviation
数据集来源
该数据集来源于论文《A Chinese Dataset with Negative Full Forms for General Abbreviation Prediction》,发布于2017年。
数据集目的
该数据集旨在促进中文缩略语预测的研究,特别是包括那些没有有效缩略语的全形表达(即负全形表达)。
数据集内容
数据集包含中文全形表达及其对应的缩略语。如果全形表达没有有效缩略语,则在缩略语位置标记特殊符号“n”。
数据集格式
- 全形表达位于冒号右侧,并进行了分词和词性标注。
- 缩略语位于冒号左侧。若无有效缩略语,左侧标记为“n”。
引用信息
若使用此数据集进行研究,请引用以下论文:
@article{DBLP:journals/corr/abs-1712-06289, author = {Yi Zhang and Xu Sun}, title = {A Chinese Dataset with Negative Full Forms for General Abbreviation Prediction}, journal = {CoRR}, volume = {abs/1712.06289}, year = {2017}, url = {http://arxiv.org/abs/1712.06289}, archivePrefix = {arXiv}, eprint = {1712.06289}, timestamp = {Thu, 04 Jan 2018 12:38:35 +0100}, biburl = {https://dblp.org/rec/bib/journals/corr/abs-1712-06289}, bibsource = {dblp computer science bibliography, https://dblp.org} }




