Chinese-abbreviation-dataset|中文缩写预测数据集|自然语言处理数据集
收藏数据集概述
数据集名称
A corpus of Chinese abbreviation
数据集来源
该数据集来源于论文《A Chinese Dataset with Negative Full Forms for General Abbreviation Prediction》,发布于2017年。
数据集目的
该数据集旨在促进中文缩略语预测的研究,特别是包括那些没有有效缩略语的全形表达(即负全形表达)。
数据集内容
数据集包含中文全形表达及其对应的缩略语。如果全形表达没有有效缩略语,则在缩略语位置标记特殊符号“n”。
数据集格式
- 全形表达位于冒号右侧,并进行了分词和词性标注。
- 缩略语位于冒号左侧。若无有效缩略语,左侧标记为“n”。
引用信息
若使用此数据集进行研究,请引用以下论文:
@article{DBLP:journals/corr/abs-1712-06289, author = {Yi Zhang and Xu Sun}, title = {A Chinese Dataset with Negative Full Forms for General Abbreviation Prediction}, journal = {CoRR}, volume = {abs/1712.06289}, year = {2017}, url = {http://arxiv.org/abs/1712.06289}, archivePrefix = {arXiv}, eprint = {1712.06289}, timestamp = {Thu, 04 Jan 2018 12:38:35 +0100}, biburl = {https://dblp.org/rec/bib/journals/corr/abs-1712-06289}, bibsource = {dblp computer science bibliography, https://dblp.org} }

中国交通事故深度调查(CIDAS)数据集
交通事故深度调查数据通过采用科学系统方法现场调查中国道路上实际发生交通事故相关的道路环境、道路交通行为、车辆损坏、人员损伤信息,以探究碰撞事故中车损和人伤机理。目前已积累深度调查事故10000余例,单个案例信息包含人、车 、路和环境多维信息组成的3000多个字段。该数据集可作为深入分析中国道路交通事故工况特征,探索事故预防和损伤防护措施的关键数据源,为制定汽车安全法规和标准、完善汽车测评试验规程、
北方大数据交易中心 收录
糖尿病预测数据集
糖尿病相关的医学研究或者健康数据
AI_Studio 收录
Google Scholar
Google Scholar是一个学术搜索引擎,旨在检索学术文献、论文、书籍、摘要和文章等。它涵盖了广泛的学科领域,包括自然科学、社会科学、艺术和人文学科。用户可以通过关键词搜索、作者姓名、出版物名称等方式查找相关学术资源。
scholar.google.com 收录
LFW
人脸数据集;LFW数据集共有13233张人脸图像,每张图像均给出对应的人名,共有5749人,且绝大部分人仅有一张图片。每张图片的尺寸为250X250,绝大部分为彩色图像,但也存在少许黑白人脸图片。 URL: http://vis-www.cs.umass.edu/lfw/index.html#download
AI_Studio 收录
Breast Ultrasound Images (BUSI)
小型(约500×500像素)超声图像,适用于良性和恶性病变的分类和分割任务。
github 收录