five

surrey-nlp/PLOD-CW

收藏
Hugging Face2024-03-04 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/surrey-nlp/PLOD-CW
下载链接
链接失效反馈
官方服务:
资源简介:
PLOD数据集是一个用于缩写检测的英文数据集,主要支持自然语言处理中的缩写检测任务。该数据集来源于PLOS期刊,包含了文本中的缩写及其长形式的标注。数据集结构包括tokens、pos_tags和ner_tags三个字段,分别表示文本中的词、词性标注和命名实体标注。数据集分为训练集、验证集和测试集,并提供了过滤和未过滤两个版本。该数据集的使用场景包括科学领域的文档理解,并且已经在AAAI 2022的SDU研讨会上进行了测试。

PLOD数据集是一个用于缩写检测的英文数据集,主要支持自然语言处理中的缩写检测任务。该数据集来源于PLOS期刊,包含了文本中的缩写及其长形式的标注。数据集结构包括tokens、pos_tags和ner_tags三个字段,分别表示文本中的词、词性标注和命名实体标注。数据集分为训练集、验证集和测试集,并提供了过滤和未过滤两个版本。该数据集的使用场景包括科学领域的文档理解,并且已经在AAAI 2022的SDU研讨会上进行了测试。
提供机构:
surrey-nlp
原始信息汇总

PLOD: An Abbreviation Detection Dataset

数据集概述

PLOD数据集是一个英语缩写及其长形式的标注文本数据集。该数据集从PLOS期刊的缩写和长形式索引中收集,用于支持自然语言处理中的缩写检测任务,主要涵盖科学领域。

支持的任务和排行榜

该数据集主要支持缩写检测任务,并已在AAAI 2022的科学文档理解研讨会的缩写检测共享任务中进行了测试。

语言

英语

数据集结构

数据实例

每个数据点包含一个ID、一组文本中的tokens、通过Spacy NER获得的相应pos_tags以及一组ner_tags,后者仅限于AC(缩写)和LF(长形式)。

示例: json { "tokens": ["Study", "-", "specific", "risk", "ratios", "(", "RRs", ")", "and", "mean", "BW", "differences", "were", "calculated", "using", "linear", "and", "log", "-", "binomial", "regression", "models", "controlling", "for", "confounding", "using", "inverse", "probability", "of", "treatment", "weights", "(", "IPTW", ")", "truncated", "at", "the", "1st", "and", "99th", "percentiles", "."], "pos_tags": [8, 13, 0, 8, 8, 13, 12, 13, 5, 0, 12, 8, 3, 16, 16, 0, 5, 0, 13, 0, 8, 8, 16, 1, 8, 16, 0, 8, 1, 8, 8, 13, 12, 13, 16, 1, 6, 0, 5, 0, 8, 13], "ner_tags": [0, 0, 0, 3, 4, 0, 1, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 3, 4, 4, 4, 4, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0] }

数据字段

  • tokens: 文本中的标记。
  • pos_tags: 对应标记的词性标签,通过Spacy NER获得。
  • ner_tags: 缩写和长形式的标签。

数据分割

  • train: 958388字节,1072个样本。
  • validation: 119188字节,126个样本。
  • test: 119336字节,153个样本。

数据集创建

数据来源

数据从PLOS期刊在线提取,并进行标记化和规范化。

数据集创建者

数据集最初由Leonardo Zilio, Hadeel Saadany, Prashant Sharma, Diptesh Kanojia, Constantin Orasan创建。子集由Shenbin Qian从新的PLOD清洁版本中创建,计划在LREC COLING 2024发布。

许可信息

CC-BY-SA 4.0

5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作