surrey-nlp/PLOD-CW
收藏PLOD: An Abbreviation Detection Dataset
数据集概述
PLOD数据集是一个英语缩写及其长形式的标注文本数据集。该数据集从PLOS期刊的缩写和长形式索引中收集,用于支持自然语言处理中的缩写检测任务,主要涵盖科学领域。
支持的任务和排行榜
该数据集主要支持缩写检测任务,并已在AAAI 2022的科学文档理解研讨会的缩写检测共享任务中进行了测试。
语言
英语
数据集结构
数据实例
每个数据点包含一个ID、一组文本中的tokens、通过Spacy NER获得的相应pos_tags以及一组ner_tags,后者仅限于AC(缩写)和LF(长形式)。
示例: json { "tokens": ["Study", "-", "specific", "risk", "ratios", "(", "RRs", ")", "and", "mean", "BW", "differences", "were", "calculated", "using", "linear", "and", "log", "-", "binomial", "regression", "models", "controlling", "for", "confounding", "using", "inverse", "probability", "of", "treatment", "weights", "(", "IPTW", ")", "truncated", "at", "the", "1st", "and", "99th", "percentiles", "."], "pos_tags": [8, 13, 0, 8, 8, 13, 12, 13, 5, 0, 12, 8, 3, 16, 16, 0, 5, 0, 13, 0, 8, 8, 16, 1, 8, 16, 0, 8, 1, 8, 8, 13, 12, 13, 16, 1, 6, 0, 5, 0, 8, 13], "ner_tags": [0, 0, 0, 3, 4, 0, 1, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 3, 4, 4, 4, 4, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0] }
数据字段
tokens: 文本中的标记。pos_tags: 对应标记的词性标签,通过Spacy NER获得。ner_tags: 缩写和长形式的标签。
数据分割
train: 958388字节,1072个样本。validation: 119188字节,126个样本。test: 119336字节,153个样本。
数据集创建
数据来源
数据从PLOS期刊在线提取,并进行标记化和规范化。
数据集创建者
数据集最初由Leonardo Zilio, Hadeel Saadany, Prashant Sharma, Diptesh Kanojia, Constantin Orasan创建。子集由Shenbin Qian从新的PLOD清洁版本中创建,计划在LREC COLING 2024发布。
许可信息
CC-BY-SA 4.0



