surrey-nlp/PLOD-CW

Name: surrey-nlp/PLOD-CW
Creator: surrey-nlp
Published: 2024-03-04 18:25:16
License: 暂无描述

Hugging Face2024-03-04 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/surrey-nlp/PLOD-CW

下载链接

链接失效反馈

官方服务：

资源简介：

PLOD数据集是一个用于缩写检测的英文数据集，主要支持自然语言处理中的缩写检测任务。该数据集来源于PLOS期刊，包含了文本中的缩写及其长形式的标注。数据集结构包括tokens、pos_tags和ner_tags三个字段，分别表示文本中的词、词性标注和命名实体标注。数据集分为训练集、验证集和测试集，并提供了过滤和未过滤两个版本。该数据集的使用场景包括科学领域的文档理解，并且已经在AAAI 2022的SDU研讨会上进行了测试。

提供机构：

surrey-nlp

原始信息汇总

PLOD: An Abbreviation Detection Dataset

数据集概述

PLOD数据集是一个英语缩写及其长形式的标注文本数据集。该数据集从PLOS期刊的缩写和长形式索引中收集，用于支持自然语言处理中的缩写检测任务，主要涵盖科学领域。

支持的任务和排行榜

该数据集主要支持缩写检测任务，并已在AAAI 2022的科学文档理解研讨会的缩写检测共享任务中进行了测试。

语言

英语

数据集结构

数据实例

每个数据点包含一个ID、一组文本中的tokens、通过Spacy NER获得的相应pos_tags以及一组ner_tags，后者仅限于AC（缩写）和LF（长形式）。

示例： json { "tokens": ["Study", "-", "specific", "risk", "ratios", "(", "RRs", ")", "and", "mean", "BW", "differences", "were", "calculated", "using", "linear", "and", "log", "-", "binomial", "regression", "models", "controlling", "for", "confounding", "using", "inverse", "probability", "of", "treatment", "weights", "(", "IPTW", ")", "truncated", "at", "the", "1st", "and", "99th", "percentiles", "."], "pos_tags": [8, 13, 0, 8, 8, 13, 12, 13, 5, 0, 12, 8, 3, 16, 16, 0, 5, 0, 13, 0, 8, 8, 16, 1, 8, 16, 0, 8, 1, 8, 8, 13, 12, 13, 16, 1, 6, 0, 5, 0, 8, 13], "ner_tags": [0, 0, 0, 3, 4, 0, 1, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 3, 4, 4, 4, 4, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0] }