surrey-nlp/PLOD-filtered

Name: surrey-nlp/PLOD-filtered
Creator: surrey-nlp
Published: 2023-01-14 23:30:12
License: 暂无描述

Hugging Face2023-01-14 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/surrey-nlp/PLOD-filtered

下载链接

链接失效反馈

官方服务：

资源简介：

PLOD数据集是一个英文数据集，专门用于缩写检测任务。该数据集从PLOS期刊中收集了文本中的缩写及其长形式，并进行了标注。数据集分为过滤和未过滤两个版本，支持自然语言处理中的缩写检测任务，主要应用于科学领域。数据集包含训练集、验证集和测试集，数据点包括ID、文本中的tokens、通过Spacy NER获得的POS标签以及缩写和长形式的NER标签。数据集由Leonardo Zilio等人创建，采用CC-BY-SA 4.0许可。

提供机构：

surrey-nlp

原始信息汇总

数据集概述

名称: PLOD: An Abbreviation Detection Dataset

描述: PLOD数据集是一个英文数据集，用于支持自然语言处理任务中的缩写检测，主要覆盖科学领域。该数据集从PLOS期刊中收集，用于研究文本中的缩写和全称。

语言: 英语

许可证: CC-BY-SA 4.0

多语言性: 单语种

大小: 100K<n<1M

来源: 原始数据

任务类别: 词元分类

任务ID: 无

论文代码ID: plod-filtered

标签: 缩写检测

数据集结构

数据实例: 每个数据点包括ID、文本中的词元集合、对应的词性标签（通过Spacy NER获得）以及缩写和全称的标签。

数据字段:

id: 数据点的行标识符。
tokens: 文本中包含的词元。
pos_tags: 对应词元的词性标签。
ner_tags: 缩写和全称的标签。

数据分割:

过滤版: 训练集112652条，验证集24140条，测试集24140条。
未过滤版: 训练集113860条，验证集24399条，测试集24399条。

数据集创建

源数据: 数据从PLOS期刊在线提取，经过分词和规范化处理。

语言创建者: PLOS期刊

数据集创建者: Leonardo Zilio, Hadeel Saadany, Prashant Sharma, Diptesh Kanojia, Constantin Orasan

模型

最佳表现模型: 托管在HuggingFace模型库中，包括RoBERTa和AlBERT的微调版本，用于缩写检测任务。

使用指南

安装: 使用spaCy transformers库进行模型训练，支持通过HuggingFace库中的预训练语言模型进行训练。

使用: 可以通过提供的Python笔记本在本地使用HuggingFace模型进行实验。

5,000+

优质数据集

54 个

任务类型

进入经典数据集