five

surrey-nlp/PLOD-filtered

收藏
Hugging Face2023-01-14 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/surrey-nlp/PLOD-filtered
下载链接
链接失效反馈
官方服务:
资源简介:
PLOD数据集是一个英文数据集,专门用于缩写检测任务。该数据集从PLOS期刊中收集了文本中的缩写及其长形式,并进行了标注。数据集分为过滤和未过滤两个版本,支持自然语言处理中的缩写检测任务,主要应用于科学领域。数据集包含训练集、验证集和测试集,数据点包括ID、文本中的tokens、通过Spacy NER获得的POS标签以及缩写和长形式的NER标签。数据集由Leonardo Zilio等人创建,采用CC-BY-SA 4.0许可。
提供机构:
surrey-nlp
原始信息汇总

数据集概述

名称: PLOD: An Abbreviation Detection Dataset

描述: PLOD数据集是一个英文数据集,用于支持自然语言处理任务中的缩写检测,主要覆盖科学领域。该数据集从PLOS期刊中收集,用于研究文本中的缩写和全称。

语言: 英语

许可证: CC-BY-SA 4.0

多语言性: 单语种

大小: 100K<n<1M

来源: 原始数据

任务类别: 词元分类

任务ID: 无

论文代码ID: plod-filtered

标签: 缩写检测

数据集结构

数据实例: 每个数据点包括ID、文本中的词元集合、对应的词性标签(通过Spacy NER获得)以及缩写和全称的标签。

数据字段:

  • id: 数据点的行标识符。
  • tokens: 文本中包含的词元。
  • pos_tags: 对应词元的词性标签。
  • ner_tags: 缩写和全称的标签。

数据分割:

  • 过滤版: 训练集112652条,验证集24140条,测试集24140条。
  • 未过滤版: 训练集113860条,验证集24399条,测试集24399条。

数据集创建

源数据: 数据从PLOS期刊在线提取,经过分词和规范化处理。

语言创建者: PLOS期刊

数据集创建者: Leonardo Zilio, Hadeel Saadany, Prashant Sharma, Diptesh Kanojia, Constantin Orasan

模型

最佳表现模型: 托管在HuggingFace模型库中,包括RoBERTa和AlBERT的微调版本,用于缩写检测任务。

使用指南

安装: 使用spaCy transformers库进行模型训练,支持通过HuggingFace库中的预训练语言模型进行训练。

使用: 可以通过提供的Python笔记本在本地使用HuggingFace模型进行实验。

5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作