surrey-nlp/PLOD-filtered
收藏Hugging Face2023-01-14 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/surrey-nlp/PLOD-filtered
下载链接
链接失效反馈官方服务:
资源简介:
PLOD数据集是一个英文数据集,专门用于缩写检测任务。该数据集从PLOS期刊中收集了文本中的缩写及其长形式,并进行了标注。数据集分为过滤和未过滤两个版本,支持自然语言处理中的缩写检测任务,主要应用于科学领域。数据集包含训练集、验证集和测试集,数据点包括ID、文本中的tokens、通过Spacy NER获得的POS标签以及缩写和长形式的NER标签。数据集由Leonardo Zilio等人创建,采用CC-BY-SA 4.0许可。
提供机构:
surrey-nlp
原始信息汇总
数据集概述
名称: PLOD: An Abbreviation Detection Dataset
描述: PLOD数据集是一个英文数据集,用于支持自然语言处理任务中的缩写检测,主要覆盖科学领域。该数据集从PLOS期刊中收集,用于研究文本中的缩写和全称。
语言: 英语
许可证: CC-BY-SA 4.0
多语言性: 单语种
大小: 100K<n<1M
来源: 原始数据
任务类别: 词元分类
任务ID: 无
论文代码ID: plod-filtered
标签: 缩写检测
数据集结构
数据实例: 每个数据点包括ID、文本中的词元集合、对应的词性标签(通过Spacy NER获得)以及缩写和全称的标签。
数据字段:
- id: 数据点的行标识符。
- tokens: 文本中包含的词元。
- pos_tags: 对应词元的词性标签。
- ner_tags: 缩写和全称的标签。
数据分割:
- 过滤版: 训练集112652条,验证集24140条,测试集24140条。
- 未过滤版: 训练集113860条,验证集24399条,测试集24399条。
数据集创建
源数据: 数据从PLOS期刊在线提取,经过分词和规范化处理。
语言创建者: PLOS期刊
数据集创建者: Leonardo Zilio, Hadeel Saadany, Prashant Sharma, Diptesh Kanojia, Constantin Orasan
模型
最佳表现模型: 托管在HuggingFace模型库中,包括RoBERTa和AlBERT的微调版本,用于缩写检测任务。
使用指南
安装: 使用spaCy transformers库进行模型训练,支持通过HuggingFace库中的预训练语言模型进行训练。
使用: 可以通过提供的Python笔记本在本地使用HuggingFace模型进行实验。



