sorokin/arxiv-pii

Name: sorokin/arxiv-pii
Creator: sorokin
Published: 2024-04-24 20:50:34
License: 暂无描述

Hugging Face2024-04-24 更新2024-06-12 收录

下载链接：

https://hf-mirror.com/datasets/sorokin/arxiv-pii

下载链接

链接失效反馈

官方服务：

资源简介：

ArXiv PII数据集包含从ArXiv PDF文件的第一页转换而来的文本，以及作者相关的标签（如姓名、电子邮件、电话）。数据集分为两个配置：pages和labels，每个配置下有两个分割（2312和2401）。数据集的来源包括Kaggle数据集和Google Cloud Storage中的PDF文件。数据处理过程包括从Kaggle下载ArXiv论文列表，筛选特定许可证的论文，下载相关PDF文件，将第一页转换为文本，并在Label Studio中手动标记作者相关实体。

提供机构：

sorokin

原始信息汇总

ArXiv PII 数据集概述

基本信息

许可证: CC0-1.0
任务类别: 令牌分类
语言: 英语
数据集大小: 1K<n<10K

数据配置

配置名称: pages
- 数据文件:
  - split: "2312"
    - 路径: "data/2312/pages.csv"
  - split: "2401"
    - 路径: "data/2401/pages.csv"
配置名称: labels
- 数据文件:
  - split: "2312"
    - 路径: "data/2312/labels.csv"
  - split: "2401"
    - 路径: "data/2401/labels.csv"
- 默认: true

数据内容

数据来源:
- 文本数据来自ArXiv PDF文件的首页转换
- 包含作者相关的标签: NAME, EMAIL, PHONE

数据统计

分割	页面数	NAME	EMAIL	PHONE
2312	1749	9871	3993	39
2401	1312	7477	3039	36

5,000+

优质数据集

54 个

任务类型

进入经典数据集