Madjakul/HALvest-Geometric
收藏Hugging Face2024-07-18 更新2024-07-22 收录
下载链接:
https://hf-mirror.com/datasets/Madjakul/HALvest-Geometric
下载链接
链接失效反馈官方服务:
资源简介:
该数据集包含从HAL(Hyper Articles en Ligne)获取的开放论文的全文,主要语言为英语和法语,但也包含其他32种语言的论文。数据集适用于文本生成和填充掩码任务,且未包含人工注释。数据集的大小在10万到100万之间,且是多语言的。数据集的许可证为cc-by-4.0,使用时应遵循HAL的许可条款。
The HALvest-Geometric dataset is a citation network of open scientific papers harvested from HAL (Hyper Articles en Ligne). The dataset primarily consists of full-text papers in English and French, but also includes papers in 34 languages across 13 domains. The dataset files are in .gz format, stored in en and fr directories. It is suitable for text generation and masked language modeling tasks, primarily used for academic research and graph data analysis. The datasets copyright follows the HAL license terms, which is CC BY 4.0.
提供机构:
Madjakul
原始信息汇总
HALvest-Geometric 数据集概述
数据集描述
- 名称: HALvest-Geometric
- 许可证: cc-by-4.0
- 语言:
- 英语 (en)
- 法语 (fr)
- 大小类别: 100K<n<1M
- 任务类别:
- 文本生成
- 填充掩码
- 任务ID:
- 语言建模
- 掩码语言建模
- 标签:
- 学术
- 研究
- 图
- 注释创建者: 无注释
- 多语言性: 多语言
- 源数据集: HALvest
数据集摘要
概述
该数据集包含从 Hyper Articles en Ligne (HAL) 收集的开放科学论文的全文。数据集主要包含英语和法语文本,但也涵盖了13个领域中的34种语言。
语言统计
| ISO-639 | 语言 | 文档数量 | mT5 标记数量 |
|---|---|---|---|
| en | 英语 | 442,892 | 7,606,895,258 |
| fr | 法语 | 193,437 | 8,728,722,255 |
使用数据集的注意事项
该语料库从 HAL的开放档案 中提取,遵循开放获取原则分发科学出版物。语料库包含创意共享许可和版权保护的文档(由出版商授权在HAL上分发)。在使用此数据集进行任何用途(训练深度学习模型、数据挖掘等)之前,必须考虑这些因素。我们不拥有从中提取数据的任何文本的所有权。
数据集版权
HALvest的许可条款严格遵循HAL的许可条款。请在使用此数据集时参考以下许可:



