Madjakul/HALvest-R
收藏Hugging Face2024-04-30 更新2024-06-15 收录
下载链接:
https://hf-mirror.com/datasets/Madjakul/HALvest-R
下载链接
链接失效反馈官方服务:
资源简介:
HALvest-Raw数据集是从HAL(Hyper Articles en Ligne)开放档案中获取的未经过滤的科学论文全文,涵盖了56种语言和13个领域。数据集的构建过程包括从HAL API获取数据、使用GROBID将PDF转换为结构化数据、以及计算文档的统计信息。数据集主要用于文本生成和掩码语言建模任务,适用于学术研究和深度学习模型的训练。
提供机构:
Madjakul
原始信息汇总
数据集概述
数据集名称
- 名称: HALvest-Raw
数据集配置
- 配置名称: ar, az, bg, bo, br, bs, ca, co, cs, da, de, el, en, eo, es, et, eu, fa, fi, fr, gl, gn, he, hi, hr, hu, hy, id, ie, it, ja, kk, ko, lt, mk, mr, no, oc, pl, pt, ro, ru, sk, sl, sq, sr, sv, sw, ta, tet, th, tk, tl, tr, uk, vi, zh
- 数据文件: 每个配置对应一个语言文件夹,文件格式为
.gz
语言
- 支持语言: 阿拉伯语, 阿塞拜疆语, 保加利亚语, 藏语, 布列塔尼语, 波斯尼亚语, 加泰罗尼亚语, 科西嘉语, 捷克语, 丹麦语, 德语, 希腊语, 英语, 世界语, 西班牙语, 爱沙尼亚语, 巴斯克语, 波斯语, 芬兰语, 法语, 加利西亚语, 瓜拉尼语, 希伯来语, 印地语, 克罗地亚语, 匈牙利语, 亚美尼亚语, 印度尼西亚语, 国际语, 意大利语, 日语, 哈萨克语, 韩语, 立陶宛语, 马其顿语, 马拉地语, 挪威语, 奥克语, 波兰语, 葡萄牙语, 罗马尼亚语, 俄语, 斯洛伐克语, 斯洛文尼亚语, 阿尔巴尼亚语, 塞尔维亚语, 瑞典语, 斯瓦希里语, 泰米尔语, 德顿语, 泰语, 土库曼语, 塔加洛语, 土耳其语, 乌克兰语, 越南语, 中文
数据集大小分类
- 大小分类: n<1K, 1K<n<10K, 10K<n<100K, 100K<n<1M
任务分类
- 任务分类: 文本生成, 填充掩码
- 任务ID: 语言建模, 掩码语言建模
标签
- 标签: 学术, 研究
注释创建者
- 注释创建者: 无注释
多语言性
- 多语言性: 多语言
源数据集
- 源数据集: 原始数据



