five

Madjakul/HALvest-R

收藏
Hugging Face2024-04-30 更新2024-06-15 收录
下载链接:
https://hf-mirror.com/datasets/Madjakul/HALvest-R
下载链接
链接失效反馈
官方服务:
资源简介:
HALvest-Raw数据集是从HAL(Hyper Articles en Ligne)开放档案中获取的未经过滤的科学论文全文,涵盖了56种语言和13个领域。数据集的构建过程包括从HAL API获取数据、使用GROBID将PDF转换为结构化数据、以及计算文档的统计信息。数据集主要用于文本生成和掩码语言建模任务,适用于学术研究和深度学习模型的训练。
提供机构:
Madjakul
原始信息汇总

数据集概述

数据集名称

  • 名称: HALvest-Raw

数据集配置

  • 配置名称: ar, az, bg, bo, br, bs, ca, co, cs, da, de, el, en, eo, es, et, eu, fa, fi, fr, gl, gn, he, hi, hr, hu, hy, id, ie, it, ja, kk, ko, lt, mk, mr, no, oc, pl, pt, ro, ru, sk, sl, sq, sr, sv, sw, ta, tet, th, tk, tl, tr, uk, vi, zh
  • 数据文件: 每个配置对应一个语言文件夹,文件格式为 .gz

语言

  • 支持语言: 阿拉伯语, 阿塞拜疆语, 保加利亚语, 藏语, 布列塔尼语, 波斯尼亚语, 加泰罗尼亚语, 科西嘉语, 捷克语, 丹麦语, 德语, 希腊语, 英语, 世界语, 西班牙语, 爱沙尼亚语, 巴斯克语, 波斯语, 芬兰语, 法语, 加利西亚语, 瓜拉尼语, 希伯来语, 印地语, 克罗地亚语, 匈牙利语, 亚美尼亚语, 印度尼西亚语, 国际语, 意大利语, 日语, 哈萨克语, 韩语, 立陶宛语, 马其顿语, 马拉地语, 挪威语, 奥克语, 波兰语, 葡萄牙语, 罗马尼亚语, 俄语, 斯洛伐克语, 斯洛文尼亚语, 阿尔巴尼亚语, 塞尔维亚语, 瑞典语, 斯瓦希里语, 泰米尔语, 德顿语, 泰语, 土库曼语, 塔加洛语, 土耳其语, 乌克兰语, 越南语, 中文

数据集大小分类

  • 大小分类: n<1K, 1K<n<10K, 10K<n<100K, 100K<n<1M

任务分类

  • 任务分类: 文本生成, 填充掩码
  • 任务ID: 语言建模, 掩码语言建模

标签

  • 标签: 学术, 研究

注释创建者

  • 注释创建者: 无注释

多语言性

  • 多语言性: 多语言

源数据集

  • 源数据集: 原始数据
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作