HPLT/hplt_monolingual_v1_2
收藏Hugging Face2024-03-18 更新2024-05-25 收录
下载链接:
https://hf-mirror.com/datasets/HPLT/hplt_monolingual_v1_2
下载链接
链接失效反馈官方服务:
资源简介:
HPLT Monolingual Release v1.2数据集是由HPLT项目创建的大规模网络爬取语料库,基于CommonCrawl和Internet Archive,支持75种语言。数据集提供了完整版本、去重版本和进一步清理的版本。使用该数据集需要安装`zstandard`库,并且可以通过Hugging Face的`load_dataset`函数进行加载。数据集的字段包括文档ID、文档语言、段落流畅度评分、段落语言、文本内容、URL和集合名称。数据集遵循CC0许可证,允许无保留权利的使用。
HPLT Monolingual Release v1.2数据集是由HPLT项目创建的大规模网络爬取语料库,基于CommonCrawl和Internet Archive,支持75种语言。数据集提供了完整版本、去重版本和进一步清理的版本。使用该数据集需要安装`zstandard`库,并且可以通过Hugging Face的`load_dataset`函数进行加载。数据集的字段包括文档ID、文档语言、段落流畅度评分、段落语言、文本内容、URL和集合名称。数据集遵循CC0许可证,允许无保留权利的使用。
提供机构:
HPLT
原始信息汇总
HPLT Monolingual Release v1.2 数据集概述
基本信息
- 许可证: CC0-1.0
- 任务类别: 文本生成
- 支持语言: 75种语言,包括但不限于英语、中文、阿拉伯语等。
- 数据集大小: 超过1TB
数据集内容
- 文档结构:
id: 文档IDdocument_lang: 文档语言scores: 段落流利度评分langs: 段落最高概率语言text: 文档文本url: 文档URLcollection: 集合名称
使用方法
- 下载选项: 可下载完整数据集、去重版本或完全清理版本。
- 代码示例: python from datasets import load_dataset ds = load_dataset("HPLT/hplt_monolingual_v1_2", "ky", trust_remote_code=True)
许可证说明
- 数据集内容不拥有任何文本版权,数据集包装本身遵循CC0许可证。
数据移除请求
- 如需在下一版本中移除特定数据,请联系数据创建者。



