five

HPLT/hplt_monolingual_v1_2

收藏
Hugging Face2024-03-18 更新2024-05-25 收录
下载链接:
https://hf-mirror.com/datasets/HPLT/hplt_monolingual_v1_2
下载链接
链接失效反馈
官方服务:
资源简介:
HPLT Monolingual Release v1.2数据集是由HPLT项目创建的大规模网络爬取语料库,基于CommonCrawl和Internet Archive,支持75种语言。数据集提供了完整版本、去重版本和进一步清理的版本。使用该数据集需要安装`zstandard`库,并且可以通过Hugging Face的`load_dataset`函数进行加载。数据集的字段包括文档ID、文档语言、段落流畅度评分、段落语言、文本内容、URL和集合名称。数据集遵循CC0许可证,允许无保留权利的使用。

HPLT Monolingual Release v1.2数据集是由HPLT项目创建的大规模网络爬取语料库,基于CommonCrawl和Internet Archive,支持75种语言。数据集提供了完整版本、去重版本和进一步清理的版本。使用该数据集需要安装`zstandard`库,并且可以通过Hugging Face的`load_dataset`函数进行加载。数据集的字段包括文档ID、文档语言、段落流畅度评分、段落语言、文本内容、URL和集合名称。数据集遵循CC0许可证,允许无保留权利的使用。
提供机构:
HPLT
原始信息汇总

HPLT Monolingual Release v1.2 数据集概述

基本信息

  • 许可证: CC0-1.0
  • 任务类别: 文本生成
  • 支持语言: 75种语言,包括但不限于英语、中文、阿拉伯语等。
  • 数据集大小: 超过1TB

数据集内容

  • 文档结构:
    • id: 文档ID
    • document_lang: 文档语言
    • scores: 段落流利度评分
    • langs: 段落最高概率语言
    • text: 文档文本
    • url: 文档URL
    • collection: 集合名称

使用方法

  • 下载选项: 可下载完整数据集、去重版本或完全清理版本。
  • 代码示例: python from datasets import load_dataset ds = load_dataset("HPLT/hplt_monolingual_v1_2", "ky", trust_remote_code=True)

许可证说明

  • 数据集内容不拥有任何文本版权,数据集包装本身遵循CC0许可证。

数据移除请求

  • 如需在下一版本中移除特定数据,请联系数据创建者。
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作