five

intfloat/multilingual_cc_news

收藏
Hugging Face2023-04-23 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/intfloat/multilingual_cc_news
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集基于CloverSearch/cc-news-mutlilingual,添加了一个脚本来支持通过HuggingFace datasets API访问多语言的CC-News数据集,而不是直接下载原始数据文件。数据字段包括标题(title)、正文(maintext)、URL(url)和发布日期(date_publish),均为字符串类型。数据集支持多种语言,可以通过指定语言代码来加载特定语言的子集。

该数据集基于CloverSearch/cc-news-mutlilingual,添加了一个脚本来支持通过HuggingFace datasets API访问多语言的CC-News数据集,而不是直接下载原始数据文件。数据字段包括标题(title)、正文(maintext)、URL(url)和发布日期(date_publish),均为字符串类型。数据集支持多种语言,可以通过指定语言代码来加载特定语言的子集。
提供机构:
intfloat
原始信息汇总

数据集概述

本数据集基于CloverSearch/cc-news-mutlilingual,通过添加脚本支持使用HuggingFace datasets API访问多语言CC-News数据集,而非直接下载原始数据文件。

数据字段

  • title: 字符串类型。
  • maintext: 字符串类型。
  • url: 字符串类型。
  • date_publish: 字符串类型。

使用方法

可通过以下代码加载特定语言的CC-News子集:

python from datasets import load_dataset

dataset = load_dataset("intfloat/multilingual_cc_news", languages=["af"])

支持的语言

数据集支持多种语言,包括但不限于:

  • af
  • als
  • am
  • an
  • ar
  • arz
  • as
  • ast
  • av
  • az
  • azb
  • ba
  • bar
  • bcl
  • be
  • bg
  • bh
  • bn
  • bo
  • bpy
  • br
  • bs
  • bxr
  • ca
  • cbk
  • ce
  • ceb
  • ckb
  • co
  • cs
  • cv
  • cy
  • da
  • de
  • diq
  • dsb
  • dty
  • dv
  • el
  • eml
  • en
  • eo
  • es
  • et
  • eu
  • fa
  • fi
  • fr
  • fy
  • ga
  • gd
  • gl
  • gn
  • gom
  • gu
  • gv
  • he
  • hi
  • hif
  • hr
  • hsb
  • ht
  • hu
  • hy
  • ia
  • id
  • ie
  • ilo
  • io
  • is
  • it
  • ja
  • jbo
  • jv
  • ka
  • kk
  • km
  • kn
  • ko
  • krc
  • ku
  • kv
  • kw
  • ky
  • la
  • lb
  • lez
  • li
  • lmo
  • lo
  • lt
  • lv
  • mai
  • mg
  • mhr
  • min
  • mk
  • ml
  • mn
  • mr
  • mrj
  • ms
  • mt
  • mwl
  • my
  • myv
  • mzn
  • nah
  • nap
  • nds
  • ne
  • new
  • nl
  • nn
  • no
  • oc
  • or
  • os
  • pa
  • pam
  • pfl
  • pl
  • pms
  • pnb
  • ps
  • pt
  • qu
  • rm
  • ro
  • ru
  • sa
  • sah
  • sc
  • scn
  • sco
  • sd
  • sh
  • si
  • sk
  • sl
  • so
  • sq
  • sr
  • su
  • sv
  • sw
  • ta
  • te
  • tg
  • th
  • tk
  • tl
  • tr
  • tt
  • tyv
  • ug
  • uk
  • ur
  • uz
  • vec
  • vep
  • vi
  • vls
  • vo
  • wa
  • war
  • wuu
  • xal
  • xmf
  • yi
  • yo
  • yue
  • zh
搜集汇总
数据集介绍
main_image_url
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作