intfloat/multilingual_cc_news
收藏Hugging Face2023-04-23 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/intfloat/multilingual_cc_news
下载链接
链接失效反馈官方服务:
资源简介:
该数据集基于CloverSearch/cc-news-mutlilingual,添加了一个脚本来支持通过HuggingFace datasets API访问多语言的CC-News数据集,而不是直接下载原始数据文件。数据字段包括标题(title)、正文(maintext)、URL(url)和发布日期(date_publish),均为字符串类型。数据集支持多种语言,可以通过指定语言代码来加载特定语言的子集。
该数据集基于CloverSearch/cc-news-mutlilingual,添加了一个脚本来支持通过HuggingFace datasets API访问多语言的CC-News数据集,而不是直接下载原始数据文件。数据字段包括标题(title)、正文(maintext)、URL(url)和发布日期(date_publish),均为字符串类型。数据集支持多种语言,可以通过指定语言代码来加载特定语言的子集。
提供机构:
intfloat
原始信息汇总
数据集概述
本数据集基于CloverSearch/cc-news-mutlilingual,通过添加脚本支持使用HuggingFace datasets API访问多语言CC-News数据集,而非直接下载原始数据文件。
数据字段
title: 字符串类型。maintext: 字符串类型。url: 字符串类型。date_publish: 字符串类型。
使用方法
可通过以下代码加载特定语言的CC-News子集:
python from datasets import load_dataset
dataset = load_dataset("intfloat/multilingual_cc_news", languages=["af"])
支持的语言
数据集支持多种语言,包括但不限于:
- af
- als
- am
- an
- ar
- arz
- as
- ast
- av
- az
- azb
- ba
- bar
- bcl
- be
- bg
- bh
- bn
- bo
- bpy
- br
- bs
- bxr
- ca
- cbk
- ce
- ceb
- ckb
- co
- cs
- cv
- cy
- da
- de
- diq
- dsb
- dty
- dv
- el
- eml
- en
- eo
- es
- et
- eu
- fa
- fi
- fr
- fy
- ga
- gd
- gl
- gn
- gom
- gu
- gv
- he
- hi
- hif
- hr
- hsb
- ht
- hu
- hy
- ia
- id
- ie
- ilo
- io
- is
- it
- ja
- jbo
- jv
- ka
- kk
- km
- kn
- ko
- krc
- ku
- kv
- kw
- ky
- la
- lb
- lez
- li
- lmo
- lo
- lt
- lv
- mai
- mg
- mhr
- min
- mk
- ml
- mn
- mr
- mrj
- ms
- mt
- mwl
- my
- myv
- mzn
- nah
- nap
- nds
- ne
- new
- nl
- nn
- no
- oc
- or
- os
- pa
- pam
- pfl
- pl
- pms
- pnb
- ps
- pt
- qu
- rm
- ro
- ru
- sa
- sah
- sc
- scn
- sco
- sd
- sh
- si
- sk
- sl
- so
- sq
- sr
- su
- sv
- sw
- ta
- te
- tg
- th
- tk
- tl
- tr
- tt
- tyv
- ug
- uk
- ur
- uz
- vec
- vep
- vi
- vls
- vo
- wa
- war
- wuu
- xal
- xmf
- yi
- yo
- yue
- zh
搜集汇总
数据集介绍

以上内容由遇见数据集搜集并总结生成



