impresso-project/wiki_comparable_corpus_en_de_hi_it_ko_zh

Name: impresso-project/wiki_comparable_corpus_en_de_hi_it_ko_zh
Creator: impresso-project
Published: 2026-02-06 15:37:00
License: 暂无描述

Hugging Face2026-02-06 更新2026-02-07 收录

下载链接：

https://hf-mirror.com/datasets/impresso-project/wiki_comparable_corpus_en_de_hi_it_ko_zh

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集是一个包含6种语言（英语、德语、意大利语、韩语、印地语和中文）的多语言维基百科可比语料库。其关键特性是跨语言对齐，即对于每个索引i，不同语言的分割中的条目在主题上是匹配的。数据集结构为每个语言一个分割，每个分割包含11,527行数据，总文章数为69,162篇。每篇文章包含wiki_pageid、language、url、title、text、aligned_id和id等字段。文章通过行索引或aligned_id字段跨语言对齐。

This dataset is a document-level comparable corpus of Wikipedia articles across 6 languages: English (`en`), German (`de`), Italian (`it`), Korean (`ko`), Hindi (`hi`), and Chinese (`zh`). The key property is alignment across languages: entries are topic-matched such that, for a given index `i`, `dataset["en"][i]` is comparable to `dataset["de"][i]`, `dataset["it"][i]`, … (and likewise via the `aligned_id` field).

提供机构：

impresso-project

5,000+

优质数据集

54 个

任务类型

进入经典数据集