impresso-project/wiki_comparable_corpus_en_de_hi_it_ko_zh
收藏Hugging Face2026-02-06 更新2026-02-07 收录
下载链接:
https://hf-mirror.com/datasets/impresso-project/wiki_comparable_corpus_en_de_hi_it_ko_zh
下载链接
链接失效反馈官方服务:
资源简介:
该数据集是一个包含6种语言(英语、德语、意大利语、韩语、印地语和中文)的多语言维基百科可比语料库。其关键特性是跨语言对齐,即对于每个索引i,不同语言的分割中的条目在主题上是匹配的。数据集结构为每个语言一个分割,每个分割包含11,527行数据,总文章数为69,162篇。每篇文章包含wiki_pageid、language、url、title、text、aligned_id和id等字段。文章通过行索引或aligned_id字段跨语言对齐。
This dataset is a document-level comparable corpus of Wikipedia articles across 6 languages: English (`en`), German (`de`), Italian (`it`), Korean (`ko`), Hindi (`hi`), and Chinese (`zh`). The key property is alignment across languages: entries are topic-matched such that, for a given index `i`, `dataset["en"][i]` is comparable to `dataset["de"][i]`, `dataset["it"][i]`, … (and likewise via the `aligned_id` field).
提供机构:
impresso-project



