Mitsua/wikidata-parallel-descriptions-en-ja
收藏Hugging Face2024-05-17 更新2024-05-25 收录
下载链接:
https://hf-mirror.com/datasets/Mitsua/wikidata-parallel-descriptions-en-ja
下载链接
链接失效反馈官方服务:
资源简介:
---
license: cc0-1.0
task_categories:
- translation
language:
- en
- ja
---
# Wikidata parallel descriptions en-ja
- Parallel corpus for machine translation generated from [wikidata dump](https://dumps.wikimedia.org/wikidatawiki/entities/) (2024-05-06).
- Currently we processed only English/Japanese pair.
- The `jsonl` file is ready-to-train by Hugging Face transformers trainer for translation tasks.
# Dataset Details
- https://www.wikidata.org/wiki/Wikidata:Database_download
## Dataset Creation
- As Wikidata description field does not represent exact direct translation, filtering is required for machine translation task.
- We did word count based filtering by using Japanese tokenizer MeCab and did some word-based filtering like `ウィキメディア`
- We also did deduplication.
## Bias, Risks, and Limitations
- The data is still noisy and might not be very parallel.
# License
- [CC0 1.0](https://creativecommons.org/publicdomain/zero/1.0/)
- Note : All structured data in Wikidata is also licensed under CC0.
- https://www.wikidata.org/wiki/Wikidata:Licensing
提供机构:
Mitsua
原始信息汇总
Wikidata parallel descriptions en-ja
- 机器翻译的平行语料库,源自wikidata dump(2024-05-06)。
- 目前仅处理了英语/日语对。
jsonl文件可直接用于Hugging Face transformers训练器进行翻译任务。
数据集详情
- 数据集创建过程中,由于Wikidata描述字段并不代表精确的直接翻译,因此需要进行过滤。
- 使用了基于词频的过滤方法,结合了日语分词器MeCab,并进行了一些基于词的过滤,如
ウィキメディア。 - 还进行了去重处理。
偏差、风险和限制
- 数据仍存在噪音,可能不够平行。
许可证
- CC0 1.0
- 注意:Wikidata中的所有结构化数据也采用CC0许可证。



