five

Mitsua/wikidata-parallel-descriptions-en-ja

收藏
Hugging Face2024-05-17 更新2024-05-25 收录
下载链接:
https://hf-mirror.com/datasets/Mitsua/wikidata-parallel-descriptions-en-ja
下载链接
链接失效反馈
官方服务:
资源简介:
--- license: cc0-1.0 task_categories: - translation language: - en - ja --- # Wikidata parallel descriptions en-ja - Parallel corpus for machine translation generated from [wikidata dump](https://dumps.wikimedia.org/wikidatawiki/entities/) (2024-05-06). - Currently we processed only English/Japanese pair. - The `jsonl` file is ready-to-train by Hugging Face transformers trainer for translation tasks. # Dataset Details - https://www.wikidata.org/wiki/Wikidata:Database_download ## Dataset Creation - As Wikidata description field does not represent exact direct translation, filtering is required for machine translation task. - We did word count based filtering by using Japanese tokenizer MeCab and did some word-based filtering like `ウィキメディア` - We also did deduplication. ## Bias, Risks, and Limitations - The data is still noisy and might not be very parallel. # License - [CC0 1.0](https://creativecommons.org/publicdomain/zero/1.0/) - Note : All structured data in Wikidata is also licensed under CC0. - https://www.wikidata.org/wiki/Wikidata:Licensing
提供机构:
Mitsua
原始信息汇总

Wikidata parallel descriptions en-ja

  • 机器翻译的平行语料库,源自wikidata dump(2024-05-06)。
  • 目前仅处理了英语/日语对。
  • jsonl文件可直接用于Hugging Face transformers训练器进行翻译任务。

数据集详情

  • 数据集创建过程中,由于Wikidata描述字段并不代表精确的直接翻译,因此需要进行过滤。
  • 使用了基于词频的过滤方法,结合了日语分词器MeCab,并进行了一些基于词的过滤,如ウィキメディア
  • 还进行了去重处理。

偏差、风险和限制

  • 数据仍存在噪音,可能不够平行。

许可证

  • CC0 1.0
  • 注意:Wikidata中的所有结构化数据也采用CC0许可证。
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作