five

SNOW-NLP/snow_simplified_japanese_corpus

收藏
Hugging Face2024-01-18 更新2024-06-15 收录
下载链接:
https://hf-mirror.com/datasets/SNOW-NLP/snow_simplified_japanese_corpus
下载链接
链接失效反馈
官方服务:
资源简介:
SNOW T15和T23是用于日语自动文本简化以及简单日语与英语之间翻译的数据集。SNOW T15包含50,000条手动简化的句子,每条句子包括原文日语、简化日语和原文英语。SNOW T23是SNOW T15的扩展,包含35,000条句子,并增加了固有名词语段。数据集的创建涉及手动重写句子,并限制核心词汇量为2,000个单词。数据集的结构包括ID、原文日语、简化日语、原文英语等字段。
提供机构:
SNOW-NLP
原始信息汇总

数据集概述

数据集描述

数据集摘要

  • SNOW T15:
    这是一个简化的日语语料库,包含50,000条手动简化和对齐的句子。该语料库包含原始句子、简化句子和原始句子的英文翻译。可用于自动文本简化以及将简单日语翻译成英语和反之。核心词汇限制在2,000个单词,这些单词是根据意义保留、变化、简单性和UniDic分词标准等因素选择的。

  • SNOW T23:
    这是基于SNOW T15的扩展语料库,包含35,000条句子,使用简单的日语词汇重写。原始文本来自“Tanaka Corpus”。

支持的任务和排行榜

该数据集可用于日语的自动文本简化和将简单日语翻译成英语及反之。

语言

日语、简化日语和英语。

数据集结构

数据实例

  • SNOW T15:
    包含ID、原始日语、简化日语和原始英语。

  • SNOW T23:
    包含ID、原始日语、简化日语、原始英语和专有名词。

数据字段

  • ID: 句子ID。
  • original_ja: 原始日语句子。
  • simplified_ja: 简化日语句子。
  • original_en: 原始英语句子。
  • proper_noun: (仅在SNOW T23中包含) 工人提取的专有名词。

数据分割

数据未分割。

数据集创建

策划理由

该数据集用于研究自动转换为简化日语(日语简化)。

源数据

  • SNOW T15:
    原始文本来自“small_parallel_enja: 50k En/Ja Parallel Corpus for Testing SMT Methods”,这是一个用于机器翻译的双语语料库。

  • SNOW T23:
    原始文本来自“Tanaka Corpus”。

标注

标注过程

  • SNOW T15:
    实验室的五名学生手动将原始日语句子重写为简化日语。核心词汇限制在2,000个单词,这些单词是根据意义保留、变化、简单性和UniDic分词标准等因素选择的。

  • SNOW T23:
    通过众包收集的七个人手动重写了所有句子。每个工人重写了5,000个句子,其中100个句子被重写为工人之间的共同句子。句子的平均长度保持尽可能相同,以使工人的工作量不发生变化。

标注者

SNOW T15由五名学生标注,SNOW T23由七名众包工人标注。

额外信息

数据集许可

CC BY 4.0

引用信息

@inproceedings{maruyama-yamamoto-2018-simplified, title = "Simplified Corpus with Core Vocabulary", author = "Maruyama, Takumi and Yamamoto, Kazuhide", booktitle = "Proceedings of the Eleventh International Conference on Language Resources and Evaluation ({LREC} 2018)", month = may, year = "2018", address = "Miyazaki, Japan", publisher = "European Language Resources Association (ELRA)", url = "https://www.aclweb.org/anthology/L18-1185", }

@inproceedings{yamamoto-2017-simplified-japanese, title = "やさしい⽇本語対訳コーパスの構築", author = "⼭本 和英 and 丸⼭ 拓海 and ⾓張 ⻑晴 and 稲岡 夢⼈ and ⼩川 耀⼀朗 and 勝⽥ 哲弘 and 髙橋 寛治", booktitle = "言語処理学会第23回年次大会", month = 3月, year = "2017", address = "茨城, 日本", publisher = "言語処理学会", url = "https://www.anlp.jp/proceedings/annual_meeting/2017/pdf_dir/B5-1.pdf", }

@inproceedings{katsuta-yamamoto-2018-crowdsourced, title = "Crowdsourced Corpus of Sentence Simplification with Core Vocabulary", author = "Katsuta, Akihiro and Yamamoto, Kazuhide", booktitle = "Proceedings of the Eleventh International Conference on Language Resources and Evaluation ({LREC} 2018)", month = may, year = "2018", address = "Miyazaki, Japan", publisher = "European Language Resources Association (ELRA)", url = "https://www.aclweb.org/anthology/L18-1072", }

5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作