SNOW-NLP/snow_simplified_japanese_corpus
收藏数据集概述
数据集描述
数据集摘要
-
SNOW T15:
这是一个简化的日语语料库,包含50,000条手动简化和对齐的句子。该语料库包含原始句子、简化句子和原始句子的英文翻译。可用于自动文本简化以及将简单日语翻译成英语和反之。核心词汇限制在2,000个单词,这些单词是根据意义保留、变化、简单性和UniDic分词标准等因素选择的。 -
SNOW T23:
这是基于SNOW T15的扩展语料库,包含35,000条句子,使用简单的日语词汇重写。原始文本来自“Tanaka Corpus”。
支持的任务和排行榜
该数据集可用于日语的自动文本简化和将简单日语翻译成英语及反之。
语言
日语、简化日语和英语。
数据集结构
数据实例
-
SNOW T15:
包含ID、原始日语、简化日语和原始英语。 -
SNOW T23:
包含ID、原始日语、简化日语、原始英语和专有名词。
数据字段
ID: 句子ID。original_ja: 原始日语句子。simplified_ja: 简化日语句子。original_en: 原始英语句子。proper_noun: (仅在SNOW T23中包含) 工人提取的专有名词。
数据分割
数据未分割。
数据集创建
策划理由
该数据集用于研究自动转换为简化日语(日语简化)。
源数据
-
SNOW T15:
原始文本来自“small_parallel_enja: 50k En/Ja Parallel Corpus for Testing SMT Methods”,这是一个用于机器翻译的双语语料库。 -
SNOW T23:
原始文本来自“Tanaka Corpus”。
标注
标注过程
-
SNOW T15:
实验室的五名学生手动将原始日语句子重写为简化日语。核心词汇限制在2,000个单词,这些单词是根据意义保留、变化、简单性和UniDic分词标准等因素选择的。 -
SNOW T23:
通过众包收集的七个人手动重写了所有句子。每个工人重写了5,000个句子,其中100个句子被重写为工人之间的共同句子。句子的平均长度保持尽可能相同,以使工人的工作量不发生变化。
标注者
SNOW T15由五名学生标注,SNOW T23由七名众包工人标注。
额外信息
数据集许可
CC BY 4.0
引用信息
@inproceedings{maruyama-yamamoto-2018-simplified, title = "Simplified Corpus with Core Vocabulary", author = "Maruyama, Takumi and Yamamoto, Kazuhide", booktitle = "Proceedings of the Eleventh International Conference on Language Resources and Evaluation ({LREC} 2018)", month = may, year = "2018", address = "Miyazaki, Japan", publisher = "European Language Resources Association (ELRA)", url = "https://www.aclweb.org/anthology/L18-1185", }
@inproceedings{yamamoto-2017-simplified-japanese, title = "やさしい⽇本語対訳コーパスの構築", author = "⼭本 和英 and 丸⼭ 拓海 and ⾓張 ⻑晴 and 稲岡 夢⼈ and ⼩川 耀⼀朗 and 勝⽥ 哲弘 and 髙橋 寛治", booktitle = "言語処理学会第23回年次大会", month = 3月, year = "2017", address = "茨城, 日本", publisher = "言語処理学会", url = "https://www.anlp.jp/proceedings/annual_meeting/2017/pdf_dir/B5-1.pdf", }
@inproceedings{katsuta-yamamoto-2018-crowdsourced, title = "Crowdsourced Corpus of Sentence Simplification with Core Vocabulary", author = "Katsuta, Akihiro and Yamamoto, Kazuhide", booktitle = "Proceedings of the Eleventh International Conference on Language Resources and Evaluation ({LREC} 2018)", month = may, year = "2018", address = "Miyazaki, Japan", publisher = "European Language Resources Association (ELRA)", url = "https://www.aclweb.org/anthology/L18-1072", }



