lorashen/cross_lingual_transfer_dialog_generation
收藏Hugging Face2024-07-19 更新2024-07-22 收录
下载链接:
https://hf-mirror.com/datasets/lorashen/cross_lingual_transfer_dialog_generation
下载链接
链接失效反馈官方服务:
资源简介:
该数据集用于跨语言对话生成任务,包含中文和英文的电影领域对话数据,以及中文的音乐、书籍和技术领域的测试数据。具体包括:中文电影领域的训练、开发和测试集,大小分别为500、50和500条;英文电影领域的训练和开发集,大小分别为400k和20k条;中文音乐、书籍和技术领域的测试集,大小均为500条。
The dataset contains Chinese and English dialog data, primarily for dialog generation tasks in the movie domain. The Chinese part includes training, validation, and test sets in the movie domain, as well as test sets in other domains. The English part mainly contains training and validation sets in the movie domain. The dataset size ranges from 10K to 100K, suitable for research on cross-lingual dialog generation.
提供机构:
lorashen
原始信息汇总
数据集概述
基本信息
- 许可证: Apache 2.0
- 任务类别:
- 文本到文本生成
- 文本生成
- 语言:
- 中文
- 英文
- 数据集大小: 10K < n < 100K
数据集内容
- 电影领域对话:
- 中文对话:
- 训练集:
Chinese_corpus/train.jsonl(500条) - 验证集:
Chinese_corpus/dev.jsonl(50条) - 测试集:
Chinese_corpus/test.jsonl(500条)
- 训练集:
- 英文对话:
- 训练集:
English_corpus/train.jsonl(400,000条) - 验证集:
English_corpus/dev.jsonl(20,000条)
- 训练集:
- 中文对话:
- 其他领域测试对话:
- 音乐领域:
other_domains/music.test.jsonl(500条) - 书籍领域:
other_domains/book.test.jsonl(500条) - 科技领域:
other_domains/tech.test.jsonl(500条)
- 音乐领域:
引用
@article{Shen2023IsTH, title={Is Translation Helpful? An Empirical Analysis of Cross-Lingual Transfer in Low-Resource Dialog Generation}, author={Lei Shen and Shuai Yu and Xiaoyu Shen}, journal={arXiv preprint arXiv:2305.12480}, year={2023} }



