five

lorashen/cross_lingual_transfer_dialog_generation

收藏
Hugging Face2024-07-19 更新2024-07-22 收录
下载链接:
https://hf-mirror.com/datasets/lorashen/cross_lingual_transfer_dialog_generation
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集用于跨语言对话生成任务,包含中文和英文的电影领域对话数据,以及中文的音乐、书籍和技术领域的测试数据。具体包括:中文电影领域的训练、开发和测试集,大小分别为500、50和500条;英文电影领域的训练和开发集,大小分别为400k和20k条;中文音乐、书籍和技术领域的测试集,大小均为500条。

The dataset contains Chinese and English dialog data, primarily for dialog generation tasks in the movie domain. The Chinese part includes training, validation, and test sets in the movie domain, as well as test sets in other domains. The English part mainly contains training and validation sets in the movie domain. The dataset size ranges from 10K to 100K, suitable for research on cross-lingual dialog generation.
提供机构:
lorashen
原始信息汇总

数据集概述

基本信息

  • 许可证: Apache 2.0
  • 任务类别:
    • 文本到文本生成
    • 文本生成
  • 语言:
    • 中文
    • 英文
  • 数据集大小: 10K < n < 100K

数据集内容

  • 电影领域对话:
    • 中文对话:
      • 训练集: Chinese_corpus/train.jsonl (500条)
      • 验证集: Chinese_corpus/dev.jsonl (50条)
      • 测试集: Chinese_corpus/test.jsonl (500条)
    • 英文对话:
      • 训练集: English_corpus/train.jsonl (400,000条)
      • 验证集: English_corpus/dev.jsonl (20,000条)
  • 其他领域测试对话:
    • 音乐领域: other_domains/music.test.jsonl (500条)
    • 书籍领域: other_domains/book.test.jsonl (500条)
    • 科技领域: other_domains/tech.test.jsonl (500条)

引用

@article{Shen2023IsTH, title={Is Translation Helpful? An Empirical Analysis of Cross-Lingual Transfer in Low-Resource Dialog Generation}, author={Lei Shen and Shuai Yu and Xiaoyu Shen}, journal={arXiv preprint arXiv:2305.12480}, year={2023} }

5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作