five

festvox/cmu_hinglish_dog

收藏
Hugging Face2024-01-18 更新2024-06-15 收录
下载链接:
https://hf-mirror.com/datasets/festvox/cmu_hinglish_dog
下载链接
链接失效反馈
官方服务:
资源简介:
这是一个包含Hinglish(印地语-英语混合)和英语版本文本对话的数据集,可用于两种语言之间的翻译。数据集由CMU的Alan Black教授团队提供。数据集的结构包括多个字段,如日期、文档索引、翻译文本、用户ID、时间戳、评分、状态等。数据集分为训练集、验证集和测试集,分别包含8060、942和960个样本。数据集的创建和注释过程未详细说明,但提到了其源自CMU DoG数据集。
提供机构:
festvox
原始信息汇总

数据集卡片 for CMU Document Grounded Conversations

数据集描述

数据集摘要

这是一个包含Hinglish(印地语-英语混合)和对应英语版本的文本对话集合。可用于两种语言之间的翻译。该数据集由CMU的Prof. Alan Black团队提供。

支持的任务和排行榜

  • abstractive-mt

语言

  • 英语 (en)
  • Hinglish (hi_en)

数据集结构

数据实例

一个典型的数据点包含Hinglish文本(键为hi_en)及其英语版本(键为en)。docIdx包含说话时维基文档的当前部分索引,每个文档共有4个部分。uid包含此话语的用户ID。

示例来自CMU_Hinglish_DoG训练集: json { "rating": 2, "wikiDocumentIdx": 13, "utcTimestamp": "2018-03-16T17:48:22.037Z", "uid": "user2", "date": "2018-03-16T17:47:21.964Z", "uid2response": {"response": [1, 2, 3, 5], "type": "finish"}, "uid1LogInTime": "2018-03-16T17:47:21.964Z", "user2_id": "USR664", "uid1LogOutTime": "2018-03-16T18:02:29.072Z", "whoSawDoc": ["user1", "user2"], "status": 1, "docIdx": 0, "uid1response": {"response": [1, 2, 3, 4], "type": "finish"}, "translation": {"en": "The director is Zack Snyder, 27% Rotten Tomatoes, 4.9/10.", "hi_en": "Zack Snyder director hai, 27% Rotten Tomatoes, 4.9/10."} }

数据字段

  • date: 文件创建时间,字符串类型
  • docIdx: 说话时维基文档的当前部分索引,每个文档共有4个部分
  • translation:
    • hi_en: Hinglish文本
    • en: 英语文本
  • uid: 此话语的用户ID
  • utcTimestamp: 此话语的服务器UTC时间戳,字符串类型
  • rating: 1到3之间的数字,数字越大表示对话质量越好
  • status: 状态,整数类型
  • uid1LogInTime: 用户1的可选登录时间,字符串类型
  • uid1LogOutTime: 用户1的可选登出时间,字符串类型
  • uid1response: 包含用户完成对话后的状态和响应的JSON对象,字段包括:
    • type: 应为[finish, abandon, abandonWithouAnsweringFeedbackQuestion]之一。finish表示用户成功完成对话,abandon表示用户中途放弃对话但进入反馈页面,abandonWithouAnsweringFeedbackQuestion表示用户直接断开连接或关闭网页而未提供反馈。
    • response: 对对话后问题的回答,用户可以选择多个选项。
  • uid2response: 与uid1response相同
  • user2_id: 用户2的生成用户ID
  • whoSawDoc: 应为[user1]、[user2]或[user1, user2]之一,指示哪些用户阅读了文档
  • wikiDocumentId: 维基文档的索引

数据分割

名称 训练集 验证集 测试集
CMU DOG 8060 942 960

数据集创建

数据集来源

Hinglish数据集源自原始的CMU DoG(Document Grounded Conversations Dataset)。更多信息可以在repo中找到。

使用数据的注意事项

数据集的社会影响

该数据集旨在帮助开发更好的问答系统。

附加信息

数据集策展人

该数据集最初由CMU的Prof Alan W Black团队创建。

许可信息

  • cc-by-sa-3.0
  • gfdl

引用信息

bibtex @inproceedings{ cmu_dog_emnlp18, title={A Dataset for Document Grounded Conversations}, author={Zhou, Kangyan and Prabhumoye, Shrimai and Black, Alan W}, year={2018}, booktitle={Proceedings of the 2018 Conference on Empirical Methods in Natural Language Processing} }

贡献

感谢@Ishan-Kumar2添加此数据集。

5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作