festvox/cmu_hinglish_dog
收藏数据集卡片 for CMU Document Grounded Conversations
数据集描述
数据集摘要
这是一个包含Hinglish(印地语-英语混合)和对应英语版本的文本对话集合。可用于两种语言之间的翻译。该数据集由CMU的Prof. Alan Black团队提供。
支持的任务和排行榜
abstractive-mt
语言
- 英语 (
en) - Hinglish (
hi_en)
数据集结构
数据实例
一个典型的数据点包含Hinglish文本(键为hi_en)及其英语版本(键为en)。docIdx包含说话时维基文档的当前部分索引,每个文档共有4个部分。uid包含此话语的用户ID。
示例来自CMU_Hinglish_DoG训练集: json { "rating": 2, "wikiDocumentIdx": 13, "utcTimestamp": "2018-03-16T17:48:22.037Z", "uid": "user2", "date": "2018-03-16T17:47:21.964Z", "uid2response": {"response": [1, 2, 3, 5], "type": "finish"}, "uid1LogInTime": "2018-03-16T17:47:21.964Z", "user2_id": "USR664", "uid1LogOutTime": "2018-03-16T18:02:29.072Z", "whoSawDoc": ["user1", "user2"], "status": 1, "docIdx": 0, "uid1response": {"response": [1, 2, 3, 4], "type": "finish"}, "translation": {"en": "The director is Zack Snyder, 27% Rotten Tomatoes, 4.9/10.", "hi_en": "Zack Snyder director hai, 27% Rotten Tomatoes, 4.9/10."} }
数据字段
date: 文件创建时间,字符串类型docIdx: 说话时维基文档的当前部分索引,每个文档共有4个部分translation:hi_en: Hinglish文本en: 英语文本
uid: 此话语的用户IDutcTimestamp: 此话语的服务器UTC时间戳,字符串类型rating: 1到3之间的数字,数字越大表示对话质量越好status: 状态,整数类型uid1LogInTime: 用户1的可选登录时间,字符串类型uid1LogOutTime: 用户1的可选登出时间,字符串类型uid1response: 包含用户完成对话后的状态和响应的JSON对象,字段包括:type: 应为[finish, abandon, abandonWithouAnsweringFeedbackQuestion]之一。finish表示用户成功完成对话,abandon表示用户中途放弃对话但进入反馈页面,abandonWithouAnsweringFeedbackQuestion表示用户直接断开连接或关闭网页而未提供反馈。response: 对对话后问题的回答,用户可以选择多个选项。
uid2response: 与uid1response相同user2_id: 用户2的生成用户IDwhoSawDoc: 应为[user1]、[user2]或[user1, user2]之一,指示哪些用户阅读了文档wikiDocumentId: 维基文档的索引
数据分割
| 名称 | 训练集 | 验证集 | 测试集 |
|---|---|---|---|
| CMU DOG | 8060 | 942 | 960 |
数据集创建
数据集来源
Hinglish数据集源自原始的CMU DoG(Document Grounded Conversations Dataset)。更多信息可以在repo中找到。
使用数据的注意事项
数据集的社会影响
该数据集旨在帮助开发更好的问答系统。
附加信息
数据集策展人
该数据集最初由CMU的Prof Alan W Black团队创建。
许可信息
cc-by-sa-3.0gfdl
引用信息
bibtex @inproceedings{ cmu_dog_emnlp18, title={A Dataset for Document Grounded Conversations}, author={Zhou, Kangyan and Prabhumoye, Shrimai and Black, Alan W}, year={2018}, booktitle={Proceedings of the 2018 Conference on Empirical Methods in Natural Language Processing} }
贡献
感谢@Ishan-Kumar2添加此数据集。



