airesearch/generated_reviews_enth
收藏Hugging Face2024-01-18 更新2024-05-25 收录
下载链接:
https://hf-mirror.com/datasets/airesearch/generated_reviews_enth
下载链接
链接失效反馈官方服务:
资源简介:
`generated_reviews_enth`数据集是为机器翻译任务创建的,主要用于英语到泰语的翻译质量评估、机器翻译和情感分析。数据集包含由CTRL生成的英语产品评论,通过Google Translate API翻译成泰语,并由人类注释者根据翻译的流畅性和充分性进行标注。数据集的结构包括翻译、评论星级和翻译是否正确等字段。数据集的创建过程、注释过程、数据字段和分割情况也在README中详细描述。
`generated_reviews_enth`数据集是为机器翻译任务创建的,主要用于英语到泰语的翻译质量评估、机器翻译和情感分析。数据集包含由CTRL生成的英语产品评论,通过Google Translate API翻译成泰语,并由人类注释者根据翻译的流畅性和充分性进行标注。数据集的结构包括翻译、评论星级和翻译是否正确等字段。数据集的创建过程、注释过程、数据字段和分割情况也在README中详细描述。
提供机构:
airesearch
原始信息汇总
数据集概述
名称: generated_reviews_enth
目的: 用于机器翻译任务,特别是英语到泰语的翻译质量估计、机器翻译和情感分析。
语言: 英语(en)、泰语(th)
许可证: CC BY-SA 4.0
数据来源:
- 英语产品评论由CTRL生成。
- 泰语评论通过Google Translate API从英语翻译而来。
数据集大小:
- 训练集: 141,369样本
- 验证集: 15,708样本
- 测试集: 17,453样本
数据集结构
数据字段:
- translation: 包含英语和泰语的产品评论。
en: 英语评论,由CTRL生成。th: 泰语评论,由Google Translate API翻译。
- review_star: 评论的星级,用于CTRL生成评论的条件。
- correct: 翻译的接受与否,1表示接受,0表示拒绝,由人工标注者根据翻译的流畅性和充分性标注。
数据分割:
- 训练集、验证集和测试集分别包含不同数量的样本,具体分布如下:
分割 样本数 训练 141,369 验证 15,708 测试 17,453
数据集创建
数据生成过程:
- 英语评论由CTRL生成,指定星级作为生成条件。
- 泰语评论通过Google Translate API从英语翻译。
correct字段由人工标注者根据翻译的质量(流畅性和充分性)标注。
标注过程:
- 人工标注者对英语和泰语评论对进行评估,根据翻译的流畅性和充分性标注是否接受。
标注者:
- 由Hope Data Annotations的人工标注者进行标注。
使用数据集的考虑
社会影响:
- 提高英语到泰语的翻译质量。
- 支持泰语产品评论的情感分析。
已知限制:
- 由于标注过程的限制,一星级评论的数量显著高于其他星级评论,导致数据集轻微不平衡。



