five

airesearch/generated_reviews_enth

收藏
Hugging Face2024-01-18 更新2024-05-25 收录
下载链接:
https://hf-mirror.com/datasets/airesearch/generated_reviews_enth
下载链接
链接失效反馈
官方服务:
资源简介:
`generated_reviews_enth`数据集是为机器翻译任务创建的,主要用于英语到泰语的翻译质量评估、机器翻译和情感分析。数据集包含由CTRL生成的英语产品评论,通过Google Translate API翻译成泰语,并由人类注释者根据翻译的流畅性和充分性进行标注。数据集的结构包括翻译、评论星级和翻译是否正确等字段。数据集的创建过程、注释过程、数据字段和分割情况也在README中详细描述。

`generated_reviews_enth`数据集是为机器翻译任务创建的,主要用于英语到泰语的翻译质量评估、机器翻译和情感分析。数据集包含由CTRL生成的英语产品评论,通过Google Translate API翻译成泰语,并由人类注释者根据翻译的流畅性和充分性进行标注。数据集的结构包括翻译、评论星级和翻译是否正确等字段。数据集的创建过程、注释过程、数据字段和分割情况也在README中详细描述。
提供机构:
airesearch
原始信息汇总

数据集概述

名称: generated_reviews_enth

目的: 用于机器翻译任务,特别是英语到泰语的翻译质量估计、机器翻译和情感分析。

语言: 英语(en)、泰语(th)

许可证: CC BY-SA 4.0

数据来源:

  • 英语产品评论由CTRL生成。
  • 泰语评论通过Google Translate API从英语翻译而来。

数据集大小:

  • 训练集: 141,369样本
  • 验证集: 15,708样本
  • 测试集: 17,453样本

数据集结构

数据字段:

  1. translation: 包含英语和泰语的产品评论。
    • en: 英语评论,由CTRL生成。
    • th: 泰语评论,由Google Translate API翻译。
  2. review_star: 评论的星级,用于CTRL生成评论的条件。
  3. correct: 翻译的接受与否,1表示接受,0表示拒绝,由人工标注者根据翻译的流畅性和充分性标注。

数据分割:

  • 训练集、验证集和测试集分别包含不同数量的样本,具体分布如下:
    分割 样本数
    训练 141,369
    验证 15,708
    测试 17,453

数据集创建

数据生成过程:

  • 英语评论由CTRL生成,指定星级作为生成条件。
  • 泰语评论通过Google Translate API从英语翻译。
  • correct字段由人工标注者根据翻译的质量(流畅性和充分性)标注。

标注过程:

  • 人工标注者对英语和泰语评论对进行评估,根据翻译的流畅性和充分性标注是否接受。

标注者:

使用数据集的考虑

社会影响:

  • 提高英语到泰语的翻译质量。
  • 支持泰语产品评论的情感分析。

已知限制:

  • 由于标注过程的限制,一星级评论的数量显著高于其他星级评论,导致数据集轻微不平衡。
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作