Short-Answer-Feedback/saf_micro_job_german
收藏Hugging Face2023-03-31 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/Short-Answer-Feedback/saf_micro_job_german
下载链接
链接失效反馈官方服务:
资源简介:
SAF - Micro Job - German 是一个德语短答案反馈数据集,旨在解决缺乏内容反馈数据集的问题。该数据集包含8个用于微工作培训的德语问题,涵盖了问题、参考答案、提供的答案、答案反馈、验证反馈和评分等字段。数据集分为训练集、验证集和两个测试集(未见过的答案和未见过的问题),可用于训练文本生成模型以生成自动短答案反馈。数据集的创建过程包括由两名经验丰富的员工进行注释,并通过讨论解决分歧以形成最终标准。
提供机构:
Short-Answer-Feedback
原始信息汇总
数据集概述
数据集名称
- pretty_name: SAF - Micro Job - German
语言
- language: de (德语)
数据集大小
- size_categories: 1K<n<10K
数据集特征
- features:
- id: 数据类型为
string - question: 数据类型为
string - reference_answer: 数据类型为
string - provided_answer: 数据类型为
string - answer_feedback: 数据类型为
string - verification_feedback: 数据类型为
string - score: 数据类型为
float64
- id: 数据类型为
数据集分割
- splits:
- train: 包含1226个实例,数据大小为885526字节
- validation: 包含308个实例,数据大小为217946字节
- test_unseen_answers: 包含271个实例,数据大小为198832字节
- test_unseen_questions: 包含602个实例,数据大小为545524字节
许可证
- license: cc-by-4.0
数据集描述
- Dataset Summary: 该数据集是Short Answer Feedback (SAF)的一部分,专注于德语短答案反馈,用于微工作培训。数据集包含的问题、参考答案、提供的答案及答案反馈均为德语。
- Supported Tasks: 数据集可用于训练Text2Text Generation模型,以生成自动短答案反馈。
- Languages: 数据集中的所有文本均为德语。
数据集结构
- Data Instances: 每个实例包含id、question、reference_answer、provided_answer、answer_feedback、verification_feedback和score。
- Data Fields: 所有分割共享相同的数据字段,包括id、question、reference_answer、provided_answer、answer_feedback、verification_feedback和score。
- Data Splits: 数据集分为训练集、验证集、测试集(包含未见过的答案)和测试集(包含未见过的问題)。
数据集创建
- Annotation Process: 数据集的注释由两名经验丰富的appJobber员工完成,他们接受了注释指南的培训,并根据商定的评分标准和注释指南提供反馈。



