community-datasets/dyk
收藏Hugging Face2024-06-24 更新2024-06-15 收录
下载链接:
https://hf-mirror.com/datasets/community-datasets/dyk
下载链接
链接失效反馈官方服务:
资源简介:
Did You Know(波兰语:Czy wiesz?)数据集由人工标注的问答对组成,任务是预测答案是否正确。我们选择了与问题具有最大词重叠的负样本。数据集包含波兰语的问答对,分为训练集和测试集,训练集包含4154个样本,测试集包含1029个样本。数据集的字段包括问题ID、问题句子、答案句子和目标值(1表示答案正确,0表示错误,测试集中目标值为-1)。
The Did You Know (pol. Czy wiesz?) dataset consists of human-annotated question-answer pairs. The task is to predict if the answer is correct. We chose the negatives which have the largest token overlap with a question. The dataset contains question-answer pairs in Polish, divided into a training set with 4154 examples and a test set with 1029 examples. The dataset fields include question ID, question sentence, answer sentence, and target value (1 if the answer is correct, 0 otherwise, with -1 used in the test set).
提供机构:
community-datasets
原始信息汇总
数据集概述
数据集描述
- 数据集名称: dyk
- 数据集摘要: 该数据集包含人工标注的问答对,任务是预测答案是否正确。我们选择了与问题具有最大token重叠的负例。
- 支持的任务和排行榜:
- 任务类别: 问答
- 任务ID: 开放领域问答
- 语言: 波兰语
数据集结构
数据字段
- q_id: 问题ID,数据类型为字符串
- question: 问题句子,数据类型为字符串
- answer: 答案句子,数据类型为字符串
- target: 如果答案正确则为1,否则为0。注意测试集没有目标值,因此使用-1代替
数据分割
- 训练集:
- 字节数: 1388678
- 样本数: 4154
- 测试集:
- 字节数: 353631
- 样本数: 1029
数据集大小
- 下载大小: 1125972字节
- 数据集大小: 1742309字节
数据集创建
数据来源
- 标注创建者: 专家生成
- 语言创建者: 其他
- 多语言性: 单语
- 源数据集: 原始数据
配置
- 配置名称: default
- 数据文件:
- 训练集: data/train-*
- 测试集: data/test-*
- 数据文件:
许可信息
- 许可证: BSD-3-Clause



