eduagarcia/MilkQA

Name: eduagarcia/MilkQA
Creator: eduagarcia
Published: 2024-04-23 09:24:44
License: 暂无描述

Hugging Face2024-04-23 更新2024-06-12 收录

下载链接：

https://hf-mirror.com/datasets/eduagarcia/MilkQA

下载链接

链接失效反馈

官方服务：

资源简介：

MilkQA数据集是一个用于答案选择任务的密集问题数据集，包含来自乳牛养殖领域的问题和答案。这些问题和答案由Embrapa Dairy Cattle的客户服务部门在2003年至2012年间收集。数据集包含2,657对匿名的问题和答案，分为训练集、开发集和测试集，分别包含2,307、50和300个问题。每个问题都与50个候选答案相关联，其中只有一个正确答案。数据集的特点是其问题通常较大且缺乏客观性，这些问题被称为消费者问题。

提供机构：

eduagarcia

原始信息汇总

MilkQA 数据集概述

数据集信息

配置名称：corpus

特征：
- id：字符串类型
- file：字符串类型
- text：字符串类型
分割：
- corpus：
  - 字节数：3972037
  - 样本数：2657
下载大小：1900813 字节
数据集大小：3972037 字节

配置名称：default

特征：
- query-id：字符串类型
- positive-doc-id：字符串类型
- candidates-ids：字符串序列
分割：
- train：
  - 字节数：1047552
  - 样本数：2307
- dev：
  - 字节数：22687
  - 样本数：50
- test：
  - 字节数：136328
  - 样本数：300
下载大小：259566 字节
数据集大小：1206567 字节

配置名称：queries

特征：
- id：字符串类型
- file：字符串类型
- subject：字符串类型
- text：字符串类型
分割：
- queries：
  - 字节数：1023324
  - 样本数：2657
下载大小：629883 字节
数据集大小：1023324 字节

数据文件配置

配置名称：corpus

数据文件：
- corpus：
  - 路径：corpus/corpus-*

配置名称：default

数据文件：
- train：
  - 路径：data/train-*
- dev：
  - 路径：data/dev-*
- test：
  - 路径：data/test-*

配置名称：queries

数据文件：
- queries：
  - 路径：queries/queries-*

许可证

许可证：CC BY-NC-ND 4.0

搜集汇总

数据集介绍

构建方式

在畜牧业信息化进程中，MilkQA数据集的构建体现了对专业领域知识的结构化整合。该数据集源自巴西Embrapa奶牛养殖中心在2003年至2012年间积累的客户服务记录，通过系统化采集与匿名化处理，形成了涵盖2657组问答对的语料库。构建过程严格遵循学术规范，将原始对话文本转化为标准化的查询-答案对，并依据时间跨度和问题类型划分为训练集、开发集与测试集，其中每个问题均配置包含唯一正确答案的50个候选答案池，为答案选择任务提供了层次分明的评估框架。

使用方法

针对答案选择任务的研究需求，MilkQA数据集提供了清晰的使用路径。研究者可通过加载corpus配置获取完整的文档语料，利用queries配置获得结构化问题集合，并通过default配置中的训练、开发、测试划分进行模型训练与评估。典型使用流程包括：基于query-id与positive-doc-id的匹配关系构建监督信号，在candidates-ids构成的答案池中执行检索排序任务，并可通过交叉验证方式在开发集上优化超参数。数据集采用CC BY-NC-ND 4.0许可协议，使用时需遵循非商业性用途规范并引用原始论文。

背景与挑战

背景概述

在自然语言处理领域，问答系统研究长期聚焦于事实型查询，而面向消费者实际需求的复杂问题解答则相对匮乏。MilkQA数据集由圣保罗大学计算语言学跨机构中心（NILC）的研究团队于2017年创建，旨在填补这一空白。该数据集源自巴西Embrapa奶牛养殖中心2003年至2012年的客户服务记录，收录了2657组经过匿名处理的问答对，专门针对畜牧业领域的消费者咨询问题。其核心研究在于推动面向实际应用场景的答案选择任务，特别是处理非结构化、描述性强的用户提问，为领域特异性问答系统的开发提供了珍贵资源。

当前挑战

MilkQA数据集所应对的领域挑战，在于解决消费者提问的答案选择难题。这类问题通常篇幅较长、缺乏明确焦点，且涉及具体情境描述，与传统的事实型问答截然不同，对模型的语义理解和上下文推理能力提出了更高要求。在构建过程中，研究团队面临的主要挑战包括：如何从海量客户服务记录中筛选并匿名化有效问答对，同时保持语言的原始性和实用性；以及如何设计包含50个候选答案的评估框架，确保正例答案的准确标注与负例答案的多样性，以模拟真实场景中的信息检索难度。

常用场景

经典使用场景

在农业信息检索与问答系统领域，MilkQA数据集以其聚焦于乳制品养殖的消费者问题而著称。该数据集通过提供大量匿名化的问答对，为研究者构建封闭域问答模型提供了关键资源。其经典使用场景在于训练和评估答案选择模型，模型需要从候选答案池中精准识别出与消费者复杂、非结构化问题相匹配的正确解答，这尤其考验系统对长文本和隐含意图的理解能力。

解决学术问题

MilkQA数据集有效应对了传统问答研究中常被忽视的消费者问题挑战。这类问题通常篇幅较长、缺乏明确焦点，与事实型问答存在显著差异。该数据集的出现，促使学术界深入探索如何理解非结构化、描述性的用户查询，并从中提取有效信息。它推动了答案选择、文档检索及解释生成等子任务的发展，为处理真实世界复杂交互的问答系统奠定了理论基础。

实际应用

在实际应用层面，MilkQA数据集能够直接服务于农业技术推广和客户支持系统。基于该数据集训练的模型，可被部署于农业企业或研究机构的智能客服平台，自动解答养殖户在生产实践中遇到的各类技术与管理问题。这不仅能提升信息服务的效率与可及性，降低专家咨询成本，也为在葡萄牙语等特定语言环境下构建专业领域知识库与辅助决策工具提供了可行路径。

数据集最近研究