UCLNLP/sharc
收藏Hugging Face2024-02-09 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/UCLNLP/sharc
下载链接
链接失效反馈官方服务:
资源简介:
---
annotations_creators:
- crowdsourced
language_creators:
- crowdsourced
- expert-generated
language:
- en
license:
- cc-by-sa-3.0
multilinguality:
- monolingual
size_categories:
- 10K<n<100K
source_datasets:
- original
task_categories:
- question-answering
task_ids:
- extractive-qa
paperswithcode_id: sharc
pretty_name: Shaping Answers with Rules through Conversation
tags:
- conversational-qa
dataset_info:
features:
- name: id
dtype: string
- name: utterance_id
dtype: string
- name: source_url
dtype: string
- name: snippet
dtype: string
- name: question
dtype: string
- name: scenario
dtype: string
- name: history
list:
- name: follow_up_question
dtype: string
- name: follow_up_answer
dtype: string
- name: evidence
list:
- name: follow_up_question
dtype: string
- name: follow_up_answer
dtype: string
- name: answer
dtype: string
- name: negative_question
dtype: bool_
- name: negative_scenario
dtype: bool_
config_name: sharc
splits:
- name: train
num_bytes: 15088577
num_examples: 21890
- name: validation
num_bytes: 1469172
num_examples: 2270
download_size: 5230207
dataset_size: 16557749
---
# Dataset Card for Shaping Answers with Rules through Conversation
## Table of Contents
- [Dataset Description](#dataset-description)
- [Dataset Summary](#dataset-summary)
- [Supported Tasks and Leaderboards](#supported-tasks-and-leaderboards)
- [Languages](#languages)
- [Dataset Structure](#dataset-structure)
- [Data Instances](#data-instances)
- [Data Fields](#data-fields)
- [Data Splits](#data-splits)
- [Dataset Creation](#dataset-creation)
- [Curation Rationale](#curation-rationale)
- [Source Data](#source-data)
- [Annotations](#annotations)
- [Personal and Sensitive Information](#personal-and-sensitive-information)
- [Considerations for Using the Data](#considerations-for-using-the-data)
- [Social Impact of Dataset](#social-impact-of-dataset)
- [Discussion of Biases](#discussion-of-biases)
- [Other Known Limitations](#other-known-limitations)
- [Additional Information](#additional-information)
- [Dataset Curators](#dataset-curators)
- [Licensing Information](#licensing-information)
- [Citation Information](#citation-information)
- [Contributions](#contributions)
## Dataset Description
- **Homepage:** [ShARC](https://sharc-data.github.io/index.html)
- **Repository:** [If the dataset is hosted on github or has a github homepage, add URL here]()
- **Paper:** [Interpretation of Natural Language Rules in Conversational Machine Reading](https://arxiv.org/abs/1809.01494)
- **Leaderboard:** [leaderboard](https://sharc-data.github.io/leaderboard.html)
- **Point of Contact:** [Marzieh Saeidi](marzieh.saeidi@gmail.com), [Max Bartolo](maxbartolo@gmail.com), [Patrick Lewis](patrick.s.h.lewis@gmail.com), [Sebastian Riedel](s.riedel@cs.ucl.ac.uk)
### Dataset Summary
[More Information Needed]
### Supported Tasks and Leaderboards
[More Information Needed]
### Languages
[More Information Needed]
## Dataset Structure
### Data Instances
[More Information Needed]
### Data Fields
[More Information Needed]
### Data Splits
[More Information Needed]
## Dataset Creation
### Curation Rationale
[More Information Needed]
### Source Data
[More Information Needed]
#### Initial Data Collection and Normalization
[More Information Needed]
#### Who are the source language producers?
[More Information Needed]
### Annotations
[More Information Needed]
#### Annotation process
[More Information Needed]
#### Who are the annotators?
[More Information Needed]
### Personal and Sensitive Information
[More Information Needed]
## Considerations for Using the Data
### Social Impact of Dataset
[More Information Needed]
### Discussion of Biases
[More Information Needed]
### Other Known Limitations
[More Information Needed]
## Additional Information
### Dataset Curators
[More Information Needed]
### Licensing Information
[More Information Needed]
### Citation Information
[More Information Needed]
### Contributions
Thanks to [@patil-suraj](https://github.com/patil-suraj) for adding this dataset.
annotations_creators:
- 众包(crowdsourced)
language_creators:
- 众包(crowdsourced)
- 专家生成(expert-generated)
language:
- 英语(en)
license:
- 知识共享署名-相同方式共享3.0(CC BY-SA 3.0)
multilinguality:
- 单语(monolingual)
size_categories:
- 1万<n<10万样本
source_datasets:
- 原生数据集(original)
task_categories:
- 问答(question-answering)
task_ids:
- 抽取式问答(extractive-qa)
paperswithcode_id: PapersWithCode(paperswithcode)数据集ID: sharc
pretty_name: 基于会话的规则式答案塑造(Shaping Answers with Rules through Conversation)
tags:
- 对话式问答(conversational-qa)
dataset_info:
features:
- name: id
dtype: 字符串(string)
- name: utterance_id
dtype: 字符串(string)
- name: source_url
dtype: 字符串(string)
- name: snippet
dtype: 字符串(string)
- name: question
dtype: 字符串(string)
- name: scenario
dtype: 字符串(string)
- name: history
list:
- name: follow_up_question
dtype: 字符串(string)
- name: follow_up_answer
dtype: 字符串(string)
- name: evidence
list:
- name: follow_up_question
dtype: 字符串(string)
- name: follow_up_answer
dtype: 字符串(string)
- name: answer
dtype: 字符串(string)
- name: negative_question
dtype: 布尔型(bool_)
- name: negative_scenario
dtype: 布尔型(bool_)
config_name: sharc
splits:
- name: train
num_bytes: 15088577
num_examples: 21890
- name: validation
num_bytes: 1469172
num_examples: 2270
download_size: 5230207
dataset_size: 16557749
---
# 《基于会话的规则式答案塑造》数据集卡片
## 目录
- [数据集描述](#dataset-description)
- [数据集摘要](#dataset-summary)
- [支持任务与评测榜单](#supported-tasks-and-leaderboards)
- [语言](#languages)
- [数据集结构](#dataset-structure)
- [数据实例](#data-instances)
- [数据字段](#data-fields)
- [数据划分](#data-splits)
- [数据集构建](#dataset-creation)
- [数据集构建初衷](#curation-rationale)
- [源数据](#source-data)
- [数据注释](#annotations)
- [个人与敏感信息](#personal-and-sensitive-information)
- [数据集使用注意事项](#considerations-for-using-the-data)
- [数据集的社会影响](#social-impact-of-dataset)
- [偏差讨论](#discussion-of-biases)
- [其他已知局限](#other-known-limitations)
- [附加信息](#additional-information)
- [数据集维护者](#dataset-curators)
- [授权信息](#licensing-information)
- [引用信息](#citation-information)
- [贡献](#contributions)
## 数据集描述
- **主页:** [ShARC](https://sharc-data.github.io/index.html)
- **代码仓库:** [若数据集托管于GitHub或设有GitHub主页,请在此补充链接]()
- **论文:** [《会话式机器阅读中的自然语言规则解读》](https://arxiv.org/abs/1809.01494)
- **评测榜单:** [官方评测榜单](https://sharc-data.github.io/leaderboard.html)
- **联系方式:** [Marzieh Saeidi](marzieh.saeidi@gmail.com)、[Max Bartolo](maxbartolo@gmail.com)、[Patrick Lewis](patrick.s.h.lewis@gmail.com)、[Sebastian Riedel](s.riedel@cs.ucl.ac.uk)
### 数据集摘要
[需补充更多信息]
### 支持任务与评测榜单
[需补充更多信息]
### 语言
[需补充更多信息]
## 数据集结构
### 数据实例
[需补充更多信息]
### 数据字段
[需补充更多信息]
### 数据划分
[需补充更多信息]
## 数据集构建
### 数据集构建初衷
[需补充更多信息]
### 源数据
[需补充更多信息]
#### 初始数据收集与标准化
[需补充更多信息]
#### 源语言生成者是谁?
[需补充更多信息]
### 数据注释
[需补充更多信息]
#### 注释流程
[需补充更多信息]
#### 注释者是谁?
[需补充更多信息]
### 个人与敏感信息
[需补充更多信息]
## 数据集使用注意事项
### 数据集的社会影响
[需补充更多信息]
### 偏差讨论
[需补充更多信息]
### 其他已知局限
[需补充更多信息]
## 附加信息
### 数据集维护者
[需补充更多信息]
### 授权信息
[需补充更多信息]
### 引用信息
[需补充更多信息]
### 贡献
感谢 [@patil-suraj](https://github.com/patil-suraj) 为本数据集的收录提供支持。
提供机构:
UCLNLP
原始信息汇总
数据集概述
- 名称: Shaping Answers with Rules through Conversation
- 别名: ShARC
- 任务类别: 问答
- 任务ID: extractive-qa
- 语言: 英语
- 多语言性: 单语
- 许可: cc-by-sa-3.0
- 大小: 10K<n<100K
- 源数据: 原始
- 标签: 会话式问答
- 论文代码ID: sharc
- 美观名称: Shaping Answers with Rules through Conversation
数据集结构
-
特征:
- id: 字符串
- utterance_id: 字符串
- source_url: 字符串
- snippet: 字符串
- question: 字符串
- scenario: 字符串
- history: 列表
- follow_up_question: 字符串
- follow_up_answer: 字符串
- evidence: 列表
- follow_up_question: 字符串
- follow_up_answer: 字符串
- answer: 字符串
- negative_question: 布尔
- negative_scenario: 布尔
-
数据分割:
- 训练集: 21890个样本, 15088577字节
- 验证集: 2270个样本, 1469172字节
- 下载大小: 5230207字节
- 数据集大小: 16557749字节
数据集创建
- 语言创建者:
- 众包
- 专家生成
- 注释创建者: 众包
搜集汇总
数据集介绍

构建方式
在对话式机器阅读领域,ShARC数据集的构建体现了对复杂规则理解的深度探索。该数据集通过众包与专家生成相结合的方式,精心收集了涵盖金融、法律等专业场景的对话数据。构建过程中,研究人员设计了包含规则片段、用户问题及历史对话的丰富语境,并采用结构化标注流程,确保每个样本均包含明确的证据链与答案推导。数据来源于真实场景的规则文本,经过严格筛选与标准化处理,最终形成了规模适中、质量可靠的英文单语数据集,为模型理解嵌套规则与多轮推理提供了坚实基础。
特点
ShARC数据集的核心特点在于其深度融合了规则解释与对话交互的复杂性。数据集中的每个实例均围绕特定规则片段展开,通过多轮对话历史模拟真实用户的追问过程,并辅以结构化证据列表,清晰呈现答案的推导依据。值得注意的是,数据引入了否定性问题与否定性场景的标注,增强了模型对逻辑矛盾与例外情况的识别能力。这种设计不仅提升了任务的挑战性,也为评估模型在细粒度推理、语境依赖及规则泛化等方面的性能提供了多维度的衡量标准。
使用方法
针对ShARC数据集的应用,研究者可将其用于训练与评估对话式问答模型,特别是在规则理解与多步推理任务上。使用前需加载数据集的训练集与验证集,关注关键字段如规则片段、历史对话、证据列表及最终答案。模型需依据给定规则和对话历史,逐步解析用户意图,并从证据中提取或合成正确答案。实践中,可结合序列标注、阅读理解或生成式架构进行建模,同时利用数据中的否定标注优化模型的逻辑一致性检测能力,以推动机器在复杂规则交互场景中的实用化进展。
背景与挑战
背景概述
在自然语言处理领域,对话式机器阅读任务旨在使模型能够理解并应用文本规则进行多轮对话推理。UCLNLP/sharc数据集由伦敦大学学院自然语言处理研究团队于2018年创建,核心研究人员包括Marzieh Saeidi、Max Bartolo等。该数据集聚焦于解析对话中的自然语言规则,推动模型在复杂交互场景下的逻辑推理能力,对提升智能助手的决策支持功能具有显著影响力。
当前挑战
该数据集致力于解决对话式问答中规则解释与应用的挑战,要求模型在动态对话历史中准确提取并执行文本规则,这涉及对隐含逻辑和上下文依赖的深度理解。构建过程中,挑战主要源于众包标注的复杂性,包括确保标注者对模糊规则的一致性解读,以及平衡专家生成与大众标注的质量差异,这些因素共同影响了数据集的可靠性与泛化能力。
常用场景
经典使用场景
在对话式机器阅读理解领域,UCLNLP/sharc数据集为模型提供了模拟真实对话场景的复杂推理任务。该数据集通过包含规则性文本片段、用户提问及多轮对话历史,要求模型在理解自然语言规则的基础上,结合上下文信息生成准确答案。其经典使用场景聚焦于评估模型对隐含逻辑和条件约束的解析能力,尤其在需要依据规则进行逐步推理的对话环境中,为研究者提供了衡量模型交互式理解性能的基准平台。
解决学术问题
该数据集有效应对了传统机器阅读理解中规则解释与多轮对话融合的学术挑战。它解决了模型在动态对话流中追踪信息状态、解析条件语句以及处理否定性场景的难题,推动了对话系统对复杂自然语言规则的理解边界。其意义在于填补了规则导向型对话推理的数据空白,为构建可解释、可交互的智能问答系统奠定了实证基础,促进了自然语言处理领域向更深层次语义推理的演进。
衍生相关工作
围绕该数据集衍生的经典工作包括基于图神经网络的对话推理架构、多任务学习框架以及规则增强的预训练语言模型。例如,研究者通过引入结构化的规则表示方法,提升了模型对条件逻辑的捕捉能力;另有工作结合强化学习优化多轮对话策略,以应对数据中隐含的否定性与场景转换挑战。这些进展不仅推动了对话式机器阅读的技术前沿,也为跨任务的知识迁移与可解释人工智能提供了方法论借鉴。
以上内容由遇见数据集搜集并总结生成



