WiCE
收藏WiCE Dataset 概述
数据集描述
WiCE 是一个细粒度的文本蕴含数据集,基于维基百科中的自然声明和证据对构建。该数据集包含以下内容:
- 声明句子:维基百科中的句子。
- 证据:支持声明句子的引用文章中的句子列表。
- 蕴含标签:标注的蕴含标签,包括
supported,partially_supported,not_supported。 - 非支持令牌:声明中未被文章支持的令牌。
数据集结构
蕴含与检索
- 位置:data/entailment_retrieval
- 内容:包含训练、开发和测试集的 jsonl 文件,每个文件包含声明、支持句子的索引、证据句子列表等。
非支持令牌
- 位置:data/non_supported_tokens
- 内容:仅包含标注为
partially_supported的子声明,以及对应的非支持令牌标注。
数据集用途
WiCE 数据集主要用于以下三个任务:
- 蕴含分类:判断声明与证据之间的蕴含关系。
- 证据句子检索:从证据文章中检索支持声明的句子。
- 非支持令牌检测:识别声明中未被证据支持的令牌。
数据集示例
蕴含与检索示例
json { "label": "partially_supported", "supporting_sentences": [[5, 15], [15, 17]], "claim": "Arnold is currently the publisher and editorial director of Media Play News...", "evidence": [list of evidence sentences], "meta": {"id": "dev02986", "claim_title": "Roger Hedgecock", "claim_section": "Other endeavors.", "claim_context": [paragraph]} }
非支持令牌示例
json { "claim": "Irene Hervey appeared in over fifty films and numerous television series.", "claim_tokens": ["Irene", "Hervey", "appeared", "in", "over", "fifty", "films", "and", "numerous", "television", "series", "."], "non_supported_spans": [false, false, false, false, true, true, false, false, false, false, false, false], "evidence": [list of evidence sentences], "meta": {"id": "test00561-1", "claim_title": "Irene Hervey", "claim_section": "Abstract.", "claim_context": "Irene Hervey was an American film, stage, and television actress."} }
数据集评估
评估方法
- 蕴含分类模型:需要首先从证据文章中检索证据句子。
- 证据检索模型:使用 data/entailment_retrieval 中的数据进行评估。
预处理数据集
- Oracle 检索数据集:用于模拟完美证据检索模型的数据集,位于 code_and_resources/entailment_inputs/oracle_chunks/。
许可证
数据集的许可证信息请参考 LICENSE.md 文件。




