coref-data/davis_wsc_indiscrim
收藏Hugging Face2024-01-26 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/coref-data/davis_wsc_indiscrim
下载链接
链接失效反馈官方服务:
资源简介:
---
dataset_info:
- config_name: wsc273
features:
- name: text
dtype: string
- name: id
dtype: string
- name: sentences
list:
- name: end_char
dtype: int64
- name: id
dtype: int64
- name: speaker
dtype: 'null'
- name: start_char
dtype: int64
- name: text
dtype: string
- name: tokens
list:
- name: deprel
dtype: string
- name: end_char
dtype: int64
- name: feats
dtype: string
- name: head
dtype: int64
- name: id
dtype: int64
- name: lemma
dtype: string
- name: start_char
dtype: int64
- name: text
dtype: string
- name: upos
dtype: string
- name: xpos
dtype: string
- name: coref_chains
sequence:
sequence:
sequence: int64
- name: genre
dtype: string
- name: meta_data
struct:
- name: comment
dtype: string
- name: source
dtype: string
splits:
- name: test
num_bytes: 587637
num_examples: 273
download_size: 109121
dataset_size: 587637
- config_name: wsc285
features:
- name: text
dtype: string
- name: id
dtype: string
- name: sentences
list:
- name: end_char
dtype: int64
- name: id
dtype: int64
- name: speaker
dtype: 'null'
- name: start_char
dtype: int64
- name: text
dtype: string
- name: tokens
list:
- name: deprel
dtype: string
- name: end_char
dtype: int64
- name: feats
dtype: string
- name: head
dtype: int64
- name: id
dtype: int64
- name: lemma
dtype: string
- name: start_char
dtype: int64
- name: text
dtype: string
- name: upos
dtype: string
- name: xpos
dtype: string
- name: coref_chains
sequence:
sequence:
sequence: int64
- name: genre
dtype: string
- name: meta_data
struct:
- name: comment
dtype: string
- name: source
dtype: string
splits:
- name: test
num_bytes: 615036
num_examples: 285
download_size: 113845
dataset_size: 615036
configs:
- config_name: wsc273
data_files:
- split: test
path: wsc273/test-*
- config_name: wsc285
data_files:
- split: test
path: wsc285/test-*
---
This dataset was generated by reformatting [`coref-data/davis_wsc_raw`](https://huggingface.co/datasets/coref-data/davis_wsc_raw) into the indiscrim coreference format. See that repo for dataset details.
See [ianporada/coref-data](https://github.com/ianporada/coref-data) for additional conversion details and the conversion script.
Please create an issue in the repo above or in this dataset repo for any questions.
提供机构:
coref-data
原始信息汇总
数据集信息
配置名称:wsc273
- 特征:
text:字符串类型id:字符串类型sentences:列表类型end_char:64位整数类型id:64位整数类型speaker:空类型start_char:64位整数类型text:字符串类型tokens:列表类型deprel:字符串类型end_char:64位整数类型feats:字符串类型head:64位整数类型id:64位整数类型lemma:字符串类型start_char:64位整数类型text:字符串类型upos:字符串类型xpos:字符串类型
coref_chains:序列类型,嵌套序列类型,64位整数类型genre:字符串类型meta_data:结构类型comment:字符串类型source:字符串类型
- 拆分:
test:- 字节数:587637
- 样本数:273
- 下载大小:109121字节
- 数据集大小:587637字节
配置名称:wsc285
- 特征:
text:字符串类型id:字符串类型sentences:列表类型end_char:64位整数类型id:64位整数类型speaker:空类型start_char:64位整数类型text:字符串类型tokens:列表类型deprel:字符串类型end_char:64位整数类型feats:字符串类型head:64位整数类型id:64位整数类型lemma:字符串类型start_char:64位整数类型text:字符串类型upos:字符串类型xpos:字符串类型
coref_chains:序列类型,嵌套序列类型,64位整数类型genre:字符串类型meta_data:结构类型comment:字符串类型source:字符串类型
- 拆分:
test:- 字节数:615036
- 样本数:285
- 下载大小:113845字节
- 数据集大小:615036字节
配置文件
- 配置名称:wsc273
- 数据文件:
- 拆分:
test - 路径:
wsc273/test-*
- 拆分:
- 数据文件:
- 配置名称:wsc285
- 数据文件:
- 拆分:
test - 路径:
wsc285/test-*
- 拆分:
- 数据文件:
搜集汇总
数据集介绍

构建方式
在自然语言处理领域,指代消解任务对于理解文本中代词与先行词之间的关联至关重要。该数据集源自coref-data/davis_wsc_raw,通过将其重新格式化为无差别指代(indiscrim coreference)格式而构建。具体而言,原始数据经过标准化处理,保留了文本、句子边界、词元级标注(包括依赖关系、词性标签、形态特征等)以及指代链信息,最终形成wsc273和wsc285两个配置,分别包含273个和285个测试样本。这一转换过程旨在提供一种结构统一、可直接用于评估指代消解模型的基准数据。
特点
该数据集的核心特点在于其无差别指代格式,即不预设指代关系的类型或方向,从而为模型提供更为纯粹的指代消解挑战。每个样本包含完整的文本、分句、词元标注及多层指代链,其中指代链以序列形式记录跨句的指代关系。此外,数据集中还包含了元数据字段(如评论和来源),以及体裁标注,便于研究者分析不同语境下的指代模式。测试集规模适中,兼顾了评估效率与统计可靠性。
使用方法
使用该数据集时,研究者可通过HuggingFace Datasets库直接加载,指定配置名称(如wsc273或wsc285)并分割为测试集。数据中的text字段提供原始文本,sentences字段包含结构化的句子信息,而coref_chains字段则存储指代链,便于构建评估指标。建议结合转换脚本(位于ianporada/coref-data仓库)理解数据格式细节,并利用词元级标注(如upos、deprel)进行特征分析。对于指代消解任务,可直接将coref_chains作为标注目标,训练或评估模型在无差别指代场景下的性能。
背景与挑战
背景概述
在自然语言处理领域,指代消解(coreference resolution)是衡量机器对语言深层理解能力的关键任务之一,其核心在于识别文本中指向同一实体的不同表述。由研究团队构建的coref-data/davis_wsc_indiscrim数据集,基于经典的Winograd Schema Challenge(WSC)拓展而来,旨在评估模型在复杂语境下处理指代歧义的能力。该数据集创建于近年,依托于coref-data项目(详见GitHub仓库ianporada/coref-data),主要研究人员通过将原始的davis_wsc_raw数据转化为统一的无差别指代格式(indiscrim coreference format),生成了wsc273与wsc285两个子集。这些子集聚焦于代词与名词短语间的指代关系,对推动指代消解研究的标准化与可复现性具有重要影响,为相关领域提供了高质量、结构化的评测基准。
当前挑战
该数据集所解决的领域问题在于指代消解任务本身固有的歧义性,尤其是Winograd Schema中那些依赖常识推理才能正确解析的指代关系,对现有模型构成了严峻考验。构建过程中面临的挑战包括:原始数据格式的异构性需要精心设计转换脚本以保持语义完整性;指代链(coref chains)的标注需确保跨句与跨段落的连贯性,避免因格式转换引入错误;此外,wsc273与wsc285两个子集虽规模较小,但每个样本均包含细粒度的句法、词性及依存关系信息,对数据一致性校验提出了高要求,任何标注偏差都可能影响下游评测的公平性。
常用场景
经典使用场景
在自然语言处理领域,指代消解(Coreference Resolution)是衡量机器对语言深层理解能力的关键任务。davis_wsc_indiscrim数据集以Winograd Schema Challenge(WSC)经典问题为核心,通过wsc273和wsc285两种配置,提供了富含指代链(coref_chains)的精细标注语料。研究社区最经典的使用方式,是将该数据集作为基准测试平台,评估模型在复杂语境下对代词与先行词之间语义关系的推理能力。这类任务不仅要求模型识别句法结构,更需依赖常识推理来破解如“奖杯放不进箱子,因为它太小了”这类歧义句,从而检验模型是否真正理解语言背后的世界知识。
解决学术问题
该数据集直指自然语言理解中的一个顽固瓶颈——常识性指代消解。传统基于规则或统计的方法在处理需要世界知识介入的歧义指代时往往力不从心,而davis_wsc_indiscrim通过将原始数据转化为统一的指代格式,为学术界提供了一个标准化、可复现的评估基准。它解决了长期以来WSC任务中数据格式不统一、难以与主流指代消解框架兼容的问题,使得研究者能够公平对比不同架构(如基于Transformer的预训练语言模型与专门化推理网络)在深层语义理解上的表现。这一贡献推动了从表面模式匹配向真正智能推理的范式转变。
衍生相关工作
davis_wsc_indiscrim作为核心数据源,已催生了一系列具有影响力的研究方向。基于该基准,研究者提出了多种增强模型常识推理能力的方案,例如将外部知识图谱(如ConceptNet)引入指代消解框架的融合方法,以及利用对比学习范式提升模型对歧义样本的判别力。在模型架构层面,该数据集推动了从传统序列标注模型到更复杂的图神经网络和注意力机制变体的演进。此外,它还是评估大语言模型(如GPT系列、LLaMA)零样本或少样本指代消解能力的关键标尺,相关分析工作揭示了当前先进模型在需要深层逻辑推理的WSC变体上的局限性,从而指明了未来需要突破的方向。
以上内容由遇见数据集搜集并总结生成



