azhx/counterfact
收藏Hugging Face2023-04-07 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/azhx/counterfact
下载链接
链接失效反馈官方服务:
资源简介:
---
dataset_info:
features:
- name: case_id
dtype: int64
- name: pararel_idx
dtype: int64
- name: requested_rewrite
struct:
- name: prompt
dtype: string
- name: relation_id
dtype: string
- name: subject
dtype: string
- name: target_new
struct:
- name: id
dtype: string
- name: str
dtype: string
- name: target_true
struct:
- name: id
dtype: string
- name: str
dtype: string
- name: paraphrase_prompts
sequence: string
- name: neighborhood_prompts
sequence: string
- name: attribute_prompts
sequence: string
- name: generation_prompts
sequence: string
splits:
- name: train
num_bytes: 29388723
num_examples: 19728
- name: test
num_bytes: 3268668
num_examples: 2191
download_size: 12387190
dataset_size: 32657391
---
# Dataset Card for "counterfact"
Dataset from [ROME](https://rome.baulab.info/) by Meng et al.
[More Information needed](https://github.com/huggingface/datasets/blob/main/CONTRIBUTING.md#how-to-contribute-to-the-dataset-cards)
---
数据集信息:
特征列表:
- 字段名:案例ID(case_id),数据类型(dtype):64位整数(int64)
- 字段名:并行索引(pararel_idx),数据类型(dtype):64位整数(int64)
- 字段名:请求改写(requested_rewrite),类型:结构体(struct),包含子字段:
- 字段名:提示(prompt),数据类型(dtype):字符串(string)
- 字段名:关系ID(relation_id),数据类型(dtype):字符串(string)
- 字段名:主体(subject),数据类型(dtype):字符串(string)
- 字段名:新目标(target_new),类型:结构体(struct),包含子字段:
- 字段名:id(id),数据类型(dtype):字符串(string)
- 字段名:str(str),数据类型(dtype):字符串(string)
- 字段名:真实目标(target_true),类型:结构体(struct),包含子字段:
- 字段名:id(id),数据类型(dtype):字符串(string)
- 字段名:str(str),数据类型(dtype):字符串(string)
- 字段名:释义提示(paraphrase_prompts),类型:字符串序列(sequence)
- 字段名:邻域提示(neighborhood_prompts),类型:字符串序列(sequence)
- 字段名:属性提示(attribute_prompts),类型:字符串序列(sequence)
- 字段名:生成提示(generation_prompts),类型:字符串序列(sequence)
数据集划分:
- 划分集名称:训练集(train),字节数:29388723,样本数:19728
- 划分集名称:测试集(test),字节数:3268668,样本数:2191
下载大小:12387190
数据集总大小:32657391
---
# "反事实"(counterfact)数据集卡片
本数据集源自Meng等人的[ROME](https://rome.baulab.info/)研究。
[需补充更多信息](https://github.com/huggingface/datasets/blob/main/CONTRIBUTING.md#how-to-contribute-to-the-dataset-cards)
提供机构:
azhx
原始信息汇总
数据集概述
数据集特征
- case_id: 整数类型
- pararel_idx: 整数类型
- requested_rewrite: 结构类型,包含以下子特征:
- prompt: 字符串类型
- relation_id: 字符串类型
- subject: 字符串类型
- target_new: 结构类型,包含以下子特征:
- id: 字符串类型
- str: 字符串类型
- target_true: 结构类型,包含以下子特征:
- id: 字符串类型
- str: 字符串类型
- paraphrase_prompts: 序列,字符串类型
- neighborhood_prompts: 序列,字符串类型
- attribute_prompts: 序列,字符串类型
- generation_prompts: 序列,字符串类型
数据集分割
- 训练集:
- 数据量: 29388723 字节
- 示例数量: 19728
- 测试集:
- 数据量: 3268668 字节
- 示例数量: 2191
数据集大小
- 下载大小: 12387190 字节
- 数据集总大小: 32657391 字节
搜集汇总
数据集介绍

构建方式
azhx/counterfact数据集的构建,是基于ROME资源库中Meng等研究者的工作成果。该数据集的构建方法涉及从源数据中提取特定结构的信息,包括案例ID、并行索引、重写请求的详细信息(如提示、关系ID、主题以及新旧目标字符串的ID和内容)以及各种提示序列信息。通过精确的数据标注和结构化处理,形成了适用于自然语言处理任务的数据集。
使用方法
使用azhx/counterfact数据集,用户首先需要从HuggingFace的仓库中进行下载。下载后,数据集可以直接用于模型训练或评估。其结构化的数据格式允许用户方便地访问案例ID、并行索引和相关文本信息,从而支持各种复杂的数据处理和分析任务。用户可以根据具体的任务需求,对数据集中的字段进行筛选和组合,以优化模型性能。
背景与挑战
背景概述
在自然语言处理领域,文本生成与重写技术的研究不断深入。'azhx/counterfact'数据集,由Meng等研究人员于ROME实验室构建,旨在为计数事实文本重写任务提供高质量的语料资源。该数据集的创建,不仅丰富了文本生成的研究材料,而且对推动计数事实识别与生成技术的发展具有重要意义。
当前挑战
该数据集在构建过程中所面临的挑战包括:如何精确地定义和识别计数事实,以及如何生成与原句在语义上等价但表达方式不同的文本。此外,数据集的构建还需克服数据标注的主观性和不一致性,确保数据的准确性和可靠性。在研究领域问题方面,该数据集所面临的挑战是如何有效利用这些数据来提升模型对计数事实的理解和生成能力,进而提高文本重写的质量与准确性。
常用场景
经典使用场景
在自然语言处理领域中,'azhx/counterfact'数据集的经典使用场景主要涉及文本生成任务,尤其是针对句子级别的改写和对抗性样本生成。该数据集提供了丰富的语境和改写提示,使得研究者能够训练模型以生成在语义上与原句相似但具有特定变化的句子,例如在保持原意的同时改变某个实体或关系。
解决学术问题
该数据集解决了学术研究中关于如何有效评估和提升自然语言处理模型在句子级别改写能力的问题。通过提供带有明确改写目标和上下文的句子对,'azhx/counterfact'使得研究者能够更好地理解和优化模型在处理复杂语言现象时的性能,进而推动相关任务如文本摘要、问答系统等领域的发展。
实际应用
在实际应用中,'azhx/counterfact'数据集可用于提升机器翻译系统的鲁棒性,优化信息检索系统中的查询改写算法,以及增强对话系统的自然性和适应性。这些应用场景均涉及到对语言细微差异的敏感处理,该数据集为此提供了宝贵的训练资源。
数据集最近研究
最新研究方向
在自然语言处理领域中,counterfact数据集以其独特的反事实推理特性,正成为研究的热点。该数据集为研究者在句子级别的语义理解和生成任务上提供了丰富的资源。近期研究主要聚焦于如何利用该数据集提升模型在反事实条件句生成和推理上的能力,这对于理解语言的本质特性和构建更智能的语言模型具有重要意义。
以上内容由遇见数据集搜集并总结生成



