azhx/counterfact

Name: azhx/counterfact
Creator: azhx
Published: 2023-04-07 21:22:57
License: 暂无描述

Hugging Face2023-04-07 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/azhx/counterfact

下载链接

链接失效反馈

官方服务：

资源简介：

--- dataset_info: features: - name: case_id dtype: int64 - name: pararel_idx dtype: int64 - name: requested_rewrite struct: - name: prompt dtype: string - name: relation_id dtype: string - name: subject dtype: string - name: target_new struct: - name: id dtype: string - name: str dtype: string - name: target_true struct: - name: id dtype: string - name: str dtype: string - name: paraphrase_prompts sequence: string - name: neighborhood_prompts sequence: string - name: attribute_prompts sequence: string - name: generation_prompts sequence: string splits: - name: train num_bytes: 29388723 num_examples: 19728 - name: test num_bytes: 3268668 num_examples: 2191 download_size: 12387190 dataset_size: 32657391 --- # Dataset Card for "counterfact" Dataset from [ROME](https://rome.baulab.info/) by Meng et al. [More Information needed](https://github.com/huggingface/datasets/blob/main/CONTRIBUTING.md#how-to-contribute-to-the-dataset-cards)

--- 数据集信息：特征列表： - 字段名：案例ID（case_id），数据类型（dtype）：64位整数（int64） - 字段名：并行索引（pararel_idx），数据类型（dtype）：64位整数（int64） - 字段名：请求改写（requested_rewrite），类型：结构体（struct），包含子字段： - 字段名：提示（prompt），数据类型（dtype）：字符串（string） - 字段名：关系ID（relation_id），数据类型（dtype）：字符串（string） - 字段名：主体（subject），数据类型（dtype）：字符串（string） - 字段名：新目标（target_new），类型：结构体（struct），包含子字段： - 字段名：id（id），数据类型（dtype）：字符串（string） - 字段名：str（str），数据类型（dtype）：字符串（string） - 字段名：真实目标（target_true），类型：结构体（struct），包含子字段： - 字段名：id（id），数据类型（dtype）：字符串（string） - 字段名：str（str），数据类型（dtype）：字符串（string） - 字段名：释义提示（paraphrase_prompts），类型：字符串序列（sequence） - 字段名：邻域提示（neighborhood_prompts），类型：字符串序列（sequence） - 字段名：属性提示（attribute_prompts），类型：字符串序列（sequence） - 字段名：生成提示（generation_prompts），类型：字符串序列（sequence）数据集划分： - 划分集名称：训练集（train），字节数：29388723，样本数：19728 - 划分集名称：测试集（test），字节数：3268668，样本数：2191 下载大小：12387190 数据集总大小：32657391 --- # "反事实"（counterfact）数据集卡片本数据集源自Meng等人的[ROME](https://rome.baulab.info/)研究。 [需补充更多信息](https://github.com/huggingface/datasets/blob/main/CONTRIBUTING.md#how-to-contribute-to-the-dataset-cards)

提供机构：

azhx

原始信息汇总

数据集概述

数据集特征

case_id: 整数类型
pararel_idx: 整数类型
requested_rewrite: 结构类型，包含以下子特征：
- prompt: 字符串类型
- relation_id: 字符串类型
- subject: 字符串类型
- target_new: 结构类型，包含以下子特征：
  - id: 字符串类型
  - str: 字符串类型
- target_true: 结构类型，包含以下子特征：
  - id: 字符串类型
  - str: 字符串类型
paraphrase_prompts: 序列，字符串类型
neighborhood_prompts: 序列，字符串类型
attribute_prompts: 序列，字符串类型
generation_prompts: 序列，字符串类型

数据集分割

训练集:
- 数据量: 29388723 字节
- 示例数量: 19728
测试集:
- 数据量: 3268668 字节
- 示例数量: 2191

数据集大小

下载大小: 12387190 字节
数据集总大小: 32657391 字节

搜集汇总

数据集介绍

构建方式

azhx/counterfact数据集的构建，是基于ROME资源库中Meng等研究者的工作成果。该数据集的构建方法涉及从源数据中提取特定结构的信息，包括案例ID、并行索引、重写请求的详细信息（如提示、关系ID、主题以及新旧目标字符串的ID和内容）以及各种提示序列信息。通过精确的数据标注和结构化处理，形成了适用于自然语言处理任务的数据集。

使用方法

使用azhx/counterfact数据集，用户首先需要从HuggingFace的仓库中进行下载。下载后，数据集可以直接用于模型训练或评估。其结构化的数据格式允许用户方便地访问案例ID、并行索引和相关文本信息，从而支持各种复杂的数据处理和分析任务。用户可以根据具体的任务需求，对数据集中的字段进行筛选和组合，以优化模型性能。

背景与挑战

背景概述

在自然语言处理领域，文本生成与重写技术的研究不断深入。'azhx/counterfact'数据集，由Meng等研究人员于ROME实验室构建，旨在为计数事实文本重写任务提供高质量的语料资源。该数据集的创建，不仅丰富了文本生成的研究材料，而且对推动计数事实识别与生成技术的发展具有重要意义。

当前挑战

该数据集在构建过程中所面临的挑战包括：如何精确地定义和识别计数事实，以及如何生成与原句在语义上等价但表达方式不同的文本。此外，数据集的构建还需克服数据标注的主观性和不一致性，确保数据的准确性和可靠性。在研究领域问题方面，该数据集所面临的挑战是如何有效利用这些数据来提升模型对计数事实的理解和生成能力，进而提高文本重写的质量与准确性。

常用场景

经典使用场景

在自然语言处理领域中，'azhx/counterfact'数据集的经典使用场景主要涉及文本生成任务，尤其是针对句子级别的改写和对抗性样本生成。该数据集提供了丰富的语境和改写提示，使得研究者能够训练模型以生成在语义上与原句相似但具有特定变化的句子，例如在保持原意的同时改变某个实体或关系。

解决学术问题

该数据集解决了学术研究中关于如何有效评估和提升自然语言处理模型在句子级别改写能力的问题。通过提供带有明确改写目标和上下文的句子对，'azhx/counterfact'使得研究者能够更好地理解和优化模型在处理复杂语言现象时的性能，进而推动相关任务如文本摘要、问答系统等领域的发展。

实际应用

在实际应用中，'azhx/counterfact'数据集可用于提升机器翻译系统的鲁棒性，优化信息检索系统中的查询改写算法，以及增强对话系统的自然性和适应性。这些应用场景均涉及到对语言细微差异的敏感处理，该数据集为此提供了宝贵的训练资源。

数据集最近研究