akozlova/RuFacts

Name: akozlova/RuFacts
Creator: akozlova
Published: 2023-05-05 15:59:44
License: 暂无描述

Hugging Face2023-05-05 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/akozlova/RuFacts

下载链接

链接失效反馈

官方服务：

资源简介：

RuFacts是一个用于俄语内部事实核查的基准数据集。该数据集包含标记为一致和不一致的示例。对于不一致的示例，还收集并展示了源文本和生成文本中事实违规的范围。数据集通过多种数据源和方法生成，包括使用转述模型生成的文本、翻译的事实核查数据集以及文本增强。数据集的平均文本长度为198个字符，最小为10个字符，最大为3,402个字符。数据集的结构包括索引、原始文本、生成文本和标签字段，标签表示事实是否一致。数据集分为训练集、验证集和测试集，分别包含4677、1559和500行数据。

提供机构：

akozlova

原始信息汇总

RuFacts数据集概述

数据集描述

RuFacts是一个针对俄语的内部事实核查基准数据集。该数据集包含标记为一致和不一致的示例。对于不一致的示例，还收集并展示了源文本和生成文本中包含事实违规的范围。数据集的平均文本长度为198个符号，最小长度为10个符号，最大长度为3,402个符号。

数据生成方法

数据集的训练和测试数据是通过多种数据源和方法生成的，包括：

通过paraphrase模型生成的文本
事实核查数据集的翻译
文本增强

翻译和生成的数据通过Yandex.Toloka平台进行人工标注，测试集的增强数据也进行了额外的人工标注。测试集由来自所有三个来源的示例组成：26%的翻译，6%的增强数据，和68%的生成改写。

数据结构

数据字段

idx: 整数
evidence: 包含原始文本的字符串
claim: 包含通过某些生成模型生成的文本的字符串
label: 整数，0或1，表示事实是否一致（0）或不一致（1）

数据分割

	train	validation	test
rows	4677	1559	500

5,000+

优质数据集

54 个

任务类型

进入经典数据集