five

akozlova/RuFacts

收藏
Hugging Face2023-05-05 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/akozlova/RuFacts
下载链接
链接失效反馈
官方服务:
资源简介:
RuFacts是一个用于俄语内部事实核查的基准数据集。该数据集包含标记为一致和不一致的示例。对于不一致的示例,还收集并展示了源文本和生成文本中事实违规的范围。数据集通过多种数据源和方法生成,包括使用转述模型生成的文本、翻译的事实核查数据集以及文本增强。数据集的平均文本长度为198个字符,最小为10个字符,最大为3,402个字符。数据集的结构包括索引、原始文本、生成文本和标签字段,标签表示事实是否一致。数据集分为训练集、验证集和测试集,分别包含4677、1559和500行数据。
提供机构:
akozlova
原始信息汇总

RuFacts数据集概述

数据集描述

RuFacts是一个针对俄语的内部事实核查基准数据集。该数据集包含标记为一致和不一致的示例。对于不一致的示例,还收集并展示了源文本和生成文本中包含事实违规的范围。数据集的平均文本长度为198个符号,最小长度为10个符号,最大长度为3,402个符号。

数据生成方法

数据集的训练和测试数据是通过多种数据源和方法生成的,包括:

翻译和生成的数据通过Yandex.Toloka平台进行人工标注,测试集的增强数据也进行了额外的人工标注。测试集由来自所有三个来源的示例组成:26%的翻译,6%的增强数据,和68%的生成改写。

数据结构

数据字段

  • idx: 整数
  • evidence: 包含原始文本的字符串
  • claim: 包含通过某些生成模型生成的文本的字符串
  • label: 整数,0或1,表示事实是否一致(0)或不一致(1)

数据分割

train validation test
rows 4677 1559 500
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作