akozlova/RuFacts
收藏Hugging Face2023-05-05 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/akozlova/RuFacts
下载链接
链接失效反馈官方服务:
资源简介:
RuFacts是一个用于俄语内部事实核查的基准数据集。该数据集包含标记为一致和不一致的示例。对于不一致的示例,还收集并展示了源文本和生成文本中事实违规的范围。数据集通过多种数据源和方法生成,包括使用转述模型生成的文本、翻译的事实核查数据集以及文本增强。数据集的平均文本长度为198个字符,最小为10个字符,最大为3,402个字符。数据集的结构包括索引、原始文本、生成文本和标签字段,标签表示事实是否一致。数据集分为训练集、验证集和测试集,分别包含4677、1559和500行数据。
提供机构:
akozlova
原始信息汇总
RuFacts数据集概述
数据集描述
RuFacts是一个针对俄语的内部事实核查基准数据集。该数据集包含标记为一致和不一致的示例。对于不一致的示例,还收集并展示了源文本和生成文本中包含事实违规的范围。数据集的平均文本长度为198个符号,最小长度为10个符号,最大长度为3,402个符号。
数据生成方法
数据集的训练和测试数据是通过多种数据源和方法生成的,包括:
- 通过paraphrase模型生成的文本
- 事实核查数据集的翻译
- 文本增强
翻译和生成的数据通过Yandex.Toloka平台进行人工标注,测试集的增强数据也进行了额外的人工标注。测试集由来自所有三个来源的示例组成:26%的翻译,6%的增强数据,和68%的生成改写。
数据结构
数据字段
idx: 整数evidence: 包含原始文本的字符串claim: 包含通过某些生成模型生成的文本的字符串label: 整数,0或1,表示事实是否一致(0)或不一致(1)
数据分割
| train | validation | test | |
|---|---|---|---|
| rows | 4677 | 1559 | 500 |



