five

wandb/finqa-data-processed-hallucination

收藏
Hugging Face2024-12-01 更新2024-12-14 收录
下载链接:
https://hf-mirror.com/datasets/wandb/finqa-data-processed-hallucination
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集扩展了原始的FinQA数据集,通过添加合成的幻觉示例来评估模型的真实性。每个原始示例都配有一个修改后的版本,该版本在保持自然语言流畅性的同时引入了细微的幻觉。数据集包含16562个示例,其中训练集有13248个示例(6624个原始示例和6624个幻觉示例),测试集有3314个示例(1657个原始示例和1657个幻觉示例)。每个示例包含查询、上下文、模型输出、是否包含幻觉内容的布尔标志以及原始FinQA字段。幻觉类型分为不忠实、无根据信息和矛盾三类。数据集创建过程使用了特定的提示模板来生成幻觉示例,并保留了原始数据集的领域特定语言和语调。数据集基于Chen等人发布的FinQA数据集,并遵循其MIT许可证。

The FinQA Dataset with Hallucination Examples is an extension of the original FinQA dataset, adding synthetic hallucinated examples to evaluate model truthfulness. Each original example is paired with a modified version containing subtle hallucinations while maintaining natural language flow. The dataset contains 16,562 examples, divided into training and test sets with equal numbers of original and hallucinated examples in each. Each example includes a query, context, output, a boolean flag indicating if the output contains hallucinated content, and original FinQA fields. The hallucination types are categorized into unfaithfulness, baseless information, and contradiction. The dataset was created using a specific prompt template to generate controlled hallucinations, preserving professional tone and domain-specific language.
提供机构:
wandb
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作