SGaleshchuk/XL_SUM_ukr_synthetic_hallucinations
收藏Hugging Face2024-04-05 更新2024-06-11 收录
下载链接:
https://hf-mirror.com/datasets/SGaleshchuk/XL_SUM_ukr_synthetic_hallucinations
下载链接
链接失效反馈官方服务:
资源简介:
数据集包含1239篇文章,这些文章来自于一个验证集。每篇文章的摘要是由微调的Llama2模型生成的,并且生成的摘要还通过GPT-4进行了信息增强处理。具体方法是通过Spacy NER模型提取命名实体,并将第一个出现的实体与生成的文本一起输入GPT-4模型,以丰富文本信息。
数据集包含1239篇文章,这些文章来自于一个验证集。每篇文章的摘要是由微调的Llama2模型生成的,并且生成的摘要还通过GPT-4进行了信息增强处理。具体方法是通过Spacy NER模型提取命名实体,并将第一个出现的实体与生成的文本一起输入GPT-4模型,以丰富文本信息。
提供机构:
SGaleshchuk
原始信息汇总
数据集概述
数据集基本信息
- 许可证: cc
- 任务类别: 摘要生成
- 语言: 乌克兰语
- 数据集大小: 1K<n<10K
数据集内容
- 数据来源: 包含1239篇文章,源自验证集,来自huggingface.co/datasets/csebuetnlp/xlsum。
- 摘要生成: 使用微调后的Llama2模型生成摘要,模型详情见SGaleshchuk/Llama-2-13b-hf_uk_rank-32_ft。
- 数据处理: 摘要生成后,通过GPT-4模型进行信息丰富化处理,具体方法为提取摘要中的命名实体,并使用Spacy NER模型处理乌克兰语,将首个出现的实体与文本一同输入GPT-4模型以增加文本信息。
示例
- 原文: 标题 "Mural: from Philadelphia to Rabat", 文章: "Since several years on Kyiv multi-storey buildings are emerging. . ."
- 黄金摘要: "While for Kyiv the rock art phenomenon is relatively new, in the West - . . ."
- Llama2模型生成摘要: "In Kyiv, street art is quickly expanding, said mayor Klitchko."
- GPT-4处理后的摘要: "In Kyiv, street art is quickly expanding, said mayor Klitchko, a former boxer"



