five

SGaleshchuk/XL_SUM_ukr_synthetic_hallucinations

收藏
Hugging Face2024-04-05 更新2024-06-11 收录
下载链接:
https://hf-mirror.com/datasets/SGaleshchuk/XL_SUM_ukr_synthetic_hallucinations
下载链接
链接失效反馈
官方服务:
资源简介:
数据集包含1239篇文章,这些文章来自于一个验证集。每篇文章的摘要是由微调的Llama2模型生成的,并且生成的摘要还通过GPT-4进行了信息增强处理。具体方法是通过Spacy NER模型提取命名实体,并将第一个出现的实体与生成的文本一起输入GPT-4模型,以丰富文本信息。

数据集包含1239篇文章,这些文章来自于一个验证集。每篇文章的摘要是由微调的Llama2模型生成的,并且生成的摘要还通过GPT-4进行了信息增强处理。具体方法是通过Spacy NER模型提取命名实体,并将第一个出现的实体与生成的文本一起输入GPT-4模型,以丰富文本信息。
提供机构:
SGaleshchuk
原始信息汇总

数据集概述

数据集基本信息

  • 许可证: cc
  • 任务类别: 摘要生成
  • 语言: 乌克兰语
  • 数据集大小: 1K<n<10K

数据集内容

  • 数据来源: 包含1239篇文章,源自验证集,来自huggingface.co/datasets/csebuetnlp/xlsum
  • 摘要生成: 使用微调后的Llama2模型生成摘要,模型详情见SGaleshchuk/Llama-2-13b-hf_uk_rank-32_ft
  • 数据处理: 摘要生成后,通过GPT-4模型进行信息丰富化处理,具体方法为提取摘要中的命名实体,并使用Spacy NER模型处理乌克兰语,将首个出现的实体与文本一同输入GPT-4模型以增加文本信息。

示例

  • 原文: 标题 "Mural: from Philadelphia to Rabat", 文章: "Since several years on Kyiv multi-storey buildings are emerging. . ."
  • 黄金摘要: "While for Kyiv the rock art phenomenon is relatively new, in the West - . . ."
  • Llama2模型生成摘要: "In Kyiv, street art is quickly expanding, said mayor Klitchko."
  • GPT-4处理后的摘要: "In Kyiv, street art is quickly expanding, said mayor Klitchko, a former boxer"
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作