five

d0p3/ukr-pravda-news-summary-v1.1

收藏
Hugging Face2024-02-15 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/d0p3/ukr-pravda-news-summary-v1.1
下载链接
链接失效反馈
官方服务:
资源简介:
乌克兰新闻摘要数据集v1.1包含来自乌克兰新闻网站pravda.com.ua的文章,这些文章使用Gemini Pro模型生成摘要。该数据集旨在支持乌克兰文本摘要、新闻标题生成等NLP任务的研究。数据集以CSV格式存储,包含原始新闻文本和生成的摘要两列。

乌克兰新闻摘要数据集v1.1包含来自乌克兰新闻网站pravda.com.ua的文章,这些文章使用Gemini Pro模型生成摘要。该数据集旨在支持乌克兰文本摘要、新闻标题生成等NLP任务的研究。数据集以CSV格式存储,包含原始新闻文本和生成的摘要两列。
提供机构:
d0p3
原始信息汇总

乌克兰新闻摘要数据集 v1.1

数据集概述

该数据集包含来自乌克兰新闻网站 pravda.com.ua 的新闻文章,使用 Gemini Pro 模型进行摘要。数据集旨在支持乌克兰文本摘要、新闻标题生成和其他自然语言处理任务的研究。

数据集结构

数据集以 CSV 文件形式组织,包含以下列:

  • text: 新闻文章的全文。
  • summary: 通过 Gemini API 生成的 Gemini Pro 摘要。

使用示例

微调摘要模型

python from datasets import load_dataset

dataset = load_dataset("d0p3/ukr-pravda-news-summary")

在 original_text 和 summary 列上微调您的摘要模型

评估摘要质量

python from rouge import Rouge # 安装 ROUGE 指标库

rouge = Rouge() scores = rouge.get_scores(model_generated_summaries, dataset["summary"])

创建过程

  1. 网页抓取: 使用 shamotskyi/ukr_pravda_2y 数据集作为基础。
  2. 摘要: 每个文章的 ukr_text 通过 Gemini API 使用 Gemini Pro 模型进行摘要。
  3. 数据集格式化: 数据被编译成 CSV 格式。

许可

该数据集在 [CC-BY-NC-4.0] 许可下发布。原始 pravda.com.ua 新闻文章的权利归各自作者所有。

伦理考虑

  • 新闻文章摘要存在其伦理问题。确保该数据集不被用于生成误导性或欺骗性内容。
  • 始终考虑 Gemini Pro 作为摘要模型的潜在偏见和局限性。

贡献者

  • [d0p3]

扩展数据集

我们欢迎贡献!如果您想通过添加更多文章或来自其他乌克兰新闻来源的摘要来扩展数据集!

5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作