five

d0p3/ukr-pravda-news-summary

收藏
Hugging Face2024-02-15 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/d0p3/ukr-pravda-news-summary
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集包含来自乌克兰新闻网站pravda.com.ua的新闻文章,使用Claude Instant摘要模型生成摘要。数据集旨在支持乌克兰文本摘要、新闻标题生成等NLP任务的研究。数据集以CSV格式存储,包含原始文本和摘要两列。创建过程包括网页抓取、摘要生成和数据格式化。数据集遵循CC-BY-NC-4.0许可,并强调了使用时的伦理考虑。

该数据集包含来自乌克兰新闻网站pravda.com.ua的新闻文章,使用Claude Instant摘要模型生成摘要。数据集旨在支持乌克兰文本摘要、新闻标题生成等NLP任务的研究。数据集以CSV格式存储,包含原始文本和摘要两列。创建过程包括网页抓取、摘要生成和数据格式化。数据集遵循CC-BY-NC-4.0许可,并强调了使用时的伦理考虑。
提供机构:
d0p3
原始信息汇总

Ukrainian News Summarization Dataset

数据集概述

该数据集包含来自乌克兰新闻网站pravda.com.ua的新闻文章,这些文章已使用Claude Instant摘要模型进行摘要。数据集旨在支持乌克兰文本摘要、新闻标题生成和其他自然语言处理任务的研究。

数据集结构

数据集以CSV文件形式组织,包含以下列:

  • text: 新闻文章的全文。
  • summary: 通过AWS Bedrock API生成的Claude Instant模型摘要。

使用示例

微调摘要模型

python from datasets import load_dataset

dataset = load_dataset("d0p3/ukr-pravda-news-summary")

在original_text和summary列上微调摘要模型

评估摘要质量

python from rouge import Rouge # 安装ROUGE指标库

rouge = Rouge() scores = rouge.get_scores(model_generated_summaries, dataset["summary"])

创建过程

  1. 网络爬虫: 使用shamotskyi/ukr_pravda_2y数据集作为基础。
  2. 摘要: 每个文章的ukr_text通过AWS Bedrock API使用Claude Instant模型进行摘要。
  3. 数据集格式化: 数据被编译成CSV格式。

许可

该数据集在[CC-BY-NC-4.0]许可下发布。原始pravda.com.ua新闻文章的版权仍归各自作者所有。

伦理考虑

  • 新闻文章摘要存在其伦理问题。确保该数据集不被用于生成误导性或欺骗性内容。
  • 始终考虑Claude Instant作为摘要模型的潜在偏见和局限性。

贡献者

  • [d0p3]

扩展数据集

我们欢迎贡献!如果您想通过添加更多文章或其他乌克兰新闻来源的摘要来扩展数据集!

5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作