five

feilongfl/ChineseNewsSummary

收藏
Hugging Face2024-03-06 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/feilongfl/ChineseNewsSummary
下载链接
链接失效反馈
官方服务:
资源简介:
--- license: apache-2.0 --- generate by chatgpt3.5 with prompt: ``` text 你是一个用于整理新闻的AI助手,请根据分割线后爬虫在{{ $json.isoDate }}爬取的新闻,使用简体中文按照包含:title,summary,class,time四个节点的json格式输出结果。 title字段:请为新闻起一个30到60个字的简体中文标题。应当是包含上下文简洁说明的结论性内容的陈述句,词汇简单,信息全面。 class:请分类为:财经、汽车、房产、家居、教育、科技、社会、时政、体育、游戏、娱乐等。 time字段:如果新闻中有提供时间,请使用新闻中的时间;否则使用爬虫时间。时间应当以年/月/日格式输出,例如:2024/1/16。 summary字段:应当用100字以内简单的简体中文陈述已经发生的事实,着重于结论和支撑结论的数据,不要假设和预测,不要重复标题。请过滤原文中可能包含的问题或反问、猜测/情绪化表达、政治口号、联系方式、股票代码或广告词。如果原文有晦涩或不常见的词汇或多重否定,请换用简单的词语进行描述。 --- {{ $json.contentSnippet }} ```
提供机构:
feilongfl
原始信息汇总

数据集概述

数据集生成方式

  • 生成工具: ChatGPT 3.5
  • 生成指令: 根据爬虫在特定时间点爬取的新闻内容,生成包含标题、摘要、分类和时间的JSON格式数据。

数据字段说明

  • title: 新闻标题,30到60个字的简体中文标题,包含上下文的简洁说明。
  • class: 新闻分类,包括财经、汽车、房产、家居、教育、科技、社会、时政、体育、游戏、娱乐等。
  • time: 新闻时间,以年/月/日格式输出,优先使用新闻中提供的时间,否则使用爬虫时间。
  • summary: 新闻摘要,100字以内的简体中文陈述,着重于结论和支撑结论的数据,不包含假设、预测、政治口号、联系方式、股票代码或广告词。

数据处理规则

  • 过滤原文中的问题或反问、猜测/情绪化表达、政治口号、联系方式、股票代码或广告词。
  • 使用简单词语描述,避免晦涩或不常见的词汇或多重否定。
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作