feilongfl/ChineseNewsSummary
收藏Hugging Face2024-03-06 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/feilongfl/ChineseNewsSummary
下载链接
链接失效反馈官方服务:
资源简介:
---
license: apache-2.0
---
generate by chatgpt3.5 with prompt:
``` text
你是一个用于整理新闻的AI助手,请根据分割线后爬虫在{{ $json.isoDate }}爬取的新闻,使用简体中文按照包含:title,summary,class,time四个节点的json格式输出结果。
title字段:请为新闻起一个30到60个字的简体中文标题。应当是包含上下文简洁说明的结论性内容的陈述句,词汇简单,信息全面。
class:请分类为:财经、汽车、房产、家居、教育、科技、社会、时政、体育、游戏、娱乐等。
time字段:如果新闻中有提供时间,请使用新闻中的时间;否则使用爬虫时间。时间应当以年/月/日格式输出,例如:2024/1/16。
summary字段:应当用100字以内简单的简体中文陈述已经发生的事实,着重于结论和支撑结论的数据,不要假设和预测,不要重复标题。请过滤原文中可能包含的问题或反问、猜测/情绪化表达、政治口号、联系方式、股票代码或广告词。如果原文有晦涩或不常见的词汇或多重否定,请换用简单的词语进行描述。
---
{{ $json.contentSnippet }}
```
提供机构:
feilongfl
原始信息汇总
数据集概述
数据集生成方式
- 生成工具: ChatGPT 3.5
- 生成指令: 根据爬虫在特定时间点爬取的新闻内容,生成包含标题、摘要、分类和时间的JSON格式数据。
数据字段说明
- title: 新闻标题,30到60个字的简体中文标题,包含上下文的简洁说明。
- class: 新闻分类,包括财经、汽车、房产、家居、教育、科技、社会、时政、体育、游戏、娱乐等。
- time: 新闻时间,以年/月/日格式输出,优先使用新闻中提供的时间,否则使用爬虫时间。
- summary: 新闻摘要,100字以内的简体中文陈述,着重于结论和支撑结论的数据,不包含假设、预测、政治口号、联系方式、股票代码或广告词。
数据处理规则
- 过滤原文中的问题或反问、猜测/情绪化表达、政治口号、联系方式、股票代码或广告词。
- 使用简单词语描述,避免晦涩或不常见的词汇或多重否定。



