GLOBESUMM|多语言新闻摘要数据集|跨文化研究数据集
收藏GlobeSumm 数据集概述
数据集简介
GlobeSumm 是一个面向多语言、跨语言和多文档新闻摘要的挑战性基准数据集,旨在通过多语言新闻文章提供对全球事件的全面理解。
数据集内容
1. 事件中心的多语言新闻报道
- 数量: 370个新闻事件,包含4687篇新闻文章。
- 语言: 涵盖26种语言。
- 特点: 每个新闻事件至少有10篇不同语言的新闻报道。
2. 新闻相关性判定数据
- 数量: 2104个事件,包含26301篇新闻文章。
- 特点: 包含手动验证的相关性标签,用于判定新闻报道与给定描述的相关性。
3. 全球新闻摘要
- 摘要方法: 采用时间顺序递归摘要(CRS)方法,结合关键信息分割(KIS)、跨语言提示(CLP)和协议引导提示(PGP)技术。
- 特点: 生成高质量的摘要,识别并处理冗余、遗漏和冲突问题。
数据结构示例
python { # Event1 "date": 20230501, "description": "a Cessna 206 light aircraft with seven people on board crashed in the jungle in the Caquetá Department of Colombia.", "category": "Disasters and accidents", "news": [ { # news1 "lang_abbr": "fr", "lang_full": "French", "date": "20230517", "title": "XXX", "article": "XXX", "label_relevant": 1 }, # news2 # news3 ... ] }
引用
@misc{ye2024globesummchallengingbenchmarkunifying, title={GlobeSumm: A Challenging Benchmark Towards Unifying Multi-lingual, Cross-lingual and Multi-document News Summarization}, author={Yangfan Ye and Xiachong Feng and Xiaocheng Feng and Weitao Ma and Libo Qin and Dongliang Xu and Qing Yang and Hongtao Liu and Bing Qin}, year={2024}, eprint={2410.04087}, archivePrefix={arXiv}, primaryClass={cs.CL}, url={https://arxiv.org/abs/2410.04087}, }

中国交通事故深度调查(CIDAS)数据集
交通事故深度调查数据通过采用科学系统方法现场调查中国道路上实际发生交通事故相关的道路环境、道路交通行为、车辆损坏、人员损伤信息,以探究碰撞事故中车损和人伤机理。目前已积累深度调查事故10000余例,单个案例信息包含人、车 、路和环境多维信息组成的3000多个字段。该数据集可作为深入分析中国道路交通事故工况特征,探索事故预防和损伤防护措施的关键数据源,为制定汽车安全法规和标准、完善汽车测评试验规程、
北方大数据交易中心 收录
FER2013
FER2013数据集是一个广泛用于面部表情识别领域的数据集,包含28,709个训练样本和7,178个测试样本。图像属性为48x48像素,标签包括愤怒、厌恶、恐惧、快乐、悲伤、惊讶和中性。
github 收录
典型分布式光伏出力预测数据集
光伏电站出力数据每5分钟从电站机房监控系统获取;气象实测数据从气象站获取,气象站建于电站30号箱变附近,每5分钟将采集的数据通过光纤传输到机房;数值天气预报数据利用中国电科院新能源气象应用机房的WRF业务系统(包括30TF计算刀片机、250TB并行存储)进行中尺度模式计算后输出预报产品,每日8点前通过反向隔离装置推送到电站内网预测系统。
国家基础学科公共科学数据中心 收录
中国行政区划shp数据
中国行政区划数据是重要的基础地理信息数据,目前不同来源的全国行政区划数据非常多,但能够开放获取的高质量行政区域数据少之又少。基于此,锐多宝的地理空间制作一套2013-2023年可开放获取的高质量行政区划数据。该套数据以2022年国家基础地理信息数据中的县区划数据作为矢量基础,辅以高德行政区划数据、天地图行政区划数据,参考历年来民政部公布的行政区划为属性基础,具有时间跨度长、属性丰富、国界准确、更新持续等特性。 中国行政区划数据统计截止时间是2023年2月12日,包含省、市、县、国界、九段线等矢量shp数据。该数据基于2020年行政区划底图,按时间顺序依次制作了2013-2023年初的行政区划数据。截止2023年1月1日,我国共有34个省级单位,分别是4个直辖市、23个省、5个自治区和2个特别行政区。截止2023年1月1日,我国共有333个地级单位,分别是293个地级市、7个地区、30个自治州和3个盟,其中38个矢量要素未纳入统计(比如直辖市北京等、特别行政区澳门等、省直辖县定安县等)。截止2023年1月1日,我国共有2843个县级单位,分别是1301个县、394个县级市、977个市辖区、117个自治县、49个旗、3个自治旗、1个特区和1个林区,其中9个矢量要素未纳入县级类别统计范畴(比如特别行政区香港、无县级单位的地级市中山市东莞市等)。
CnOpenData 收录
Cifar-100
Cifar-100数据集包含100个类别的60000张32x32彩色图像,每个类别有600张图像。这些类别被分为20个超类,每个超类包含5个子类。数据集分为50000张训练图像和10000张测试图像。
www.cs.toronto.edu 收录