NEWSFARM|新闻摘要数据集|中文语料库数据集
收藏数据集概述
数据集名称
- NEWSFARM
数据集描述
- NEWSFARM 是一个大规模的中文长新闻摘要语料库,包含超过220,000篇中文长新闻及其由专业编辑或作者撰写的摘要。
数据集特点
- 数据量:包含224,480篇文档。
- 数据划分:分为训练集(185,125篇)、验证集(18,123篇)和测试集(21,232篇)。
- 文档平均长度:2,228.22个中文字符,摘要平均长度为198.42个中文字符。
- 压缩比:0.91(字/句)。
数据集比较
- 与其他数据集的比较:
- 与LCSTS和CNN/DM相比,NEWSFARM在文档数量和平均长度上均显示出优势。
- 在ROUGE(F1)评分上,NEWSFARM的多个模型表现优于CNN/DM。
数据集下载
- 下载链接:数据集下载
- 密码:iie1
引用信息
-
引用格式:
@inproceedings{DBLP:conf/icpr/ZangZLCZL22, author = {Shunan Zang and Chuang Zhang and Xiaojun Liu and Xiaojun Chen and Peng Zhang and Jie Liu}, title = {{NEWSFARM:} {A} Large-Scale Chinese Corpus of Long News Summarization}, booktitle = {26th International Conference on Pattern Recognition, {ICPR} 2022, Montreal, QC, Canada, August 21-25, 2022}, pages = {2260--2272}, publisher = {{IEEE}}, year = {2022}, url = {https://doi.org/10.1109/ICPR56361.2022.9956691}, doi = {10.1109/ICPR56361.2022.9956691}, }

UAVDT
UAVDT数据集由中国科学院大学等机构创建,包含约80,000帧从10小时无人机拍摄视频中精选的图像,覆盖多种复杂城市环境。数据集主要关注车辆目标,每帧均标注了边界框及多达14种属性,如天气条件、飞行高度、相机视角等。该数据集旨在推动无人机视觉技术在不受限制场景下的研究,解决高密度、小目标、相机运动等挑战,适用于物体检测、单目标跟踪和多目标跟踪等基础视觉任务。
arXiv 收录
GHCN
GHCN(Global Historical Climatology Network)是一个全球历史气候网络数据集,包含了全球各地气象站记录的每日气象数据,如温度、降水、风速等。该数据集用于研究气候变化和天气模式。
www.ncei.noaa.gov 收录
中国地质调查局: 全国1∶200 000区域水文地质图空间数据库
全国1∶200 000区域水文地质图空间数据库以建国后在全国范围内(本次未在香港特别行政区、澳门特别行政区和台湾省开展工作) 30个省开展的1∶200 000区域水文地质普查工作所取得的区域水文地质普查报告、综合水文地质图等地质资料为数据源,在制定的“1∶200 000区域水文地质图空间数据库图层及属性文件格式标准”的基础上,建成了一个全国性的、大型的区域水文地质学空间数据库。该数据库总共采集、处理了全国范围内1∶200 000图幅的<number>1 017</number>幅全要素综合水文地质图信息,全部数据量约50 GB。数据库涵盖了以1∶200 000国际标准图幅为管理单位的水文地质要素空间数据图层,内容包括:地理要素(交通层、水系层、行政区划层等),基础地质要素(地层分区层、断裂构造层),水文地质要素(地下水类型层、地下水富水性层、地下水迳流模数层,地下水水质层、水文地质特征层、地下水利用规划层),专题要素(综合水文地质柱状图,水文地质剖面图) 四大类近30个要素图层。空间数据库主要采用MapGIS地理信息系统格式存储,形成了目前国内覆盖范围最广、包含信息最完整的区域水文地质图空间数据库成果,是地质领域全国性最重要的基础信息资源之一。
DataCite Commons 收录
ShapeNet
ShapeNet 是由斯坦福大学、普林斯顿大学和美国芝加哥丰田技术研究所的研究人员开发的大型 3D CAD 模型存储库。该存储库包含超过 3 亿个模型,其中 220,000 个模型被分类为使用 WordNet 上位词-下位词关系排列的 3,135 个类。 ShapeNet Parts 子集包含 31,693 个网格,分为 16 个常见对象类(即桌子、椅子、平面等)。每个形状基本事实包含 2-5 个部分(总共 50 个部分类)。
OpenDataLab 收录
FER2013
FER2013数据集是一个广泛用于面部表情识别领域的数据集,包含28,709个训练样本和7,178个测试样本。图像属性为48x48像素,标签包括愤怒、厌恶、恐惧、快乐、悲伤、惊讶和中性。
github 收录