Samsung/samsum|对话摘要数据集|自然语言处理数据集
收藏数据集概述
数据集名称: SAMSum Corpus
数据集简介: SAMSum数据集包含约16,000个类似即时通讯的对话及其摘要。这些对话由精通英语的语言学家创建,旨在反映他们日常即时通讯对话的主题比例。对话风格多样,包括非正式、半正式或正式,可能包含俚语、表情符号和拼写错误。随后,这些对话被语言专家标注了摘要,摘要应简洁地概述对话内容,并以第三人称表达。
语言: 英语
许可证: CC BY-NC-ND 4.0(非商业用途)
数据集大小: 数据集总大小为10,530,064字节,下载大小为2,944,100字节。
数据集结构
数据实例: 数据集包含16,369个对话,均匀分布在根据对话中语句数量划分的四个组中:3-6句、7-12句、13-18句和19-30句。大多数对话涉及两个对话者(约占所有对话的75%),其余涉及三个或更多人。
数据字段:
- id: 字符串,唯一标识符。
- dialogue: 字符串,对话文本。
- summary: 字符串,对话的人工摘要。
数据分割:
- 训练集: 14,732个实例。
- 测试集: 819个实例。
- 验证集: 818个实例。
数据集创建
来源数据: 数据由语言学家创建,反映了他们日常即时通讯对话的主题比例,包括闲聊、朋友间的八卦、安排会议、讨论政治、与同事咨询大学作业等。
标注过程: 每个对话由一名语言专家创建,并由另一名语言专家标注摘要。摘要要求简短、提取重要信息、包含对话者姓名并以第三人称书写。
许可证信息: 非商业用途,CC BY-NC-ND 4.0。
引用信息:
@inproceedings{gliwa-etal-2019-samsum, title = "{SAMS}um Corpus: A Human-annotated Dialogue Dataset for Abstractive Summarization", author = "Gliwa, Bogdan and Mochol, Iwona and Biesek, Maciej and Wawer, Aleksander", booktitle = "Proceedings of the 2nd Workshop on New Frontiers in Summarization", month = nov, year = "2019", address = "Hong Kong, China", publisher = "Association for Computational Linguistics", url = "https://www.aclweb.org/anthology/D19-5409", doi = "10.18653/v1/D19-5409", pages = "70--79" }
中国1km分辨率逐月降水量数据集(1901-2024)
该数据集为中国逐月降水量数据,空间分辨率为0.0083333°(约1km),时间为1901.1-2024.12。数据格式为NETCDF,即.nc格式。该数据集是根据CRU发布的全球0.5°气候数据集以及WorldClim发布的全球高分辨率气候数据集,通过Delta空间降尺度方案在中国降尺度生成的。并且,使用496个独立气象观测点数据进行验证,验证结果可信。本数据集包含的地理空间范围是全国主要陆地(包含港澳台地区),不含南海岛礁等区域。为了便于存储,数据均为int16型存于nc文件中,降水单位为0.1mm。 nc数据可使用ArcMAP软件打开制图; 并可用Matlab软件进行提取处理,Matlab发布了读入与存储nc文件的函数,读取函数为ncread,切换到nc文件存储文件夹,语句表达为:ncread (‘XXX.nc’,‘var’, [i j t],[leni lenj lent]),其中XXX.nc为文件名,为字符串需要’’;var是从XXX.nc中读取的变量名,为字符串需要’’;i、j、t分别为读取数据的起始行、列、时间,leni、lenj、lent i分别为在行、列、时间维度上读取的长度。这样,研究区内任何地区、任何时间段均可用此函数读取。Matlab的help里面有很多关于nc数据的命令,可查看。数据坐标系统建议使用WGS84。
国家青藏高原科学数据中心 收录
Wind Turbine Data
该数据集包含风力涡轮机的运行数据,包括风速、风向、发电量等参数。数据记录了多个风力涡轮机在不同时间点的运行状态,适用于风能研究和风力发电系统的优化分析。
www.kaggle.com 收录
中国区域交通网络数据集
该数据集包含中国各区域的交通网络信息,包括道路、铁路、航空和水路等多种交通方式的网络结构和连接关系。数据集详细记录了各交通节点的位置、交通线路的类型、长度、容量以及相关的交通流量信息。
data.stats.gov.cn 收录
MVII_metal_datasets
我们发布了两个带有实例级像素注释的金属表面缺陷数据集:Casting Billet和Steel Pipe。Casting Billet数据集包含1,060张图像(780张有缺陷),分辨率从96×106到3,228×492不等,缺陷类型包括划痕、焊渣、切割开口、水渣痕迹、渣皮和纵向裂纹。Steel Pipe数据集包含1,227张图像(554张有缺陷),固定分辨率为728×544,缺陷类型包括弯曲、外部折叠、皱纹和划痕。
github 收录
N-Caltech 101 (Neuromorphic-Caltech101)
The Neuromorphic-Caltech101 (N-Caltech101) dataset is a spiking version of the original frame-based Caltech101 dataset. The original dataset contained both a "Faces" and "Faces Easy" class, with each consisting of different versions of the same images. The "Faces" class has been removed from N-Caltech101 to avoid confusion, leaving 100 object classes plus a background class. The N-Caltech101 dataset was captured by mounting the ATIS sensor on a motorized pan-tilt unit and having the sensor move while it views Caltech101 examples on an LCD monitor as shown in the video below. A full description of the dataset and how it was created can be found in the paper below. Please cite this paper if you make use of the dataset.
Papers with Code 收录