Samsung/samsum|对话摘要数据集|自然语言处理数据集
收藏数据集概述
数据集名称: SAMSum Corpus
数据集简介: SAMSum数据集包含约16,000个类似即时通讯的对话及其摘要。这些对话由精通英语的语言学家创建,旨在反映他们日常即时通讯对话的主题比例。对话风格多样,包括非正式、半正式或正式,可能包含俚语、表情符号和拼写错误。随后,这些对话被语言专家标注了摘要,摘要应简洁地概述对话内容,并以第三人称表达。
语言: 英语
许可证: CC BY-NC-ND 4.0(非商业用途)
数据集大小: 数据集总大小为10,530,064字节,下载大小为2,944,100字节。
数据集结构
数据实例: 数据集包含16,369个对话,均匀分布在根据对话中语句数量划分的四个组中:3-6句、7-12句、13-18句和19-30句。大多数对话涉及两个对话者(约占所有对话的75%),其余涉及三个或更多人。
数据字段:
- id: 字符串,唯一标识符。
- dialogue: 字符串,对话文本。
- summary: 字符串,对话的人工摘要。
数据分割:
- 训练集: 14,732个实例。
- 测试集: 819个实例。
- 验证集: 818个实例。
数据集创建
来源数据: 数据由语言学家创建,反映了他们日常即时通讯对话的主题比例,包括闲聊、朋友间的八卦、安排会议、讨论政治、与同事咨询大学作业等。
标注过程: 每个对话由一名语言专家创建,并由另一名语言专家标注摘要。摘要要求简短、提取重要信息、包含对话者姓名并以第三人称书写。
许可证信息: 非商业用途,CC BY-NC-ND 4.0。
引用信息:
@inproceedings{gliwa-etal-2019-samsum, title = "{SAMS}um Corpus: A Human-annotated Dialogue Dataset for Abstractive Summarization", author = "Gliwa, Bogdan and Mochol, Iwona and Biesek, Maciej and Wawer, Aleksander", booktitle = "Proceedings of the 2nd Workshop on New Frontiers in Summarization", month = nov, year = "2019", address = "Hong Kong, China", publisher = "Association for Computational Linguistics", url = "https://www.aclweb.org/anthology/D19-5409", doi = "10.18653/v1/D19-5409", pages = "70--79" }
Google Scholar
Google Scholar是一个学术搜索引擎,旨在检索学术文献、论文、书籍、摘要和文章等。它涵盖了广泛的学科领域,包括自然科学、社会科学、艺术和人文学科。用户可以通过关键词搜索、作者姓名、出版物名称等方式查找相关学术资源。
scholar.google.com 收录
UniProt
UniProt(Universal Protein Resource)是全球公认的蛋白质序列与功能信息权威数据库,由欧洲生物信息学研究所(EBI)、瑞士生物信息学研究所(SIB)和美国蛋白质信息资源中心(PIR)联合运营。该数据库以其广度和深度兼备的蛋白质信息资源闻名,整合了实验验证的高质量数据与大规模预测的自动注释内容,涵盖从分子序列、结构到功能的全面信息。UniProt核心包括注释详尽的UniProtKB知识库(分为人工校验的Swiss-Prot和自动生成的TrEMBL),以及支持高效序列聚类分析的UniRef和全局蛋白质序列归档的UniParc。其卓越的数据质量和多样化的检索工具,为基础研究和药物研发提供了无可替代的支持,成为生物学研究中不可或缺的资源。
www.uniprot.org 收录
AIS数据集
该研究使用了多个公开的AIS数据集,这些数据集经过过滤、清理和统计分析。数据集涵盖了多种类型的船舶,并提供了关于船舶位置、速度和航向的关键信息。数据集包括来自19,185艘船舶的AIS消息,总计约6.4亿条记录。
github 收录
中国气象数据
本数据集包含了中国2023年1月至11月的气象数据,包括日照时间、降雨量、温度、风速等关键数据。通过这些数据,可以深入了解气象现象对不同地区的影响,并通过可视化工具揭示中国的气温分布、降水情况、风速趋势等。
github 收录
NuminaMath-CoT
数据集包含约86万道数学题目,每道题目的解答都采用思维链(Chain of Thought, CoT)格式。数据来源包括中国高中数学练习题以及美国和国际数学奥林匹克竞赛题目。数据主要从在线考试试卷PDF和数学讨论论坛收集。处理步骤包括从原始PDF中进行OCR识别、分割成问题-解答对、翻译成英文、重新对齐以生成CoT推理格式,以及最终答案格式化。
huggingface 收录