five

spacemanidol/cc-stories|自然语言处理数据集|文本分析数据集

收藏
hugging_face2023-05-02 更新2024-03-04 收录
自然语言处理
文本分析
下载链接:
https://hf-mirror.com/datasets/spacemanidol/cc-stories
下载链接
链接失效反馈
资源简介:
该数据集是CC-stories数据集的复现版本,原始数据集已从其原始来源移除。复现过程中,通过处理英文的Common Crawl数据,并仅保留与源文档ngram重叠度最高的0.1%的文档。源文档是通过合并PDP-60和WSC273的查询创建的。最终生成的数据集包含2,105,303行和153,176,685个单词。
提供机构:
spacemanidol
原始信息汇总

数据集概述

数据集来源

  • 该数据集是对已从原始来源移除的CC-stories数据集的再现。

数据集创建过程

  • 通过处理英语的Common Crawl,仅保留与源文档ngram重叠度最高的0.1%的文档。
  • 源文档由PDP-60WSC273的查询合并而成。

数据集规模

  • 包含2,105,303行和153,176,685个单词。
AI搜集汇总
数据集介绍
main_image_url
构建方式
spacemanidol/cc-stories数据集的构建,是通过处理英语常见爬虫(common crawl)数据,选取与源文档在n-gram重叠度上表现最佳的0.1%的文档。该源文档由[PDP-60]和[WSC273]中的查询请求合并而成,保持了原始数据集未提及的去重策略。
特点
该数据集以高质量文本为特色,包含2,105,303行文本和153,176,685个单词。它是从大量文本中精炼而出,确保了文档内容与源文档的高度相关性,适用于对文本质量要求极高的自然语言处理任务。
使用方法
使用spacemanidol/cc-stories数据集,用户可以直接从其提供的资源中获取经过精心筛选的文本数据。该数据集可用于文本分析、自然语言理解等研究领域,用户需根据具体任务需求对数据集进行相应的预处理和格式化操作。
背景与挑战
背景概述
spacemanidol/cc-stories数据集,源于对英语常见爬虫数据的再加工,旨在响应自然语言处理领域中对复杂语境理解的需求。该数据集的创建,可追溯至对PDP-60与WSC273查询集合的深度挖掘,由相关研究人员精心筛选出与其ngram重叠度最高的0.1%文档,以此构建而成。自诞生以来,该数据集为理解型任务的研究提供了重要资源,对推动自然语言处理技术的发展起到了关键作用。
当前挑战
在数据集构建过程中,研究者面临了如何从海量的爬虫数据中高效筛选出高质量文档的挑战。此外,数据集在处理过程中,如何保持原数据的完整性与独特性,避免重复查询的困扰,也是构建过程中的一大挑战。在所解决的领域问题方面,cc-stories数据集的挑战在于,它不仅要提供足够的文本信息以供模型学习,还需确保文本的复杂性与多样性,以适应对高级语言理解能力的需求。
常用场景
经典使用场景
在自然语言处理领域,spacemanidol/cc-stories数据集的典型应用场景在于文本相似度度量、语义解析和问答系统等研究。该数据集通过精心筛选,保留了与源文档在n-gram重叠度上表现优异的文本,使得研究者可以专注于具有高度语义相关性的文本材料,从而提高实验的准确性和效率。
实际应用
在实际应用中,spacemanidol/cc-stories数据集被广泛应用于搜索引擎优化、机器翻译质量评估和文本分类等领域。其高质量的文本数据为算法提供了有效的训练和测试材料,进而提升了相关应用的服务质量和用户体验。
衍生相关工作
基于spacemanidol/cc-stories数据集的研究成果,衍生出了诸多经典工作,如Winograd schemas挑战中的问题解析和自然语言推理任务,以及在此基础上发展的各种文本理解和推理模型,这些工作进一步推动了自然语言处理领域的研究进展和技术突破。
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

中国气象数据

本数据集包含了中国2023年1月至11月的气象数据,包括日照时间、降雨量、温度、风速等关键数据。通过这些数据,可以深入了解气象现象对不同地区的影响,并通过可视化工具揭示中国的气温分布、降水情况、风速趋势等。

github 收录

长江干流实时水位观测数据集(2024年)

该数据集为长江干流主要水文站实时水位观测数据集,包含了汉口、户口、九江、宜昌等16个水文站点的逐小时或逐日水位观测数据。 该数据集包含3个excel表格文件,长江干流站点.xls,逐日水位.xlsx,逐小时水位.xlsx。

国家地球系统科学数据中心 收录

数据堂—103,282张驾驶员行为标注数据

103,282张驾驶员行为标注数据涵盖多年龄段、多时间段、多种行为(危险驾驶行为、疲劳驾驶行为、视线偏移行为)。在标注方面,对人脸72关键点(包括瞳孔)、人脸属性、手势检测框、安全带检测框、瞳孔关键点、行为类别进行标注。本套驾驶员行为标注数据可用于驾驶员行为分析等任务

魔搭社区 收录

Wind Turbine Data

该数据集包含风力涡轮机的运行数据,包括风速、风向、发电量等参数。数据记录了多个风力涡轮机在不同时间点的运行状态,适用于风能研究和风力发电系统的优化分析。

www.kaggle.com 收录

CAP-DATA

CAP-DATA数据集由长安大学交通学院的研究团队创建,包含11,727个交通事故视频,总计超过2.19百万帧。该数据集不仅标注了事故发生的时间窗口,还提供了详细的文本描述,包括事故前的实际情况、事故类别、事故原因和预防建议。数据集的创建旨在通过结合视觉和文本信息,提高交通事故预测的准确性和解释性,从而支持更安全的驾驶决策系统。

arXiv 收录