spacemanidol/cc-stories|自然语言处理数据集|文本分析数据集

hugging_face2023-05-02 更新2024-03-04 收录

自然语言处理

文本分析

下载链接：

https://hf-mirror.com/datasets/spacemanidol/cc-stories

下载链接

链接失效反馈

加速链接：

金山云加速下载

资源简介：

该数据集是CC-stories数据集的复现版本，原始数据集已从其原始来源移除。复现过程中，通过处理英文的Common Crawl数据，并仅保留与源文档ngram重叠度最高的0.1%的文档。源文档是通过合并PDP-60和WSC273的查询创建的。最终生成的数据集包含2,105,303行和153,176,685个单词。

提供机构：

spacemanidol

原始信息汇总

数据集概述

数据集来源

该数据集是对已从原始来源移除的CC-stories数据集的再现。

数据集创建过程

通过处理英语的Common Crawl，仅保留与源文档ngram重叠度最高的0.1%的文档。
源文档由PDP-60和WSC273的查询合并而成。

数据集规模

包含2,105,303行和153,176,685个单词。

AI搜集汇总

数据集介绍

构建方式

spacemanidol/cc-stories数据集的构建，是通过处理英语常见爬虫（common crawl）数据，选取与源文档在n-gram重叠度上表现最佳的0.1%的文档。该源文档由[PDP-60]和[WSC273]中的查询请求合并而成，保持了原始数据集未提及的去重策略。

特点

该数据集以高质量文本为特色，包含2,105,303行文本和153,176,685个单词。它是从大量文本中精炼而出，确保了文档内容与源文档的高度相关性，适用于对文本质量要求极高的自然语言处理任务。

使用方法

使用spacemanidol/cc-stories数据集，用户可以直接从其提供的资源中获取经过精心筛选的文本数据。该数据集可用于文本分析、自然语言理解等研究领域，用户需根据具体任务需求对数据集进行相应的预处理和格式化操作。

背景与挑战

背景概述

spacemanidol/cc-stories数据集，源于对英语常见爬虫数据的再加工，旨在响应自然语言处理领域中对复杂语境理解的需求。该数据集的创建，可追溯至对PDP-60与WSC273查询集合的深度挖掘，由相关研究人员精心筛选出与其ngram重叠度最高的0.1%文档，以此构建而成。自诞生以来，该数据集为理解型任务的研究提供了重要资源，对推动自然语言处理技术的发展起到了关键作用。

当前挑战

在数据集构建过程中，研究者面临了如何从海量的爬虫数据中高效筛选出高质量文档的挑战。此外，数据集在处理过程中，如何保持原数据的完整性与独特性，避免重复查询的困扰，也是构建过程中的一大挑战。在所解决的领域问题方面，cc-stories数据集的挑战在于，它不仅要提供足够的文本信息以供模型学习，还需确保文本的复杂性与多样性，以适应对高级语言理解能力的需求。

常用场景

经典使用场景

在自然语言处理领域，spacemanidol/cc-stories数据集的典型应用场景在于文本相似度度量、语义解析和问答系统等研究。该数据集通过精心筛选，保留了与源文档在n-gram重叠度上表现优异的文本，使得研究者可以专注于具有高度语义相关性的文本材料，从而提高实验的准确性和效率。

实际应用

在实际应用中，spacemanidol/cc-stories数据集被广泛应用于搜索引擎优化、机器翻译质量评估和文本分类等领域。其高质量的文本数据为算法提供了有效的训练和测试材料，进而提升了相关应用的服务质量和用户体验。

衍生相关工作

基于spacemanidol/cc-stories数据集的研究成果，衍生出了诸多经典工作，如Winograd schemas挑战中的问题解析和自然语言推理任务，以及在此基础上发展的各种文本理解和推理模型，这些工作进一步推动了自然语言处理领域的研究进展和技术突破。

以上内容由AI搜集并总结生成

用户留言

有没有相关的论文或文献参考？

这个数据集是基于什么背景创建的？

数据集的作者是谁？

能帮我联系到这个数据集的作者吗？

这个数据集如何下载？

点击留言

数据主题

具身智能

数据集 4099个

机构 8个

大模型

数据集 439个

机构 10个

无人机

数据集 37个

机构 6个

指令微调

数据集 36个

机构 6个

蛋白质结构

数据集 50个

机构 8个

空间智能

数据集 21个

机构 5个

5,000+

优质数据集

54 个

任务类型

进入经典数据集

热门数据集

中国劳动力动态调查

“中国劳动力动态调查” （China Labor-force Dynamics Survey，简称 CLDS）是“985”三期“中山大学社会科学特色数据库建设”专项内容，CLDS的目的是通过对中国城乡以村/居为追踪范围的家庭、劳动力个体开展每两年一次的动态追踪调查，系统地监测村/居社区的社会结构和家庭、劳动力个体的变化与相互影响，建立劳动力、家庭和社区三个层次上的追踪数据库，从而为进行实证导向的高质量的理论研究和政策研究提供基础数据。

中国学术调查数据资料库收录

ShapeNet

ShapeNet 是由斯坦福大学、普林斯顿大学和美国芝加哥丰田技术研究所的研究人员开发的大型 3D CAD 模型存储库。该存储库包含超过 3 亿个模型，其中 220,000 个模型被分类为使用 WordNet 上位词-下位词关系排列的 3,135 个类。 ShapeNet Parts 子集包含 31,693 个网格，分为 16 个常见对象类（即桌子、椅子、平面等）。每个形状基本事实包含 2-5 个部分（总共 50 个部分类）。

OpenDataLab 收录

Pima Indians Diabetes Database

该项目使用的数据集是Pima Indians Diabetes Database，来源于UCI机器学习库。该数据集包含多个医学预测变量和一个目标变量，即Outcome，用于指示患者是否患有糖尿病（1）或未患（0）。

github 收录

China Family Panel Studies (CFPS)

Please visit CFPS official data platform to download the newest data, WeChat official account of CFPS: ISSS_CFPS. The CFPS 2010 baseline survey conducted face-to-face interviews with the sampled households’ family members who live in the sample communities. It also interviewed those family members who were elsewhere in the same county. For those who were not present at home at the time of interview, basic information was collected from their family members at presence. All family members who had blood/marital/adoptive ties with the household were identified as permanent respondents. Prospective family members including new-borns and adopted children.

DataCite Commons 收录

ner_training_stanza

该数据集包含文本数据及其相应的命名实体识别信息。文本被分词，并且命名实体识别信息既包括词级别也包括字符级别。数据集分为训练集、验证集和测试集，适用于进一步的自然语言处理任务。

huggingface 收录