five

spacemanidol/cc-stories|自然语言处理数据集|文本分析数据集

收藏
hugging_face2023-05-02 更新2024-03-04 收录
自然语言处理
文本分析
下载链接:
https://hf-mirror.com/datasets/spacemanidol/cc-stories
下载链接
链接失效反馈
资源简介:
该数据集是CC-stories数据集的复现版本,原始数据集已从其原始来源移除。复现过程中,通过处理英文的Common Crawl数据,并仅保留与源文档ngram重叠度最高的0.1%的文档。源文档是通过合并PDP-60和WSC273的查询创建的。最终生成的数据集包含2,105,303行和153,176,685个单词。
提供机构:
spacemanidol
原始信息汇总

数据集概述

数据集来源

  • 该数据集是对已从原始来源移除的CC-stories数据集的再现。

数据集创建过程

  • 通过处理英语的Common Crawl,仅保留与源文档ngram重叠度最高的0.1%的文档。
  • 源文档由PDP-60WSC273的查询合并而成。

数据集规模

  • 包含2,105,303行和153,176,685个单词。
AI搜集汇总
数据集介绍
main_image_url
构建方式
spacemanidol/cc-stories数据集的构建,是通过处理英语常见爬虫(common crawl)数据,选取与源文档在n-gram重叠度上表现最佳的0.1%的文档。该源文档由[PDP-60]和[WSC273]中的查询请求合并而成,保持了原始数据集未提及的去重策略。
特点
该数据集以高质量文本为特色,包含2,105,303行文本和153,176,685个单词。它是从大量文本中精炼而出,确保了文档内容与源文档的高度相关性,适用于对文本质量要求极高的自然语言处理任务。
使用方法
使用spacemanidol/cc-stories数据集,用户可以直接从其提供的资源中获取经过精心筛选的文本数据。该数据集可用于文本分析、自然语言理解等研究领域,用户需根据具体任务需求对数据集进行相应的预处理和格式化操作。
背景与挑战
背景概述
spacemanidol/cc-stories数据集,源于对英语常见爬虫数据的再加工,旨在响应自然语言处理领域中对复杂语境理解的需求。该数据集的创建,可追溯至对PDP-60与WSC273查询集合的深度挖掘,由相关研究人员精心筛选出与其ngram重叠度最高的0.1%文档,以此构建而成。自诞生以来,该数据集为理解型任务的研究提供了重要资源,对推动自然语言处理技术的发展起到了关键作用。
当前挑战
在数据集构建过程中,研究者面临了如何从海量的爬虫数据中高效筛选出高质量文档的挑战。此外,数据集在处理过程中,如何保持原数据的完整性与独特性,避免重复查询的困扰,也是构建过程中的一大挑战。在所解决的领域问题方面,cc-stories数据集的挑战在于,它不仅要提供足够的文本信息以供模型学习,还需确保文本的复杂性与多样性,以适应对高级语言理解能力的需求。
常用场景
经典使用场景
在自然语言处理领域,spacemanidol/cc-stories数据集的典型应用场景在于文本相似度度量、语义解析和问答系统等研究。该数据集通过精心筛选,保留了与源文档在n-gram重叠度上表现优异的文本,使得研究者可以专注于具有高度语义相关性的文本材料,从而提高实验的准确性和效率。
实际应用
在实际应用中,spacemanidol/cc-stories数据集被广泛应用于搜索引擎优化、机器翻译质量评估和文本分类等领域。其高质量的文本数据为算法提供了有效的训练和测试材料,进而提升了相关应用的服务质量和用户体验。
衍生相关工作
基于spacemanidol/cc-stories数据集的研究成果,衍生出了诸多经典工作,如Winograd schemas挑战中的问题解析和自然语言推理任务,以及在此基础上发展的各种文本理解和推理模型,这些工作进一步推动了自然语言处理领域的研究进展和技术突破。
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

lmarena-ai/arena-hard-auto-v0.1

--- license: apache-2.0 dataset_info: features: - name: question_id dtype: string - name: category dtype: string - name: cluster dtype: string - name: turns list: - name: content dtype: string splits: - name: train num_bytes: 251691 num_examples: 500 download_size: 154022 dataset_size: 251691 configs: - config_name: default data_files: - split: train path: data/train-* --- ## Arena-Hard-Auto **Arena-Hard-Auto-v0.1** ([See Paper](https://arxiv.org/abs/2406.11939)) is an automatic evaluation tool for instruction-tuned LLMs. It contains 500 challenging user queries sourced from Chatbot Arena. We prompt GPT-4-Turbo as judge to compare the models' responses against a baseline model (default: GPT-4-0314). Notably, Arena-Hard-Auto has the highest *correlation* and *separability* to Chatbot Arena among popular open-ended LLM benchmarks ([See Paper](https://arxiv.org/abs/2406.11939)). If you are curious to see how well your model might perform on Chatbot Arena, we recommend trying Arena-Hard-Auto. Please checkout our GitHub repo on how to evaluate models using Arena-Hard-Auto and more information about the benchmark. If you find this dataset useful, feel free to cite us! ``` @article{li2024crowdsourced, title={From Crowdsourced Data to High-Quality Benchmarks: Arena-Hard and BenchBuilder Pipeline}, author={Li, Tianle and Chiang, Wei-Lin and Frick, Evan and Dunlap, Lisa and Wu, Tianhao and Zhu, Banghua and Gonzalez, Joseph E and Stoica, Ion}, journal={arXiv preprint arXiv:2406.11939}, year={2024} } ```

hugging_face 收录

SHHS Sleep Heart Health Study Dataset

SHHS(Sleep Heart Health Study)数据集是一个大型多中心研究项目,旨在研究睡眠障碍与心血管疾病之间的关系。数据集包括了参与者的睡眠记录、心血管健康指标、生活习惯、遗传信息等多方面的数据。

sleepdata.org 收录

MoPho-Det

用于从监控视角检测手机使用行为的数据集。包含22,879张图像和39,534个标注,其中头部标注29,279个,手机标注10,255个,扩展分类任务标注4,079个。数据集经过清洗和校正,具有高质量的头部标注,适用于精确检测用户手机行为和支持基于距离的难样本挖掘。

github 收录

ECMWF Reanalysis v5 (ERA5)

ERA5 是第五代 ECMWF 全球气候大气再分析,涵盖从 1940 年 1 月至今的时期。ERA5 由 ECMWF 的哥白尼气候变化服务 (C3S) 制作。 ERA5 提供大量大气、陆地和海洋气候变量的每小时估计值。这些数据以 30 公里的网格覆盖地球,并使用从地表到 80 公里高度的 137 个级别解析大气。ERA5 包括有关所有变量在降低空间和时间分辨率下的不确定性的信息。

OpenDataLab 收录

WorldClim

WorldClim is a website that contains a database of high spatial resolution global weather and climate data. This data can be used for mapping and spatial modeling. The data is provided for use in research and related activities. The website contains three types of data. First, ""historical climate data (WorldClim version 2.1)"" contains 19 “bioclimatic” variables related to temperature, precipitation, solar radiation, wind speed, and water vapor pressure. These data are available for 1970-2000 period at a spatial scale of ~1 km2 (30 seconds) gridded area. These data are constructed from multiple data sources. Second, the “Historical monthly weather data” contains historical monthly weather data for 1960-2018. These data are downscaled from CRU-TS-4.06 by the Climatic Research Unit, University of East Anglia, using WorldClim 2.1 for bias correction. The variables available are average minimum temperature (°C), average maximum temperature (°C) and total precipitation (mm). The lowest spatial resolution at which the data is available is 2.5 minutes (~21 km2 at the equator). Third, “Future climate data” contains CMIP6 downscaled future climate projections. The downscaling and calibration (bias correction) was done with WorldClim v2.1 as baseline climate. Monthly values of minimum temperature, maximum temperature, and precipitation were processed for 23 global climate models (GCMs), and for four Shared Socio-economic Pathways (SSPs): 126, 245, 370 and 585. The monthly values were averages over 20 year periods (2021-2040, 241-2060, 2061-2080, 2081-2100). The lowest spatial resolutions at which the data is available is 30 seconds.

DataCite Commons 收录