AlgorithmicResearchGroup/s2orc-cs-enriched

Name: AlgorithmicResearchGroup/s2orc-cs-enriched
Creator: AlgorithmicResearchGroup
Published: 2026-04-11 22:42:34
License: 暂无描述

Hugging Face2026-04-11 更新2026-03-29 收录

下载链接：

https://hf-mirror.com/datasets/AlgorithmicResearchGroup/s2orc-cs-enriched

下载链接

链接失效反馈

官方服务：

资源简介：

--- pretty_name: S2ORC CS Enriched size_categories: - 1M<n<10M task_categories: - text-classification - summarization language: - en tags: - s2orc - computer-science - scientific-papers - llm-enriched --- # S2ORC CS Enriched A Computer Science subset of the [Semantic Scholar Open Research Corpus (S2ORC)](https://github.com/allenai/s2orc) enriched with LLM-generated structured metadata. Contains 1.1 million CS papers with extracted methods, models, datasets, metrics, compute estimates, and summaries. ## Dataset Summary | Statistic | Value | |-----------|-------| | Total papers | 1,117,706 | | Total size | 54.7 GB | | Parquet files | 1,118 | | Split | `train` | ## Dataset Structure ### Base Columns **Content**: `parsed_title`, `abstract`, `text`, `sections`, `figures`, `references` **Authors & Dates**: `parsed_authors`, `metadata_authors`, `publicationdate`, `year` **Identifiers**: `corpus_id`, `DOI`, `ArxIv`, `DBLP`, `ACL`, `CorpusId`, `PubMed`, `PubMedCentral`, `MAG` **Publication Info**: `venue`, `journal`, `volume`, `pages`, `publicationtypes`, `publicationvenueid` **Citations**: `citationcount`, `influentialcitationcount`, `referencecount` **Open Access**: `isopenaccess`, `license`, `open_access_url`, `open_access_status`, `pdf_urls`, `pdf_sha` **Classification**: `fieldofstudy_source`, `fieldofstudy_category` (all `Computer Science`) ### LLM Enrichment Columns | Field | Description | |-------|-------------| | `summary` | Paper summary | | `classification` | Paper classification (255 categories) | | `methods` | Methods used | | `results` | Key results | | `models` | Models referenced | | `datasets` | Datasets used | | `metrics` | Evaluation metrics | | `limitations` | Stated limitations | | `explicit_gpu_hours` | GPU hours reported in the paper | | `estimated_gpu_hours` | Estimated GPU hours | | `number_gpu` | Number of GPUs used | | `gpu_type` | GPU hardware type | | `training_details` | Training configuration details | | `reasoning` | Reasoning for compute estimates | ## Usage ```python from datasets import load_dataset # stream to avoid downloading 54.7GB ds = load_dataset("AlgorithmicResearchGroup/s2orc-cs-enriched", streaming=True, split="train") for paper in ds: print(paper["parsed_title"]) print(f"Methods: {paper['methods']}") print(f"GPU hours: {paper['estimated_gpu_hours']}") break ``` ## Related Resources - [S2ORC ArXiv](https://huggingface.co/datasets/AlgorithmicResearchGroup/s2orc_arxiv) - Full ArXiv subset of S2ORC - [Algorithmic Research Group - Open Source](https://algorithmicresearchgroup.com/opensource.html) ## Citation ```bibtex @misc{s2orc_cs_enriched, title={S2ORC CS Enriched}, author={Algorithmic Research Group}, year={2024}, publisher={Hugging Face}, url={https://huggingface.co/datasets/AlgorithmicResearchGroup/s2orc-cs-enriched} } ```

提供机构：

AlgorithmicResearchGroup

5,000+

优质数据集

54 个

任务类型

进入经典数据集