five

Content-Articles

收藏
魔搭社区2025-11-01 更新2025-01-25 收录
下载链接:
https://modelscope.cn/datasets/prithivMLmods/Content-Articles
下载链接
链接失效反馈
官方服务:
资源简介:
# Content-Articles Dataset ## Overview The Content-Articles dataset is a collection of academic articles and research papers across various subjects, including Computer Science, Physics, and Mathematics. This dataset is designed to facilitate research and analysis in these fields by providing structured data on article titles, abstracts, and subject classifications. ## Dataset Details ### Modalities - **Tabular**: The dataset is structured in a tabular format. - **Text**: Contains text data, including article titles and abstracts. ### Formats - **CSV**: The dataset is available in CSV format. ### Size - The dataset contains between 10,000 to 100,000 entries. ### Libraries - **Datasets**: The dataset is compatible with the Hugging Face Datasets library. - **Pandas**: Can be easily loaded and manipulated using Pandas. - **Croissant**: Additional support for Croissant format. ## Dataset Structure ### Columns - **TITLE**: The title of the article. - **ABSTRACT**: The abstract of the article. - **Computer Science**: Binary indicator (1 or 0) for articles related to Computer Science. - **Physics**: Binary indicator (1 or 0) for articles related to Physics. - **Mathematics**: Binary indicator (1 or 0) for articles related to Mathematics. ### Splits - **train**: Contains 21,000 rows of training data. ## Usage ### Loading the Dataset You can load the dataset using the Hugging Face Datasets library: ```python from datasets import load_dataset dataset = load_dataset("prithivMLmods/Content-Articles") ``` ### Example Here’s an example of how to access the data: ```python import pandas as pd # Load the dataset dataset = load_dataset("prithivMLmods/Content-Articles") # Convert to Pandas DataFrame df = pd.DataFrame(dataset['train']) # Display the first few rows print(df.head()) ```

# 内容文章数据集(Content-Articles Dataset) ## 概述 本数据集是涵盖计算机科学(Computer Science)、物理学(Physics)、数学(Mathematics)等多学科的学术文章与研究论文合集。本数据集旨在通过提供结构化的文章标题、摘要及主题分类数据,助力上述领域的研究与分析工作。 ## 数据集详情 ### 数据模态 - **表格型(Tabular)**:本数据集采用表格结构化格式组织。 - **文本型(Text)**:包含文章标题与摘要等文本数据。 ### 数据格式 - **CSV**:数据集以CSV格式提供。 ### 数据规模 - 数据集包含10000至100000条数据条目。 ### 兼容库 - **Datasets**:兼容Hugging Face Datasets库。 - **Pandas**:可通过Pandas库轻松加载并处理数据。 - **Croissant**:额外支持Croissant格式。 ## 数据集结构 ### 数据列 - **TITLE**:对应文章的标题。 - **ABSTRACT**:对应文章的摘要。 - **Computer Science(计算机科学)**:用于标记文章是否属于计算机科学领域的二元指标(取值为1或0)。 - **Physics(物理学)**:用于标记文章是否属于物理学领域的二元指标(取值为1或0)。 - **Mathematics(数学)**:用于标记文章是否属于数学领域的二元指标(取值为1或0)。 ### 数据划分 - **训练集(train)**:包含21000条训练数据样本。 ## 使用方法 ### 数据集加载 您可通过Hugging Face Datasets库加载本数据集: python from datasets import load_dataset dataset = load_dataset("prithivMLmods/Content-Articles") ### 使用示例 以下为访问该数据集的示例代码: python import pandas as pd # 加载数据集 dataset = load_dataset("prithivMLmods/Content-Articles") # 转换为Pandas DataFrame df = pd.DataFrame(dataset['train']) # 展示前几行数据 print(df.head())
提供机构:
maas
创建时间:
2025-01-19
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作