Synthesis-Article
收藏魔搭社区2025-12-04 更新2025-02-08 收录
下载链接:
https://modelscope.cn/datasets/prithivMLmods/Synthesis-Article
下载链接
链接失效反馈官方服务:
资源简介:
# **Synthesis-Article Dataset**
## Overview
The **Synthesis-Article** dataset contains scientific article metadata, including titles, abstracts, and categorical labels indicating subject areas such as Computer Science (`cs`), Physics (`phy`), Mathematics (`math`), and Statistics (`stat`).
## Dataset Details
- **Modality:** Tabular, Text
- **Format:** CSV
- **Size:** 10K - 100K rows
- **Libraries Used:** `pandas`, `Datasets`, `Croissant`
- **License:** Apache-2.0
## Dataset Structure
The dataset consists of the following columns:
| Column Name | Type | Description |
|------------|------|-------------|
| `title` | string | Title of the scientific article |
| `abstract` | string | Abstract of the article |
| `cs` | int64 | Binary label indicating if the article belongs to Computer Science (1: Yes, 0: No) |
| `phy` | int64 | Binary label indicating if the article belongs to Physics (1: Yes, 0: No) |
| `math` | int64 | Binary label indicating if the article belongs to Mathematics (1: Yes, 0: No) |
| `stat` | int64 | Binary label indicating if the article belongs to Statistics (1: Yes, 0: No) |
## Dataset Statistics
- **Total Rows:** 29,961
- **Train Split:** ~21K rows
- **Size of CSV:** 32.8 MB
- **Size of Auto-Converted Parquet:** 19.8 MB
## Usage
To load the dataset using `datasets`:
```python
from datasets import load_dataset
dataset = load_dataset("prithivMLmods/Synthesis-Article")
print(dataset)
# **合成文章数据集(Synthesis-Article Dataset)**
## 概述
本**合成文章数据集**收录学术文章的元数据,涵盖文章标题、摘要以及用于标注学科类别的分类标签,涉及计算机科学(Computer Science,缩写`cs`)、物理学(Physics,缩写`phy`)、数学(Mathematics,缩写`math`)与统计学(Statistics,缩写`stat`)等多个学科方向。
## 数据集详情
- **模态(Modality)**:表格数据、文本数据
- **格式(Format)**:CSV格式
- **规模(Size)**:10,000至100,000条数据行
- **所用依赖库(Libraries Used)**:`pandas`、`Datasets`、`Croissant`
- **授权协议(License)**:Apache-2.0
## 数据集结构
本数据集包含以下列:
| 列名 | 数据类型 | 描述 |
|------------|-----------|----------------------------------------------------------------------|
| `title` | 字符串 | 学术文章的标题 |
| `abstract` | 字符串 | 文章的摘要 |
| `cs` | int64 | 二元标签,用于标识该文章是否属于计算机科学领域(1:属于,0:不属于) |
| `phy` | int64 | 二元标签,用于标识该文章是否属于物理学领域(1:属于,0:不属于) |
| `math` | int64 | 二元标签,用于标识该文章是否属于数学领域(1:属于,0:不属于) |
| `stat` | int64 | 二元标签,用于标识该文章是否属于统计学领域(1:属于,0:不属于) |
## 数据集统计信息
- **总数据行数**:29,961
- **训练集划分**:约21,000条数据行
- **CSV文件大小**:32.8 MB
- **自动转换为Parquet格式后的大小**:19.8 MB
## 使用方法
通过`Datasets`库加载该数据集的示例代码如下:
python
from datasets import load_dataset
dataset = load_dataset("prithivMLmods/Synthesis-Article")
print(dataset)
提供机构:
maas
创建时间:
2025-02-05



