five

Synthesis-Article

收藏
魔搭社区2025-12-04 更新2025-02-08 收录
下载链接:
https://modelscope.cn/datasets/prithivMLmods/Synthesis-Article
下载链接
链接失效反馈
官方服务:
资源简介:
# **Synthesis-Article Dataset** ## Overview The **Synthesis-Article** dataset contains scientific article metadata, including titles, abstracts, and categorical labels indicating subject areas such as Computer Science (`cs`), Physics (`phy`), Mathematics (`math`), and Statistics (`stat`). ## Dataset Details - **Modality:** Tabular, Text - **Format:** CSV - **Size:** 10K - 100K rows - **Libraries Used:** `pandas`, `Datasets`, `Croissant` - **License:** Apache-2.0 ## Dataset Structure The dataset consists of the following columns: | Column Name | Type | Description | |------------|------|-------------| | `title` | string | Title of the scientific article | | `abstract` | string | Abstract of the article | | `cs` | int64 | Binary label indicating if the article belongs to Computer Science (1: Yes, 0: No) | | `phy` | int64 | Binary label indicating if the article belongs to Physics (1: Yes, 0: No) | | `math` | int64 | Binary label indicating if the article belongs to Mathematics (1: Yes, 0: No) | | `stat` | int64 | Binary label indicating if the article belongs to Statistics (1: Yes, 0: No) | ## Dataset Statistics - **Total Rows:** 29,961 - **Train Split:** ~21K rows - **Size of CSV:** 32.8 MB - **Size of Auto-Converted Parquet:** 19.8 MB ## Usage To load the dataset using `datasets`: ```python from datasets import load_dataset dataset = load_dataset("prithivMLmods/Synthesis-Article") print(dataset)

# **合成文章数据集(Synthesis-Article Dataset)** ## 概述 本**合成文章数据集**收录学术文章的元数据,涵盖文章标题、摘要以及用于标注学科类别的分类标签,涉及计算机科学(Computer Science,缩写`cs`)、物理学(Physics,缩写`phy`)、数学(Mathematics,缩写`math`)与统计学(Statistics,缩写`stat`)等多个学科方向。 ## 数据集详情 - **模态(Modality)**:表格数据、文本数据 - **格式(Format)**:CSV格式 - **规模(Size)**:10,000至100,000条数据行 - **所用依赖库(Libraries Used)**:`pandas`、`Datasets`、`Croissant` - **授权协议(License)**:Apache-2.0 ## 数据集结构 本数据集包含以下列: | 列名 | 数据类型 | 描述 | |------------|-----------|----------------------------------------------------------------------| | `title` | 字符串 | 学术文章的标题 | | `abstract` | 字符串 | 文章的摘要 | | `cs` | int64 | 二元标签,用于标识该文章是否属于计算机科学领域(1:属于,0:不属于) | | `phy` | int64 | 二元标签,用于标识该文章是否属于物理学领域(1:属于,0:不属于) | | `math` | int64 | 二元标签,用于标识该文章是否属于数学领域(1:属于,0:不属于) | | `stat` | int64 | 二元标签,用于标识该文章是否属于统计学领域(1:属于,0:不属于) | ## 数据集统计信息 - **总数据行数**:29,961 - **训练集划分**:约21,000条数据行 - **CSV文件大小**:32.8 MB - **自动转换为Parquet格式后的大小**:19.8 MB ## 使用方法 通过`Datasets`库加载该数据集的示例代码如下: python from datasets import load_dataset dataset = load_dataset("prithivMLmods/Synthesis-Article") print(dataset)
提供机构:
maas
创建时间:
2025-02-05
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作