scientific_papers-cleaned
收藏数据集卡片:Scientific Papers - Cleaned
数据集描述
Scientific Papers - Cleaned 数据集是科学论文的精简版本,旨在为文本摘要、释义或科学语言理解等任务提供结构化的输入-输出对。该数据集包括唯一标识符、输入文本(如论文的摘要或部分内容)和相应的输出文本(如摘要或改写版本)。
- 创建者: Wilbert Chandra (用户名: Gilbert Krantzx)
- 语言: 英语
- 许可证: MIT License
数据集来源
- 原始仓库: Hugging Face
用途
直接使用
该数据集可用于多种自然语言处理任务,包括但不限于:
- 文本摘要
- 科学上下文中的语言建模
- 文本蕴含和释义检测
- 科学写作语言模型的微调
超出范围的使用
该数据集可能不适用于:
- 涉及实时决策系统的应用,未经验证
- 数据敏感性或科学上下文误解可能导致危害的用例
数据集结构
数据集包含三个部分:训练集、验证集 和 测试集。
特征
| 特征 | 类型 | 描述 |
|---|---|---|
id |
int64 |
每个记录的唯一标识符 |
input |
string |
输入文本,如部分或段落 |
output |
string |
相应的输出文本,如摘要 |
分割
| 分割 | 大小 (字节) | 示例数量 |
|---|---|---|
train |
21,642,133 | 10,000 |
validation |
6,230,302 | 3,000 |
test |
6,255,318 | 3,000 |
数据集统计
- 下载大小: 17.5 MB
- 数据集大小: 34.1 MB
数据集创建
创建理由
该数据集旨在促进科学文本生成和摘要研究,强调清晰和简洁。
源数据
数据收集和处理
数据来源于 Scientific Papers Archive。原始数据经过清洗和标准化处理,以提高可用性,包括去除噪声、标准化格式和确保质量。
源数据生产者
数据集源自科学出版物,内容由研究人员、科学家和学术专业人士生成。
偏见、风险和限制
数据集可能包含其源材料固有的偏见,如特定科学学科或地区的过度代表。
建议
用户应谨慎验证发现,特别是在跨学科或应用研究环境中。
引用
BibTeX: bibtex @dataset{scientific_papers_cleaned, author = {Wilbert Chandra (Username: Gilbert Krantzx)}, title = {Scientific Papers - Cleaned}, year = {2024}, howpublished = {Hugging Face Dataset Repository}, url = {https://huggingface.co/GilbertKrantzx/scientific_papers-cleaned} }
APA: Wilbert Chandra (Username: Gilbert Krantzx). (2024). Scientific Papers - Cleaned. Retrieved from https://huggingface.co/GilbertKrantzx/scientific_papers-cleaned




