badrabdullah/royal_society_corpus_metadata
收藏Hugging Face2024-04-30 更新2024-06-12 收录
下载链接:
https://hf-mirror.com/datasets/badrabdullah/royal_society_corpus_metadata
下载链接
链接失效反馈官方服务:
资源简介:
RSC 6.0数据集涵盖了从1665年到1920年间的《Philosophical Transactions of the Royal Society》科学出版物,包含了所有类型的出版物,主要以英语为主,记录了科学话语的演变。数据集内容包括期刊文章、作者、出版日期、正文、文本类型等,经过OCR处理和语言注释,适用于历史语言学、科学写作的历时研究以及自然语言处理应用的训练数据。
RSC 6.0数据集涵盖了从1665年到1920年间的《Philosophical Transactions of the Royal Society》科学出版物,包含了所有类型的出版物,主要以英语为主,记录了科学话语的演变。数据集内容包括期刊文章、作者、出版日期、正文、文本类型等,经过OCR处理和语言注释,适用于历史语言学、科学写作的历时研究以及自然语言处理应用的训练数据。
提供机构:
badrabdullah
原始信息汇总
数据集概述
数据集名称
- Royal Society Corpus (RSC) 6.0 Open
数据集描述
- 内容类型: 文本(期刊文章)
- 语言: 主要为英语
- 时间覆盖: 1665 - 1920
- 字数: 约78.6百万字
- 领域: 标题、作者、出版日期、文本主体、文本类型(如文章、摘要)
数据集特征
- id: 字符串
- issn: 字符串
- title: 字符串
- fpage: 字符串
- lpage: 字符串
- year: 整数
- volume: 整数
- journal: 字符串
- author: 字符串
- type: 字符串
- corpusBuild: 字符串
- doiLink: 字符串
- language: 字符串
- jrnl: 字符串
- decade: 整数
- period: 整数
- century: 整数
- pages: 整数
- sentences: 整数
- tokens: 整数
- visualizationLink: 字符串
- doi: 字符串
- jstorLink: 字符串
- hasAbstract: 浮点数
- isAbstractOf: 浮点数
- primaryTopic: 字符串
- primaryTopicPercentage: 浮点数
- secondaryTopic: 字符串
- secondaryTopicPercentage: 浮点数
- category: 字符串
- tsne_embedding: 序列(浮点数)
- text: 字符串
数据集大小
- 训练集大小: 17520个样本,412915149字节
- 下载大小: 211087434字节
许可证
- Creative Commons Attribution-NonCommercial-ShareAlike 4.0 International License
使用案例
- 历史语言学研究
- 科学写作的历时研究
- 历史文本的自然语言处理应用训练数据
搜集汇总
数据集介绍

以上内容由遇见数据集搜集并总结生成



