biglam/clmet_3_1
收藏Hugging Face2022-07-18 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/biglam/clmet_3_1
下载链接
链接失效反馈官方服务:
资源简介:
Corpus of Late Modern English Texts v3.1(CLMET3.1)是一个包含约3400万字英文文本的数据集,涵盖1710至1920年的英国和爱尔兰作者的作品。数据集分为三个70年的子时期,每个子时期内不超过三篇同一作者的文本。数据集支持文本分类和填空任务,并包含机器和专家生成的注释。
提供机构:
biglam
原始信息汇总
数据集概述
数据集名称: Corpus of Late Modern English Texts v3.1
数据集别名: CLMET_3_1
数据集描述:
- 语言: 英语 (
en) - 文本来源: 原始数据
- 文本类型: 单语种
- 许可证: CC-BY-SA-4.0
- 注释创建者: 专家生成和机器生成
数据集统计:
- 时间段: 1710-1920,分为三个70年子周期
- 作者总数: 212
- 文本总数: 333
- 总字数: 40,340,760
- 非标点字数: 34,342,857
文本分类:
- 1710-1780:
- 叙事小说: 5,405,645字
- 叙事非小说: 2,145,946字
- 戏剧: 523,318字
- 信件: 1,208,219字
- 论文: 1,263,090字
- 其他: 1,635,846字
- 1780-1850:
- 叙事小说: 5,780,352字
- 叙事非小说: 2,261,485字
- 戏剧: 441,040字
- 信件: 842,795字
- 论文: 1,927,272字
- 其他: 2,047,513字
- 1850-1920:
- 叙事小说: 7,561,339字
- 叙事非小说: 1,097,487字
- 戏剧: 763,352字
- 信件: 554,046字
- 论文: 2,030,210字
- 其他: 2,851,805字
支持的任务:
- 文本分类
- 填空
数据集结构:
- 数据实例: 包含文本、体裁、年份、标题、作者等信息
- 数据字段: 文本内容、词性标注等
数据集创建:
- 来源数据: 公共领域文本,来自在线档案项目
- 注释: 包含词性标注和分类标注
使用注意事项:
- 部分注释可能不正确,加载时会有警告
- 包含一个额外的类别
QUOT,用于标记所有引号



