five

biglam/clmet_3_1

收藏
Hugging Face2022-07-18 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/biglam/clmet_3_1
下载链接
链接失效反馈
官方服务:
资源简介:
Corpus of Late Modern English Texts v3.1(CLMET3.1)是一个包含约3400万字英文文本的数据集,涵盖1710至1920年的英国和爱尔兰作者的作品。数据集分为三个70年的子时期,每个子时期内不超过三篇同一作者的文本。数据集支持文本分类和填空任务,并包含机器和专家生成的注释。
提供机构:
biglam
原始信息汇总

数据集概述

数据集名称: Corpus of Late Modern English Texts v3.1

数据集别名: CLMET_3_1

数据集描述:

  • 语言: 英语 (en)
  • 文本来源: 原始数据
  • 文本类型: 单语种
  • 许可证: CC-BY-SA-4.0
  • 注释创建者: 专家生成和机器生成

数据集统计:

  • 时间段: 1710-1920,分为三个70年子周期
  • 作者总数: 212
  • 文本总数: 333
  • 总字数: 40,340,760
  • 非标点字数: 34,342,857

文本分类:

  • 1710-1780:
    • 叙事小说: 5,405,645字
    • 叙事非小说: 2,145,946字
    • 戏剧: 523,318字
    • 信件: 1,208,219字
    • 论文: 1,263,090字
    • 其他: 1,635,846字
  • 1780-1850:
    • 叙事小说: 5,780,352字
    • 叙事非小说: 2,261,485字
    • 戏剧: 441,040字
    • 信件: 842,795字
    • 论文: 1,927,272字
    • 其他: 2,047,513字
  • 1850-1920:
    • 叙事小说: 7,561,339字
    • 叙事非小说: 1,097,487字
    • 戏剧: 763,352字
    • 信件: 554,046字
    • 论文: 2,030,210字
    • 其他: 2,851,805字

支持的任务:

  • 文本分类
  • 填空

数据集结构:

  • 数据实例: 包含文本、体裁、年份、标题、作者等信息
  • 数据字段: 文本内容、词性标注等

数据集创建:

  • 来源数据: 公共领域文本,来自在线档案项目
  • 注释: 包含词性标注和分类标注

使用注意事项:

  • 部分注释可能不正确,加载时会有警告
  • 包含一个额外的类别QUOT,用于标记所有引号
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作