five

vanderbilt-dsi/narrative-arc

收藏
Hugging Face2023-02-27 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/vanderbilt-dsi/narrative-arc
下载链接
链接失效反馈
官方服务:
资源简介:
narrative-arc数据集用于叙事弧后处理,包含故事的原始文本及其元数据、用于生成嵌入的转换模型、模型的检查点、存储嵌入的窗口索引以及嵌入本身。数据来源于Project Gutenberg图书馆,主要包含英语短故事。
提供机构:
vanderbilt-dsi
原始信息汇总

数据集概述

数据集名称

  • 名称: narrative-arc

数据集描述

  • 描述: 该数据集包含用于叙事弧后处理的故事数据。每个故事实例包括原始文本及其元数据、用于生成嵌入的转换器模型、模型的检查点、存储嵌入的窗口索引以及嵌入本身。

数据集结构

  • 数据实例: 每个故事数据实例包括书名、书本元数据、全文以及使用不同模型的嵌入信息。
  • 数据字段: 示例数据字段包括书名、书本元数据、全文、模型信息(如distilbert-base-cased和distilbert-base-uncased的窗口索引和嵌入)。

数据集创建

  • 来源数据: 数据来源于Project Gutenberg图书馆,主要包含英语短篇故事。
  • 数据收集与标准化: 数据从Project Gutenberg收集并进行标准化处理。
  • 语言生产者: 每个数据实例代表由人类作者撰写的文本。

许可证信息

  • 许可证: MIT

语言

  • 多语言性: 单语种(英语)

任务类别

  • 任务类别: 文本分类

数据集创建理由

  • 理由: 处理后的文本需要存储在既可访问又能容纳大量数据生成的环境中。

数据集使用考虑

  • 个人和敏感信息: 不适用
  • 其他已知限制: 需要更多信息

贡献者

5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作