vanderbilt-dsi/narrative-arc
收藏Hugging Face2023-02-27 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/vanderbilt-dsi/narrative-arc
下载链接
链接失效反馈官方服务:
资源简介:
narrative-arc数据集用于叙事弧后处理,包含故事的原始文本及其元数据、用于生成嵌入的转换模型、模型的检查点、存储嵌入的窗口索引以及嵌入本身。数据来源于Project Gutenberg图书馆,主要包含英语短故事。
提供机构:
vanderbilt-dsi
原始信息汇总
数据集概述
数据集名称
- 名称: narrative-arc
数据集描述
- 描述: 该数据集包含用于叙事弧后处理的故事数据。每个故事实例包括原始文本及其元数据、用于生成嵌入的转换器模型、模型的检查点、存储嵌入的窗口索引以及嵌入本身。
数据集结构
- 数据实例: 每个故事数据实例包括书名、书本元数据、全文以及使用不同模型的嵌入信息。
- 数据字段: 示例数据字段包括书名、书本元数据、全文、模型信息(如distilbert-base-cased和distilbert-base-uncased的窗口索引和嵌入)。
数据集创建
- 来源数据: 数据来源于Project Gutenberg图书馆,主要包含英语短篇故事。
- 数据收集与标准化: 数据从Project Gutenberg收集并进行标准化处理。
- 语言生产者: 每个数据实例代表由人类作者撰写的文本。
许可证信息
- 许可证: MIT
语言
- 多语言性: 单语种(英语)
任务类别
- 任务类别: 文本分类
数据集创建理由
- 理由: 处理后的文本需要存储在既可访问又能容纳大量数据生成的环境中。
数据集使用考虑
- 个人和敏感信息: 不适用
- 其他已知限制: 需要更多信息
贡献者
- 贡献者: 感谢@github-username添加此数据集。



