LumberChunker/GutenQA_Recursive

Name: LumberChunker/GutenQA_Recursive
Creator: LumberChunker
Published: 2024-09-25 12:45:53
License: 暂无描述

Hugging Face2024-09-25 更新2024-06-29 收录

下载链接：

https://hf-mirror.com/datasets/LumberChunker/GutenQA_Recursive

下载链接

链接失效反馈

官方服务：

资源简介：

GutenQA-Recursive数据集由与GutenQA相同的100本公共领域叙事书籍构成，并采用了Langchain的递归字符分割功能进行段落分割。数据集的组织结构包括书籍名称、书籍ID、块ID和块内容。每行包含一组书籍段落，这些段落是通过对GutenQA-Paragraphs数据集应用递归字符分割得到的。

提供机构：

LumberChunker

原始信息汇总

GutenQA-Recursive 数据集概述

基本信息

许可证: MIT
任务类别: 问答系统
语言: 英语
配置:
- 配置名称: recursive
- 数据文件:
  - 分割: recursive_chunks
  - 路径: GutenQA_recursive.parquet

数据集描述

GutenQA-Recursive 数据集基于 GutenQA 中的 100 本公共领域叙事书籍构建，这些书籍用于 LumberChunker 论文中的长篇叙事文档分割基准测试。该数据集采用 Langchain 的 Recursive Character Splitting 函数进行段落分割。

数据结构

数据集包含以下列：

Book Name: 书籍标题
Book ID: 书籍的唯一整数标识符
Chunk ID: 书籍块的整数标识符，按其在书籍中出现的顺序排列
Chunk: 每行包含一组书籍段落，这些段落是通过应用 Recursive Character Splitting 函数从 GutenQA-Paragraphs 中分割得到的

数据加载示例

python import pandas as pd dataset = pd.read_parquet("hf://datasets/LumberChunker/GutenQA_Paragraphs/GutenQA_recursive.parquet", engine="pyarrow")

过滤 DataFrame 以显示指定书籍名称的行

single_book_chunks = dataset[dataset[Book Name] == A_Christmas_Carol_-_Charles_Dickens].reset_index(drop=True)

引用

bibtex @misc{duarte2024lumberchunker, title={LumberChunker: Long-Form Narrative Document Segmentation}, author={André V. Duarte and João Marques and Miguel Graça and Miguel Freire and Lei Li and Arlindo L. Oliveira}, year={2024}, eprint={2406.17526}, archivePrefix={arXiv}, primaryClass={cs.CL}, url={https://arxiv.org/abs/2406.17526}, }

5,000+

优质数据集

54 个

任务类型

进入经典数据集