LumberChunker/GutenQA_Recursive
收藏GutenQA-Recursive 数据集概述
基本信息
- 许可证: MIT
- 任务类别: 问答系统
- 语言: 英语
- 配置:
- 配置名称: recursive
- 数据文件:
- 分割: recursive_chunks
- 路径: GutenQA_recursive.parquet
数据集描述
GutenQA-Recursive 数据集基于 GutenQA 中的 100 本公共领域叙事书籍构建,这些书籍用于 LumberChunker 论文中的长篇叙事文档分割基准测试。该数据集采用 Langchain 的 Recursive Character Splitting 函数进行段落分割。
数据结构
数据集包含以下列:
Book Name: 书籍标题Book ID: 书籍的唯一整数标识符Chunk ID: 书籍块的整数标识符,按其在书籍中出现的顺序排列Chunk: 每行包含一组书籍段落,这些段落是通过应用 Recursive Character Splitting 函数从 GutenQA-Paragraphs 中分割得到的
数据加载示例
python import pandas as pd dataset = pd.read_parquet("hf://datasets/LumberChunker/GutenQA_Paragraphs/GutenQA_recursive.parquet", engine="pyarrow")
过滤 DataFrame 以显示指定书籍名称的行
single_book_chunks = dataset[dataset[Book Name] == A_Christmas_Carol_-_Charles_Dickens].reset_index(drop=True)
引用
bibtex @misc{duarte2024lumberchunker, title={LumberChunker: Long-Form Narrative Document Segmentation}, author={André V. Duarte and João Marques and Miguel Graça and Miguel Freire and Lei Li and Arlindo L. Oliveira}, year={2024}, eprint={2406.17526}, archivePrefix={arXiv}, primaryClass={cs.CL}, url={https://arxiv.org/abs/2406.17526}, }



