five

LumberChunker/GutenQA_Recursive

收藏
Hugging Face2024-09-25 更新2024-06-29 收录
下载链接:
https://hf-mirror.com/datasets/LumberChunker/GutenQA_Recursive
下载链接
链接失效反馈
官方服务:
资源简介:
GutenQA-Recursive数据集由与GutenQA相同的100本公共领域叙事书籍构成,并采用了Langchain的递归字符分割功能进行段落分割。数据集的组织结构包括书籍名称、书籍ID、块ID和块内容。每行包含一组书籍段落,这些段落是通过对GutenQA-Paragraphs数据集应用递归字符分割得到的。

GutenQA-Recursive数据集由与GutenQA相同的100本公共领域叙事书籍构成,并采用了Langchain的递归字符分割功能进行段落分割。数据集的组织结构包括书籍名称、书籍ID、块ID和块内容。每行包含一组书籍段落,这些段落是通过对GutenQA-Paragraphs数据集应用递归字符分割得到的。
提供机构:
LumberChunker
原始信息汇总

GutenQA-Recursive 数据集概述

基本信息

  • 许可证: MIT
  • 任务类别: 问答系统
  • 语言: 英语
  • 配置:
    • 配置名称: recursive
    • 数据文件:
      • 分割: recursive_chunks
      • 路径: GutenQA_recursive.parquet

数据集描述

GutenQA-Recursive 数据集基于 GutenQA 中的 100 本公共领域叙事书籍构建,这些书籍用于 LumberChunker 论文中的长篇叙事文档分割基准测试。该数据集采用 Langchain 的 Recursive Character Splitting 函数进行段落分割。

数据结构

数据集包含以下列:

  • Book Name: 书籍标题
  • Book ID: 书籍的唯一整数标识符
  • Chunk ID: 书籍块的整数标识符,按其在书籍中出现的顺序排列
  • Chunk: 每行包含一组书籍段落,这些段落是通过应用 Recursive Character Splitting 函数从 GutenQA-Paragraphs 中分割得到的

数据加载示例

python import pandas as pd dataset = pd.read_parquet("hf://datasets/LumberChunker/GutenQA_Paragraphs/GutenQA_recursive.parquet", engine="pyarrow")

过滤 DataFrame 以显示指定书籍名称的行

single_book_chunks = dataset[dataset[Book Name] == A_Christmas_Carol_-_Charles_Dickens].reset_index(drop=True)

引用

bibtex @misc{duarte2024lumberchunker, title={LumberChunker: Long-Form Narrative Document Segmentation}, author={André V. Duarte and João Marques and Miguel Graça and Miguel Freire and Lei Li and Arlindo L. Oliveira}, year={2024}, eprint={2406.17526}, archivePrefix={arXiv}, primaryClass={cs.CL}, url={https://arxiv.org/abs/2406.17526}, }

5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作