LittiChoQA

Name: LittiChoQA
Creator: 德里信息技术学院; 埃森哲
Published: 2026-01-06 21:59:41
License: 暂无描述

arXiv2026-01-06 更新2026-01-08 收录

下载链接：

https://github.com/ritwikmishra/LittiChoQA/

下载链接

链接失效反馈

官方服务：

资源简介：

LittiChoQA是由德里信息技术学院联合推出的印度最大文学QA数据集，涵盖恒河平原地区多种低资源语言。该数据集包含27.4万条自动生成的问答对，数据源自网络公开的文学文本，经GPT-4.1模型处理生成事实型与非事实型平衡的问题。通过OCR技术处理扫描手稿，采用非重叠分块策略确保数据多样性，并配套发布区块级元数据以供溯源。该资源旨在解决印度语系长上下文问答任务的数据短缺问题，支持多语言大模型在文学理解领域的评估与开发。

LittiChoQA is the largest literary QA dataset in India jointly launched by the Delhi Institute of Information Technology, covering multiple low-resource languages from the Ganges Plain region. This dataset contains 274,000 automatically generated question-answer pairs sourced from publicly available online literary texts, and processed by the GPT-4.1 model to produce balanced factual and non-factual questions. It adopts OCR technology to process scanned manuscripts, uses a non-overlapping chunking strategy to ensure data diversity, and releases block-level metadata for data provenance. This resource aims to alleviate the data scarcity problem of long-context question answering tasks for Indian language families, and supports the evaluation and development of multilingual large language models in the field of literary understanding.

提供机构：

德里信息技术学院; 埃森哲

创建时间：

2026-01-06

搜集汇总

数据集介绍

构建方式

在文学文本长上下文问答研究领域，针对印度语言资源的稀缺性，LittiChoQA数据集的构建采用了创新的方法。该数据集从开放网络资源中系统收集了印度恒河平原地区多种语言的原创文学文本，涵盖民间故事、小说等多种体裁，部分扫描手稿通过光学字符识别技术进行文本提取。利用GPT-4.1模型，研究团队从每个故事中自动生成了超过27万个问题-答案对，并确保了事实性问答与非事实性问答的均衡分布。为处理长文本，故事被分割为无重叠的文本块以避免冗余，同时保留了块级元数据以追溯每个问答对的来源，从而构建了一个规模庞大且结构清晰的文学问答资源。

使用方法

该数据集主要应用于印度语言长上下文问答模型的开发与评估。研究人员可利用其进行模型微调，特别针对非事实性抽象问答任务，以提升模型在文学文本中的深层理解与生成能力。数据集支持两种实验设置：完整上下文微调以最大化性能，或采用上下文缩短策略（如基于答案段落选择的模型或向量检索方法）以提高计算吞吐量。通过提供的训练、开发和测试集划分，研究者可以系统评估多语言大语言模型在词法相似度（如ROUGE）和语义相似度（如STS）等指标上的表现。此外，发布的微调适配器检查点及开源代码资源，为后续研究提供了可复现的基础，助力低资源语言自然语言处理技术的发展。

背景与挑战

背景概述

在自然语言处理领域，文学文本的长上下文问答任务对大型语言模型提出了严峻挑战，尤其是在低资源语言环境中。为应对印度语言在长上下文问答资源上的匮乏，德里信息技术学院的研究团队于近期推出了LittiChoQA数据集。该数据集由Aarya Khandelwal、Ritwik Mishra和Rajiv Ratn Shah等人主导构建，旨在通过自动生成超过27万条问答对，覆盖恒河平原地区的多种印度语言，包括印地语、乌尔都语、博杰普尔语等。其核心研究问题聚焦于如何提升模型对文学长篇叙事的整体理解能力，并平衡事实性与非事实性问题的分布。作为迄今规模最大的文学问答数据集，LittiChoQA不仅填补了相关语言资源的空白，也为跨语言模型的长上下文推理与抽象问答研究提供了重要基准。

当前挑战

LittiChoQA数据集致力于解决文学文本长上下文问答中的核心难题，即模型在扩展语境下理解复杂叙事、进行推理并生成描述性答案的能力。这一领域问题的挑战体现在模型容易受限于注意力机制，在长文本中表现出性能衰减，难以处理需要综合多段落信息的非事实性问题。在数据集构建过程中，研究人员面临多重挑战：首先，低资源语言的文学文本获取与处理困难，需从开放网络、数字图书馆等多源渠道收集，并对扫描手稿进行光学字符识别，可能引入转录误差；其次，利用生成模型自动创建问答对时，需确保问题的相关性与答案的正确性，同时平衡事实性与非事实性问题的分布；此外，长故事的分块处理虽避免了冗余，却限制了跨块推理问题的生成，影响了数据集中深层叙事理解能力的评估范围。

常用场景

经典使用场景

在低资源印度语言文学文本处理领域，LittiChoQA数据集为长上下文问答任务提供了关键资源。该数据集通过自动生成超过27万个问题-答案对，覆盖了印度恒河平原的多种语言，其经典使用场景在于评估和优化多语言大语言模型在文学叙事理解上的表现。研究人员利用该数据集对模型进行微调，特别是在非事实性抽象问答任务中，考察模型对长篇故事中隐含主题、角色动机及情节发展的深层推理能力，从而推动跨语言文学智能分析技术的发展。

解决学术问题

LittiChoQA数据集主要解决了低资源印度语言在长上下文文学问答研究中数据匮乏的核心问题。传统方法依赖机器翻译英语数据集，往往存在答案对齐困难和语言失真缺陷，而该数据集通过采集原生文学文本并利用生成式模型构建问答对，确保了语言的自然性与文化适应性。它使学术界能够系统探究大语言模型在长上下文中的性能衰减现象，并针对非事实性问题所要求的抽象推理与综合归纳能力建立评估基准，为低资源语言的自然语言处理研究提供了实证基础。

实际应用

在实际应用层面，LittiChoQA数据集可服务于多语言教育科技与数字人文项目。例如，在开发智能文学辅导系统时，该数据集能够训练模型生成针对印度本土语言文学作品的阅读理解问题，辅助学生进行深度文本分析。同时，在文化遗产数字化领域，利用该数据集训练的模型可自动构建文学作品的问答知识库，帮助读者快速获取叙事内涵与主题解读，促进印度多语言文学资源的保存与普及。

数据集最近研究