five

LOT

收藏
arXiv2022-01-17 更新2024-06-21 收录
下载链接:
https://github.com/thu-coai/LOT-LongLM
下载链接
链接失效反馈
官方服务:
资源简介:
LOT数据集由清华大学人工智能研究院、国家信息科学与技术研究中心和北京信息科学与技术国家研究中心联合开发,旨在通过人类编写的中文故事评估长文本的理解和生成能力。数据集包含2427个故事,这些故事涵盖了丰富的常识和话语关系,用于构建四个理解任务和两个生成任务的数据集。LOT数据集不仅推动了中文语言模型的研究,还通过其详细的标注和高质量的内容,为长文本处理模型的评估和改进提供了重要资源。

The LOT dataset was co-developed by the Institute of Artificial Intelligence at Tsinghua University, the National Research Center for Information Science and Technology, and the Beijing National Research Center for Information Science and Technology. Its core objective is to evaluate long-text understanding and generation capabilities using Chinese stories written by humans. Comprising 2427 stories that cover abundant commonsense knowledge and discourse relations, this dataset is utilized to construct four understanding tasks and two generation tasks. The LOT dataset not only advances research on Chinese language models, but also serves as a critical resource for the evaluation and enhancement of long-text processing models through its detailed annotations and high-quality content.
提供机构:
清华大学
创建时间:
2021-08-30
搜集汇总
数据集介绍
main_image_url
构建方式
LOT数据集的构建基于精心筛选的人类创作中文故事,涵盖寓言、童话等多种叙事类型。研究团队从公开网络资源中爬取原始故事,并聘请专业编剧团队进行人工标注与清洗,确保文本质量。具体而言,数据集通过自动与人工结合的方式构建:对于完形填空(ClozeT)任务,标注者从故事中选取可基于常识推理的句子作为正确答案,并创作违反常识的干扰项;句子位置预测(SenPos)任务则通过随机移除句子并人工验证唯一合理位置来构建;情节补全(PlotCom)任务利用ClozeT的标注数据生成训练与测试样本;大纲条件生成(OutGen)任务则采用RAKE算法从故事中自动提取关键短语作为生成条件。所有任务均基于数百词长度的叙事文本,旨在全面评估长文本建模能力。
特点
LOT数据集以故事为中心,专注于中文长文本理解与生成的系统性评估。其核心特点在于任务设计的多样性与针对性:包含两项理解任务(完形填空与句子位置预测)和两项生成任务(情节补全与大纲条件生成),全面覆盖常识推理、篇章关系建模、生成连贯性与可控性等关键能力。数据集文本均源自高质量人类创作故事,平均长度达数百词,避免了超长文本中复杂的语言现象纠缠,使评估更聚焦于基础能力。此外,数据集通过人工标注确保样本的合理性与无偏性,例如在完形填空中严格避免表面特征泄露答案,在句子位置预测中保证移除句子的位置唯一性。这些设计使LOT成为首个针对中文长文本建模的标准化基准。
使用方法
LOT数据集的使用旨在系统评估模型在中文长文本理解与生成任务上的性能。研究人员可将数据集划分为训练、验证与测试集,针对四项任务分别进行模型训练与评估。对于理解任务,模型需根据上下文从候选答案中选择正确项,评估指标采用准确率;对于生成任务,模型需基于不完整故事或大纲生成连贯文本,评估指标包括BLEU、Distinct、Coverage与Order等多维度自动度量。为促进公平比较,数据集提供了基于人类与基线模型差距加权的整体评分公式,以突出机器与人类表现差距较大的任务。此外,研究建议结合人工评估(如语法性、连贯性、相关性)以补充自动指标的不足。数据集已公开提供,支持对编码器-解码器架构及其他预训练模型的全面测试,推动中文长文本建模技术的迭代与发展。
背景与挑战
背景概述
在自然语言处理领域,长文本建模一直是研究的热点与难点,尤其是在中文语境下,缺乏标准化的评估基准限制了相关模型的公平比较与系统发展。LOT(Long Text)数据集由清华大学CoAI团队联合华为、网易伏羲实验室于2022年提出,旨在填补这一空白。该数据集以故事为核心,聚焦于中文长文本的理解与生成任务,涵盖了完形填空、句子位置预测、情节补全和提纲条件生成四个子任务。其构建基于数百字规模的人类撰写故事,强调对常识推理、篇章结构及生成连贯性等深层语言能力的考察。LOT的推出不仅为中文预训练模型提供了专项评估平台,也推动了长文本建模技术向更精细化、可控化的方向发展。
当前挑战
LOT数据集面临的挑战主要体现在两个方面:其一,在领域问题层面,长文本建模需解决短文本中较少涉及的复杂语言现象,如远距离依赖关系、篇章级逻辑结构以及常识知识的深度融合。例如,在故事理解任务中,模型必须准确推断人物意图、事件因果关系及物理常识,这些能力远超传统分类或生成任务的范畴。其二,在构建过程中,数据收集与标注面临显著困难。高质量中文故事资源的稀缺性要求团队从公开网络资源中精心筛选与清洗,同时需通过专业标注团队手动修正故事逻辑、去除噪声并确保语义连贯性。此外,为避免数据偏见,构建者需设计严谨的验证流程,排除长度、情感等表面特征对模型评估的干扰,确保任务真正考察模型的语言理解与生成能力。
常用场景
经典使用场景
在自然语言处理领域,长文本建模一直是极具挑战性的研究方向,尤其对于中文语境而言,缺乏标准化的评估基准使得模型能力难以全面衡量。LOT数据集以故事为核心,构建了包含完形填空、句子位置预测、情节补全和提纲生成四项任务的综合性评测框架。该数据集通过数百字篇幅的中文故事,系统性地考察模型在长距离篇章理解、常识推理以及生成连贯性等方面的核心能力,为研究者提供了一个统一且科学的评估平台。
解决学术问题
LOT数据集有效解决了长文本建模中若干关键学术问题。其一,它填补了中文长文本标准化评测基准的空白,使得不同模型能在公平环境下进行比较;其二,通过精心设计的四项任务,分别针对常识推理、句间关系建模、生成连贯性与可控性等核心能力进行量化评估;其三,该数据集揭示了当前模型在长文本语义理解与生成方面与人类水平的显著差距,为后续研究指明了改进方向。其学术意义在于推动了中文长文本建模从粗放评估向精细化、能力导向的范式转变。
衍生相关工作
围绕LOT数据集,已衍生出一系列重要的研究工作。其配套发布的预训练模型LongLM,作为首个专注于中文长篇故事建模的亿级参数编码器-解码器模型,在多项任务上显著超越了同类基线。该工作启发了后续研究对长文本专用预训练任务的设计,如文本填充与条件续写。此外,LOT的评估框架与构建方法论也为其他语言的长文本基准建设提供了参考,促进了跨语言长文本建模研究的交流与发展,形成了以能力评估为导向的模型优化新路径。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作