five

MCTS|文本简化数据集|语言处理数据集

收藏
github2024-05-21 更新2024-05-31 收录
文本简化
语言处理
下载链接:
https://github.com/blcuicall/mcts
下载链接
链接失效反馈
资源简介:
MCTS是首个公开的汉语文本简化任务数据集,是目前汉语文本简化任务中最大的评估数据集,包含最多的参考文献。该数据集包含723个从新闻语料库中选取的复杂结构句子,每个句子都有多个手动简化的句子。

MCTS is the first publicly available dataset for Chinese text simplification tasks, representing the largest evaluation dataset in the field of Chinese text simplification to date, and includes the most extensive collection of references. The dataset comprises 723 complex structured sentences selected from a news corpus, each accompanied by multiple manually simplified sentences.
创建时间:
2023-06-05
原始信息汇总

数据集概述

MCTS: Multi-Reference Chinese Text Simplification Dataset 是一个针对中文文本简化任务的评估数据集,旨在通过多种重写转换使文本更易于理解。该数据集包含723个复杂结构的中文句子,每个句子都有多个手动简化的版本。

数据规模

  • 数据集大小:包含723个复杂结构的句子,每个句子有多个简化版本。
  • 数据格式:所有数据文件均为纯文本格式,每行一个实例。

数据格式

  • 文件命名:文件名由前缀、中缀和后缀组成,格式为 prefix.infix.suffix(.num)
  • 文件内容mcts 为前缀,testdev 为中缀,分别代表测试集和开发集。后缀 orig 表示原始未简化句子,simp 表示简化后的句子。

评估指标

  • 自动化指标:使用 SARI 和 BLEU 指标,以及 HSK-Level 指标。
  • 评估工具:使用 EASSE 工具进行评估,需先对测试数据进行分词。

训练数据构建

  • 构建方法:结合机器翻译和英文文本简化构建训练数据。
  • 数据量:最终获得691,474个高质量平行训练数据,是目前中文文本简化领域中规模最大的可用训练数据。

文本特征分析

  • 分析内容:计算所有简化例子的低级特征,以衡量MCTS中包含的重写转换。

相关实验

  • 实验方法:比较了多种基线方法,包括 OpenAI 模型、直接反向翻译、翻译的 Wiki-Large 数据集和跨语言伪数据。
  • 实验结果:通过自动化工具计算 SARI、BLEU 和 HSK-Level 的结果,并进行了人工评估。
AI搜集汇总
数据集介绍
main_image_url
构建方式
在自然语言处理领域,文本简化任务旨在通过多种重写变换使文本更易于理解。鉴于中文文本简化研究的稀缺性,我们构建了MCTS(Multi-Reference Chinese Text Simplification Dataset),这是首个公开的中文文本简化数据集。该数据集通过从新闻语料库中精选723个复杂结构句子,并由人工生成多个简化版本,从而形成了大规模的平行语料库。此外,为了弥补大规模平行语料的不足,我们采用了机器翻译与英文文本简化的结合方法,经过严格的自动筛选,最终获得了691,474条高质量的训练数据,这是迄今为止中文文本简化领域中规模最大的训练数据。
特点
MCTS数据集的显著特点在于其多参考性和大规模性。每个复杂句子对应多个简化版本,这为模型训练和评估提供了丰富的参考资源。此外,数据集的构建过程中采用了多种先进的文本处理技术,确保了数据的高质量和多样性。通过实验验证,MCTS数据集不仅在数量上领先,而且在质量上也表现出色,为中文文本简化研究提供了坚实的基础。
使用方法
MCTS数据集的使用方法简便直观。数据文件均为纯文本格式,每行代表一个实例。文件命名采用前缀、中缀和后缀的组合方式,便于区分不同类型的数据集。例如,前缀为'mcts',中缀'test'表示测试集,'dev'表示开发集,后缀'orig'表示原始复杂句子,'simp'表示简化句子。用户可以通过提供的脚本进行自动评估,使用SARI和BLEU等指标来衡量模型的性能。此外,数据集还提供了详细的实验结果和分析,帮助用户更好地理解和应用数据集。
背景与挑战
背景概述
在自然语言处理领域,文本简化任务旨在通过多种重写变换使文本更易于理解,是基础任务之一。此任务有助于分级阅读、机器翻译及语言学习者理解复杂文本。然而,中文文本简化研究相对较少,主要原因之一是缺乏通用评估数据。为此,北京语言大学智能语言处理与应用实验室(BLCU-ICALL)的研究团队于2024年创建了MCTS(Multi-Reference Chinese Text Simplification Dataset),这是首个公开的中文文本简化数据集。MCTS是目前最大的中文文本简化评估数据集,包含723个复杂结构句子的多重手动简化版本,为中文文本简化研究奠定了基础。
当前挑战
MCTS数据集在构建过程中面临多重挑战。首先,中文文本简化领域的研究相对滞后,缺乏大规模并行语料库,导致训练数据的稀缺。其次,数据集的构建涉及复杂的机器翻译和英文文本简化技术,需经过严格的自动筛选以确保数据质量。此外,评估中文文本简化效果的自动化指标如SARI和BLEU,以及HSK-Level的计算,均需精确且可靠的工具支持。最后,尽管MCTS数据集已取得显著进展,但如何进一步提升简化文本的自然度和语义完整性仍是未来研究的重要课题。
常用场景
经典使用场景
在自然语言处理领域,MCTS数据集的经典使用场景主要集中在中文文本简化的研究与应用中。该数据集通过提供多参考的简化文本,使得研究人员能够更精确地评估和改进文本简化模型的性能。例如,研究人员可以使用MCTS数据集来训练和测试各种文本简化算法,从而提高模型在实际应用中的准确性和效率。
解决学术问题
MCTS数据集解决了中文文本简化领域中长期存在的数据稀缺问题,为学术研究提供了丰富的资源。通过提供大规模的多参考简化文本,该数据集使得研究人员能够更深入地探索文本简化的各种重写变换,从而推动了该领域的技术进步。此外,MCTS数据集还为评估文本简化模型的性能提供了标准化的基准,有助于提升研究的可靠性和可重复性。
衍生相关工作
基于MCTS数据集,研究人员已经开展了一系列相关工作,推动了中文文本简化领域的快速发展。例如,有研究利用MCTS数据集开发了新的文本简化模型,显著提高了简化文本的质量和自然度。此外,还有研究通过分析MCTS数据集中的文本特征,提出了新的评估指标和方法,进一步提升了文本简化研究的科学性和系统性。这些衍生工作不仅丰富了中文文本简化的理论基础,也为实际应用提供了强有力的支持。
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

中国气象数据

本数据集包含了中国2023年1月至11月的气象数据,包括日照时间、降雨量、温度、风速等关键数据。通过这些数据,可以深入了解气象现象对不同地区的影响,并通过可视化工具揭示中国的气温分布、降水情况、风速趋势等。

github 收录

poi

本项目收集国内POI兴趣点,当前版本数据来自于openstreetmap。

github 收录

DAT

DAT是一个统一的跨场景跨领域基准,用于开放世界无人机主动跟踪。它提供了24个视觉复杂的场景,以评估算法的跨场景和跨领域泛化能力,并具有高保真度的现实机器人动力学建模。

github 收录

KAIST dataset

KAIST数据集,用于多光谱行人检测。

github 收录

URPC系列数据集, S-URPC2019, UDD

URPC系列数据集包括URPC2017至URPC2020DL,主要用于水下目标的检测和分类。S-URPC2019专注于水下环境的特定检测任务。UDD数据集信息未在README中详细描述。

github 收录