Chinese Word Ordering Errors Detection and Correction Corpus

github2022-06-02 更新2024-05-31 收录

下载链接：

https://github.com/ntunlplab/Chinese-Word-Ordering-Errors-Detection-and-Correction-Corpus

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集由北京语言文化大学构建的HSK动态作文语料库中提取的8,515个带有词序错误标注的句子组成。数据集经过去重和特殊格式句子的移除，以及词序错误的修正。数据集包含三个文本文件：sent-original.txt、sent-annotator1.txt和sent-annotator2.txt，分别存储原始句子、第一和第二位标注者的修正结果。

This dataset consists of 8,515 sentences annotated with word order errors, extracted from the HSK Dynamic Composition Corpus constructed by Beijing Language and Culture University. The dataset has undergone deduplication, removal of sentences with special formats, and correction of word order errors. The dataset contains three text files: sent-original.txt, sent-annotator1.txt, and sent-annotator2.txt, which store the original sentences and the correction results from the first and second annotators respectively.

创建时间：

2022-05-31

原始信息汇总

中文词序错误检测与纠正语料库

1. 数据集下载

该数据集包含3个文本文件：sent-original.txt、sent-annotator1.txt和sent-annotator2.txt。

2. 数据来源

本数据集中的句子来自北京语言文化大学构建的HSK动态作文语料库，该语料库包含非母语汉语学习者在HSK考试中撰写的汉语作文文章。

3. 预处理

HSK语料库中共有8,515个带有“词序错误”标注的句子。去除了重复句子和特殊格式句子，并对词序错误进行了纠正。HSK提供的标签如"{CJX}"也已从所有句子中移除。sent-original.txt中包含1,150个无任何标签的唯一句子。

4. 标注

两位汉语母语研究者对每个原始句子进行标注纠正，不参考HSK提供的错误标签提示。在预处理过程中所有词序错误已被纠正，标注过程中未插入、删除或替换任何词语。标注纠正后的句子与原始句子中的词语完全相同，仅词序正确。标注纠正后的句子分别保存在sent-annotator1.txt和sent-annotator2.txt中。

5. 数据格式

在sent-original.txt中，每行包含一个非母语汉语学习者撰写的原始句子。每个原始句子的标注纠正结果分别列在sent-annotator1.txt和sent-annotator2.txt的相应行中。

6. 数据集语言

所有文本均为简体中文。

7. 字符编码

所有文本均采用UTF8编码。

搜集汇总

数据集介绍

构建方式

该数据集基于北京语言文化大学构建的HSK动态作文语料库，从中提取了8,515条包含词序错误的句子。经过预处理，删除了重复句子和特殊格式句子，并修正了词序错误。最终保留了1,150条无标签的原始句子，存储于sent-original.txt文件中。两位母语为中文的研究者对这些句子进行了独立标注，确保仅调整词序而不增删或替换任何词汇，标注结果分别保存在sent-annotator1.txt和sent-annotator2.txt中。

特点

该数据集专注于非母语中文学习者的词序错误检测与修正，具有高度的专业性和针对性。其特点在于所有句子均来自HSK考试作文，真实反映了学习者的常见错误。数据集提供了原始句子及其两种修正版本，便于对比分析。所有文本均采用简体中文，并以UTF-8编码存储，确保了数据的兼容性和易用性。

使用方法

使用该数据集时，可通过sent-original.txt获取原始句子，并分别参考sent-annotator1.txt和sent-annotator2.txt中的修正版本进行对比研究。每条原始句子与对应的修正句子按行对齐，便于逐句分析词序错误及其修正策略。该数据集适用于自然语言处理领域的研究，尤其是词序错误检测与修正模型的训练与评估。

背景与挑战

背景概述

汉语作为一门高度依赖语序的语言，其语序错误检测与纠正对于非母语学习者而言具有重要的研究价值。Chinese Word Ordering Errors Detection and Correction Corpus数据集由北京语言文化大学基于HSK动态作文语料库构建，旨在为汉语语序错误的研究提供高质量的数据支持。该数据集创建于2014年，主要研究人员包括Shuk-Man Cheng、Chi-Hsin Yu和Hsin-Hsi Chen。其核心研究问题聚焦于非母语学习者在汉语写作中常见的语序错误，并通过标注纠正后的句子为相关研究提供了基准数据。该数据集在汉语作为第二语言教学、自然语言处理等领域具有广泛的应用潜力。

当前挑战

该数据集在解决汉语语序错误检测与纠正问题时面临多重挑战。首先，汉语语序的灵活性使得错误检测的边界模糊，尤其是在上下文依赖较强的情况下，难以准确界定语序错误的范围。其次，数据集的构建过程中，研究人员需要处理大量来自HSK语料库的原始数据，包括去除重复句子、特殊格式句子以及错误标签，这一过程对数据的清洗和标准化提出了较高要求。此外，标注过程中需确保纠正后的句子仅调整语序而不改变词汇，这对标注者的语言能力和细致程度提出了挑战。这些挑战不仅影响了数据集的构建效率，也对后续基于该数据集的研究提出了更高的技术要求。

常用场景

经典使用场景

在中文作为第二语言的教学与研究中，Chinese Word Ordering Errors Detection and Correction Corpus 数据集被广泛应用于检测和纠正非母语学习者的词序错误。通过对比原始句子与标注后的正确句子，研究者能够深入分析学习者在词序上的常见错误模式，进而优化教学策略和教材设计。

衍生相关工作

基于该数据集，许多经典研究工作得以展开。例如，研究者开发了多种基于规则和机器学习的词序纠错模型，显著提升了纠错系统的准确率。此外，该数据集还催生了一系列关于中文作为第二语言习得的研究，深入探讨了词序错误与语言水平、母语背景等因素的关系。

数据集最近研究