CSS

Name: CSS
Creator: 上海交通大学人工智能研究院
Published: 2023-05-25 17:44:44
License: 暂无描述

arXiv2023-05-25 更新2024-06-21 收录

下载链接：

https://huggingface.co/datasets/zhanghanchong/css

下载链接

链接失效反馈

官方服务：

资源简介：

CSS是一个大规模的跨模式中文文本到SQL医疗数据集，由上海交通大学人工智能研究院创建。该数据集包含33,620个问题/SQL对，分布在21个数据库中。数据集的创建过程涉及从真实世界场景中收集两个数据库，并通过规则生成伪值填充数据库，以保护隐私。CSS不仅支持跨模式文本到SQL的研究，还构建了最大的中文单域语料库，适用于开发和测试文本到SQL系统。数据集的应用领域主要集中在医疗系统中，旨在解决不同医疗系统间数据结构差异带来的查询问题。

CSS is a large-scale cross-schema Chinese text-to-SQL medical dataset created by the Institute of Artificial Intelligence at Shanghai Jiao Tong University. This dataset contains 33,620 question/SQL pairs distributed across 21 databases. The dataset creation process involves collecting two databases from real-world scenarios, and generating pseudo-values via predefined rules to populate the databases for privacy protection. CSS not only supports cross-schema text-to-SQL research, but also constructs the largest Chinese single-domain corpus suitable for developing and testing text-to-SQL systems. The dataset is primarily applied in medical systems, aiming to solve query challenges caused by data structure differences across various medical systems.

提供机构：

上海交通大学人工智能研究院

创建时间：

2023-05-25

搜集汇总

数据集介绍

构建方式

CSS数据集的构建方式是通过人工标注的方式进行的。首先，从PFR中文语料库中随机抽取原始句子，然后由通过资格测试的人工标注员对这些句子进行简化。除了人工简化外，标注员还被要求标注他们对原始句子进行的重写变换。为了保证数据质量，研究人员设计了一个资格测试来衡量标注员的简化能力，并对标注过程进行了质量控制，包括对简化结果进行人工检查，以及添加一些假例来确保标注员能够给出合理的简化。

特点

CSS数据集的特点在于它提供了丰富的重写变换和额外的信息。与之前英文简化数据集相比，CSS为每个原始句子提供的参考简化数量较少，但重写变换更加丰富，并提供了额外的简化操作标签。这些标签可以帮助评估可控简化的效果。此外，CSS数据集中的句子简化操作种类繁多，包括词汇简化、句子拆分、压缩和句子改写等。这些特点使得CSS数据集成为一个非常有价值的评估简体中文句子的资源。

使用方法

使用CSS数据集的方法主要包括评估简体中文句子简化模型。研究人员可以使用CSS数据集中的原始句子和人工简化句子作为训练和测试数据，来评估不同简化方法的性能。此外，CSS数据集还可以用于探索零样本和少样本学习在简体中文句子简化中的应用。研究人员可以将CSS数据集作为基准，来比较和评估不同的简化方法和模型。

背景与挑战

背景概述

句简化作为一种重要的语言处理技术，在辅助语言学习者、儿童以及阅读障碍人士方面发挥着重要作用。目前，句简化研究主要集中在英语领域，而中文句简化的研究则相对滞后，主要原因是缺乏相关数据集。为了推动中文句简化研究的发展，杨世平等研究者创建了CSS数据集，这是一个用于评估中文句简化模型的新数据集。CSS数据集收集了人工简化的句子，并通过数据分析展示了中文和英语句简化的差异。此外，研究者还在CSS数据集上测试了多种无监督和零样本/少样本学习方法，并对自动评估和人工评估结果进行了分析。最后，研究者探讨了大型语言模型是否可以作为高质量的中文句简化系统。

当前挑战

构建中文句简化数据集面临着诸多挑战。首先，现有的句简化数据集大多采用自动句子对齐方法构建，这依赖于大规模简化语料库的存在，而中文领域缺乏合适的简化语料库。其次，虽然可以通过神经网络翻译将英文数据集翻译成中文，但中英文在语法结构和语言习惯上存在显著差异，导致文本简化的差异。此外，借助人工专家简化句子也是一种选择，但成本高昂且效率低下。因此，研究者决定手动构建一个仅用于评估的数据集，以实现成本和效率之间的权衡。

常用场景

经典使用场景

CSS 数据集作为中文句子简化的评估工具，被广泛应用于自然语言处理领域，尤其是针对中文文本简化模型的研究和开发。通过对人类标注的简化句子的分析，CSS 提供了中文句子简化的特点和规律，有助于研究人员理解中文句子简化的复杂性和多样性。

解决学术问题

CSS 数据集解决了中文句子简化研究中的数据稀缺问题，为中文句子简化模型的训练和评估提供了高质量的数据基础。同时，CSS 数据集还揭示了中文句子简化的特点和规律，为中文句子简化模型的改进提供了重要的参考。

衍生相关工作

CSS 数据集的发布推动了中文句子简化领域的研究进展，激发了更多相关研究的兴趣。基于 CSS 数据集，研究人员开发了一系列中文句子简化模型，并在中文句子简化任务中取得了显著的成果。此外，CSS 数据集还促进了中文句子简化领域与其他自然语言处理领域的交叉研究，推动了中文自然语言处理技术的发展。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集