corpus-francais-inclusif
收藏github2023-10-17 更新2024-05-31 收录
下载链接:
https://github.com/grouin/corpus-francais-inclusif
下载链接
链接失效反馈官方服务:
资源简介:
包含用法语编写的政治演讲短文的数据集,提供法语包容性版本和标准法语版本,并详细标注了包容性语言和实体类别。
A dataset containing short political speeches written in French, providing both inclusive and standard French versions, with detailed annotations on inclusive language and entity categories.
创建时间:
2022-02-21
原始信息汇总
数据集概述
数据集名称
corpus-francais-inclusif
数据集描述
本数据集包含政治演讲的短摘录,以法语编写,专注于包容性语言(性别中性语言)。数据集提供两种版本:
- VFI (French Inclusive version):包含四种语言现象,包括女性和男性形式的协调、功能的女性化、女性和男性屈折的组合(包容性写作)以及中性化。
- VFS (Standard French version):与VFI相同的语料库,但包容性法语部分已被重写为标准法语。
数据集内容
两种版本的语料库均进行了以下标注:
- 包容性法语跨度:标记为"Inclusif"。
- 命名实体类别:包括地址、邮政编码、日期、地点、组织、人物、城市。
文件格式
数据集文件提供两种格式:txt/ann文件,适用于BRAT,包含嵌入式标注。
搜集汇总
数据集介绍

构建方式
该数据集构建于法语政治演讲的短篇摘录,专注于性别中立语言的运用。数据集分为两个版本:VFI(法语包容性版本)和VFS(标准法语版本)。VFI版本包含四种语言现象的处理,包括性别形式的协调、职能的女性化、性别屈折的组合以及中性化处理。VFS版本则是在VFI的基础上,将包容性语言改写为标准法语。两个版本均标注了包容性语言片段和命名实体类别,如地址、邮政编码、日期等。
特点
该数据集的特点在于其专注于法语中的性别中立语言现象,提供了包容性语言与标准法语的对比版本,便于研究性别语言对自然语言处理工具的影响。数据集中的文本经过精细的标注,不仅包括包容性语言的标记,还涵盖了多种命名实体的分类,为语言学研究和技术开发提供了丰富的资源。
使用方法
该数据集的使用方法灵活多样,支持BRAT格式的txt/ann文件和嵌入式标注的tag文件。研究者可以通过对比VFI和VFS版本,分析包容性语言在政治演讲中的使用及其对自然语言处理工具的影响。此外,数据集中的命名实体标注也为信息提取和文本分析提供了便利。
背景与挑战
背景概述
corpus-francais-inclusif数据集由Cyril Grouin于2022年创建,旨在研究法语包容性语言(性别中立语言)对自然语言处理工具的影响。该数据集包含政治演讲的简短摘录,提供了两种版本:法语包容性版本(VFI)和标准法语版本(VFS)。VFI版本涵盖了四种语言现象,包括阴阳性形式的协调、职能的女性化、阴阳性屈折的结合以及中性化处理。VFS版本则将这些包容性语言改写为标准法语。数据集还标注了包容性语言片段和命名实体类别,如地址、邮政编码、日期、地点、组织、人物和城市等。这一数据集为研究包容性语言在自然语言处理中的应用提供了重要资源。
当前挑战
corpus-francais-inclusif数据集面临的挑战主要体现在两个方面。首先,包容性语言在法语中的多样性和复杂性使得自动处理工具难以准确识别和转换这些语言现象,尤其是在阴阳性形式的协调和中性化处理方面。其次,构建过程中需要确保两种版本(VFI和VFS)在语义上的一致性,同时保留原始文本的语境和意图,这对标注和改写工作提出了较高的技术要求。此外,包容性语言的使用在法语社区中仍存在争议,如何在不影响文本自然性的前提下实现语言的中立化处理,也是该数据集面临的重要挑战。
常用场景
经典使用场景
在自然语言处理领域,corpus-francais-inclusif数据集被广泛用于研究法语中的性别中立语言现象。该数据集通过提供包含政治演讲短摘录的两种版本——法语包容性版本(VFI)和标准法语版本(VFS),为研究者提供了丰富的语料资源。VFI版本特别标注了四种语言现象,包括性别形式的协调、职能的女性化、性别屈折的组合以及中性化处理,这些标注为研究性别中立语言的使用和影响提供了基础。
解决学术问题
该数据集解决了自然语言处理中关于性别中立语言的识别和分析问题。通过对比VFI和VFS版本,研究者能够深入探讨性别中立语言对文本处理工具的影响,如命名实体识别和文本分类等任务。这种对比分析不仅揭示了性别中立语言在文本中的表现形式,还为开发更加包容和公平的语言处理模型提供了数据支持。
衍生相关工作
基于corpus-francais-inclusif数据集,研究者们已经开展了一系列相关工作,包括开发新的算法来识别和处理性别中立语言,以及评估现有自然语言处理工具在处理包容性语言时的性能。这些研究不仅推动了自然语言处理技术的发展,还为性别平等和语言多样性的研究提供了新的视角和方法。
以上内容由遇见数据集搜集并总结生成



