MapLemon Corpus

github2024-03-18 更新2024-05-31 收录

下载链接：

https://github.com/tdmmct/maplemon

下载链接

链接失效反馈

官方服务：

资源简介：

MapLemon语料库包含54000个单词，涉及346名参与者，覆盖40个美国州和6个加拿大省份，包含30种语言背景。数据集详细记录了性别和生物性别的多样性，如跨性别男性、跨性别女性、非二元性别者以及顺性别男性和女性等。该语料库完全匿名，并根据性别分成了不同的表单。

The MapLemon corpus comprises 54,000 words contributed by 346 participants from 40 U.S. states and 6 Canadian provinces, encompassing 30 linguistic backgrounds. The dataset meticulously documents the diversity in gender and biological sex, including transgender men, transgender women, non-binary individuals, as well as cisgender men and women. This corpus is fully anonymized and organized into distinct forms based on gender.

创建时间：

2024-03-05

原始信息汇总

数据集概述

基本信息

名称: MapLemon Corpus
字数: 54000 words
参与者数量: 346 participants

地理分布

美国州数: 40 US states
加拿大省份数: 6 Canadian provinces

语言背景

语言背景多样性: 30 linguistic backgrounds

性别和性别身份

跨性别男性: 57 transgender men
跨性别女性: 84 transgender women
非二元性别: 124 non binary people (73 assigned male at birth, 46 assigned female at birth)
顺性别女性: 65 cisgender women
顺性别男性: 32 cisgender men

数据处理

匿名化: The MapLemon corpus is completely anonymized.
数据组织: The corpus is separated into sheets with genders for convenience.

数据包含内容

TOTAL responses sheet: 包含问题及答案，包括时间戳、实验I（地图）、实验II（食谱）、年龄、种族、民族、性别、生物性别、出生地、教育、职业、第一语言、最熟悉的语言、第二语言（如果双语）。
ML v6 and v5 sheets: 包含相应阶段的响应。

注意事项

数据缺失: 试点研究中可能缺少某些人口统计问题的答案。

搜集汇总

数据集介绍

构建方式

MapLemon Corpus的构建基于一项涵盖广泛地理和语言背景的研究，涉及来自美国40个州和加拿大6个省的346名参与者。数据收集过程中，参与者完成了两项实验任务（地图和食谱），并提供了详细的个人信息，包括年龄、种族、性别、生物性别、教育背景、职业、母语及熟悉语言等。为确保隐私，所有数据均经过匿名化处理，并按性别分类存储，便于后续分析。

特点

MapLemon Corpus以其多样性和全面性著称，涵盖了57名跨性别男性、84名跨性别女性、124名非二元性别者以及65名顺性别女性和32名顺性别男性的数据。此外，参与者来自30种不同的语言背景，进一步增强了数据集的代表性。数据集中不仅包含实验任务的详细回答，还提供了丰富的人口统计信息，为研究性别、语言和社会背景的交叉影响提供了宝贵资源。

使用方法

使用MapLemon Corpus时，研究者可从TOTAL responses表中获取完整的实验回答和人口统计信息，该表包含时间戳、实验I（地图）、实验II（食谱）以及详细的个人背景数据。ML v6和v5表则分别记录了不同阶段的数据收集结果。研究者可根据研究需求，选择特定性别或语言背景的数据进行深入分析，或利用匿名化数据探索性别与语言使用之间的关系。

背景与挑战

背景概述

MapLemon Corpus数据集由多个研究机构联合创建，旨在探索语言使用与性别身份之间的复杂关系。该数据集涵盖了来自美国40个州和加拿大6个省的346名参与者，涉及30种不同的语言背景，包括57名跨性别男性、84名跨性别女性、124名非二元性别者以及65名顺性别女性和32名顺性别男性。数据集的核心研究问题聚焦于不同性别身份群体在语言表达上的差异，特别是在地图描述和食谱编写任务中的表现。通过这一数据集，研究人员能够深入分析性别身份对语言使用的影响，为语言学、社会学和心理学等领域提供了宝贵的研究资源。

当前挑战

MapLemon Corpus在构建过程中面临多重挑战。首要挑战在于数据的多样性与代表性，确保涵盖不同性别身份、语言背景和地理区域的参与者，以全面反映语言使用的多样性。其次，数据匿名化处理要求严格，以保护参与者的隐私，同时确保数据的可用性和研究价值。此外，数据收集过程中存在部分人口统计信息的缺失，这在一定程度上限制了数据的完整性和分析的深度。在解决领域问题上，该数据集面临的挑战在于如何准确捕捉和量化性别身份对语言使用的影响，特别是在跨文化和跨语言背景下的复杂性。这些挑战要求研究者在数据收集、处理和分析过程中采取严谨的方法，以确保研究结果的可靠性和普适性。

常用场景

经典使用场景

MapLemon Corpus数据集在语言学和性别研究领域具有广泛的应用，特别是在探讨语言使用与性别认同之间的关系时，该数据集提供了丰富的语料支持。研究者可以通过分析不同性别背景参与者的语言表达，揭示语言在社会性别构建中的作用。

解决学术问题

MapLemon Corpus解决了性别与语言多样性研究中的关键问题，尤其是在跨性别和非二元性别群体的语言使用模式方面。通过提供详细的参与者背景信息，该数据集帮助研究者深入理解性别认同如何影响语言选择，填补了传统语言学研究中性别多样性数据的空白。

衍生相关工作

基于MapLemon Corpus，许多经典研究得以展开，例如探讨跨性别者在不同社会语境下的语言适应策略，以及非二元性别群体的语言创新现象。这些研究不仅丰富了性别语言学的理论框架，还为后续的跨学科研究提供了宝贵的实证基础。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集