Temperature and Language Sonority

github2023-12-07 更新2024-05-31 收录

下载链接：

https://github.com/EL-CL/temperature-sonority

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含了温度数据和语言声调数据，用于研究温度如何影响语言声调。温度数据包括每月温度记录和全球平均温度记录，语言数据包括声调指数和语音数据等。

This dataset comprises temperature data and linguistic tone data, designed to investigate the impact of temperature on linguistic tones. The temperature data includes monthly temperature records and global average temperature records, while the linguistic data encompasses tone indices and speech data, among others.

创建时间：

2023-02-26

原始信息汇总

数据集概述

数据集名称

Temperature and Language Sonority

数据集内容

温度数据

temperatures.csv: 每月温度数据（1982-2022），针对每个筛选后的语言方言。
temperature_global.csv: 全球平均年温度数据，覆盖41年（180° W–180° E, 60° S–90° N）。

语言数据

sonorities.csv: 每个筛选后的语言方言的平均声调指数（MSI），采用5种方法计算。
phones.csv: 从所有语言方言中提取的音素。
word_structures.csv: 所有语言方言的词结构统计，使用C（辅音）和V（元音）符号表示。
word_structures_grouped.csv: 所有语言方言的词长统计。
vowel_length_solutions.csv: 三种元音长度解决方案下的MSI结果。

综合数据

data.csv: 每个筛选后的语言方言的数据，包括温度数据和语言数据。
data_genus.csv: 根据WALS分类的每个语言“属”的数据。
data_family.csv: 根据WALS分类的每个语言家族的数据。
data_macroarea.csv: 每个宏观区域（北美、南美、欧亚、非洲、大新几内亚和澳大利亚）的数据。

图表数据

global.png 和 global.pdf: 全球平均气温（MAT）和平均声调指数（MSI）的分布。
distribution.pdf: 按宏观区域分组的MAT和MSI分布。
correlation.pdf: MSI和MAT之间的关系。
correlation_by_family.pdf: 前25个最大语言家族中MSI和MAT的关系。
word_length.pdf: 平均词长与MSI或MAT的关系。
word_length_by_family.pdf: 前25个最大语言家族中MSI和平均词长的关系。
range.pdf: 平均年温度范围与MAT的关系。
vowel_length_solutions.pdf: 元音长度解决方案之间的关系。

搜集汇总

数据集介绍

构建方式

该数据集的构建基于两个主要数据源：ASJP数据集和FLDAS数据集。首先，从ASJP数据集中提取了语言的地理位置和音韵数据，包括音素的响度指数、词汇结构等。接着，从FLDAS数据集中提取了与这些语言地理位置相对应的月度温度数据。通过将语言数据和温度数据进行整合，生成了包含语言响度指数与温度关系的综合数据集。整个过程通过多个Python脚本自动化完成，确保了数据的一致性和可重复性。

使用方法

使用该数据集时，研究者可以通过运行提供的Python脚本来提取和处理数据。首先，从ASJP和FLDAS数据集中提取所需的语言和温度数据，随后通过脚本将两者整合并生成综合数据文件。研究者还可以使用R语言脚本进行数据分布和相关性的可视化分析。数据集的使用步骤清晰，且每一步的输出文件均已提供，便于研究者直接使用或进一步扩展分析。

背景与挑战

背景概述

Temperature and Language Sonority数据集由研究人员于2023年创建，旨在探讨气候温度对语言音韵特征的影响。该数据集基于ASJP（Automated Similarity Judgment Program）和FLDAS（Famine Early Warning Systems Network Land Data Assimilation System）两大公开数据集，结合了全球范围内的语言音韵数据与气候温度数据。通过分析不同语言的平均响度指数（Mean Sonority Index, MSI）与年均温度的关系，该研究揭示了温度对语言音韵结构的潜在影响，为语言演化与环境因素的关系提供了新的视角。这一研究不仅丰富了语言学的理论框架，也为跨学科研究提供了重要的数据支持。

当前挑战

该数据集在构建过程中面临多重挑战。首先，语言音韵数据的提取与标准化处理涉及复杂的音韵学理论，不同学者对响度指数的计算方法存在差异，如何统一这些方法并确保数据的可比性是一个关键问题。其次，气候数据的获取与匹配需要高精度的地理定位和时间序列分析，确保每个语言样本对应的温度数据准确无误。此外，全球语言分布的不均衡性也增加了数据分析的复杂性，尤其是在处理语言家族和宏观区域分类时，如何避免样本偏差成为一大难题。这些挑战不仅考验了数据处理的技术能力，也对跨学科研究的整合提出了更高要求。

常用场景

经典使用场景

在语言学和气候学的交叉领域，'Temperature and Language Sonority'数据集被广泛应用于研究气候条件如何影响语言的音韵特征。通过分析全球不同地区的温度和语言响度指数（MSI），研究者能够揭示环境因素对语言演化的潜在影响。该数据集的使用场景包括从大规模语言样本中提取音韵数据，并结合气候数据进行统计分析，以验证温度与语言响度之间的关系。

解决学术问题

该数据集解决了语言演化与环境因素之间关系的核心学术问题。通过提供详细的温度和语言响度数据，研究者能够量化气候条件对语言音韵特征的影响，从而验证或反驳现有的理论假设。这一研究不仅深化了我们对语言多样性的理解，还为跨学科研究提供了新的视角和方法。

实际应用

在实际应用中，'Temperature and Language Sonority'数据集为语言保护和文化多样性研究提供了重要支持。通过分析不同气候条件下的语言特征，研究者可以为濒危语言的保护策略提供科学依据。此外，该数据集还可用于教育领域，帮助语言学家和气候学家更好地理解环境与语言之间的复杂关系。

数据集最近研究