The Corpus of Singapore English Messages (CoSEM)

github2024-01-15 更新2024-05-31 收录

下载链接：

https://github.com/wdwgonzales/CoSEM

下载链接

链接失效反馈

官方服务：

资源简介：

CoSEM是一个收集于2016至2022年间的在线文本消息语料库，由一群对新加坡口语英语研究感兴趣的学者编纂和管理。该数据集包含年龄、性别、种族、国籍、收集年份和发言年份等元数据，并采用层次化文本格式，便于使用AntConc、CasualConc等语料分析软件。

CoSEM is an online text message corpus collected between 2016 and 2022, compiled and managed by a group of scholars interested in the study of Singapore Colloquial English. The dataset includes metadata such as age, gender, ethnicity, nationality, collection year, and year of utterance, and is formatted in a hierarchical text structure, facilitating its use with corpus analysis software like AntConc and CasualConc.

创建时间：

2022-11-02

原始信息汇总

数据集概述

名称: The Corpus of Singapore English Messages (CoSEM) 描述: CoSEM是一个包含2016年至2022年间收集的在线文本消息的语料库，由对口语新加坡英语（CSE）研究感兴趣的一组学者编纂和管理。

数据集特征

元数据: 包含年龄、性别、种族、国籍、收集年份、发言年份等元数据。
文本格式: 采用层次化文本格式，适用于AntConc、CasualConc等索引软件。

许可协议

类型: CC BY-NC-SA 4.0 权限: 允许复制、重新分发和修改材料。条件: 必须给予适当的信用，提供许可证链接，并指出是否进行了更改。不得用于商业目的。如果修改材料，必须以与原始材料相同的许可证分发贡献。

免责声明

数据清洗: 使用scrubadub包和自定义RegEx脚本进行数据清洗，但可能存在未完全清洗的情况。
使用建议: 建议用户在使用公共版本时谨慎，对未清洗的私人信息进行匿名处理。

数据集版本

当前版本: 包含10.9百万个标记（截至2023年9月17日）。
访问方式: 可通过下载链接获取，文件格式为zip，需解压缩后使用。

未来计划

更针对性的清洗
减少错误清洗的标记
增加数据集大小

团队成员

主要负责人: Assoc. Prof. Mie HIRAMOTO (National University of Singapore)
其他成员: Prof. Jakob LEIMGRUBER (University of Regensburg), Asst. Prof. Wilkinson Daniel Wong GONZALES (The Chinese University of Hong Kong), Jun Jie LIM (University of California, San Diego), Mohamed Hafiz Bin MOHAMED JURAIMI (National University of Singapore)

搜集汇总

数据集介绍

构建方式

新加坡英语消息语料库（CoSEM）的构建基于2016年至2022年间收集的在线文本消息，旨在研究新加坡口语英语（CSE）。语料库的构建过程包括数据的收集、清洗和标注，确保数据的隐私性和可用性。研究者采用了Python的`scrubadub`包和自定义的RegEx脚本，以去除消息中的敏感信息，如电子邮件地址等。每条消息均附有详细的元数据标签，包括年龄、性别、种族、国籍等，以便于后续的分析和研究。

特点

CoSEM语料库的特点在于其丰富的元数据标签和层次化的文本格式，便于使用如AntConc和CasualConc等一致性软件进行分析。语料库包含了690万条标记，经过去重处理，并且不将标点符号视为独立的词汇。此外，语料库遵循CC BY-NC-SA 4.0许可协议，允许用户自由分享和改编，但禁止商业用途。语料库的构建充分考虑了隐私保护，通过自动化工具和手动检查相结合的方式，尽可能去除敏感信息。

使用方法

使用CoSEM语料库时，用户需从GitHub主目录下载压缩文件，解压后方可使用。语料库的文本格式适合使用一致性软件进行分析，用户可以根据元数据标签进行筛选和分类。在使用过程中，建议用户注意语料库的隐私保护措施，并在引用时遵循CC BY-NC-SA 4.0许可协议的要求，注明出处并避免商业用途。此外，用户应谨慎处理未完全清洗的敏感信息，确保在公开使用前进行适当的匿名化处理。

背景与挑战

背景概述

新加坡英语消息语料库（CoSEM）是由一群对新加坡口语英语（CSE）研究感兴趣的学者于2016年至2022年间收集并管理的在线文本消息语料库。该语料库由新加坡国立大学的Mie Hiramoto副教授担任首席研究员，团队成员包括来自德国雷根斯堡大学的Jakob Leimgruber教授以及香港中文大学的Wilkinson Daniel Wong Gonzales助理教授等。CoSEM的核心研究问题在于通过分析在线消息中的语言使用，揭示新加坡英语的多样性和演变过程。该语料库不仅为语言学家提供了丰富的研究素材，还通过其详细的元数据（如年龄、性别、种族等）为社会学和人类学领域的研究提供了新的视角。CoSEM的发布对新加坡英语的研究产生了深远影响，推动了该领域的学术进展。

当前挑战

CoSEM在构建和应用过程中面临多重挑战。首先，新加坡英语作为一种混合语言，其语法和词汇的多样性使得语料库的标注和分析变得复杂。其次，语料库的构建过程中，隐私保护是一个关键问题。尽管使用了`scrubadub`包和自定义的RegEx脚本来去除敏感信息，但仍存在部分信息未能完全匿名化的风险，这可能导致数据泄露。此外，语料库的规模庞大（截至2024年11月，包含690万词），如何高效地管理和处理这些数据也是一个技术难题。最后，CoSEM的研究对象是动态变化的在线语言，如何捕捉和反映语言的实时变化，也是未来研究需要解决的重要问题。

常用场景

经典使用场景

The Corpus of Singapore English Messages (CoSEM) 是研究新加坡英语（CSE）的经典数据集，广泛应用于语言学和语料库研究领域。该数据集包含2016年至2022年间收集的在线文本消息，涵盖了年龄、性别、种族、国籍等多维度元数据，为研究者提供了丰富的语言变体分析素材。通过使用AntConc等语料库分析工具，研究者能够深入探讨新加坡英语的语法、词汇及语用特征，揭示其独特的语言演变规律。

衍生相关工作

CoSEM 催生了一系列关于新加坡英语的经典研究。例如，Gonzales 等人（2023）利用该数据集分析了新加坡英语中的句子末尾副词和闽南语借词，揭示了其语法和语用特征。Leimgruber 等人（2020）则探讨了性别和种族对新加坡英语话语助词使用的影响。此外，Hiramoto 等人（2022）研究了马来语对新加坡英语句子末尾助词的影响，进一步丰富了新加坡英语的语言接触研究。这些研究不仅深化了对新加坡英语的理解，也为其他语言变体的研究提供了方法论参考。

数据集最近研究