five

The-spoken-L2-corpus

收藏
github2021-08-18 更新2024-05-31 收录
下载链接:
https://github.com/blculyn/The-spoken-L2-corpus
下载链接
链接失效反馈
官方服务:
资源简介:
The spoken L2 corpus代表了当前在中国大陆使用的普通话口语。它包括了第二语言(L2)汉语使用者与母语为汉语的人(语料库构建者)在非学术环境中的L1-L2对话交互。该语料库包含2018年收集的220,792字的转录交互,涉及14位汉语第二语言使用者在34次录音中的表现。所有这些汉语第二语言使用者都是非华裔的英语母语者(12位新西兰人和2位澳大利亚人),他们的汉语水平从中级到高级不等。

The spoken L2 corpus represents the current usage of Mandarin spoken language in mainland China. It includes interactions between second language (L2) Chinese learners and native Chinese speakers (corpus builders) in non-academic settings. This corpus comprises 220,792 transcribed words collected in 2018, featuring the performance of 14 L2 Chinese learners across 34 recordings. All these L2 Chinese learners are non-Chinese native English speakers (12 from New Zealand and 2 from Australia), with their Chinese proficiency ranging from intermediate to advanced levels.
创建时间:
2021-07-13
原始信息汇总

The-spoken-L2-corpus 概述

数据集描述

  • 语言: 普通话(中国大陆使用)
  • 内容: 包含14位L2汉语使用者与一位母语为汉语的对话者之间的非学术场景对话。
  • 规模: 总计220,792字的转录交互,包含34个录音。
  • 参与者: 所有L2汉语使用者为非中国族裔的英语母语者(12位新西兰人和2位澳大利亚人),汉语水平为中级到高级。

数据集组件

  • 转录文本:
    • L1-L2对话的原始文本文件,无头部信息。
    • L2说话者的原始文本文件,无头部信息。
  • 元数据:
    • 包含说话者和录音信息的文本文件。
  • 转录指南:
    • 汉语口语语料库转录方案,PDF格式。

版本历史

  • 版本: 1.0
  • 发布时间: 2021年3月

引用信息

  • 参考文献: Li, L. (2021). A spoken Chinese corpus: Development, description, and application in L2 studies [Unpublished Doctoral dissertation]. Massey University.
搜集汇总
数据集介绍
main_image_url
构建方式
该数据集的构建基于2018年在中国大陆进行的非学术环境下的L1-L2对话互动。数据收集过程中,14名以英语为母语的中级至高级汉语水平的非华裔L2学习者与一名汉语母语者进行了对话,共录制了34段对话,转录文本总计220,792字。数据以原始文本文件形式保存,未添加任何标注或头部信息,确保了数据的原始性和真实性。
特点
该数据集的特点在于其专注于非学术环境下的汉语口语互动,涵盖了L2学习者在自然对话中的语言表现。数据集中包含L1-L2对话的完整转录文本以及仅L2学习者的语音转录文本,为研究汉语作为第二语言的学习过程提供了丰富的语料资源。此外,数据集还提供了详细的元数据文件,记录了每位说话者的背景信息及录音的上下文环境,进一步增强了数据的可用性和研究价值。
使用方法
使用该数据集时,用户可通过下载的文本文件直接访问原始对话转录内容。数据集分为未标注的对话文本和仅L2学习者的语音转录文本,用户可根据研究需求选择使用。同时,元数据文件为研究者提供了对话背景信息,便于进行更深入的分析。在使用该数据集的研究成果中,用户需引用相关文献以确认数据来源,确保学术规范性和数据使用的透明度。
背景与挑战
背景概述
The-spoken-L2-corpus数据集由Massey大学的Li L.博士于2021年发布,旨在捕捉中国大陆普通话的非正式会话场景。该数据集包含2018年收集的220,792字转录对话,涉及14名以英语为母语的中级至高级汉语学习者与一名汉语母语者的互动。这些对话在非学术环境中进行,反映了真实的语言使用情况。该数据集的发布为第二语言习得研究提供了宝贵的资源,特别是在汉语作为第二语言的学习过程中,如何在实际交流中应用语言技能的研究领域具有重要影响。
当前挑战
The-spoken-L2-corpus数据集面临的挑战主要包括两个方面。首先,在解决领域问题上,该数据集旨在帮助研究者理解非母语者在实际交流中的语言使用模式,但如何准确捕捉和量化学习者的语言进步仍是一个复杂的问题。其次,在数据构建过程中,确保转录的准确性和一致性是一个重大挑战,尤其是在处理非母语者的发音和语法错误时。此外,如何在非学术环境中保持对话的自然性和真实性,同时保护参与者的隐私,也是数据集构建过程中需要克服的难题。
常用场景
经典使用场景
The-spoken-L2-corpus数据集在二语习得研究中具有重要应用,特别是在探讨非母语者与母语者之间的口语互动模式时。该数据集通过记录14名中级至高级汉语水平的英语母语者与汉语母语者的非学术环境对话,为研究者提供了丰富的语料资源,用于分析二语学习者在实际交流中的语言使用特点、错误模式及语言习得过程。
实际应用
The-spoken-L2-corpus数据集在实际应用中广泛用于语言教学和语言测试领域。教育机构可以利用该数据集开发针对汉语学习者的口语训练课程,帮助学习者提高语言流利度和交际能力。同时,语言测试机构可以基于该数据集设计更贴近实际交流的语言评估工具,从而更准确地衡量学习者的语言水平。
衍生相关工作
基于The-spoken-L2-corpus数据集,许多经典研究得以展开。例如,研究者利用该数据集分析了二语学习者在口语互动中的语法错误分布及其修正模式,揭示了语言习得中的阶段性特征。此外,该数据集还被用于开发自动语音识别和语言生成模型,推动了自然语言处理技术在二语学习领域的应用。这些研究不仅丰富了二语习得理论,也为语言技术的进步提供了重要支持。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作