HiTZ/basqueparl
收藏Hugging Face2024-03-08 更新2024-06-22 收录
下载链接:
https://hf-mirror.com/datasets/HiTZ/basqueparl
下载链接
链接失效反馈官方服务:
资源简介:
BasqueParl是一个双语语料库,用于政治话语分析,涵盖了巴斯克自治区议会八年的转录内容,主要特点是包含巴斯克语-西班牙语的代码转换演讲。该语料库包含1400万字的议会转录,以演讲段落为单位,每段落包含日期、演讲者姓名、性别和政党等元数据,以及每段落的语言(巴斯克语或西班牙语)、词形还原和命名实体信息。
BasqueParl是一个双语语料库,用于政治话语分析,涵盖了巴斯克自治区议会八年的转录内容,主要特点是包含巴斯克语-西班牙语的代码转换演讲。该语料库包含1400万字的议会转录,以演讲段落为单位,每段落包含日期、演讲者姓名、性别和政党等元数据,以及每段落的语言(巴斯克语或西班牙语)、词形还原和命名实体信息。
提供机构:
HiTZ
原始信息汇总
BasqueParl: A Bilingual Corpus of Basque Parliamentary Transcriptions
概述
BasqueParl 是一个用于政治话语分析的双语语料库,涵盖了巴斯克自治社区议会八年的转录文本(2012-2020年),其主要特点是包含巴斯克语-西班牙语的代码转换演讲。
数据集特点
- 词汇量:1400万词
- 单元:演讲段落
- 元数据:包括日期、演讲者姓名、性别、党派等信息
- 语言标记:每个段落的语言(巴斯克语或西班牙语)
- 词形还原:每个段落的词形还原形式,包括有无停用词
- 命名实体:每个段落的命名实体,包括有无停用词
数据字段
BasqueParl 语料库以制表符分隔值(TSV)文件形式存储,每个单元包含以下字段:
- "date":演讲日期,例如 2020-02-07
- "speech_id":在同一天内的演讲编号,例如 3
- "text_id":在同一演讲内的段落编号,例如 3
- "speaker":演讲者的姓氏,包括其职位(如果有),例如 Tejeria Otermin LEHENDAKARIA
- "birth":演讲者的出生年份,例如 1971
- "gender":演讲者的性别,E 表示女性,G 表示男性
- "party":演讲者的政治团体,例如 EAJ
- "language":段落的语言,eu 表示巴斯克语,es 表示西班牙语
- "text":演讲文本段落
- "lemmas":词形还原的段落
- "lemmas_stw":不含停用词的词形还原段落
- "entities":从段落中提取的命名实体
- "entities_stw":不含停用词的命名实体
某些字段如性别或党派可能有时会被标记为缺失,如果数据无法检索或不适用。
引用
bibtex @inproceedings{escribano-etal-2022-basqueparl, title = "{B}asque{P}arl: A Bilingual Corpus of {B}asque Parliamentary Transcriptions", author = "Escribano, Nayla and Gonzalez, Jon Ander and Orbegozo-Terradillos, Julen and Larrondo-Ureta, Ainara and Pe{~n}a-Fern{a}ndez, Sim{o}n and Perez-de-Vi{~n}aspre, Olatz and Agerri, Rodrigo", booktitle = "Proceedings of the Thirteenth Language Resources and Evaluation Conference (LREC)", year = "2022", publisher = "European Language Resources Association", pages = "3382--3390" }
搜集汇总
数据集介绍

构建方式
在政治话语分析领域,议会语料库是研究多语言政治沟通与语言接触的重要资源。BasqueParl语料库的构建基于巴斯克自治区议会2012年至2020年间两个立法任期的会议转录文本,涵盖约1400万词的双语议会记录。语料以演讲段落为基本单元,通过精细的元数据标注,包括日期、演讲者姓名、性别、所属政党以及每个段落的语言标签(巴斯克语或西班牙语),并进一步提取了词形还原、命名实体等语言学特征。此外,语料还提供了去除停用词后的版本,以支持更深入的语言分析。该语料库的独特之处在于其聚焦于巴斯克语与西班牙语之间的语码转换现象,为研究多语言政治环境下的语言混合模式提供了珍贵的数据基础。
特点
BasqueParl语料库的核心特点在于其双语性与语码转换的密集呈现,这使其区别于传统的单语议会语料。语料中每个段落均被明确标注为巴斯克语或西班牙语,便于研究者系统分析两种语言在政治话语中的交替使用模式。此外,丰富的元数据(如演讲者性别、政党归属)使得研究者能够从社会语言学视角探讨语言选择与政治身份之间的关联。语料还提供了词形还原和命名实体标注,支持从词汇到语义层面的多层次分析。特别值得强调的是,语料库包含约14万条段落级数据,规模适中且标注质量高,为政治话语计算、语言接触研究以及多语言自然语言处理任务提供了理想的基准资源。
使用方法
BasqueParl语料库以TSV格式存储,可直接通过HuggingFace Datasets库加载使用。用户可根据研究需求选择不同的字段组合,例如使用'text'字段进行文本分类或文本生成任务,利用'language'标签开展语码转换检测研究,或结合'party'和'gender'元数据进行社会语言学分析。对于自然语言处理任务,该语料库支持多种任务类型,包括文本分类、序列标注、摘要生成、翻译以及零样本分类等。研究者可通过划分训练集、验证集和测试集构建模型评估框架,亦可直接利用预标注的词形和实体信息进行特征工程。此外,语料的双语特性使其特别适用于多语言模型微调与跨语言迁移学习实验。
背景与挑战
背景概述
在计算语言学与政治话语分析交叉领域中,议会语料库作为研究政治辩论、语言政策及社会互动的重要资源,长期受到学界关注。BasqueParl数据集由巴斯克大学HiTZ中心与Ixa研究团队的Rodrigo Agerri等人于2022年在LREC会议上发布,旨在填补巴斯克语—西班牙语双语政治语料的空白。该语料库收录了巴斯克自治区议会2012至2020年间两个立法周期的转录文本,涵盖逾1400万词,以演讲段落为单位,标注了日期、发言者姓名、性别、政党归属及语言标签(巴斯克语或西班牙语),并提供了词形还原、命名实体识别等深层语言处理结果。其核心研究问题聚焦于政治话语中的语码转换现象,为多语言政治沟通、少数语言保护及区域身份认同研究提供了独特的数据支撑,对自然语言处理中的语码转换检测、多语言情感分析等任务产生了重要推动作用。
当前挑战
BasqueParl数据集所面临的挑战首先体现在领域问题层面:议会话语中频繁出现的巴斯克语—西班牙语语码转换,使得传统单语言分类模型难以准确处理文本的语言边界与语义融合,亟需开发能够捕捉跨语言混合模式的新型算法。其次,在构建过程中,研究人员需克服议会转录文本的噪声问题,包括演讲者口误、非标准语法结构以及党派术语的多样性。此外,元数据标注面临实际困难,例如部分发言者的性别或政党信息因历史记录不完整而缺失,需人工回溯核实。语料的时间跨度长达八年,不同立法周期内的语言使用风格变化也增加了标注一致性维护的复杂度。最后,语料库的平衡性挑战显著,巴斯克语与西班牙语段落数量不均,且少数党派发言占比较低,可能引入模型偏见,影响下游任务如政治倾向分析的泛化能力。
常用场景
经典使用场景
BasqueParl数据集的核心应用场景在于对巴斯克语与西班牙语之间的语码转换现象进行深度剖析,尤其聚焦于政治话语领域。该语料库收录了巴斯克自治区议会2012至2020年间两个立法周期的完整会议记录,以演讲段落为基本单元,提供了包括发言者姓名、性别、政党归属及发言日期在内的丰富元数据。研究者可借此系统性地探究双语政治语境下语言交替的规律性特征,例如语码转换的触发条件、句法分布模式及其与政党意识形态的潜在关联。此外,每个段落均标注了主导语言(巴斯克语或西班牙语),并附有词形还原与命名实体识别结果,为计算语言学和语料库语言学领域的定量分析提供了坚实的数据基础。
解决学术问题
该数据集有效回应了低资源语言政治话语分析中双语对齐语料匮乏的学术难题。通过提供超过1400万词的高质量双语议会转录文本,BasqueParl使得研究者能够系统考察巴斯克语在正式政治场合中的实际使用状况,进而揭示语码转换如何反映权力动态、身份认同与政治策略。在学术意义上,它填补了巴斯克语作为少数语言在议会话语研究中的空白,为语言接触、社会语言学与政治语言学的交叉研究开辟了新路径。同时,其精细的元数据标注支持对性别、政党与语言选择之间交互作用的统计分析,从而深化了对多语言社会中政治沟通机制的理解,并为后续构建多语言政治话语分析模型奠定了基准。
衍生相关工作
BasqueParl的发布催生了一系列后续研究,尤其在语码转换的神经建模与多语言政治话语分析领域。经典工作包括利用该数据集训练基于Transformer的序列标注模型,以自动识别双语文本中的语言切换点,并探究上下文依赖性对分类性能的影响。此外,研究者将其与其它议会语料库(如EuroParl)进行跨语言对比,揭示了语码转换在不同政治体制下的共性与差异。在方法论上,BasqueParl还推动了弱监督学习策略在低资源双语场景中的应用,例如结合语言标签与元数据特征进行半监督预训练,有效提升了跨领域迁移学习的鲁棒性。这些工作不仅验证了该语料库的学术价值,也拓展了计算社会语言学的研究边界。
以上内容由遇见数据集搜集并总结生成



