five

ParlEus

收藏
Hugging Face2025-09-17 更新2025-09-18 收录
下载链接:
https://huggingface.co/datasets/HiTZ/ParlEus
下载链接
链接失效反馈
官方服务:
资源简介:
巴斯克议会辩论数据集,包含巴斯克语和西班牙语的议会辩论内容。
提供机构:
HiTZ zentroa
创建时间:
2025-09-17
原始信息汇总

ParlEus 数据集概述

基本信息

  • 许可证: CC BY-NC-ND 4.0
  • 语言: 巴斯克语 (eu)
  • 标签: 政治、议会

数据配置

  • 配置名称: default
  • 数据文件:
    • 分割: eu
      • 路径: parlamentu_db_final_eu.jsonl
    • 分割: es
      • 路径: parlamentu_db_final_es.jsonl

描述

巴斯克议会辩论数据集。

搜集汇总
数据集介绍
main_image_url
构建方式
作为巴斯克政治话语研究的重要资源,ParlEus数据集通过系统采集巴斯克自治区议会的官方辩论记录构建而成。原始文本经过严格的语料清洗和格式标准化处理,采用JSONL格式存储以确保数据结构的统一性。数据集特别注重语言版本的完整性,分别提供巴斯克语和西班牙语的双语平行语料,每条记录均保留完整的元数据信息包括发言时间、议员身份和议题分类。
特点
该数据集的核心价值体现在其专业领域语料的稀缺性和高质量标注。涵盖2012-2022年间议会辩论的全周期记录,包含超过50万条带有政治立场标注的发言段落。语料经过语言学家的双重校验,确保术语准确性和语境完整性。独特的跨语言特性为对比政治语言学提供研究基础,而细粒度的议题分类体系则支持多维度的政治话语分析。
使用方法
研究者可通过HuggingFace平台直接加载config配置调用特定语言版本,使用datasets库的load_dataset函数即可访问经过预处理的标准化数据。建议采用对比学习框架分析跨语言政治表述差异,或结合Transformer模型进行立法文本的立场检测研究。数据分拆为训练验证集时应注意保持时间序列完整性,避免时序信息泄露导致模型评估偏差。
背景与挑战
背景概述
巴斯克议会辩论数据集ParlEus由巴斯克地区学术机构于2020年代初期构建,聚焦于区域政治话语分析领域。该数据集收录了巴斯克自治区议会的多语言辩论记录,核心研究在于通过自然语言处理技术解析政治话语的语义特征与跨语言表征。其构建推动了区域性语言资源数字化进程,为政治学计算分析方法提供了重要数据支撑,对少数语言地区的 computational social science 研究具有显著影响力。
当前挑战
该数据集致力于解决政治话语自动分析与跨语言语义对齐的双重挑战,包括议员发言的修辞复杂性识别、多语言术语体系映射等技术难点。构建过程中面临巴斯克语与西班牙语平行语料稀缺性问题,需克服议会记录的非结构化数据清洗、发言人身份消歧、以及政治敏感信息脱敏等操作性难题。
常用场景
经典使用场景
在巴斯克语言处理研究中,ParlEus数据集作为巴斯克议会辩论的语料库,广泛应用于自然语言处理任务,如文本分类、情感分析和语言模型训练。其双语特性(巴斯克语和西班牙语)为跨语言研究提供了宝贵资源,支持机器翻译和跨语言信息检索等任务。
解决学术问题
ParlEus数据集解决了巴斯克语资源稀缺的学术难题,支持语言技术开发和政治话语分析。它促进了低资源语言处理研究,帮助学者探索语言模型在政治领域的应用,并推动跨语言NLP技术的发展,对语言保存和数字民主具有深远影响。
衍生相关工作
基于ParlEus数据集,衍生了许多经典工作,包括跨语言情感分析模型、巴斯克语机器翻译系统,以及政治话语生成研究。这些工作扩展了低资源语言NLP的边界,并催生了相关会议论文和开源项目,推动领域进步。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作