Heldugazte Corpus
收藏github2023-09-22 更新2024-05-31 收录
下载链接:
https://github.com/ixa-ehu/heldugazte-corpus
下载链接
链接失效反馈官方服务:
资源简介:
该数据集包含600万条巴斯克语推文,用于分析推文中巴斯克语的非正式和正式使用情况。数据集分为两个部分:标注的语料库和完整语料库。标注的语料库包含1000条推文,分别标记为正式或非正式,用于训练和测试语言使用分类器。完整语料库包含超过600万条来自7977个不同用户的推文,数据格式为每个用户一个文件,包含该用户的所有推文ID。
This dataset comprises 6 million Basque-language tweets, designed for analyzing the informal and formal usage of Basque in tweets. The dataset is divided into two parts: an annotated corpus and a complete corpus. The annotated corpus includes 1,000 tweets, each labeled as either formal or informal, and is intended for training and testing language usage classifiers. The complete corpus contains over 6 million tweets from 7,977 different users, with the data formatted as one file per user, encompassing all tweet IDs from that user.
创建时间:
2018-11-13
原始信息汇总
Heldugazte Corpus 概述
数据集组成
-
Annotated Corpus:
- 包含1000条推文,分为正式和非正式两类。
- 分为训练集和测试集:
eu-heldugazte-train.tsv: 650条手动标注的推文,用于训练。eu-heldugazte-test.tsv: 350条手动标注的推文,用于测试。
- 数据包括推文的类别(正式或非正式)和文本内容。
-
Full Corpus:
- 包含超过600万条巴斯克语推文,来自7977个不同用户。
- 数据获取时间为2018年春夏季。
- 每个用户的数据单独存为一个文件,文件名使用用户ID。
- 完整数据集可通过链接获取:Heldugazte Corpus完整数据集。
数据用途
- 用于训练和测试正式与非正式语言使用的分类器。
搜集汇总
数据集介绍

构建方式
Heldugazte Corpus的构建基于对巴斯克语在推特上的正式与非正式使用进行分析的需求。数据集分为两部分:标注语料库和完整语料库。标注语料库包含1000条推文,每条推文根据其写作风格被分类为正式或非正式,并进一步划分为650条用于训练的推文和350条用于测试的推文。完整语料库则包含了超过600万条来自7977位不同用户的巴斯克语推文,这些数据采集于2018年春夏季节。
特点
Heldugazte Corpus的特点在于其专注于巴斯克语这一较少被研究的语言,提供了丰富的社交媒体数据。标注语料库通过人工标注的方式确保了数据的准确性,适合用于训练和测试语言分类器。完整语料库则提供了大规模的真实世界数据,有助于深入理解巴斯克语在社交媒体上的使用模式和社会互动。
使用方法
使用Heldugazte Corpus时,研究者可以通过下载完整语料库的压缩文件,获取每位用户的推文ID列表。标注语料库则可以直接用于训练和测试语言分类模型。在使用该数据集进行学术研究时,需引用相关的学术出版物,以确保研究的透明性和可追溯性。
背景与挑战
背景概述
Heldugazte Corpus 是一个专注于巴斯克语在社交媒体上使用的数据集,由 Joseba Fernandez de Landa、Rodrigo Agerri 和 Iñaki Alegria 等研究人员于2019年创建。该数据集包含超过600万条巴斯克语推文,旨在分析巴斯克语在推文中的正式与非正式使用模式。数据集分为两部分:标注语料库和完整语料库。标注语料库包含1000条经过人工标注的推文,用于训练和测试分类器,而完整语料库则涵盖了2018年春夏期间收集的600多万条推文。该数据集为研究巴斯克语的语言使用模式及其在社交媒体上的表现提供了重要资源,尤其对低资源语言的社会互动研究具有深远影响。
当前挑战
Heldugazte Corpus 的构建和应用面临多重挑战。首先,巴斯克语作为一种低资源语言,其语言数据的获取和处理相对困难,尤其是在社交媒体这种非正式语境下,语言的多样性和复杂性增加了标注和分类的难度。其次,数据集的构建依赖于大规模推文收集,如何确保数据的代表性和质量是一个关键问题。此外,推文中的语言使用往往包含大量缩写、俚语和混合语言现象,这对自动分类器的设计和训练提出了更高的要求。最后,如何在保护用户隐私的前提下公开和使用这些数据,也是数据集构建过程中需要解决的重要问题。
常用场景
经典使用场景
Heldugazte Corpus 数据集在自然语言处理领域中被广泛用于研究巴斯克语的正式与非正式语言使用。通过分析社交媒体上的推文,研究者能够深入探讨巴斯克语在不同语境下的语言风格变化。该数据集特别适用于训练和测试分类器,以区分正式与非正式文本,从而为语言风格识别提供有力支持。
实际应用
在实际应用中,Heldugazte Corpus 数据集被用于开发社交媒体分析工具,帮助企业和研究机构理解巴斯克语使用者的语言习惯。通过分析推文中的语言风格,这些工具能够为市场调研、舆情监控以及语言教育提供数据支持,从而提升相关领域的决策效率。
衍生相关工作
基于 Heldugazte Corpus 数据集,研究者们开发了多种语言风格分类模型,并在国际会议上发表了相关论文。这些工作不仅扩展了巴斯克语的自然语言处理研究,还为其他低资源语言的处理提供了新的思路和方法。此外,该数据集还促进了跨语言研究,推动了多语言社交媒体分析技术的发展。
以上内容由遇见数据集搜集并总结生成



