projecte-aina/raco_forums

Name: projecte-aina/raco_forums
Creator: projecte-aina
Published: 2024-10-08 12:31:49
License: 暂无描述

Hugging Face2024-10-08 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/projecte-aina/raco_forums

下载链接

链接失效反馈

官方服务：

资源简介：

Racó Forums Corpus是一个包含1900万句加泰罗尼亚语用户生成文本的语料库，数据来源于Racó Català论坛。该语料库的创建目的是为了填补加泰罗尼亚语在对话数据方面的空白，并支持语言模型的预训练和词表示。数据集的结构保留了论坛的评论和回复的对话结构，数据被处理成fairseq语言建模格式。数据集未进行注释，且已匿名化处理，移除了用户名和电子邮件等敏感信息。数据集包含训练集和验证集两个部分，适用于加泰罗尼亚语的语言模型开发。

提供机构：

projecte-aina

原始信息汇总

数据集卡片 for Racó Forums Corpus

数据集描述

数据集摘要

Racó Forums Corpus 是一个包含1900万句子的加泰罗尼亚语用户生成文本语料库，源自Racó Català论坛。由于现有的加泰罗尼亚语语料库缺乏对话数据，我们找到了Racó Català这个流行的多主题在线论坛作为数据源。我们获取了数据库转储并转换了所有主题，以便我们获得从根（初始评论）到叶（最后一条无回复的评论）的所有现有路径的文档。例如，如果T是一个树，T = {A,B,C,D}，第一个评论是A，A被B和C独立回复，然后C被D回复，我们得到两个不同的文档A,B和A,C,D，采用fairseq语言建模格式。

该工作基于Creative Commons Attribution Non-commercial 4.0 International License许可。

支持的任务和排行榜

该语料库主要用于预训练语言模型和词表示。

语言

该数据集为加泰罗尼亚语（ca-ES）。

数据集结构

句子按顺序排列以保留论坛的评论和回复结构。例如，如果T是一个树，T = {A,B,C,D}，第一个评论是A，A被B和C独立回复，然后C被D回复，我们得到两个不同的文档A,B和A,C,D，采用fairseq语言建模格式。

数据实例

Ni la Paloma, ni la Razz, ni Bikini, ni res: la cafeteria Slàvia, a Les borges Blanques. Quin concertàs el dahir de Pomada!!! Fuà!!! va ser tan tan tan tan tan tan tan bo!!! Flipant!!! Irrepetible!! És cert, lSlàvia mola màxim.

数据分割

数据集包含两个分割：train和valid。

数据集创建

策划理由

我们创建这个语料库是为了促进加泰罗尼亚语这种低资源语言的语言模型的发展。数据结构化以保留论坛的对话结构。

源数据

初始数据收集和规范化

数据由BSC结构化和匿名化。

源语言生产者是谁？

数据由Racó Català提供。

注释

该数据集未注释。

注释过程

[N/A]

注释者是谁？

[N/A]

个人和敏感信息

数据被匿名化以移除用户名和电子邮件，这些被替换为随机的加泰罗尼亚语名字。对聊天本身的提及也已被更改。

使用数据的考虑

数据集的社会影响

我们希望这个语料库有助于加泰罗尼亚语这种低资源语言的语言模型的发展。

偏见的讨论

我们意识到，由于数据来自用户生成的论坛，这将包含偏见、仇恨言论和有毒内容。我们没有采取任何步骤来减少它们的影响。

其他已知限制

[N/A]

附加信息

数据集策展人

Text Mining Unit (TeMU) at the Barcelona Supercomputing Center (bsc-temu@bsc.es)。

该项目由[Departament de la Vicepresidència i de Polítiques Digitals i Territori de la Generalitat de Catalunya](https://politiquesdigitals.gencat.cat/ca/inici/index.html#googtrans(ca|en)资助，作为Projecte AINA框架内的一部分。

许可信息

该工作基于Creative Commons Attribution Non-commercial 4.0 International License许可。

引用信息

贡献

感谢Racó Català分享他们的数据。

5,000+

优质数据集

54 个

任务类型

进入经典数据集