projecte-aina/raco_forums
收藏数据集卡片 for Racó Forums Corpus
数据集描述
数据集摘要
Racó Forums Corpus 是一个包含1900万句子的加泰罗尼亚语用户生成文本语料库,源自Racó Català论坛。由于现有的加泰罗尼亚语语料库缺乏对话数据,我们找到了Racó Català这个流行的多主题在线论坛作为数据源。我们获取了数据库转储并转换了所有主题,以便我们获得从根(初始评论)到叶(最后一条无回复的评论)的所有现有路径的文档。例如,如果T是一个树,T = {A,B,C,D},第一个评论是A,A被B和C独立回复,然后C被D回复,我们得到两个不同的文档A,B和A,C,D,采用fairseq语言建模格式。
该工作基于Creative Commons Attribution Non-commercial 4.0 International License许可。
支持的任务和排行榜
该语料库主要用于预训练语言模型和词表示。
语言
该数据集为加泰罗尼亚语(ca-ES)。
数据集结构
句子按顺序排列以保留论坛的评论和回复结构。例如,如果T是一个树,T = {A,B,C,D},第一个评论是A,A被B和C独立回复,然后C被D回复,我们得到两个不同的文档A,B和A,C,D,采用fairseq语言建模格式。
数据实例
Ni la Paloma, ni la Razz, ni Bikini, ni res: la cafeteria Slàvia, a Les borges Blanques. Quin concertàs el dahir de Pomada!!! Fuà!!! va ser tan tan tan tan tan tan tan bo!!! Flipant!!! Irrepetible!! És cert, lSlàvia mola màxim.
数据分割
数据集包含两个分割:train和valid。
数据集创建
策划理由
我们创建这个语料库是为了促进加泰罗尼亚语这种低资源语言的语言模型的发展。数据结构化以保留论坛的对话结构。
源数据
初始数据收集和规范化
数据由BSC结构化和匿名化。
源语言生产者是谁?
数据由Racó Català提供。
注释
该数据集未注释。
注释过程
[N/A]
注释者是谁?
[N/A]
个人和敏感信息
数据被匿名化以移除用户名和电子邮件,这些被替换为随机的加泰罗尼亚语名字。对聊天本身的提及也已被更改。
使用数据的考虑
数据集的社会影响
我们希望这个语料库有助于加泰罗尼亚语这种低资源语言的语言模型的发展。
偏见的讨论
我们意识到,由于数据来自用户生成的论坛,这将包含偏见、仇恨言论和有毒内容。我们没有采取任何步骤来减少它们的影响。
其他已知限制
[N/A]
附加信息
数据集策展人
Text Mining Unit (TeMU) at the Barcelona Supercomputing Center (bsc-temu@bsc.es)。
该项目由[Departament de la Vicepresidència i de Polítiques Digitals i Territori de la Generalitat de Catalunya](https://politiquesdigitals.gencat.cat/ca/inici/index.html#googtrans(ca|en)资助,作为Projecte AINA框架内的一部分。
许可信息
该工作基于Creative Commons Attribution Non-commercial 4.0 International License许可。
引用信息
贡献
感谢Racó Català分享他们的数据。



