Romanian NLP Datasets

github2024-03-19 更新2024-05-31 收录

下载链接：

https://github.com/AndyTheFactory/romanian-nlp-datasets

下载链接

链接失效反馈

官方服务：

资源简介：

一个精选的开放源代码和开放访问的罗马尼亚语言自然语言处理数据集列表。目前不添加平行语料库到列表中。

A curated list of open-source and open-access natural language processing datasets for the Romanian language. Parallel corpora are currently not included in the list.

创建时间：

2023-05-24

原始信息汇总

罗马尼亚语言NLP数据集概览

无标签文本语料库

🌐 Oscar Common Crawl数据集🌐
- 来源：Common Crawl
- 大小：约50GB，450万文档
- 类型：未标注的原始语料
📚 CC-100 📚
- 来源：Common Crawl
- 大小：16GB
- 类型：未标注的原始语料
🌍 Wikipedia Corpus 🌍
- 来源：罗马尼亚语维基百科
- 类型：未标注的维基百科转储
📰⚖️ RoTex Collection 📰⚖️
- 包含：书籍、报纸和法律文件
- 时间：2018-2019
- 类型：未标注的集合
📖 罗马尼亚语言仓库 📖
- 包含：文章、童话、小说、历史、戏剧、新闻
- 类型：未标注的文本集合
🏛️ MARCELL立法语料库 🏛️
- 包含：政府决定、部长令、决定、法令和法律
- 时间：1881-2021
- 类型：自动标注命名实体
🦠 COVID-19 Tweets 🐦
- 来源：Twitter
- 包含：COVID-19相关推文
- 类型：未标注的推文数据
📜 罗马尼亚众议院会议记录 📜
- 时间：2016-2018
- 类型：未标注的会议记录
🔊 罗马尼亚议会会议记录 🔊
- 时间：1996-2018
- 包含：50万+议会演讲实例
- 类型：未标注的会议记录
🗣️ 罗马尼亚总统演讲 🗣️
- 时间：1990-2020
- 类型：未标注的演讲文本
🎭 文化领域语料库 🎭
- 包含：与文化相关的公共网站内容
- 类型：未标注的罗马尼亚语料
法律领域语料库
- 包含：法律领域内容
- 大小：38063991个令牌，854096个词汇类型
- 类型：未标注的罗马尼亚语料
公共行政领域语料库
- 包含：公共行政领域内容
- 大小：360833个句子，9064764个单词
- 类型：未标注的罗马尼亚语料
新民事诉讼法典
- 包含：罗马尼亚新民事诉讼法典
- 大小：297888个单词
- 类型：未标注的罗马尼亚语料
新刑法典
- 包含：罗马尼亚新刑法典
- 类型：未标注的罗马尼亚语料
罗马尼亚新闻文章数据集
- 来源：罗马尼亚新闻网站
- 包含：标题、摘要和文章
- 类型：未标注的新闻文章
旧报纸
- 来源：在线新闻源
- 包含：4300万罗马尼亚语单词
- 类型：未标注的多语言语料
ELTeC-Rom
- 包含：罗马尼亚小说集合
- 来源：多个图书馆和个人微集合
- 类型：未标注的文学文本
RO商业电子邮件
- 包含：1447个手动标注的罗马尼亚商业电子邮件
- 类型：标注了5个令牌相关标签和5个序列相关类别的语料
📖RO-Stories📖
- 包含：19世纪至今的罗马尼亚作者的故事、短篇小说、童话和素描
- 大小：19位作者，1263篇全文，12516个约200字的段落
- 类型：未标注的文学文本
📕ROST📕
- 包含：400篇罗马尼亚文本，10位作者的作品
- 类型：未标注的文学文本
🍳罗马尼亚烹饪食谱🍳
- 包含：891个罗马尼亚烹饪食谱
- 类型：未标注的烹饪食谱

语义文本相似性/改写

RO-STS
- 包含：8628对句子及其相似性分数
- 类型：标注的语义文本相似性数据集
罗马尼亚圣经改写语料库
- 来源：10种不同的罗马尼亚语圣经版本
- 大小：904,815个相似记录，218,977个不匹配记录，总计1,123,927个记录
- 类型：标注的改写语料库
罗马尼亚改写数据集
- 包含：约10万个改写示例
- 类型：未标注的改写数据集
TaPaCo
- 包含：2000个罗马尼亚短语，总计941个改写组
- 类型：标注的多语言改写语料库

自然语言推理

~RO-NLI~
- 类型：正在构建的数据集

摘要

RO文本摘要
- 包含：约72k篇全文及其摘要
- 来源：新闻网站
- 类型：未标注的文本摘要数据集

方言和地区语音识别

RoDia
- 包含：来自罗马尼亚五个不同地区的语音样本
- 类型：标注了年龄、性别和方言类型的语料
MOROCO
- 包含：来自新闻领域的摩尔多瓦和罗马尼亚文本样本
- 类型：标注了文化、金融、政治、科学、体育、科技六个主题的语料

命名实体识别（NER）

LegalNERo
- 类型：标注的法律领域命名实体识别数据集
RONEC
- 类型：标注的命名实体识别数据集
WikiAnn
- 类型：标注的命名实体识别数据集
SiMoNERo
- 类型：标注的命名实体识别数据集

作者归属

ROST
- 包含：400篇罗马尼亚文本，10位作者的作品
- 类型：未标注的文学文本

情感分析

RO_Sent
- 类型：标注的情感分析数据集
Senti_Lex
- 类型：标注的情感词典数据集
LaROSeDa
- 类型：标注的情感分析数据集
RED
- 类型：标注的情感数据集
Romanian Categorized Web Dataset
- 类型：标注的网络分类数据集
Romanian Sentiment Movie Reviews
- 类型：标注的电影评论情感分析数据集

依存句法分析

CoNLL 2017 & 2018
- 类型：标注的依存句法分析数据集
Deep Universal Dependencies
- 类型：标注的依存句法分析数据集
Curlicat Romanian Corpus
- 类型：标注的依存句法分析数据集
HamleDT
- 类型：标注的依存句法分析数据集
RoWordNet
- 类型：标注的词网数据集
RoRefTrees
- 类型：标注的依存句法分析数据集

重音符号恢复/语法纠正

用于训练和评估重音符号恢复系统的语料库
- 类型：标注的语料库
RONACC
- 类型：标注的语料库

假新闻/点击诱饵/讽刺新闻

Fakerom
- 类型：标注的假新闻数据集
Clickbait dataset on Romanian SciTech News
- 类型：标注的点击诱饵数据集
SaRoCo
- 类型：标注的讽刺新闻数据集

攻击性语言

RO-Offense
- 类型：标注的攻击性语言数据集
News RO-Offense
- 包含：4,052条罗马尼亚本地新闻网站上的评论
- 类型：标注了非攻击性、针对性侮辱、种族主义、同性恋恐惧症和性别歧视的评论
FB RO-Offense
- 包含：4455条来自Facebook直播的评论
- 类型：标注了非二元攻击性语言检测任务和细粒度攻击性语言检测的评论
RO-Offense-Sequences
- 包含：4800条罗马尼亚评论，标注了攻击性文本范围
- 类型：标注的攻击性范围检测数据集
Hate Speech RO
- 包含：3860条标注的仇恨言论记录
- 类型：标注的仇恨言论数据集
ROFF
- 包含：5000条推文，其中924条被标记为攻击性
- 类型：标注的攻击性语言数据集
CoRoSeOf
- 包含：39,245条推文，遵循最近的性别歧视标签集进行标注
- 类型：标注的攻击性语言数据集

问答

🧮 GSM8K RO 🧮
- 包含：翻译自GSM8K数据集的罗马尼亚语问题
- 类型：未标注的数学问题数据集
💻 ROCODE 💻
- 包含：2,642个罗马尼亚语编程问题，11k个解决方案
- 类型：标注的编程问题数据集

拼写、词典和语法错误

Grammar-RO
- 包含：约1.9M条记录，包括更改和正确的陈述
- 类型：标注的语法错误数据集
RoAcReL
- 包含：约1940个词定义
- 类型：标注的罗马尼亚古语和方言词典
RoRuDi
- 包含：1940个方言，含义和来源地区
- 类型：标注的罗马尼亚方言规则数据集

搜集汇总

数据集介绍

构建方式

Romanian NLP Datasets 是一个精心策划的罗马尼亚语自然语言处理数据集集合，涵盖了多个领域的语料资源。该数据集的构建主要依赖于公开的语料库和开源数据，包括从Common Crawl、Wikipedia、新闻网站、社交媒体等平台提取的文本。部分数据集还通过人工标注或自动化处理进行增强，以确保数据的多样性和质量。数据集的构建过程注重数据的广泛性和代表性，涵盖了从法律文本到社交媒体评论的多种语言使用场景。

使用方法

Romanian NLP Datasets 的使用方法灵活多样，适用于多种自然语言处理任务。研究人员可以通过GitHub或Hugging Face平台直接访问数据集，并根据具体需求选择合适的子集进行实验。数据集通常以标准格式（如JSON、CSV）提供，便于加载和处理。对于需要进一步处理的数据，如社交媒体评论，用户可以通过提供的工具进行数据重注或预处理。此外，数据集还提供了详细的文档和示例代码，帮助用户快速上手并进行深入分析。

背景与挑战

背景概述

Romanian NLP Datasets 是一个专注于罗马尼亚语自然语言处理（NLP）的开源数据集集合，涵盖了从无标签文本语料到语义文本相似性、自然语言推理、摘要生成、方言识别、命名实体识别（NER）、情感分析、依存句法分析、假新闻检测等多个领域。该数据集的创建旨在为罗马尼亚语NLP研究提供丰富的资源，推动该语言在机器翻译、文本生成、情感分析等任务中的应用。数据集的核心研究问题包括如何有效处理罗马尼亚语的复杂语法结构、方言差异以及特定领域的文本分析。该数据集的影响力不仅限于罗马尼亚本土，还为全球NLP研究者提供了宝贵的多语言研究资源。

当前挑战

Romanian NLP Datasets 在构建和应用过程中面临多重挑战。首先，罗马尼亚语的语法结构复杂，包含丰富的屈折变化和方言差异，这为文本标注和模型训练带来了困难。其次，数据集的构建需要处理大量非结构化文本，如新闻、法律文件和社交媒体内容，这些文本的质量和一致性难以保证。此外，罗马尼亚语在NLP领域的研究相对较少，缺乏成熟的预训练模型和工具链，这限制了数据集的广泛应用。最后，数据集的多样性和规模虽然丰富，但在某些特定任务（如方言识别和假新闻检测）上，仍需进一步扩展和优化，以提高模型的泛化能力和准确性。

常用场景

经典使用场景

Romanian NLP Datasets在自然语言处理领域中被广泛用于罗马尼亚语的语言模型训练和评估。该数据集涵盖了从无标签文本语料到语义文本相似性、自然语言推理、摘要生成、方言识别、命名实体识别等多个子领域，为研究者提供了丰富的资源。特别是在罗马尼亚语的语义分析和文本生成任务中，该数据集通过提供高质量的标注数据，显著提升了模型的性能。

解决学术问题

Romanian NLP Datasets解决了罗马尼亚语在自然语言处理研究中数据稀缺的问题。通过提供多样化的语料库和标注数据，该数据集为研究者提供了基础数据支持，使得罗马尼亚语的语言模型训练、语义分析、文本生成等任务得以顺利进行。此外，该数据集还为跨语言研究提供了宝贵的资源，推动了罗马尼亚语与其他语言之间的对比研究。

实际应用

在实际应用中，Romanian NLP Datasets被广泛用于罗马尼亚语的文本分类、情感分析、机器翻译和语音识别等任务。例如，在新闻媒体领域，该数据集可以用于自动生成新闻摘要；在法律领域，可以用于法律文本的自动分析和处理；在社交媒体中，可以用于情感分析和舆情监控。这些应用不仅提高了工作效率，还为罗马尼亚语的信息处理提供了技术支持。

数据集最近研究