Romanian NLP Datasets
收藏罗马尼亚语言NLP数据集概览
无标签文本语料库
-
🌐 Oscar Common Crawl数据集🌐
- 来源:Common Crawl
- 大小:约50GB,450万文档
- 类型:未标注的原始语料
-
📚 CC-100 📚
- 来源:Common Crawl
- 大小:16GB
- 类型:未标注的原始语料
-
🌍 Wikipedia Corpus 🌍
- 来源:罗马尼亚语维基百科
- 类型:未标注的维基百科转储
-
📰⚖️ RoTex Collection 📰⚖️
- 包含:书籍、报纸和法律文件
- 时间:2018-2019
- 类型:未标注的集合
-
📖 罗马尼亚语言仓库 📖
- 包含:文章、童话、小说、历史、戏剧、新闻
- 类型:未标注的文本集合
-
🏛️ MARCELL立法语料库 🏛️
- 包含:政府决定、部长令、决定、法令和法律
- 时间:1881-2021
- 类型:自动标注命名实体
-
🦠 COVID-19 Tweets 🐦
- 来源:Twitter
- 包含:COVID-19相关推文
- 类型:未标注的推文数据
-
📜 罗马尼亚众议院会议记录 📜
- 时间:2016-2018
- 类型:未标注的会议记录
-
🔊 罗马尼亚议会会议记录 🔊
- 时间:1996-2018
- 包含:50万+议会演讲实例
- 类型:未标注的会议记录
-
🗣️ 罗马尼亚总统演讲 🗣️
- 时间:1990-2020
- 类型:未标注的演讲文本
-
🎭 文化领域语料库 🎭
- 包含:与文化相关的公共网站内容
- 类型:未标注的罗马尼亚语料
-
法律领域语料库
- 包含:法律领域内容
- 大小:38063991个令牌,854096个词汇类型
- 类型:未标注的罗马尼亚语料
-
公共行政领域语料库
- 包含:公共行政领域内容
- 大小:360833个句子,9064764个单词
- 类型:未标注的罗马尼亚语料
-
新民事诉讼法典
- 包含:罗马尼亚新民事诉讼法典
- 大小:297888个单词
- 类型:未标注的罗马尼亚语料
-
新刑法典
- 包含:罗马尼亚新刑法典
- 类型:未标注的罗马尼亚语料
-
罗马尼亚新闻文章数据集
- 来源:罗马尼亚新闻网站
- 包含:标题、摘要和文章
- 类型:未标注的新闻文章
-
旧报纸
- 来源:在线新闻源
- 包含:4300万罗马尼亚语单词
- 类型:未标注的多语言语料
-
ELTeC-Rom
- 包含:罗马尼亚小说集合
- 来源:多个图书馆和个人微集合
- 类型:未标注的文学文本
-
RO商业电子邮件
- 包含:1447个手动标注的罗马尼亚商业电子邮件
- 类型:标注了5个令牌相关标签和5个序列相关类别的语料
-
📖RO-Stories📖
- 包含:19世纪至今的罗马尼亚作者的故事、短篇小说、童话和素描
- 大小:19位作者,1263篇全文,12516个约200字的段落
- 类型:未标注的文学文本
-
📕ROST📕
- 包含:400篇罗马尼亚文本,10位作者的作品
- 类型:未标注的文学文本
-
🍳罗马尼亚烹饪食谱🍳
- 包含:891个罗马尼亚烹饪食谱
- 类型:未标注的烹饪食谱
语义文本相似性/改写
-
RO-STS
- 包含:8628对句子及其相似性分数
- 类型:标注的语义文本相似性数据集
-
罗马尼亚圣经改写语料库
- 来源:10种不同的罗马尼亚语圣经版本
- 大小:904,815个相似记录,218,977个不匹配记录,总计1,123,927个记录
- 类型:标注的改写语料库
-
罗马尼亚改写数据集
- 包含:约10万个改写示例
- 类型:未标注的改写数据集
-
TaPaCo
- 包含:2000个罗马尼亚短语,总计941个改写组
- 类型:标注的多语言改写语料库
自然语言推理
- ~RO-NLI~
- 类型:正在构建的数据集
摘要
- RO文本摘要
- 包含:约72k篇全文及其摘要
- 来源:新闻网站
- 类型:未标注的文本摘要数据集
方言和地区语音识别
-
RoDia
- 包含:来自罗马尼亚五个不同地区的语音样本
- 类型:标注了年龄、性别和方言类型的语料
-
MOROCO
- 包含:来自新闻领域的摩尔多瓦和罗马尼亚文本样本
- 类型:标注了文化、金融、政治、科学、体育、科技六个主题的语料
命名实体识别(NER)
-
LegalNERo
- 类型:标注的法律领域命名实体识别数据集
-
RONEC
- 类型:标注的命名实体识别数据集
-
WikiAnn
- 类型:标注的命名实体识别数据集
-
SiMoNERo
- 类型:标注的命名实体识别数据集
作者归属
- ROST
- 包含:400篇罗马尼亚文本,10位作者的作品
- 类型:未标注的文学文本
情感分析
-
RO_Sent
- 类型:标注的情感分析数据集
-
Senti_Lex
- 类型:标注的情感词典数据集
-
LaROSeDa
- 类型:标注的情感分析数据集
-
RED
- 类型:标注的情感数据集
-
Romanian Categorized Web Dataset
- 类型:标注的网络分类数据集
-
Romanian Sentiment Movie Reviews
- 类型:标注的电影评论情感分析数据集
依存句法分析
-
CoNLL 2017 & 2018
- 类型:标注的依存句法分析数据集
-
Deep Universal Dependencies
- 类型:标注的依存句法分析数据集
-
Curlicat Romanian Corpus
- 类型:标注的依存句法分析数据集
-
HamleDT
- 类型:标注的依存句法分析数据集
-
RoWordNet
- 类型:标注的词网数据集
-
RoRefTrees
- 类型:标注的依存句法分析数据集
重音符号恢复/语法纠正
-
用于训练和评估重音符号恢复系统的语料库
- 类型:标注的语料库
-
RONACC
- 类型:标注的语料库
假新闻/点击诱饵/讽刺新闻
-
Fakerom
- 类型:标注的假新闻数据集
-
Clickbait dataset on Romanian SciTech News
- 类型:标注的点击诱饵数据集
-
SaRoCo
- 类型:标注的讽刺新闻数据集
攻击性语言
-
RO-Offense
- 类型:标注的攻击性语言数据集
-
News RO-Offense
- 包含:4,052条罗马尼亚本地新闻网站上的评论
- 类型:标注了非攻击性、针对性侮辱、种族主义、同性恋恐惧症和性别歧视的评论
-
FB RO-Offense
- 包含:4455条来自Facebook直播的评论
- 类型:标注了非二元攻击性语言检测任务和细粒度攻击性语言检测的评论
-
RO-Offense-Sequences
- 包含:4800条罗马尼亚评论,标注了攻击性文本范围
- 类型:标注的攻击性范围检测数据集
-
Hate Speech RO
- 包含:3860条标注的仇恨言论记录
- 类型:标注的仇恨言论数据集
-
ROFF
- 包含:5000条推文,其中924条被标记为攻击性
- 类型:标注的攻击性语言数据集
-
CoRoSeOf
- 包含:39,245条推文,遵循最近的性别歧视标签集进行标注
- 类型:标注的攻击性语言数据集
问答
-
🧮 GSM8K RO 🧮
- 包含:翻译自GSM8K数据集的罗马尼亚语问题
- 类型:未标注的数学问题数据集
-
💻 ROCODE 💻
- 包含:2,642个罗马尼亚语编程问题,11k个解决方案
- 类型:标注的编程问题数据集
拼写、词典和语法错误
-
Grammar-RO
- 包含:约1.9M条记录,包括更改和正确的陈述
- 类型:标注的语法错误数据集
-
RoAcReL
- 包含:约1940个词定义
- 类型:标注的罗马尼亚古语和方言词典
-
RoRuDi
- 包含:1940个方言,含义和来源地区
- 类型:标注的罗马尼亚方言规则数据集




