readerbench/ro-human-machine-60k
收藏Hugging Face2024-02-05 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/readerbench/ro-human-machine-60k
下载链接
链接失效反馈官方服务:
资源简介:
该数据集包含多个领域的文本数据,包括1401本书籍描述、4320篇新闻文章、557篇医疗文本、1000篇法律文本和109篇科学文章。这些文本数据既有手工编写的,也有通过多种机器学习模型生成的。数据集主要用于文本生成、翻译和文本到文本生成等任务,主要语言为罗马尼亚语,数据集规模介于10,000到100,000条记录之间。
该数据集包含多个领域的文本数据,包括1401本书籍描述、4320篇新闻文章、557篇医疗文本、1000篇法律文本和109篇科学文章。这些文本数据既有手工编写的,也有通过多种机器学习模型生成的。数据集主要用于文本生成、翻译和文本到文本生成等任务,主要语言为罗马尼亚语,数据集规模介于10,000到100,000条记录之间。
提供机构:
readerbench
原始信息汇总
数据集概述
数据集组成
- 书籍描述:
- 841篇人工撰写的摘要,来自布加勒斯特中央大学图书馆,描述19世纪至今的罗马尼亚文学杂志和书籍。
- 560本书籍描述,来自cartigratis.com。
- 新闻文章:4320篇,从DigiNews网站爬取。
- 医学文本:557篇,来自多个专业出版物,包括医学科学期刊、科学杂志和疾病术语表。
- 法律文本:1000篇,来自Monitorul Oficial网站的罗马尼亚法律文本。
- 科学文章:109篇,来自罗马尼亚人机交互杂志RoCHI。
MGT数据集:人工撰写与机器生成文本
| 领域 | 方法 | 模型 | 平均TTR | 文档数量 | 总计 |
|---|---|---|---|---|---|
| 书籍 | 人工 | 人工 | 0.7447 | 1401 | 11,208 |
| 完成 | RoGPT2 | 0.6615 | 1401 | ||
| 完成 | GPT-Neo-Ro | 0.7011 | 1401 | ||
| 完成 | davinci-003 | 0.6125 | 1401 | ||
| 回译 | davinci-003 | 0.7652 | 1401 | ||
| 改述 | Flan-T5 | 0.8708 | 1401 | ||
| 回译 | Opus-MT | 0.7581 | 1401 | ||
| 回译 | mBART | 0.7379 | 1401 | ||
| 新闻 | 人工 | 人工 | 0.6510 | 4320 | 34,560 |
| 完成 | RoGPT2 | 0.6762 | 4320 | ||
| 完成 | GPT-Neo-Ro | 0.6867 | 4320 | ||
| 完成 | davinci-003 | 0.6508 | 4320 | ||
| 回译 | davinci-003 | 0.7798 | 4320 | ||
| 改述 | Flan-T5 | 0.8389 | 4320 | ||
| 回译 | Opus-MT | 0.6589 | 4320 | ||
| 回译 | mBART | 0.7024 | 4320 | ||
| 医学 | 人工 | 人工 | 0.6911 | 557 | 4,456 |
| 完成 | RoGPT2 | 0.6795 | 557 | ||
| 完成 | GPT-Neo-Ro | 0.6893 | 557 | ||
| 完成 | davinci-003 | 0.6262 | 557 | ||
| 回译 | davinci-003 | 0.7510 | 557 | ||
| 改述 | Flan-T5 | 0.8503 | 557 | ||
| 回译 | Opus-MT | 0.7490 | 557 | ||
| 回译 | mBART | 0.7618 | 557 | ||
| 法律 | 人工 | 人工 | 0.7264 | 1000 | 8,000 |
| 完成 | RoGPT2 | 0.6542 | 1000 | ||
| 完成 | GPT-Neo-Ro | 0.6880 | 1000 | ||
| 完成 | davinci-003 | 0.5828 | 1000 | ||
| 回译 | davinci-003 | 0.7987 | 1000 | ||
| 改述 | Flan-T5 | 0.8418 | 1000 | ||
| 回译 | Opus-MT | 0.7231 | 1000 | ||
| 回译 | mBART | 0.7514 | 1000 | ||
| RoCHI | 人工 | 人工 | 0.6234 | 109 | 872 |
| 完成 | RoGPT2 | 0.6901 | 109 | ||
| 完成 | GPT-Neo-Ro | 0.5460 | 109 | ||
| 完成 | davinci-003 | 0.5810 | 109 | ||
| 回译 | davinci-003 | 0.7514 | 109 | ||
| 改述 | Flan-T5 | 0.8356 | 109 | ||
| 回译 | Opus-MT | 0.6032 | 109 | ||
| 回译 | mBART | 0.7477 | 109 | ||
| 总计 | 59,096 |
搜集汇总
数据集介绍

以上内容由遇见数据集搜集并总结生成



