five

readerbench/ro-human-machine-60k

收藏
Hugging Face2024-02-05 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/readerbench/ro-human-machine-60k
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集包含多个领域的文本数据,包括1401本书籍描述、4320篇新闻文章、557篇医疗文本、1000篇法律文本和109篇科学文章。这些文本数据既有手工编写的,也有通过多种机器学习模型生成的。数据集主要用于文本生成、翻译和文本到文本生成等任务,主要语言为罗马尼亚语,数据集规模介于10,000到100,000条记录之间。

该数据集包含多个领域的文本数据,包括1401本书籍描述、4320篇新闻文章、557篇医疗文本、1000篇法律文本和109篇科学文章。这些文本数据既有手工编写的,也有通过多种机器学习模型生成的。数据集主要用于文本生成、翻译和文本到文本生成等任务,主要语言为罗马尼亚语,数据集规模介于10,000到100,000条记录之间。
提供机构:
readerbench
原始信息汇总

数据集概述

数据集组成

  • 书籍描述
    • 841篇人工撰写的摘要,来自布加勒斯特中央大学图书馆,描述19世纪至今的罗马尼亚文学杂志和书籍。
    • 560本书籍描述,来自cartigratis.com。
  • 新闻文章:4320篇,从DigiNews网站爬取。
  • 医学文本:557篇,来自多个专业出版物,包括医学科学期刊、科学杂志和疾病术语表。
  • 法律文本:1000篇,来自Monitorul Oficial网站的罗马尼亚法律文本。
  • 科学文章:109篇,来自罗马尼亚人机交互杂志RoCHI。

MGT数据集:人工撰写与机器生成文本

领域 方法 模型 平均TTR 文档数量 总计
书籍 人工 人工 0.7447 1401 11,208
完成 RoGPT2 0.6615 1401
完成 GPT-Neo-Ro 0.7011 1401
完成 davinci-003 0.6125 1401
回译 davinci-003 0.7652 1401
改述 Flan-T5 0.8708 1401
回译 Opus-MT 0.7581 1401
回译 mBART 0.7379 1401
新闻 人工 人工 0.6510 4320 34,560
完成 RoGPT2 0.6762 4320
完成 GPT-Neo-Ro 0.6867 4320
完成 davinci-003 0.6508 4320
回译 davinci-003 0.7798 4320
改述 Flan-T5 0.8389 4320
回译 Opus-MT 0.6589 4320
回译 mBART 0.7024 4320
医学 人工 人工 0.6911 557 4,456
完成 RoGPT2 0.6795 557
完成 GPT-Neo-Ro 0.6893 557
完成 davinci-003 0.6262 557
回译 davinci-003 0.7510 557
改述 Flan-T5 0.8503 557
回译 Opus-MT 0.7490 557
回译 mBART 0.7618 557
法律 人工 人工 0.7264 1000 8,000
完成 RoGPT2 0.6542 1000
完成 GPT-Neo-Ro 0.6880 1000
完成 davinci-003 0.5828 1000
回译 davinci-003 0.7987 1000
改述 Flan-T5 0.8418 1000
回译 Opus-MT 0.7231 1000
回译 mBART 0.7514 1000
RoCHI 人工 人工 0.6234 109 872
完成 RoGPT2 0.6901 109
完成 GPT-Neo-Ro 0.5460 109
完成 davinci-003 0.5810 109
回译 davinci-003 0.7514 109
改述 Flan-T5 0.8356 109
回译 Opus-MT 0.6032 109
回译 mBART 0.7477 109
总计 59,096
搜集汇总
数据集介绍
main_image_url
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作