five

ReadMe++

收藏
arXiv2023-11-15 更新2024-07-31 收录
下载链接:
https://github.com/tareknaous/readme
下载链接
链接失效反馈
官方服务:
资源简介:
ReadMe++是一个包含9757个句子的人工标注的多语言多领域数据集,涵盖阿拉伯语、英语、法语、印地语和俄语,来自112个不同的数据源。该数据集提供了比现有可读性数据集更多的领域和语言多样性,非常适合用于评估多语言和非英语语言模型在监督、无监督和少样本提示设置下的性能。
创建时间:
2023-05-24
原始信息汇总

ReadMe++: Multilingual Multi-domain Benchmark for Sentence Readability Assessment

概述

ReadMe++ 是一个多语言多领域的数据集,包含9757个句子的人工标注,涵盖阿拉伯语、英语、法语、印地语和俄语,收集自112个不同的数据源。

该数据集根据CEFR框架(1-6级)进行可读性标注,并公开可用于个人、研究和非商业目的。

安装

python pip install readmepp

使用

首先导入 ReadMe 类并创建一个BERT预测器实例。参数 lang 用于指定语言(支持 "en", "ar", "fr", "ru", "hi")。

python from readmepp import ReadMe

predictor = ReadMe(lang=en)

要评估句子的可读性,使用模型的 predict 函数:

python sentence = Eukaryotes differ from prokaryotes in multiple ways, with unique biochemical pathways such as sterane synthesis.

prediction = predictor.predict(sentence)

print(f"Predicted Readability Level: {prediction}")

输出:

Predicted Readability Level: 5

训练模型

  • 英语: https://huggingface.co/tareknaous/readabert-en
  • 阿拉伯语: https://huggingface.co/tareknaous/readabert-ar
  • 印地语: https://huggingface.co/tareknaous/readabert-hi
  • 法语: https://huggingface.co/tareknaous/readabert-fr
  • 俄语: https://huggingface.co/tareknaous/readabert-ru

引用

更多详情,请参阅伴随论文:"ReadMe++: Benchmarking Multilingual Language Models for Multi-Domain Readability Assessment"arxiv预印本,并请使用以下引用。

@article{naous2023readme, title={ReadMe++: Benchmarking Multilingual Language Models for Multi-Domain Readability Assessment}, author={Naous, Tarek and Ryan, Michael J and Lavrouk, Anton and Chandra, Mohit and Xu, Wei}, journal={arXiv preprint arXiv:2305.14463}, year={2023} }

额外访问

医疗临床报告:要访问临床报告(英语)的句子和标签,请从原作者处获取权限,然后发送电子邮件至 tareknaous@gatech.edu。

印地语产品评论:要访问印地语产品评论(印地语)的句子和标签,请从原作者处获取权限,然后发送电子邮件至 tareknaous@gatech.edu。

5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作