ReadMe++

arXiv2023-11-15 更新2024-07-31 收录

下载链接：

https://github.com/tareknaous/readme

下载链接

链接失效反馈

官方服务：

资源简介：

ReadMe++是一个包含9757个句子的人工标注的多语言多领域数据集，涵盖阿拉伯语、英语、法语、印地语和俄语，来自112个不同的数据源。该数据集提供了比现有可读性数据集更多的领域和语言多样性，非常适合用于评估多语言和非英语语言模型在监督、无监督和少样本提示设置下的性能。

创建时间：

2023-05-24

原始信息汇总

ReadMe++: Multilingual Multi-domain Benchmark for Sentence Readability Assessment

概述

ReadMe++ 是一个多语言多领域的数据集，包含9757个句子的人工标注，涵盖阿拉伯语、英语、法语、印地语和俄语，收集自112个不同的数据源。

该数据集根据CEFR框架（1-6级）进行可读性标注，并公开可用于个人、研究和非商业目的。

安装

python pip install readmepp

使用

首先导入 ReadMe 类并创建一个BERT预测器实例。参数 lang 用于指定语言（支持 "en", "ar", "fr", "ru", "hi"）。

python from readmepp import ReadMe

predictor = ReadMe(lang=en)

要评估句子的可读性，使用模型的 predict 函数：

python sentence = Eukaryotes differ from prokaryotes in multiple ways, with unique biochemical pathways such as sterane synthesis.

prediction = predictor.predict(sentence)

print(f"Predicted Readability Level: {prediction}")

输出：

Predicted Readability Level: 5

训练模型

英语: https://huggingface.co/tareknaous/readabert-en
阿拉伯语: https://huggingface.co/tareknaous/readabert-ar
印地语: https://huggingface.co/tareknaous/readabert-hi
法语: https://huggingface.co/tareknaous/readabert-fr
俄语: https://huggingface.co/tareknaous/readabert-ru

引用

更多详情，请参阅伴随论文："ReadMe++: Benchmarking Multilingual Language Models for Multi-Domain Readability Assessment"，arxiv预印本，并请使用以下引用。

@article{naous2023readme, title={ReadMe++: Benchmarking Multilingual Language Models for Multi-Domain Readability Assessment}, author={Naous, Tarek and Ryan, Michael J and Lavrouk, Anton and Chandra, Mohit and Xu, Wei}, journal={arXiv preprint arXiv:2305.14463}, year={2023} }

额外访问

医疗临床报告：要访问临床报告（英语）的句子和标签，请从原作者处获取权限，然后发送电子邮件至 tareknaous@gatech.edu。

印地语产品评论：要访问印地语产品评论（印地语）的句子和标签，请从原作者处获取权限，然后发送电子邮件至 tareknaous@gatech.edu。

5,000+

优质数据集

54 个

任务类型

进入经典数据集