ReadMe++
收藏ReadMe++: Multilingual Multi-domain Benchmark for Sentence Readability Assessment
概述
ReadMe++ 是一个多语言多领域的数据集,包含9757个句子的人工标注,涵盖阿拉伯语、英语、法语、印地语和俄语,收集自112个不同的数据源。
该数据集根据CEFR框架(1-6级)进行可读性标注,并公开可用于个人、研究和非商业目的。
安装
python pip install readmepp
使用
首先导入 ReadMe 类并创建一个BERT预测器实例。参数 lang 用于指定语言(支持 "en", "ar", "fr", "ru", "hi")。
python from readmepp import ReadMe
predictor = ReadMe(lang=en)
要评估句子的可读性,使用模型的 predict 函数:
python sentence = Eukaryotes differ from prokaryotes in multiple ways, with unique biochemical pathways such as sterane synthesis.
prediction = predictor.predict(sentence)
print(f"Predicted Readability Level: {prediction}")
输出:
Predicted Readability Level: 5
训练模型
- 英语: https://huggingface.co/tareknaous/readabert-en
- 阿拉伯语: https://huggingface.co/tareknaous/readabert-ar
- 印地语: https://huggingface.co/tareknaous/readabert-hi
- 法语: https://huggingface.co/tareknaous/readabert-fr
- 俄语: https://huggingface.co/tareknaous/readabert-ru
引用
更多详情,请参阅伴随论文:"ReadMe++: Benchmarking Multilingual Language Models for Multi-Domain Readability Assessment",arxiv预印本,并请使用以下引用。
@article{naous2023readme, title={ReadMe++: Benchmarking Multilingual Language Models for Multi-Domain Readability Assessment}, author={Naous, Tarek and Ryan, Michael J and Lavrouk, Anton and Chandra, Mohit and Xu, Wei}, journal={arXiv preprint arXiv:2305.14463}, year={2023} }
额外访问
医疗临床报告:要访问临床报告(英语)的句子和标签,请从原作者处获取权限,然后发送电子邮件至 tareknaous@gatech.edu。
印地语产品评论:要访问印地语产品评论(印地语)的句子和标签,请从原作者处获取权限,然后发送电子邮件至 tareknaous@gatech.edu。



