NYT-10|自然语言处理数据集|关系抽取数据集
收藏
- NYT-10数据集首次发表,由纽约时报公司发布,旨在用于文本分类和信息检索研究。
- NYT-10数据集首次应用于机器学习领域,特别是在自然语言处理和文本分类任务中,展示了其作为基准数据集的价值。
- NYT-10数据集被广泛用于学术研究,成为评估文本分类算法性能的标准数据集之一。
- NYT-10数据集在多个国际会议上被引用,进一步巩固了其在自然语言处理研究中的重要地位。
- 随着深度学习技术的发展,NYT-10数据集被用于训练和验证新的文本分类模型,推动了相关领域的技术进步。
- 1The New York Times Annotated CorpusThe Linguistic Data Consortium · 2008年
- 2Exploring the Use of the New York Times Annotated Corpus for Named Entity RecognitionAssociation for Computational Linguistics · 2010年
- 3A Study on the Impact of Data Augmentation Techniques on the New York Times Annotated CorpusUniversity of California, Berkeley · 2019年
- 4Sentiment Analysis on the New York Times Annotated CorpusAssociation for Computational Linguistics · 2015年
- 5Multilingual Named Entity Recognition using the New York Times Annotated CorpusAssociation for Computational Linguistics · 2017年
AGIEval
displayName: AGIEval license: - MIT taskTypes: [] mediaTypes: - Text labelTypes: [] tags: - attrs: null id: 11864 name: en: '' zh: 文本检索 publisher: - Microsoft publishDate: '2023-04-01' publishUrl: https://huggingface.co/datasets/lighteval/agi_eval_en paperUrl: https://arxiv.org/pdf/2304.06364.pdf --- # 数据集介绍 ## 简介 AGIEval is a human-centric benchmark specifically designed to evaluate the general abilities of foundation models in tasks pertinent to human cognition and problem-solving. This benchmark is derived from 20 official, public, and high-standard admission and qualification exams intended for general human test-takers, such as general college admission tests (e.g., Chinese College Entrance Exam (Gaokao) and American SAT), law school admission tests, math competitions, lawyer qualification tests, and national civil service exams. For a full description of the benchmark ## 引文 ``` @misc{zhong2023agieval, title={AGIEval: A Human-Centric Benchmark for Evaluating Foundation Models}, author={Wanjun Zhong and Ruixiang Cui and Yiduo Guo and Yaobo Liang and Shuai Lu and Yanlin Wang and Amin Saied and Weizhu Chen and Nan Duan}, year={2023}, eprint={2304.06364}, archivePrefix={arXiv}, primaryClass={cs.CL} ``` ## Download dataset :modelscope-code[]{type="git"}
魔搭社区 收录
Amazon电影评论数据集
该数据集包含从1997年8月至2012年10月期间,Amazon用户对253,059种产品的7,911,684条评论。数据集被添加了真实标签,这些标签是通过爬取/抓取Amazon.com获得的,用于分类产品。
github 收录
BatteryLife
BatteryLife数据集是由香港科技大学(广州)等机构提出的一个全面电池寿命预测数据集。该数据集整合了16个数据集,包含超过90,000个样本,是迄今为止最大的电池寿命数据集。它提供了包括锂离子、锌离子和钠离子电池在内的多种类型电池,覆盖了8种格式、80种化学系统、12种操作温度和646种充放电协议,具有前所未有的多样性。该数据集既包括实验室测试数据,也包括工业测试数据,为电池寿命预测研究提供了丰富的资源。
arXiv 收录
Global Firepower Index (GFI)
Global Firepower Index (GFI) 是一个评估全球各国军事力量的综合指数。该指数考虑了超过50个因素,包括军事预算、人口、陆地面积、海军力量、空军力量、自然资源、后勤能力、地理位置等。数据集提供了每个国家的详细评分和排名,帮助分析和比较各国的军事实力。
www.globalfirepower.com 收录
QM9
该数据集名为QM9,包含了134,000个分子的信息,可用于生成点云的建模工作,同时也可应用于分子动力学的研究以及点云生成任务中。
arXiv 收录