NYT (New York Times Annotated Corpus)|自然语言处理数据集|信息检索数据集
收藏
- NYT (New York Times Annotated Corpus)首次发布,由纽约时报和伦斯勒理工学院合作创建,旨在为自然语言处理研究提供丰富的文本数据。
- 该数据集首次应用于自然语言处理领域的研究,特别是在信息抽取和文本分类任务中,展示了其广泛的应用潜力。
- NYT数据集的更新版本发布,增加了更多的标注信息和文档,进一步丰富了数据集的内容和多样性。
- 该数据集在多个国际会议和研讨会上被广泛引用,成为自然语言处理领域的重要基准数据集之一。
- 随着深度学习技术的发展,NYT数据集被用于训练和评估各种先进的自然语言处理模型,如BERT和GPT系列模型。
- NYT数据集继续在自然语言处理研究中发挥重要作用,支持了多项前沿研究,包括多模态学习和跨语言理解。
- 1The New York Times Annotated CorpusThe Linguistic Data Consortium · 2008年
- 2Exploring the Use of the New York Times Annotated Corpus for Event ExtractionUniversity of Maryland · 2010年
- 3A Survey on the Use of the New York Times Annotated Corpus in Information RetrievalUniversity of Waterloo · 2012年
- 4Leveraging the New York Times Annotated Corpus for Named Entity RecognitionUniversity of Sheffield · 2014年
- 5The New York Times Annotated Corpus: A Comprehensive Resource for Text MiningUniversity of California, Berkeley · 2016年
中国裁判文书网
中国裁判文书网是中国最高人民法院设立的官方网站,旨在公开各级法院的裁判文书。该数据集包含了大量的法律文书,如判决书、裁定书、调解书等,涵盖了民事、刑事、行政、知识产权等多个法律领域。
wenshu.court.gov.cn 收录
LFW
人脸数据集;LFW数据集共有13233张人脸图像,每张图像均给出对应的人名,共有5749人,且绝大部分人仅有一张图片。每张图片的尺寸为250X250,绝大部分为彩色图像,但也存在少许黑白人脸图片。 URL: http://vis-www.cs.umass.edu/lfw/index.html#download
AI_Studio 收录
AgiBot World
为了进一步推动通用具身智能领域研究进展,让高质量机器人数据触手可及,作为上海模塑申城语料普惠计划中的一份子,智元机器人携手上海人工智能实验室、国家地方共建人形机器人创新中心以及上海库帕思,重磅发布全球首个基于全域真实场景、全能硬件平台、全程质量把控的百万真机数据集开源项目 AgiBot World。这一里程碑式的开源项目,旨在构建国际领先的开源技术底座,标志着具身智能领域 「ImageNet 时刻」已到来。AgiBot World 是全球首个基于全域真实场景、全能硬件平台、全程质量把控的大规模机器人数据集。相比于 Google 开源的 Open X-Embodiment 数据集,AgiBot World 的长程数据规模高出 10 倍,场景范围覆盖面扩大 100 倍,数据质量从实验室级上升到工业级标准。AgiBot World 数据集收录了八十余种日常生活中的多样化技能,从抓取、放置、推、拉等基础操作,到搅拌、折叠、熨烫等精细长程、双臂协同复杂交互,几乎涵盖了日常生活所需的绝大多数动作需求。
github 收录
Project Gutenberg
Project Gutenberg是一个提供免费电子书的数据集,包含超过60,000本免费电子书,涵盖了文学、历史、科学等多个领域。这些电子书主要以公共领域作品为主,用户可以自由下载和使用。
www.gutenberg.org 收录
ChemBL
ChemBL是一个化学信息学数据库,包含大量生物活性数据,涵盖了药物发现和开发过程中的各种化学实体。数据集包括化合物的结构信息、生物活性数据、靶点信息等。
www.ebi.ac.uk 收录