The European Nucleotide Archive (ENA)|生物信息学数据集|核酸序列数据集
收藏
- 欧洲分子生物学实验室(EMBL)启动了欧洲核酸数据库(ENA)项目,旨在整合和提供欧洲范围内的核酸序列数据。
- ENA正式上线,开始向全球科研社区提供核酸序列数据的存储和访问服务。
- ENA与欧洲生物信息学研究所(EBI)的其他数据库整合,形成了一个综合性的生物信息资源平台。
- ENA开始支持高通量测序数据的存储和分析,显著提升了其数据处理能力。
- ENA推出了新的数据提交和访问接口,进一步简化了用户操作流程。
- ENA的数据存储量突破10亿条记录,成为全球最大的核酸序列数据库之一。
- 1The European Nucleotide Archive in 2023European Molecular Biology Laboratory - European Bioinformatics Institute (EMBL-EBI) · 2023年
- 2The European Nucleotide Archive: towards a comprehensive archive of nucleotide sequence dataEuropean Molecular Biology Laboratory - European Bioinformatics Institute (EMBL-EBI) · 2022年
- 3The European Nucleotide Archive: a comprehensive resource for nucleotide sequencing dataEuropean Molecular Biology Laboratory - European Bioinformatics Institute (EMBL-EBI) · 2021年
- 4The European Nucleotide Archive: a global resource for nucleotide sequencing dataEuropean Molecular Biology Laboratory - European Bioinformatics Institute (EMBL-EBI) · 2020年
- 5The European Nucleotide Archive: a comprehensive resource for nucleotide sequencing dataEuropean Molecular Biology Laboratory - European Bioinformatics Institute (EMBL-EBI) · 2019年
lmarena-ai/arena-hard-auto-v0.1
--- license: apache-2.0 dataset_info: features: - name: question_id dtype: string - name: category dtype: string - name: cluster dtype: string - name: turns list: - name: content dtype: string splits: - name: train num_bytes: 251691 num_examples: 500 download_size: 154022 dataset_size: 251691 configs: - config_name: default data_files: - split: train path: data/train-* --- ## Arena-Hard-Auto **Arena-Hard-Auto-v0.1** ([See Paper](https://arxiv.org/abs/2406.11939)) is an automatic evaluation tool for instruction-tuned LLMs. It contains 500 challenging user queries sourced from Chatbot Arena. We prompt GPT-4-Turbo as judge to compare the models' responses against a baseline model (default: GPT-4-0314). Notably, Arena-Hard-Auto has the highest *correlation* and *separability* to Chatbot Arena among popular open-ended LLM benchmarks ([See Paper](https://arxiv.org/abs/2406.11939)). If you are curious to see how well your model might perform on Chatbot Arena, we recommend trying Arena-Hard-Auto. Please checkout our GitHub repo on how to evaluate models using Arena-Hard-Auto and more information about the benchmark. If you find this dataset useful, feel free to cite us! ``` @article{li2024crowdsourced, title={From Crowdsourced Data to High-Quality Benchmarks: Arena-Hard and BenchBuilder Pipeline}, author={Li, Tianle and Chiang, Wei-Lin and Frick, Evan and Dunlap, Lisa and Wu, Tianhao and Zhu, Banghua and Gonzalez, Joseph E and Stoica, Ion}, journal={arXiv preprint arXiv:2406.11939}, year={2024} } ```
hugging_face 收录
LIGO Open Science Center Data
LIGO Open Science Center Data 包含来自激光干涉引力波天文台(LIGO)的观测数据,主要用于研究引力波的探测和分析。数据集包括引力波事件的原始数据、处理后的数据以及相关的元数据,适用于天文学、物理学和数据科学领域的研究。
www.gw-openscience.org 收录
ANC
美国国家语料库(American National Corpus,简称ANC)是一个大规模的电子美国英语语料库,包含多种类型文本及口语数据转录,旨在全面反映美国英语的多样性。其开放部分OANC约有1500万字,涵盖多种文体,且进行了自动标注。
anc.org 收录
ShapeNet
ShapeNet 是由斯坦福大学、普林斯顿大学和美国芝加哥丰田技术研究所的研究人员开发的大型 3D CAD 模型存储库。该存储库包含超过 3 亿个模型,其中 220,000 个模型被分类为使用 WordNet 上位词-下位词关系排列的 3,135 个类。 ShapeNet Parts 子集包含 31,693 个网格,分为 16 个常见对象类(即桌子、椅子、平面等)。每个形状基本事实包含 2-5 个部分(总共 50 个部分类)。
OpenDataLab 收录
MeSH
MeSH(医学主题词表)是一个用于索引和检索生物医学文献的标准化词汇表。它包含了大量的医学术语和概念,用于描述医学文献中的主题和内容。MeSH数据集包括主题词、副主题词、树状结构、历史记录等信息,广泛应用于医学文献的分类和检索。
www.nlm.nih.gov 收录