L4NLP/LEval|自然语言处理数据集|长文本理解数据集
收藏数据集概述
基本信息
- 许可证: GPL-3.0
- 任务类别:
- 总结
- 问答
- 多选题
- 语言: 英语
- 数据集大小: 1K<n<10K
- 预览: 可用
- 标签: 长上下文
数据集详情
- 名称: L-Eval
- 描述: L-Eval是一个用于评估长上下文语言模型的综合测试集,包含18个跨多个领域的长文档任务,涉及总结、问答、上下文学习、主题检索和论文写作辅助等。该数据集包含411个长文档和2043个查询-响应对,所有样本均由作者手动标注和检查。
- 目的: 帮助研究人员和开发者追踪长上下文语言模型的进展,并理解不同方法的优缺点。
数据集列表
- coursera
- gsm100
- quality
- topic_retrieval_longchat
- tpo
- financial_qa
- gov_report_summ
- legal_contract_qa
- meeting_summ
- multidoc_qa
- narrative_qa
- natural_question
- news_summ
- paper_assistant
- patent_summ
- review_summ
- scientific_qa
- tv_show_summ

Materials Project 在线材料数据库
Materials Project 是一个由伯克利加州大学和劳伦斯伯克利国家实验室于 2011 年共同发起的大型开放式在线材料数据库。这个项目的目标是利用高通量第一性原理计算,为超过百万种无机材料提供全面的性能数据、结构信息和计算模拟结果,以此加速新材料的发现和创新过程。数据库中的数据不仅包括晶体结构和能量特性,还涵盖了电子结构和热力学性质等详尽信息,为研究人员提供了丰富的材料数据资源。相关论文成果为「Commentary: The Materials Project: A materials genome approach to accelerating materials innovation」。
超神经 收录
Apple Stock Price Data
Historical stock price data for AAPL (apple)
kaggle 收录
中国裁判文书网
中国裁判文书网是中国最高人民法院设立的官方网站,旨在公开各级法院的裁判文书。该数据集包含了大量的法律文书,如判决书、裁定书、调解书等,涵盖了民事、刑事、行政、知识产权等多个法律领域。
wenshu.court.gov.cn 收录
Tropicos
Tropicos是一个全球植物名称数据库,包含超过130万种植物的名称、分类信息、分布数据、图像和参考文献。该数据库由密苏里植物园维护,旨在为植物学家、生态学家和相关领域的研究人员提供全面的植物信息。
www.tropicos.org 收录
中国气象数据
本数据集包含了中国2023年1月至11月的气象数据,包括日照时间、降雨量、温度、风速等关键数据。通过这些数据,可以深入了解气象现象对不同地区的影响,并通过可视化工具揭示中国的气温分布、降水情况、风速趋势等。
github 收录