five

HuggingFaceH4/ifeval

收藏
Hugging Face2023-12-22 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/HuggingFaceH4/ifeval
下载链接
链接失效反馈
官方服务:
资源简介:
--- license: apache-2.0 --- # Dataset Card for IFEval <!-- Provide a quick summary of the dataset. --> This dataset contains the prompts used in Google's [Instruction-Following Evaluation for Large Language Models](https://arxiv.org/abs/2311.07911). You can find the original source data and evaluation code [here](https://github.com/google-research/google-research/tree/master/instruction_following_eval). ## Dataset Details ### Dataset Description <!-- Provide a longer summary of what this dataset is. --> - **Curated by:** [More Information Needed] - **Funded by [optional]:** [More Information Needed] - **Shared by [optional]:** [More Information Needed] - **Language(s) (NLP):** [More Information Needed] - **License:** [More Information Needed] ### Dataset Sources [optional] <!-- Provide the basic links for the dataset. --> - **Repository:** [More Information Needed] - **Paper [optional]:** [More Information Needed] - **Demo [optional]:** [More Information Needed] ## Uses <!-- Address questions around how the dataset is intended to be used. --> ### Direct Use <!-- This section describes suitable use cases for the dataset. --> [More Information Needed] ### Out-of-Scope Use <!-- This section addresses misuse, malicious use, and uses that the dataset will not work well for. --> [More Information Needed] ## Dataset Structure <!-- This section provides a description of the dataset fields, and additional information about the dataset structure such as criteria used to create the splits, relationships between data points, etc. --> [More Information Needed] ## Dataset Creation ### Curation Rationale <!-- Motivation for the creation of this dataset. --> [More Information Needed] ### Source Data <!-- This section describes the source data (e.g. news text and headlines, social media posts, translated sentences, ...). --> #### Data Collection and Processing <!-- This section describes the data collection and processing process such as data selection criteria, filtering and normalization methods, tools and libraries used, etc. --> [More Information Needed] #### Who are the source data producers? <!-- This section describes the people or systems who originally created the data. It should also include self-reported demographic or identity information for the source data creators if this information is available. --> [More Information Needed] ### Annotations [optional] <!-- If the dataset contains annotations which are not part of the initial data collection, use this section to describe them. --> #### Annotation process <!-- This section describes the annotation process such as annotation tools used in the process, the amount of data annotated, annotation guidelines provided to the annotators, interannotator statistics, annotation validation, etc. --> [More Information Needed] #### Who are the annotators? <!-- This section describes the people or systems who created the annotations. --> [More Information Needed] #### Personal and Sensitive Information <!-- State whether the dataset contains data that might be considered personal, sensitive, or private (e.g., data that reveals addresses, uniquely identifiable names or aliases, racial or ethnic origins, sexual orientations, religious beliefs, political opinions, financial or health data, etc.). If efforts were made to anonymize the data, describe the anonymization process. --> [More Information Needed] ## Bias, Risks, and Limitations <!-- This section is meant to convey both technical and sociotechnical limitations. --> [More Information Needed] ### Recommendations <!-- This section is meant to convey recommendations with respect to the bias, risk, and technical limitations. --> Users should be made aware of the risks, biases and limitations of the dataset. More information needed for further recommendations. ## Citation [optional] <!-- If there is a paper or blog post introducing the dataset, the APA and Bibtex information for that should go in this section. --> **BibTeX:** [More Information Needed] **APA:** [More Information Needed] ## Glossary [optional] <!-- If relevant, include terms and calculations in this section that can help readers understand the dataset or dataset card. --> [More Information Needed] ## More Information [optional] [More Information Needed] ## Dataset Card Authors [optional] [More Information Needed] ## Dataset Card Contact [More Information Needed]

许可证:Apache-2.0 # IFEval 数据集卡片 <!-- 快速概述本数据集。 --> 本数据集包含谷歌(Google)发布的论文《面向大语言模型(Large Language Model)的指令遵循评估》(https://arxiv.org/abs/2311.07911)中所使用的指令提示词。原始源数据与评估代码可通过以下链接获取:https://github.com/google-research/google-research/tree/master/instruction_following_eval。 ## 数据集详情 ### 数据集描述 <!-- 详细说明本数据集的内容。 --> - **整理者:** [需补充更多信息] - **资助方(可选):** [需补充更多信息] - **共享方(可选):** [需补充更多信息] - **(自然语言处理领域)所用语言:** [需补充更多信息] - **许可证:** [需补充更多信息] ### 数据集来源(可选) <!-- 提供本数据集的基础链接。 --> - **代码仓库:** [需补充更多信息] - **论文(可选):** [需补充更多信息] - **演示(可选):** [需补充更多信息] ## 使用场景 <!-- 解答本数据集的预期用途相关问题。 --> ### 直接使用 <!-- 本小节描述本数据集的适用场景。 --> [需补充更多信息] ### 不适用使用场景 <!-- 本小节说明误用、恶意使用以及本数据集无法良好适配的使用场景。 --> [需补充更多信息] ## 数据集结构 <!-- 本小节描述数据集的字段信息,以及数据集划分标准、数据点间关系等额外结构相关信息。 --> [需补充更多信息] ## 数据集构建 ### 整理初衷 <!-- 说明创建本数据集的动机。 --> [需补充更多信息] ### 源数据 <!-- 本小节描述源数据(例如新闻文本与标题、社交媒体帖子、翻译语句等)。 --> #### 数据收集与处理 <!-- 本小节描述数据收集与处理流程,例如数据选择标准、过滤与归一化方法、所用工具与库等。 --> [需补充更多信息] #### 源数据创作者为谁? <!-- 本小节描述最初创建该数据的个人或系统。若有相关信息,还应包含源数据创作者自行上报的人口统计或身份信息。 --> [需补充更多信息] ### 标注信息(可选) <!-- 若数据集包含初始数据收集之外的标注内容,请使用本小节描述相关信息。 --> #### 标注流程 <!-- 本小节描述标注流程,例如所用标注工具、标注数据量、提供给标注者的标注指南、标注者间统计数据、标注验证等。 --> [需补充更多信息] #### 标注者为谁? <!-- 本小节描述创建标注内容的个人或系统。 --> [需补充更多信息] #### 个人与敏感信息 <!-- 说明本数据集是否包含可被视为个人、敏感或隐私的数据(例如披露地址、唯一可识别姓名或别名、种族或族裔出身、性取向、宗教信仰、政治观点、金融或健康数据等)。若已采取数据匿名化措施,请描述该匿名化流程。 --> [需补充更多信息] ## 偏差、风险与局限性 <!-- 本小节旨在说明技术与社会技术层面的局限性。 --> [需补充更多信息] ### 建议 <!-- 本小节旨在针对偏差、风险与技术局限性提出相关建议。 --> 用户应知晓该数据集存在的风险、偏差与局限性,需补充更多信息以形成进一步建议。 ## 引用信息(可选) <!-- 若有介绍本数据集的论文或博客文章,此处应包含其APA与BibTeX引用格式信息。 --> **BibTeX格式:** [需补充更多信息] **APA格式:** [需补充更多信息] ## 术语表(可选) <!-- 若有需要,请在此处添加可帮助读者理解本数据集或数据集卡片的术语与计算公式。 --> [需补充更多信息] ## 更多信息(可选) [需补充更多信息] ## 数据集卡片作者(可选) [需补充更多信息] ## 数据集卡片联系人 [需补充更多信息]
提供机构:
HuggingFaceH4
原始信息汇总

数据集概述

数据集名称

IFEval

数据集描述

该数据集包含Google的Instruction-Following Evaluation for Large Language Models中使用的提示。原始数据和评估代码可在此处找到。

数据集详情

数据集描述

  • Curated by: [待补充]
  • Funded by [optional]: [待补充]
  • Shared by [optional]: [待补充]
  • Language(s) (NLP): [待补充]
  • License: [待补充]

数据集来源 [可选]

  • Repository: [待补充]
  • Paper [optional]: [待补充]
  • Demo [optional]: [待补充]

使用情况

直接使用

[待补充]

超出范围的使用

[待补充]

数据集结构

[待补充]

数据集创建

筛选理由

[待补充]

源数据

数据收集和处理

[待补充]

源数据生产者

[待补充]

注释 [可选]

注释过程

[待补充]

注释者

[待补充]

个人和敏感信息

[待补充]

偏差、风险和限制

建议

用户应意识到数据集的风险、偏差和限制。需要更多信息以提供进一步的建议。

引用 [可选]

BibTeX: [待补充]

APA: [待补充]

术语表 [可选]

[待补充]

更多信息 [可选]

[待补充]

数据集卡作者 [可选]

[待补充]

数据集卡联系信息

[待补充]

搜集汇总
数据集介绍
main_image_url
构建方式
IFEval数据集是由Google Research构建的,旨在评估大型语言模型遵循指令的能力。该数据集包含了大约500个可验证的指令,这些指令通过启发式方法进行验证,如‘撰写超过400字的内容’和‘至少提及AI关键词3次’等。数据集的构建采用了精心设计的指令,并通过特定的参数化描述来定义每个指令的具体要求,从而形成了一个可供模型训练和评估的标准化资源。
特点
IFEval数据集的特点在于其指令的多样性和可验证性。每个指令都附带了详细的参数描述,这些参数不仅定义了指令的内容,还规定了执行指令时需满足的具体条件。此外,数据集完全采用英文编写,使得它成为评估英语语言模型指令遵循性能的理想工具。其结构化的数据格式也便于研究人员进行数据分析和模型评估。
使用方法
使用IFEval数据集时,研究人员可以通过HuggingFace的datasets库轻松加载。数据集提供了训练集分割,其中包含了541个示例。每个示例都包含一个唯一的ID、一个描述模型应执行任务的指令,以及一个可验证指令列表和参数列表。用户可以根据需要,利用这些数据来训练、评估和比较不同的语言模型在遵循复杂指令方面的性能。
背景与挑战
背景概述
IFEval数据集,作为大型语言模型评估的基准,由Google的研究团队于2023年提出。该数据集的创建旨在解决自然语言处理领域中对指令遵循能力的评估问题,其核心研究问题是如何准确量化模型对复杂指令的遵循程度。通过精心设计的500个可验证指令,该数据集为评估聊天或指令微调的语言模型提供了重要的基准,其研究成果已在学术界产生了广泛影响。
当前挑战
在构建过程中,IFEval数据集面临的主要挑战包括如何确保指令的复杂性和多样性,以及如何精确地定义和验证指令遵循的度量标准。此外,数据集的构建还需克服如何平衡数据覆盖范围与评估效率的问题,以确保评估结果的全面性和可靠性。
常用场景
经典使用场景
在自然语言处理领域,尤其是大型语言模型的评估工作中,IFEval数据集以其独特的指令遵循评估标准而备受瞩目。该数据集的经典使用场景在于对聊天或指令微调语言模型进行精确的性能评估,通过其提供的500余条可验证指令,如撰写超过400字的文章或至少提及AI关键词3次,为研究者提供了一个统一的标准来衡量模型对复杂指令的理解与执行能力。
解决学术问题
IFEval数据集解决了学术界在大型语言模型评估中的一个重要问题,即缺乏一个全面且可验证的指令遵循评估框架。它提供了一套详细的指令和评估标准,使得研究者在模型训练和微调过程中,能够更准确地评估模型对于特定指令的响应质量,从而促进了模型性能的提升和研究的深入。
衍生相关工作
IFEval数据集的推出促进了相关研究的深入,衍生出了一系列经典工作。研究者们基于该数据集,不仅发表了关于模型评估方法的研究论文,还开发了新的模型微调技术和评估工具,进一步推动了自然语言处理领域的发展。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作