oumi-anli-subset

Name: oumi-anli-subset
Creator: maas
Published: 2025-12-05 16:29:53
License: 暂无描述

魔搭社区2025-12-05 更新2025-04-12 收录

下载链接：

https://modelscope.cn/datasets/oumi-ai/oumi-anli-subset

下载链接

链接失效反馈

官方服务：

资源简介：

[![oumi logo](https://oumi.ai/logo_lockup_black.svg)](https://github.com/oumi-ai/oumi) [![Made with Oumi](https://badgen.net/badge/Made%20with/Oumi/%23085CFF?icon=https%3A%2F%2Foumi.ai%2Flogo_dark.svg)](https://github.com/oumi-ai/oumi) [![Documentation](https://img.shields.io/badge/Documentation-oumi-blue.svg)](https://oumi.ai/docs/en/latest/index.html) [![Blog](https://img.shields.io/badge/Blog-oumi-blue.svg)](https://oumi.ai/blog) [![Discord](https://img.shields.io/discord/1286348126797430814?label=Discord)](https://discord.gg/oumi) # oumi-ai/oumi-anli-subset **oumi-anli-subset** is a text dataset designed to fine-tune language models for **Claim Verification**. Prompts were pulled from [ANLI](https://huggingface.co/datasets/facebook/anli) training sets with responses created from **[Llama-3.1-405B-Instruct](https://huggingface.co/meta-llama/Llama-3.1-405B-Instruct)**. **oumi-anli-subset** was used to train **[HallOumi-8B](https://huggingface.co/oumi-ai/HallOumi-8B)**, which achieves **77.2% Macro F1**, outperforming **SOTA models such as Claude Sonnet 3.5, OpenAI o1, etc.** - **Curated by:** [Oumi AI](https://oumi.ai/) using Oumi inference - **Language(s) (NLP):** English - **License:** [CC-BY-NC-4.0](https://creativecommons.org/licenses/by-nc/4.0/deed.en), [Llama 3.1 Community License](https://www.llama.com/llama3_1/license/) ## Uses  Use this dataset for supervised fine-tuning of LLMs for claim verification. Fine-tuning Walkthrough: https://oumi.ai/halloumi ## Out-of-Scope Use  This dataset is not well suited for producing generalized chat models. ## Dataset Structure  ``` { # Unique conversation identifier "conversation_id": str, # Data formatted to user + assistant turns in chat format # Example: [{'role': 'user', 'content': ...}, {'role': 'assistant', 'content': ...}] "messages": list[dict[str, str]], # Metadata for sample "metadata": dict[str, ...], } ``` ## Dataset Creation ### Curation Rationale  To enable the community to develop more reliable foundational models, we created this dataset for the purpose of training HallOumi. It was produced by running Oumi inference on Google Cloud. ### Source Data  Queries were sourced from [ANLI](https://huggingface.co/datasets/facebook/anli). #### Data Collection and Processing  Responses were collected by running Oumi batch inference on Google Cloud. #### Personal and Sensitive Information  Data is not known or likely to contain any personal, sensitive, or private information. ## Bias, Risks, and Limitations  1. The source prompts are from [ANLI](https://huggingface.co/datasets/facebook/anli) and may reflect any biases in their data collection process. 2. The responses produced will likely be reflective of any biases or limitations produced by Llama-3.1-405B-Instruct. ## Citation  **BibTeX:** ``` @misc{oumiANLISubset, author = {Jeremiah Greer}, title = {Oumi ANLI Subset}, month = {March}, year = {2025}, url = {https://huggingface.co/datasets/oumi-ai/oumi-anli-subset} } @software{oumi2025, author = {Oumi Community}, title = {Oumi: an Open, End-to-end Platform for Building Large Foundation Models}, month = {January}, year = {2025}, url = {https://github.com/oumi-ai/oumi} } ```

[![oumi logo](https://oumi.ai/logo_lockup_black.svg)](https://github.com/oumi-ai/oumi) [![Made with Oumi](https://badgen.net/badge/Made%20with/Oumi/%23085CFF?icon=https%3A%2F%2Foumi.ai%2Flogo_dark.svg)](https://github.com/oumi-ai/oumi) [![Documentation](https://img.shields.io/badge/Documentation-oumi-blue.svg)](https://oumi.ai/docs/en/latest/index.html) [![Blog](https://img.shields.io/badge/Blog-oumi-blue.svg)](https://oumi.ai/blog) [![Discord](https://img.shields.io/discord/1286348126797430814?label=Discord)](https://discord.gg/oumi) # oumi-ai/oumi-anli-subset **oumi-anli-subset** 是一款专为**主张验证（Claim Verification）**任务设计的文本数据集，可用于大语言模型的微调工作。该数据集的提示词源自[ANLI](https://huggingface.co/datasets/facebook/anli)训练集，回复则由**[Llama-3.1-405B-Instruct](https://huggingface.co/meta-llama/Llama-3.1-405B-Instruct)**生成。本数据集曾用于训练**[HallOumi-8B](https://huggingface.co/oumi-ai/HallOumi-8B)**，该模型宏F1值（Macro F1）可达77.2%，性能超越Claude Sonnet 3.5、OpenAI o1等当前最优（State-of-the-Art，SOTA）模型。 - **数据整理方：** [Oumi AI](https://oumi.ai/)，采用Oumi推理框架完成整理 - **自然语言处理所用语言：** 英语 - **授权协议：** [CC-BY-NC-4.0](https://creativecommons.org/licenses/by-nc/4.0/deed.en)、[Llama 3.1 社区许可协议](https://www.llama.com/llama3_1/license/) ## 数据集用途本数据集适用于面向主张验证任务的大语言模型（Large Language Model，LLM）监督微调。微调教程：https://oumi.ai/halloumi ## 不适用场景本数据集不适用于构建通用对话模型。 ## 数据集结构该数据集的字段格式说明如下： { # 唯一对话标识符 "conversation_id": str, # 按用户与助手对话轮次格式组织的数据 # 示例：[{'role': 'user', 'content': ...}, {'role': 'assistant', 'content': ...}] "messages": list[dict[str, str]], # 样本元数据 "metadata": dict[str, ...], } ## 数据集构建 ### 整理初衷为推动社区开发更可靠的基础模型，我们创建本数据集以用于训练HallOumi模型。数据集通过谷歌云平台运行Oumi推理生成。 ### 源数据查询样本取自[ANLI](https://huggingface.co/datasets/facebook/anli)数据集。 #### 数据收集与处理通过谷歌云平台运行Oumi批量推理生成回复样本。 #### 个人与敏感信息经核查，本数据集未包含任何已知或疑似的个人、敏感或隐私信息。 ## 偏差、风险与局限性 1. 源提示词取自[ANLI](https://huggingface.co/datasets/facebook/anli)数据集，可能反映其数据收集过程中存在的各类偏差。 2. 生成的回复大概率会体现Llama-3.1-405B-Instruct模型本身存在的偏差与局限性。 ## 引用信息 **BibTeX格式：** @misc{oumiANLISubset, author = {Jeremiah Greer}, title = {Oumi ANLI Subset}, month = {March}, year = {2025}, url = {https://huggingface.co/datasets/oumi-ai/oumi-anli-subset} } @software{oumi2025, author = {Oumi Community}, title = {Oumi: an Open, End-to-end Platform for Building Large Foundation Models}, month = {January}, year = {2025}, url = {https://github.com/oumi-ai/oumi} }

提供机构：

maas

创建时间：

2025-04-09

搜集汇总

数据集介绍

背景与挑战

背景概述

oumi-anli-subset 是一个用于主张验证的文本数据集，基于ANLI训练集的提示，并由Llama-3.1-405B-Instruct生成响应。它被用于微调语言模型，特别是训练HallOumi-8B，该模型在Macro F1分数上达到77.2%，优于现有SOTA模型。数据集为英语，采用CC-BY-NC-4.0和Llama 3.1社区许可证。

以上内容由遇见数据集搜集并总结生成