FineTome-100k|对话分析数据集|机器学习数据集

huggingface2024-07-28 更新2024-12-12 收录

对话分析

机器学习

下载链接：

https://huggingface.co/datasets/mlabonne/FineTome-100k

下载链接

链接失效反馈

资源简介：

FineTome-100k数据集是arcee-ai/The-Tome的子集，通过HuggingFaceFW/fineweb-edu-classifier重新过滤。该数据集包含三个主要特征：对话（包含发送者和内容，均为字符串类型）、来源（字符串类型）和评分（浮点数类型）。数据集分为训练集，包含100,000个样本。

创建时间：

2024-07-28

原始信息汇总

FineTome-100k 数据集概述

数据集信息

特征

conversations: 对话列表
- from: 字符串类型
- value: 字符串类型
source: 字符串类型
score: 浮点数类型 (float64)

数据分割

train: 训练集
- num_bytes: 239650960.7474458 字节
- num_examples: 100000 条样本

数据大小

download_size: 116531415 字节
dataset_size: 239650960.7474458 字节

配置

config_name: default
- data_files:
  - split: train
  - path: data/train-*

AI搜集汇总

数据集介绍

构建方式

FineTome-100k数据集是基于arcee-ai/The-Tome数据集的一个子集，经过HuggingFaceFW/fineweb-edu-classifier的重新筛选构建而成。该数据集旨在为高效微调Llama 3.1模型提供支持，特别适用于教育领域的文本分析任务。构建过程中，原始数据经过严格的过滤和分类，确保数据质量与特定应用场景的高度契合。

特点

FineTome-100k数据集包含10万条对话样本，每条样本均包含对话内容、来源及评分信息。其对话内容涵盖广泛的教育主题，评分信息则为数据质量提供了量化依据。数据集的多样性使其能够支持多种自然语言处理任务，如对话生成、文本分类及情感分析等。此外，数据集的来源信息为研究提供了额外的上下文支持，增强了数据的可解释性。

使用方法

FineTome-100k数据集可直接通过Hugging Face平台下载，适用于训练和微调自然语言处理模型。用户可通过加载默认配置快速访问训练数据，并利用其对话内容和评分信息进行模型优化。该数据集特别适合用于教育领域的文本生成和分类任务，研究人员可根据具体需求调整数据处理流程，以最大化模型的性能表现。

背景与挑战

背景概述

FineTome-100k数据集是基于arcee-ai/The-Tome数据集的一个子集，经过HuggingFaceFW/fineweb-edu-classifier的重新筛选而构建。该数据集的主要目的是支持高效微调Llama 3.1模型的研究，特别是在使用Unsloth框架进行微调的背景下。FineTome-100k的创建时间可追溯至2023年，由HuggingFace社区的研究人员主导开发。其核心研究问题在于如何通过高质量的数据集提升大语言模型的微调效率与效果。该数据集在自然语言处理领域具有重要影响力，尤其是在模型微调与优化方面，为研究者提供了一个高质量的训练资源。

当前挑战

FineTome-100k数据集在构建过程中面临多重挑战。首先，数据筛选的准确性至关重要，需确保所选数据具有教育价值且适合模型微调，这对分类器的性能提出了高要求。其次，数据规模的平衡也是一个关键问题，既要保证数据量足够大以支持模型训练，又要避免引入低质量或冗余数据。此外，数据格式的统一性与标注的准确性也是构建过程中的难点，需确保每条数据的对话结构与评分信息完整且可靠。这些挑战共同构成了FineTome-100k数据集在构建与应用中的核心难题。

常用场景

经典使用场景

FineTome-100k数据集在自然语言处理领域中被广泛用于微调大型语言模型，特别是在对话生成和文本理解任务中。该数据集通过提供高质量的对话数据，帮助研究人员和开发者优化模型的响应质量和上下文理解能力。

衍生相关工作

基于FineTome-100k数据集，研究人员开发了多种高效微调技术，如Unsloth方法。这些技术不仅提高了模型训练的效率，还显著降低了计算资源的消耗，推动了自然语言处理领域的进一步发展。

数据集最近研究

最新研究方向

在自然语言处理领域，FineTome-100k数据集的出现为高效微调大型语言模型提供了新的研究视角。该数据集通过HuggingFaceFW/fineweb-edu-classifier进行二次筛选，确保了数据的高质量和教育相关性，特别适用于Llama 3.1等模型的微调研究。当前，研究者们正利用该数据集探索如何在减少计算资源消耗的同时，提升模型在特定任务上的性能表现。这一研究方向不仅响应了绿色AI的全球趋势，也为模型优化和资源效率提升提供了新的实验平台。FineTome-100k的应用，预计将推动更多关于模型微调效率和效果平衡的研究，进一步促进自然语言处理技术的发展。

以上内容由AI搜集并总结生成

用户留言

有没有相关的论文或文献参考？

这个数据集是基于什么背景创建的？

数据集的作者是谁？

能帮我联系到这个数据集的作者吗？

这个数据集如何下载？

点击留言

数据主题

具身智能

数据集 4098个

机构 8个

大模型

数据集 439个

机构 10个

无人机

数据集 37个

机构 6个

指令微调

数据集 36个

机构 6个

蛋白质结构

数据集 50个

机构 8个

空间智能

数据集 21个

机构 5个

5,000+

优质数据集

54 个

任务类型

进入经典数据集

热门数据集

中国空气质量数据集（2014-2020年）

数据集中的空气质量数据类型包括PM2.5, PM10, SO2, NO2, O3, CO, AQI，包含了2014-2020年全国360个城市的逐日空气质量监测数据。监测数据来自中国环境监测总站的全国城市空气质量实时发布平台，每日更新。数据集的原始文件为CSV的文本记录，通过空间化处理生产出Shape格式的空间数据。数据集包括CSV格式和Shape格式两数数据格式。

国家地球系统科学数据中心收录

中国食物成分数据库

食物成分数据比较准确而详细地描述农作物、水产类、畜禽肉类等人类赖以生存的基本食物的品质和营养成分含量。它是一个重要的我国公共卫生数据和营养信息资源，是提供人类基本需求和基本社会保障的先决条件；也是一个国家制定相关法规标准、实施有关营养政策、开展食品贸易和进行营养健康教育的基础，兼具学术、经济、社会等多种价值。本数据集收录了基于2002年食物成分表的1506条食物的31项营养成分（含胆固醇）数据，657条食物的18种氨基酸数据、441条食物的32种脂肪酸数据、130条食物的碘数据、114条食物的大豆异黄酮数据。

国家人口健康科学数据中心收录

THUCNews

THUCNews是根据新浪新闻RSS订阅频道2005~2011年间的历史数据筛选过滤生成，包含74万篇新闻文档（2.19 GB），均为UTF-8纯文本格式。本次比赛数据集在原始新浪新闻分类体系的基础上，重新整合划分出14个候选分类类别：财经、彩票、房产、股票、家居、教育、科技、社会、时尚、时政、体育、星座、游戏、娱乐。提供训练数据共832471条。

github 收录

中国高分辨率高质量PM2.5数据集（2000-2023）

ChinaHighPM2.5数据集是中国高分辨率高质量近地表空气污染物数据集（ChinaHighAirPollutants, CHAP）中PM2.5数据集。该数据集利用人工智能技术，使用模式资料填补了卫星MODIS MAIAC AOD产品的空间缺失值，结合地基观测、大气再分析和排放清单等大数据生产得到2000年至今全国无缝隙地面PM2.5数据。数据十折交叉验证决定系数R2为0.92，均方根误差RMSE为10.76 µg/m3。主要范围为整个中国地区，空间分辨率为1 km，时间分辨率为日、月、年，单位为µg/m3。注意：该数据集持续更新，如需要更多数据，请发邮件联系作者（weijing_rs@163.com; weijing@umd.edu）。数据文件中包含NC转GeoTiff的四种代码（Python、Matlab、IDL和R语言）nc2geotiff codes。

国家青藏高原科学数据中心收录

Beijing Traffic

The Beijing Traffic Dataset collects traffic speeds at 5-minute granularity for 3126 roadway segments in Beijing between 2022/05/12 and 2022/07/25.

Papers with Code 收录