soniawmeyer/conversations-filtered-travel

Name: soniawmeyer/conversations-filtered-travel
Creator: soniawmeyer
Published: 2024-07-05 00:11:32
License: 暂无描述

Hugging Face2024-07-05 更新2024-06-29 收录

下载链接：

https://hf-mirror.com/datasets/soniawmeyer/conversations-filtered-travel

下载链接

链接失效反馈

官方服务：

资源简介：

UltraChat数据集包含150万条对话，来源于HuggingFace。数据集经过预处理，包括文本标准化、去除标点符号和词形还原，以确保数据一致性并准备用于自然语言处理任务。预处理后的数据存储在.pkl文件中，保留了其层次结构和元数据。数据集通过关键词过滤，专注于旅行相关对话，涉及目的地、活动、交通、住宿、旅行计划和体验等主题。过滤过程旨在增强数据集在旅行领域的相关性和实用性，用于开发旅行导向的自然语言处理模型和应用。

提供机构：

soniawmeyer

原始信息汇总

UltraChat Dataset (HuggingFace)

数据集概述

数据来源: HuggingFace
数据格式: 10个JSONLines文件
数据量: 包含150万条对话
数据结构: 每条对话存储为字符串列表

数据预处理

文本标准化: 转换为小写，去除标点符号，词形还原
数据存储: 转换为Pandas DataFrame并存储为.pkl文件
处理时间: 每条对话约0.0027秒

数据过滤

目标领域: 旅游相关对话
过滤方法: 使用特定关键词和子版块分类
关键词类别:
- 目的地名称: 如"Paris," "Hawaii," "Machu Picchu"
- 旅游活动: 如"hiking," "sightseeing," "beach vacation"
- 交通方式: 如"flight," "train," "rental car"
- 住宿选项: 如"hotel," "hostel," "Airbnb"
- 旅行规划: 如"itinerary," "packing tips," "budget travel"
- 旅行体验: 如"best restaurants in Rome," "must-see attractions in New York"

数据集结构

data_type: 数据用途（QA = 问答）
source: 数据来源（reddit, ultrachat, dolly）
filename: 数据来源文件的详细信息
reddit filename: 包含子版块和API请求类型等元数据
data: 不同来源的数据结构不同
reddit: 字典形式的字符串
ultrachat: 列表形式的字符串
combined: 数据元素的连接字符串
cause_clean: 对combined进行NLP处理
bert_summary: cause_clean的BERT摘要
bert_topic: bert_summary的BERT主题建模（字符串形式）
topic_assignment: 与主题建模对齐的0-99值

搜集汇总

数据集介绍

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集