soniawmeyer/conversations-filtered-travel
收藏Hugging Face2024-07-05 更新2024-06-29 收录
下载链接:
https://hf-mirror.com/datasets/soniawmeyer/conversations-filtered-travel
下载链接
链接失效反馈官方服务:
资源简介:
UltraChat数据集包含150万条对话,来源于HuggingFace。数据集经过预处理,包括文本标准化、去除标点符号和词形还原,以确保数据一致性并准备用于自然语言处理任务。预处理后的数据存储在.pkl文件中,保留了其层次结构和元数据。数据集通过关键词过滤,专注于旅行相关对话,涉及目的地、活动、交通、住宿、旅行计划和体验等主题。过滤过程旨在增强数据集在旅行领域的相关性和实用性,用于开发旅行导向的自然语言处理模型和应用。
UltraChat数据集包含150万条对话,来源于HuggingFace。数据集经过预处理,包括文本标准化、去除标点符号和词形还原,以确保数据一致性并准备用于自然语言处理任务。预处理后的数据存储在.pkl文件中,保留了其层次结构和元数据。数据集通过关键词过滤,专注于旅行相关对话,涉及目的地、活动、交通、住宿、旅行计划和体验等主题。过滤过程旨在增强数据集在旅行领域的相关性和实用性,用于开发旅行导向的自然语言处理模型和应用。
提供机构:
soniawmeyer
原始信息汇总
UltraChat Dataset (HuggingFace)
数据集概述
- 数据来源: HuggingFace
- 数据格式: 10个JSONLines文件
- 数据量: 包含150万条对话
- 数据结构: 每条对话存储为字符串列表
数据预处理
- 文本标准化: 转换为小写,去除标点符号,词形还原
- 数据存储: 转换为Pandas DataFrame并存储为.pkl文件
- 处理时间: 每条对话约0.0027秒
数据过滤
- 目标领域: 旅游相关对话
- 过滤方法: 使用特定关键词和子版块分类
- 关键词类别:
- 目的地名称: 如"Paris," "Hawaii," "Machu Picchu"
- 旅游活动: 如"hiking," "sightseeing," "beach vacation"
- 交通方式: 如"flight," "train," "rental car"
- 住宿选项: 如"hotel," "hostel," "Airbnb"
- 旅行规划: 如"itinerary," "packing tips," "budget travel"
- 旅行体验: 如"best restaurants in Rome," "must-see attractions in New York"
数据集结构
- data_type: 数据用途(QA = 问答)
- source: 数据来源(reddit, ultrachat, dolly)
- filename: 数据来源文件的详细信息
- reddit filename: 包含子版块和API请求类型等元数据
- data: 不同来源的数据结构不同
- reddit: 字典形式的字符串
- ultrachat: 列表形式的字符串
- combined: 数据元素的连接字符串
- cause_clean: 对combined进行NLP处理
- bert_summary: cause_clean的BERT摘要
- bert_topic: bert_summary的BERT主题建模(字符串形式)
- topic_assignment: 与主题建模对齐的0-99值
搜集汇总
数据集介绍

以上内容由遇见数据集搜集并总结生成



