five

soniawmeyer/conversations-filtered-travel

收藏
Hugging Face2024-07-05 更新2024-06-29 收录
下载链接:
https://hf-mirror.com/datasets/soniawmeyer/conversations-filtered-travel
下载链接
链接失效反馈
官方服务:
资源简介:
UltraChat数据集包含150万条对话,来源于HuggingFace。数据集经过预处理,包括文本标准化、去除标点符号和词形还原,以确保数据一致性并准备用于自然语言处理任务。预处理后的数据存储在.pkl文件中,保留了其层次结构和元数据。数据集通过关键词过滤,专注于旅行相关对话,涉及目的地、活动、交通、住宿、旅行计划和体验等主题。过滤过程旨在增强数据集在旅行领域的相关性和实用性,用于开发旅行导向的自然语言处理模型和应用。

UltraChat数据集包含150万条对话,来源于HuggingFace。数据集经过预处理,包括文本标准化、去除标点符号和词形还原,以确保数据一致性并准备用于自然语言处理任务。预处理后的数据存储在.pkl文件中,保留了其层次结构和元数据。数据集通过关键词过滤,专注于旅行相关对话,涉及目的地、活动、交通、住宿、旅行计划和体验等主题。过滤过程旨在增强数据集在旅行领域的相关性和实用性,用于开发旅行导向的自然语言处理模型和应用。
提供机构:
soniawmeyer
原始信息汇总

UltraChat Dataset (HuggingFace)

数据集概述

  • 数据来源: HuggingFace
  • 数据格式: 10个JSONLines文件
  • 数据量: 包含150万条对话
  • 数据结构: 每条对话存储为字符串列表

数据预处理

  • 文本标准化: 转换为小写,去除标点符号,词形还原
  • 数据存储: 转换为Pandas DataFrame并存储为.pkl文件
  • 处理时间: 每条对话约0.0027秒

数据过滤

  • 目标领域: 旅游相关对话
  • 过滤方法: 使用特定关键词和子版块分类
  • 关键词类别:
    • 目的地名称: 如"Paris," "Hawaii," "Machu Picchu"
    • 旅游活动: 如"hiking," "sightseeing," "beach vacation"
    • 交通方式: 如"flight," "train," "rental car"
    • 住宿选项: 如"hotel," "hostel," "Airbnb"
    • 旅行规划: 如"itinerary," "packing tips," "budget travel"
    • 旅行体验: 如"best restaurants in Rome," "must-see attractions in New York"

数据集结构

  • data_type: 数据用途(QA = 问答)
  • source: 数据来源(reddit, ultrachat, dolly)
  • filename: 数据来源文件的详细信息
  • reddit filename: 包含子版块和API请求类型等元数据
  • data: 不同来源的数据结构不同
  • reddit: 字典形式的字符串
  • ultrachat: 列表形式的字符串
  • combined: 数据元素的连接字符串
  • cause_clean: 对combined进行NLP处理
  • bert_summary: cause_clean的BERT摘要
  • bert_topic: bert_summary的BERT主题建模(字符串形式)
  • topic_assignment: 与主题建模对齐的0-99值
搜集汇总
数据集介绍
main_image_url
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作