five

anon8231489123/Omegle_logs_dataset

收藏
Hugging Face2023-04-02 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/anon8231489123/Omegle_logs_dataset
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集包含约10,000条来自Omegle的对话,这些对话通过特定的方法从archive.org的cdx页面抓取,并经过了一系列的过滤处理,如移除包含特定词汇的对话、移除包含种族歧视言论的对话,并仅保留英文对话。数据集可能包含大量不适宜未成年人观看的内容,因此建议18岁以上的用户使用。该数据集可能对训练休闲对话AI有用,但可能需要进一步过滤。

该数据集包含约10,000条来自Omegle的对话,这些对话通过特定的方法从archive.org的cdx页面抓取,并经过了一系列的过滤处理,如移除包含特定词汇的对话、移除包含种族歧视言论的对话,并仅保留英文对话。数据集可能包含大量不适宜未成年人观看的内容,因此建议18岁以上的用户使用。该数据集可能对训练休闲对话AI有用,但可能需要进一步过滤。
提供机构:
anon8231489123
原始信息汇总

数据集概述

数据来源

  • 数据集包含约10,000次来自Omegle的对话。
  • 通过访问http://web.archive.org/cdx/search/xd?url=logs.omegle.com/*&fl=timestamp,original,statuscode&output=json进行抓取。

数据处理

  • 个人识别信息(PII)已通过搜索禁用词汇列表["kik", "telegram", "skype", "wickr", "discord", "dropbox", "insta ", "insta?", "instagram", "snap ", "snapchat"]进行移除。
  • 含有种族歧视言论的对话已被移除。
  • 仅保留英语对话。

数据内容警告

  • 数据集仍包含大量(有时是极端的)不适合工作环境(NSFW)的内容。
  • 未满18岁者不应查看或使用此数据集。

数据用途

  • 该数据集可能适用于训练非正式对话AI,但可能仍需进一步过滤。
  • 使用此数据集需自行承担风险。
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作