anon8231489123/Omegle_logs_dataset
收藏Hugging Face2023-04-02 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/anon8231489123/Omegle_logs_dataset
下载链接
链接失效反馈官方服务:
资源简介:
该数据集包含约10,000条来自Omegle的对话,这些对话通过特定的方法从archive.org的cdx页面抓取,并经过了一系列的过滤处理,如移除包含特定词汇的对话、移除包含种族歧视言论的对话,并仅保留英文对话。数据集可能包含大量不适宜未成年人观看的内容,因此建议18岁以上的用户使用。该数据集可能对训练休闲对话AI有用,但可能需要进一步过滤。
该数据集包含约10,000条来自Omegle的对话,这些对话通过特定的方法从archive.org的cdx页面抓取,并经过了一系列的过滤处理,如移除包含特定词汇的对话、移除包含种族歧视言论的对话,并仅保留英文对话。数据集可能包含大量不适宜未成年人观看的内容,因此建议18岁以上的用户使用。该数据集可能对训练休闲对话AI有用,但可能需要进一步过滤。
提供机构:
anon8231489123
原始信息汇总
数据集概述
数据来源
- 数据集包含约10,000次来自Omegle的对话。
- 通过访问http://web.archive.org/cdx/search/xd?url=logs.omegle.com/*&fl=timestamp,original,statuscode&output=json进行抓取。
数据处理
- 个人识别信息(PII)已通过搜索禁用词汇列表["kik", "telegram", "skype", "wickr", "discord", "dropbox", "insta ", "insta?", "instagram", "snap ", "snapchat"]进行移除。
- 含有种族歧视言论的对话已被移除。
- 仅保留英语对话。
数据内容警告
- 数据集仍包含大量(有时是极端的)不适合工作环境(NSFW)的内容。
- 未满18岁者不应查看或使用此数据集。
数据用途
- 该数据集可能适用于训练非正式对话AI,但可能仍需进一步过滤。
- 使用此数据集需自行承担风险。



