igorktech/anekdots
收藏Hugging Face2024-01-22 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/igorktech/anekdots
下载链接
链接失效反馈官方服务:
资源简介:
该数据集包含从1996年1月4日到2023年12月4日收集的幽默轶事(anecdotes),经过彻底清理和准备,适合用于模型训练。研究人员和开发者可以利用这个经过整理的数据集进行各种应用,如自然语言处理和机器学习。
该数据集包含从1996年1月4日到2023年12月4日收集的幽默轶事(anecdotes),经过彻底清理和准备,适合用于模型训练。研究人员和开发者可以利用这个经过整理的数据集进行各种应用,如自然语言处理和机器学习。
提供机构:
igorktech
原始信息汇总
Anekdots 数据集概述
数据集基本信息
- 语言: 俄语
- 许可证: Open Data Commons Attribution License (ODC-BY)
- 数据规模: 100K<n<1M
- 任务类别: 文本生成
- 别名: Anekdots
- 标签: not-for-all-audiences, roleplay
数据集特征
- total_mark: 整数类型
- date: 整数类型
- downvote: 整数类型
- total_votes: 字符串类型
- upvote: 整数类型
- text: 字符串类型
- hash: 字符串类型
- alpha_frac: 浮点数类型
- LDR: 浮点数类型
- days_since_publication: 整数类型
- time_decay: 浮点数类型
- LDR_time_decay: 浮点数类型
数据集分割
- 训练集:
- 文件大小: 209320893 字节
- 样本数量: 497596
数据集大小
- 下载大小: 121676024 字节
- 数据集大小: 209320893 字节
配置
- 默认配置:
- 数据文件:
- 分割: 训练集
- 路径: data/train-*
- 数据文件:
数据集描述
该数据集包含从1996年1月4日至2023年12月4日收集的幽默轶事。经过彻底的清洗和准备过程,确保其适用于模型训练目的。研究人员和开发者可以利用这个经过精心策划的数据集进行各种应用,如自然语言处理和机器学习。
许可证摘要
该数据集在Open Data Commons Attribution License (ODC-BY)下发布。许可方不主张对内容的版权,并鼓励广泛使用和分发。
免责声明
数据集的作者明确声明不主张对内容的权利,并对其使用不承担任何责任。数据集可能包含来自anekdot.ru的材料,建议用户参考该网站以获取更多上下文。
警告
anekdot.ru的管理方对提交的内容、潜在的法律违规行为或冒犯性内容不承担责任。已发布材料的权利属于各自的所有者,网站管理方不对第三方使用负责。管理方保留根据自身判断使用信息的权利,并可能删除用户提交的材料。
数据集作者免责声明
数据集的作者明确声明不主张对内容权利,并对其准确性、合法性或适当性不承担责任。建议用户在使用数据集时行使谨慎和判断。
引用
@MISC{igorktech/anekdots, author = {Igor Kuzmin}, title = {Russian anecdotes dump for 30 years}, url = {https://huggingface.co/datasets/igorktech/anekdots}, year = 2023 }



