ani-research-daily
收藏数据集概述:Research Collector Dataset
基本信息
- 数据集名称:Research Collector Dataset
- 许可证:MIT License
- 任务类别:文本检索、文本分类
- 语言:英语、多语种
- 数据集大小:少于1000条(共40条)
- 主题:人工窄智能(artificial narrow intelligence / weak AI / ANI)
- 时间范围:2026-04-12 至 2026-04-26
数据来源
数据集从12个来源聚合学术研究结果:
- 学术来源:PubMed、arXiv、Semantic Scholar、Crossref、Papers with Code
- 专业来源:GitHub、Stack Overflow、Kaggle
- 社交来源:Reddit、Hacker News
- 新闻来源:GDELT
- 博客来源:Medium
数据结构
核心字段
id:唯一标识符title:研究项标题source:来源平台url:原始内容链接author:作者published_date:发布日期(ISO 8601格式)citations:引用次数upvotes:点赞数downloads:下载次数comments:评论数content:内容/摘要/描述score:相关性评分
增强元数据字段
- 时间特征:出版年、月、日、周、季度、发布后天数
- ML子领域分类:ML子领域分类(JSON数组)、子领域数量
- 关键词:提取的关键词(JSON数组)、关键词数量
- 质量评分:质量评分指标(JSON字典)
- 内容类型:论文、预印本、代码仓库、讨论、问答、新闻
- 代码与DOI:是否包含代码、是否具有DOI
- 情感分析:情感极性(-1到1)、主观性(0到1)、情感类别(积极/消极/中性)
- 自动摘要:提取式摘要、摘要字符长度
- 数据质量:完整度评分(0-100)、一致性评分(0-100)、有效性评分(0-100)、总体质量评分(0-100)
- 趋势指标:参与度速度评分、趋势类别(hot/warm/cool/cold)、原始参与度评分
- 相关项:相关项及相似度评分(JSON数组)、相关项数量
来源特有元数据
- PubMed:期刊、DOI、MeSH术语、出版类型、摘要长度
- arXiv:arXiv ID、主要类别、类别列表、期刊引用
- GitHub:星标数、分叉数、编程语言、许可证、主题、是否有README
- Reddit:子版块、链接标签文本、点赞比例、总奖项数、是否被金贴
- Stack Overflow:标签、回答数、是否有被采纳答案、查看次数、作者声望
- Semantic Scholar:引用数、有影响力引用数、研究领域、是否开放获取
- Medium:作者、出版物、阅读时间、鼓掌数
- Kaggle:投票数、可用性评分、文件数量
数据质量特性
- 标准化日期:所有日期统一为ISO 8601格式
- ML子领域分类:自动分类至15+个ML子领域
- 质量评分:多维度质量评估(摘要长度、代码可用性、DOI、参与度、时效性)
- 时间特征:年、月、周、季度、发布后天数
- 关键词提取:自动提取技术关键词
- 内容类型检测:自动分类项目类型
- 情感分析:情感极性、主观性和类别分类
- 自动摘要:提取式摘要用于快速内容概览
- 数据质量指标:每项数据的完整度、一致性、有效性评分
- 趋势指标:参与度速度分析与趋势类别
- 交叉引用:基于共享子领域、关键词和标签的相关项检测
- 模糊去重:智能重复检测与元数据合并
- 元数据完整性:推断缺失元数据字段的回退逻辑
使用示例
python from datasets import load_dataset
加载数据集
dataset = load_dataset("nellaivijay/ani-research-daily") train_data = dataset["train"]
按来源过滤
pubmed_items = train_data.filter(lambda x: x["source"] == "pubmed") github_items = train_data.filter(lambda x: x["source"] == "github")
按内容类型过滤
papers = train_data.filter(lambda x: x.get("metadata_content_type") == "paper") repositories = train_data.filter(lambda x: x.get("metadata_content_type") == "repository")
按ML子领域过滤
cv_papers = train_data.filter(lambda x: "computer-vision" in x.get("metadata_ml_subfields", []))
按质量评分过滤
high_quality = train_data.filter(lambda x: x.get("metadata_quality_scores", {}).get("overall_quality_score", 0) > 0.7)
按评分排序
sorted_items = train_data.sort("score", reverse=True)
按日期过滤
recent_items = train_data.filter(lambda x: x.get("metadata_days_since", 999) < 30)
按趋势类别过滤
trending_items = train_data.filter(lambda x: x.get("metadata_trending_category") == "hot")
按情感过滤
positive_items = train_data.filter(lambda x: x.get("metadata_sentiment_category") == "positive")
获取相关项
item_with_related = train_data[0] related_items = item_with_related.get("metadata_related_items", [])
局限性
- 数据仅限于指定的时间范围
- 部分来源可能存在速率限制或API限制
- 引用次数因来源而异
- ML子领域分类基于关键词匹配,可能不完全准确
引用信息
若使用本数据集,请引用仓库URL:https://huggingface.co/datasets/nellaivijay/ani-research-daily
生成工具
由 Research-Collector 生成,该工具是一个教育用途的多源研究聚合工具。




