llm-research-daily
收藏数据集总览
数据集名称:Research Collector Dataset
来源地址:https://huggingface.co/datasets/nellaivijay/llm-research-daily
许可协议:MIT License
核心信息
- 主题:大型语言模型(large language models / LLM / language models)
- 时间范围:2026-04-12 至 2026-04-26
- 数据项总数:39 条
- 导出时间:2026-04-26 15:41:22
数据来源
数据集从以下 12 个平台聚合研究内容:
| 类别 | 平台 |
|---|---|
| 学术 | PubMed, arXiv, Semantic Scholar, Crossref, Papers with Code |
| 专业 | GitHub, Stack Overflow, Kaggle |
| 社交 | Reddit, Hacker News |
| 新闻 | GDELT |
| 博客 | Medium, Towards Data Science |
数据结构
核心字段
id:唯一标识符title:研究项标题source:来源平台(如 pubmed, arxiv, github 等)url:原始内容链接author:作者published_date:发布日期(ISO 8601 格式)citations:引用数(如有)upvotes:点赞数(如有)downloads:下载数(如有)comments:评论数(如有)content:内容/摘要/描述score:相关性分数
丰富元数据字段
- 时间特征:
metadata_year,metadata_month,metadata_day,metadata_week,metadata_quarter,metadata_days_since - ML子领域:
metadata_ml_subfields(JSON 数组),metadata_subfield_count - 关键词:
metadata_keywords(JSON 数组),metadata_keyword_count - 质量评分:
metadata_quality_scores(JSON 字典),含整体质量评分 - 内容类型:
metadata_content_type(论文、预印本、仓库、讨论、问答、新闻) - 代码/DOI 标记:
metadata_has_code,metadata_has_doi - 情感分析:
metadata_sentiment_polarity(-1 至 1),metadata_sentiment_subjectivity(0 至 1),metadata_sentiment_category(positive/negative/neutral) - 自动摘要:
metadata_summary,metadata_summary_length - 数据质量指标:
metadata_data_quality(JSON 字典),含完整性、一致性、有效性评分 - 趋势指标:
metadata_trending_score,metadata_trending_category(hot/warm/cool/cold),metadata_engagement_score - 相关项:
metadata_related_items(JSON 数组),metadata_related_count
来源特定元数据
| 来源 | 特定字段 |
|---|---|
| PubMed | journal, doi, mesh_terms, publication_types, abstract_length |
| arXiv | arxiv_id, primary_category, categories, journal_ref |
| GitHub | stars, forks, language, license, topics, has_readme |
| subreddit, link_flair_text, upvote_ratio, total_awards, is_gilded | |
| Stack Overflow | tags, answer_count, has_accepted_answer, view_count, owner_reputation |
| Semantic Scholar | citation_count, influential_citation_count, fields_of_study, has_open_access |
| Medium | author, publication, read_time, claps |
| Kaggle | votes, usability_rating, file_count |
数据质量特性
- 标准化日期(ISO 8601 格式)
- ML 子领域自动分类(15+ 类别)
- 多维度质量评估(摘要长度、代码可用性、DOI、参与度、时效性)
- 时间特征提取(年、月、周、季度、发布天数)
- 自动关键词提取
- 内容类型自动检测
- 情感分析(极性、主观性、类别)
- 自动摘要生成(抽取式)
- 数据质量指标(完整性、一致性、有效性评分)
- 趋势分析(参与度速率与趋势类别)
- 交叉引用(基于共享子领域、关键词和标签的相似项检测)
- 模糊去重(智能重复检测与元数据合并)
- 元数据补全(基于回退逻辑推断缺失字段)
使用示例
python from datasets import load_dataset
加载数据集
dataset = load_dataset("nellaivijay/llm-research-daily") train_data = dataset["train"]
按来源筛选
pubmed_items = train_data.filter(lambda x: x["source"] == "pubmed")
按内容类型筛选
papers = train_data.filter(lambda x: x.get("metadata_content_type") == "paper")
按ML子领域筛选
cv_papers = train_data.filter(lambda x: "computer-vision" in x.get("metadata_ml_subfields", []))
按质量筛选
high_quality = train_data.filter(lambda x: x.get("metadata_quality_scores", {}).get("overall_quality_score", 0) > 0.7)
按分数排序
sorted_items = train_data.sort("score", reverse=True)
按日期筛选
recent_items = train_data.filter(lambda x: x.get("metadata_days_since", 999) < 30)
按趋势类别筛选
trending_items = train_data.filter(lambda x: x.get("metadata_trending_category") == "hot")
按情感分类筛选
positive_items = train_data.filter(lambda x: x.get("metadata_sentiment_category") == "positive")
获取相关项
item_with_related = train_data[0] related_items = item_with_related.get("metadata_related_items", [])
引用方式
如果使用该数据集,请引用仓库 URL:
https://huggingface.co/datasets/nellaivijay/llm-research-daily




