新闻相关部分的互联网信息服务器(IIS)日志数据集
收藏帕依提提2024-03-04 收录
下载链接:
https://www.payititi.com/opendatasets/show-26159.html
下载链接
链接失效反馈官方服务:
资源简介:
David Heckerman (heckerma '@' microsoft.com) Data Set Information: 这些数据来自于1999年9月28日(太平洋标准时间)一整天msnbc.com和msn.com新闻相关部分的互联网信息服务器(IIS)日志。数据集中的每个序列对应于24小时内用户的页面视图。序列中的每个事件都对应于用户对页面的请求。请求不会记录在最精细的细节级别,即URL级别,而是记录在页面类别级别(由站点管理员确定)。这些类别包括「首页」、「新闻」、「科技」、「本地」、「意见」、「空中」、「杂项」、「天气」、「健康」、「生活」、「商业」、「体育」、「摘要」、「bbs」、「旅游」、「msn新闻」及「msn体育」。通过缓存机制提供的任何页面请求都没有记录在服务器日志中,因此也不存在于数据中。 Other Relevant Information: * Number of users: 989818 * Average number of vitis per user: 5.7 * Number of URLs per category: 10 to 5000 Attribute Information: Each category is associated--in order--with an integer starting with "1". For example, "frontpage" is associated with 1, "news" with 2, and "tech" with 3. Each row below "% Sequences:" describes the hits--in order--of a single user. For example, the first user hits "frontpage" twice, and the second user hits "news" once. Relevant Papers: I. Cadez, D. Heckerman, C. Meek, P. Smyth, S. White, "Visualization of navigation patterns on a Web site using model-based clustering," Journal of Data Mining and Knowledge Discovery. [Web link] Citation Request: This data is avaliable thanks to msnbc.com
提供机构:
帕依提提



