技术微信:375279829 欢迎来到【毕业设计资料-计算机毕业设计源码网】官网!
您的位置:您的位置:主页 > 作品中心 > Java毕业设计

基于web的主题爬虫原型系统的设计与实现

技术微信:375279829

本课题包括源程序、数据库、论文、运行软件、运行教程

毕业设计资料-计算机毕业设计源码网:我们提供的源码通过邮箱或者QQ微信传送,如果有啥问题直接联系客服

包在您电脑上运行成功

语言:Java

数据库:MySQL

框架:ssm、springboot、mvc

课题相关技术、功能详情请联系技术

作品描述

伴随着现代科学信息技术的发展,信息技术已经在全球各行各业广泛地运用,这引起了企业生产、消费结构和社会经济结构的巨大转变,同时也使得企业在生产管理和客户关系管理发生了重大变化。企业的数据分析常常是其生产经营缺一不可的重要组成部分。随着行业间、企业之间的竞争日益激烈,企业也越来越重视信息建设,重视信息化的数据分析方式。

众所周知,传统的企业数据分析更多的是利用人工手段对信息进行管理,这极大地浪费了人力、物力,比如说,人工创建表格,整理文件,填写证件。但问题是这些信息将随时间而变换,因此,数据库要想确保数据库信息的更新速度,保证数据库信息实时更新数据源的信息,就必须进行实时分类汇总整理。这一过程,往往又做了很多重新登记和重复摘抄。传统的数据管理不仅容易出现错误信息,遗漏信息,还消耗了为保存信息,更新信息或汇总信息的而花费的不必要的人力和财力,运作速度慢,难查询等缺点。因此,信息很难利用起来,进行二次深度挖掘其潜在的价值,这样,就难以满足现代数据分析管理的日益增长的需要了[1]

目前各行业发展迅速、价格竞争激烈。通过主题爬虫获取数据进行数据分析,找到企业下一部发展方向,是各行业的目标。据统计,爬虫数据挖掘在金融、零售、互联网等领域得到广泛青睐。


网页收集的过程如同图的遍历,其中网页就作为图中的节点,而网页中的超链接则作为图中的边,通过某网页的超链接 得到其他网页的地址,从而可以进一步的进行网页收集;图的遍历分为广度优先和深度优先两种方法,网页的收集过程也是如此。综上,Spider 收集网页的过程如下:从初始 URL 集合获得目标网页地址,通过网络连接接收网页数据,将获得的网页数据添加到网页库中并且分析该网页中的其他 URL 链接,放入未访问 URL 集合中用于网页收集。

爬虫的工作策略一般分为累积式抓取(cumulative crawling)和增量式抓取(incremental crawing)两种。

累积式抓取是指从某一个时间点开始,通过遍历的方式抓取系统所能允许存储和处理的所有网页。在理想的软硬件环境下,经过足够的运行时间,积累是抓取策略可以保证抓取到相当规模的网页集合。但由于Web数据的动态特性,集合中的网页的抓取时间点是不同的,页面被更新的情况也不同,因此累积式抓取到的网页集合事实上并无法与真实环境中的网络数据保持一致。

与累积式抓取不同,增量式抓取是指在具有一定量规模的网页集合的基础上,采用更新数据的方式选取已有集合中的过时页面进行抓取,以保证所抓取的数据与真实网络数据足够接近。进行增量式抓取的前提是,系统已经抓取了足够数量的网络页面,并具有这项页面被抓取的时间信息。

面对实际应用环境的网络蜘蛛设计中,通常既包含累积式抓取,也包括增量式抓取的策略。累积式抓取一般用户数据集合的整体建立或大规模更新阶段;而增量式抓取则主要针对数据集合的日常维护和及时更新。

信息采集只要是从互联网上抓取网页,然后建立索引数据库,在索引数据库中搜索排序。

利用能够从互联网上自动收集网页的Spider系统程序,自动访问互联网,并沿着任何网页中的所有URL爬到其它网页,重复这过程,并把爬过的所有网页收集回来。

由分析索引系统程序对收集回来的网页进行分析,提取相关网页信息(包括网页所在URL、编码类型、页面内容包含的关键词、关键词位置、生成时间、大小、与其它网页的链接关系等),根据一定的相关度算法进行大量复杂计算,得到每一个网页针对页面内容中及超链中每一个关键词的相关度(或重要性),然后用这些相关信息建立网页索引数据库。

信息采集是数据库的知识发现,大量数据中,通过算法计算统计出规则,用于决策,使用分类、估计、预测、相关性分组、聚类、复杂数据类型挖掘进行分析。信息采集经历了四个步骤,分为电子邮件阶段、信息发布阶段、电子商务阶段、全程电子商务。

信息采集后的数据分析使用的算法包括分类决策树算法C4.5K-means聚类算法、回归分析算法、关联规则算法、EM期望算法、Adaboost迭代算法、KNN机器学习算法、朴素贝叶斯、Cart分类与回归树算法。在数据挖掘中,核心思想就是关联规则,通过一定的规则把事务联系起来。关联规则可以分为布尔型、数值型;从抽象层次上,又可以分为单层和多层规则;从维度上,分为单维和多维。

如需定做或者获取更多资料,请联系QQ:375279829
在线客服
联系方式

技术微信

375279829

在线时间

周一到周日

客服QQ

375279829

二维码
线