扫一扫,关注我们
微信号:375279829
本科毕业论文(设计)开题报告
课题名称 社区垃圾信息检测方法研究与实现
一、本课题设计(研究)的目的:
目前,互联网信息技术的快速发展,社区网站信息越来越多,在获取许多有益交流信息的同时,难免不时发现各种垃圾信息,如广告推销,言论不当的行为。而通过对社区垃圾信息进行检测研究,可以很大程度上解决垃圾信息的泛滥。 社区垃圾信息的传播对互联网通信带来的危害是非常严重的,对现代社会的经济以及人们的切身利益的危害也是不可忽视的。如占用大量的传输、存储和运算资源,造成巨大的资源浪费;对信息安全系统的有效性形成重大挑战;社区垃圾信息还损害了市场形象,造成无形资产流失。社区垃圾信息具有反复性、强制性、欺骗性、不健康性,其传播速度快;浪费了用户的时间、精力和金钱;用户对社区服务满意度降低。社区垃圾信息还具有对现实社会的危害,少数别有用心者利用社区垃圾信息散播各种虚假信息或有害信息,严重危害了社会的稳定。 如何净化社区生态环境、检测并过滤社区垃圾信息,已经成为目前社区数据分析和挖掘中的一个重要问题,它对于更好地开发社区的价值具有重要的意义。
二、设计(研究)现状和发展趋势:
在互联网+迅猛发展下,网络作为人们获取外部各种信息,传递发布消息的主要工具,对人类的社会生产生活起着重大关键性作用。社区网络已经不能够只限于查询信息这一项功能,人们对它的要求也越来越高。计算机科技和信息技术的发展壮大,大数据、云端计算和人工智能数据挖掘技术也迅速崛起,并在互联网信息时代下广为人用,更加速了社会信息化技术进程。 针对社交网络中垃圾信息检测的研究,国内外学者已经取得了一定的成果。其中,对于电子邮件,电话网络,网站论坛等类型的研究开展的较早,而针对Facebook、Twitter、微博等新型社交网络的垃圾检测则是近几年兴起的研究热点。根据技术路线划分,主要的检测方法可以分为: (1)基于特征分析的方法; (2) 基于网络传播模型的方法。 基于特征变量,主要是利用统计机器学习的算法,对账户进行分类。从社交网络中抽取能够区分垃圾用户与正常用户的特征变量,然后通过机器学习算法构造一个分类器。选取的特征通常包括用户特征,用户行为特征,用户发布的内容特征等,常用的分类算法包括SVM、C4.5决策树算法、 朴素贝叶斯等。通过分类器和特征项选取是完成社交网络用户分类的主要方法。 基于网络传播模型的方法主要针对垃圾账户所呈现的社团结构进行研究,通过用户互动关系构建用户相似图,以此构建概率模型描述用户间的相关性。每个顶点都会被赋予某个概率或分值,表示其属于垃圾账号或正常账号的可能性。然后使用迭代算法在顶点间传播这种概率或分值,迭代收敛后的结果即为检测结果。 目前垃圾信息过滤方法主要包括黑白名单过滤方法、基于规则的过滤方法和基于机器学习的过滤方法。其中基于规则是指通过考查训练样本归纳总结出其中规律性的东西形成规则,基于机器学习是指利用机器学习算法分析内容训练垃圾信息过滤机制,从而识别出垃圾信息。基于机器学习的过滤方法准确率高,目前已被广泛地应用在垃圾信息过滤领域中,是垃圾信息处理技术中很受欢迎的一种方法,具有广泛的应用前景。
三、设计(研究)的重点与难点,拟采用的途径(研究手段): 本社区垃圾信息检测方法通过C#技术开发一个社区论坛网站,运用决策树算法实现社区垃圾信息的检测。 其中设计的重点为: 1、运用C#和SQLSERVER2012实现社区网站的设计和开发。 2、社区网站使用图形验证码技术进行信息发布验证过滤。 3、研究垃圾信息检测算法,通过多种比对,选择适合本社区垃圾信息过滤的技术。 课题的难点: 1、设计决策树算法,提出决策树算法步骤,得到社区信息训练数据源组、建立模型。 2、 生成决策树,找出社区垃圾信息明显特征。
四、设计(研究)进度计划: 第一周:选定课题及技术储备 第二周:软件前后台基本功能的实现 第三周到第五周:软件算法的设计和实现 第六周:进一步测试,数据及功能完善 第七周到第十一周:撰写论文,完善论文 第十二周:答辩前期准备以及参加答辩
五、参考文献:
[1] 肖洒. 基于朴素贝叶斯算法的垃圾邮件过滤系统研究[D]. 华中科技大学, 2016. [2] 徐治国. 基于朴素贝叶斯的垃圾邮件分类系统的设计[J]. 盐城工学院学报(自然科学版), 2015, 21(2):47-50. [3] 李丹, 张兆信, 宗占国. 利用开源的数据挖掘平台WEKA进行文本分类仿真实验[J]. 煤炭技术, 2015, 30(5):214-216. [4] 张海藩.软件工程导论,清华大学出版社,2015. [5] 基于C#的跨移动终端平台信息推送系统的设计与实现[D]. 王澎涛.北京邮电大学 2015. [6] 王荣. 一种改进的决策树算法. 科学技术与工程. 2016,9(15):4504-4505. [7] 卢军, 卢显良, 韩宏, 任立勇, 实时网络信息过滤系统的设计与实现. 计算机应用,2012, 122(10):24-25. [8] 孙春来, 段米毅, 毛克峰, 基于内容过滤的网络监控技术研究. 高技术通讯, 2011,11(11): 36-38. [9] 刘永丹, 曾海泉, 李荣陆, 胡运发, 基于语义分析的倾向性文本过滤. 通信学报, 2014, 25(7):80-85. [10] 陈强,朱俊杰,张瑾等.一 种基于多层分类器的论坛垃圾话题过滤算法[C].第八届 全国信息检索学术会议,江西:中国中文信息学会, 2015: 23-33. [11] 夏虎.移动社交网络结构和行为研究及其应用[D].成都:电子科技大学,2012. [12] 杨明明.社会网络平台中的垃圾信息过滤技术研究[D].哈尔滨:哈尔滨理工大学,2013. [13] BENCZUR A A, CSALOGANY K,SARLOS T,et a1.SpamRankfully automatic link sparedetection[C],Pine of the 1st AIR Web. 2015. [14] SHEN Guo-yang, GAO Bin, LIU Tie-yan, et a1. Detecting link Spam using temporalinformation[C], Proc of ICDM-2016. 2016. [15] FREUND Y, SCHAPIRE E.A decision theeretic generalization of on line learning and anapplication to boosting[J]. Journal of Computerand System Sciences, 2017,55(1):119-139. [16] M.R Henzinger, R.Motwani, and C.Silverstein.Chal-lenges in web search engines[J].SIGIRForum, 2012,36(2):11-22.[11] Z.Gyongyi, H.Gareia. |
|
如需定做或者获取更多资料,请联系QQ:375279829