您现在的位置:网站首页答辩论文计算机毕业设计

毕业论文 垃圾信息过滤技术比较分析

  • 简介:毕业论文-垃圾信息过滤技术比较分析,共29页,20223字,附任务书、开题报告等,随着人类步入信息社会,信息已成为当今社会的基础性构成要素。信息化的发展推动了人类社会巨大进步,同时也带来了信息的滥用,信息垃圾的社会危害日益突出。
    类型:word    页数:29    字数:20223   
    资料包括:论文 任务书 开题报告   
    • 请与管理员联系购买资料 QQ:5739126
  • 论文简介
  • 相关论文
  • 论文下载
文件大小:669.46KB
适用专业:程序设计
适用年级:大学
论文编号:203391

论文简介:

毕业论文-垃圾信息过滤技术比较分析,共29页,20223字,附任务书、开题报告等
随着人类步入信息社会,信息已成为当今社会的基础性构成要素。信息化的发展推动了人类社会巨大进步,同时也带来了信息的滥用,信息垃圾的社会危害日益突出。电子网络正成为一种普及、快捷、经济的通信手段。但与此同时,垃圾信息作为商业广告、恶意程序或敏感内容的载体,也越来越对系统的安全和人们的生活造成严重的困扰。目前,垃圾信息过滤技术已经成为一个全世界需要迫切关注的重要课题。
在国内外,垃圾信息过滤技术在进几年来发展很迅猛。《中国互联网协会反垃圾邮件规范》对垃圾邮件的定义为:(1)收件人事先没有提出要求或者同意接收的广告、电子刊物、各种形式的宣传品等宣传性的电子邮件;(2)收件人无法拒收的电子邮件;(3)隐藏发件人身份、地址、标题等信息的电子邮件;(4)含有虚假的信息源、发件人、路由等信息的电子邮件。
国内外市场上反垃圾信息的产品层出不穷,从方法上划分有黑白名单、反向DNS域名验证、关键词匹配过滤;基于统计的划分有贝叶斯算法、KNN、Winnow、SVM;基于规则的方法有决策集、粗糙集、Boosting、Ripper;基于图像的过滤技术、基于SMTP邮件防火墙过滤技术。黑白名单过滤方法虽然能够将所有的垃圾信息阻挡在外,但也存在一定的缺点,就是具有较高的误判率。反向DNS域名验证技术也容易造成较高的误判断率。基于关键词匹配过滤技术也存在着一定的缺陷,比如当一封正常邮件出现太多被设定为关键词的词语时,它也将会过滤掉,即使这封邮件来自用户的朋友,所以这就导致了用户有可能会因此丢失重要的信息。贝叶斯分类算法是一种广泛应用的分类算法,应用于文本分类时,通过计算文本属于每个类别的概率,将该文本归为概率最大的一类。贝叶斯算法的缺点是在中文邮件处理上不如处理英文邮件。KNN(k-Nearest Neighbor) 是K最邻近结点算法,也是是最常用的基于Memory的方法,KNN方法对包容型数据的特征变量筛选尤其有效。实验表明,KNN的和Na?ve Bayes的结果几乎相当。Winnow是一种线性分类器,是一种乘法式权重更新算法。Winnow在训练速度和分类速度上具有较大的优势,所以具有更高的实用价值。支持向量机(简称SVM,也叫做支撑向量机),是统计学习理论 (Statistical Learning Theory,SLT)中最年轻的一个分支,由 Vladimir N.Vapnik博士提出[21],它通过构造最优线性分类面来指导分类。SVM在解决小样本学习、非线性及高维模式识别问题中表现较好。在国内研究人员也对支持向量机用于邮件过滤做了初步的研究,SVM由于其所具有稳定性和良好的泛化能力,因此在应用到垃圾邮件过滤中时表现出来良好的特性。粗糙集理论的主要特点在于它恰好反映了人们以不完全的信息或知识去处理一些不分明现象的常规性,依据观察、度量到的某些不精确的结果而进行分类数据的能力。它可以解决重要的分类问题和冗余对象、属性的约简问题,而且可以用决策规则集合的形式表示重要属性和特定分类之间的所有重要关系。决策树是一个可以自动对数据进行分类的树型结构,是树形结构的知识表示,可以直接转换为决策规则。决策树算法主要是用来学习以离散型变量作为属性类型的学习方法。连续型变量必须被离散化才能被学习。Boosting方法不是一种特定的学习方法,而是一种在已有学习方法基础上进行的“投票”技术,它通过对已有的分类器进行加权求和得到最终的分类器。Boosting的弱规则常常采用基于规则的方法。Boosting通过关注弱规则的错误而逐渐组合成强规则,它是一种错误驱动的方法。Ripper算法是1996年被引入到垃圾邮件过滤技术中的一种基于规则的方法。它比传统的规则方法速度更快、性能更高。它的思想是首先建立一个初始为空的规则集,然后从训练集中学习的所有正例,将得到的规则放入规则集中,再通过学习反例将约束条件加入到规则集,最后由这个具有约束条件的规则集来判断邮件。基于图像信息的过滤技术的缺点是信息容易是伪造的,所以造成较高的误判率。SMTP交互行为的检测技术往往是针对垃圾邮件服务器的特点设定的,相应的检测技术较多且在不断地更新发展。常见的检测手段包括:发送账号限制、发送无效账号统计、使用特殊命令等。
手机垃圾信息过滤技术列举了关键词过滤技术、短信文本分类技术两种。同时,为了能更可靠地判断垃圾信息,启发式分析机制也经常被使用,通过综合各个反垃圾信息模块,加权计算出一封邮件的总分后再与阈值进行比较,评估其为垃圾信息的可能性,并将判断所得的信息等级标识插入信息的信头中,指示信息应用软件进行具体的处理


摘要:垃圾信息问题已经受到了各界人士的广泛关注,本文总结了目前几种主流技术的研究现状,包括贝叶斯、决策树、粗糙集、黑白名单、SVM、Winnow等。分析各种方法的过滤原理、特征,总结分析它们实际过滤过程中的优缺点,从目前的研究结果看,贝叶斯、决策树、SVM等这些机器学习方法似乎可以达到较实用的程度,但是也有其自身的弊端,Winnow是一种很有前途的垃圾信息过滤技术。但在研究过程中也发现了一些问题,例如手机垃圾信息方面的过滤技术仍是弱点。
关键词:垃圾邮件过滤;垃圾信息;过滤技术


目 录
摘 要 1
关键词 1
1 前言 2
2 垃圾信息概述 2
2.1 什么是垃圾信息 2
2.2 垃圾信息常见的表现形式 4
2.2.1 垃圾邮件 4
2.2.2 手机垃圾短信 5
2.3 垃圾信息的危害 5
2.3.1 严重浪费信息资源 5
2.3.2 危害社会秩序 5
2.3.3 影响人们的健康生活方式 6
3 垃圾邮件形成原因及特点 6
3.1 垃圾邮件形成的原因 6
3.1.1 经济利益 6
3.1.2 技术存在缺陷 6
3.1.3 防范意识淡薄 7
3.2 垃圾邮件的特点 7
3.2.1 伪装性强 7
3.2.2 变化性强 7
3.2.3 时效性强 7
4 垃圾邮件过滤技术的现状和发展趋势 7
5 垃圾邮件过滤技术 8
5.1 从方法上划分 9
5.1.1 白名单和黑名单 9
5.1.2 反向DNS域名验证 10
5.1.3 关键词匹配过滤 10
5.2 基于统计的划分 10
5.2.1 基于贝叶斯分类算法的过滤技术 10
5.2.2 基于KNN的过滤技术 12
5.2.3 基于Winnow的过滤技术 12
5.2.4 基于SVM的过滤技术 13
5.3 基于规则的划分 15
5.3.1 基于粗糙集的过滤技术 15
5.3.2 基于决策树算法的过滤技术 16
5.3.3 基于Boosting的过滤技术 17
5.3.4 基于Ripper的过滤技术 19
5.4 基于图像信息的过滤技术 19
5.4.1 分析邮件信头信息 19
5.4.2 图像的数字指纹技术 19
5.4.3 图像和文本结合技术 19
5.4.4 使用图像搜索技术 19
5.5 基于SMTP邮件防火墙的过滤技术 20
6 手机垃圾信息过滤技术 22
6.1 关键词过滤技术 22
6.2 短信文本分类技术 23
7 结论 24
参考文献 24
致 谢 25


论文文件预览:
共2文件夹,7个文件,文件总大小:669.46KB,压缩后大小:270.83KB

  • 毕业论文-垃圾信息过滤技术比较分析
  • 200841903218 黎琼
  • doc7 答辩记录.doc  [34.00KB]
  • doc6 中期检查表.doc  [30.50KB]
  • doc5 开题论证审批表黎琼.doc  [46.50KB]
  • doc4 开题论证记录.doc  [31.50KB]
  • doc3 任务书黎琼.doc  [49.46KB]
  • doc2 选题审批表.doc  [31.00KB]
  • doc1 垃圾信息过滤技术比较分....doc  [446.50KB]

查看评论 已有0位网友发表了看法
  • 验证码: