精品资料网 >> 管理信息化 >> 信息技术 >> 资料信息

网络信息采集及智能处理技术研究(pdf 63页)

所属分类:信息技术

文件大小:1976 KB

下载要求:10 学币或VIP

点击下载
资料简介:

摘要。I
ABSTRACT.III
第一章绪论l
1.1研究背景及意义..1
1.2国内外研究现状。2
1.3主要研究内容4
1.4论文的组织结构.4
第二章Web信息采集技术研究。6
2.1网络爬虫6
2.1.1通用爬虫原理6
2.1.2通用爬虫的不足9
2.1.3面向主题的聚焦爬虫.9
2.2网页去重。l 0
2.2.1基于聚类的方法.1l
2.2.2消除相同的UI也11
2.2.3基于特征码的方法ll
2.3信息抽取l 2
2.3.1HTML语法分析12
2.3.2信息抽取原理12
2.3.3基于正则表达式的信息抽取13
2.4集中式Web数据采集系统的基本结构14
第三章文本信息处理关键技术17
3.1中文分词.1 7
3.1.1分词中的难题..17
3.1.2分词算法。l 7
3.2.文本的表示19
3.3文本特征选择方法20
3.3.1文档频度20
3.3.2信息增益一20
3.3.3互信息.2l
3.3.4 Z2(CHI)统计.22
3.3.5基于同义词合并的特征选择23
3.4权重计算24
3.5常见分类算法。25
3.5.1贝叶斯方法.26
3.5.2决策树方法26
3.5.3支持向量机分类算法..27
3.5.4K-最近邻法28
第四章基于改进的KNN算法构造文本分类器29
4.1文本分类概述..29
4.2改进的KNN算法29
4.2.IKNN算法的不足29
4.2.2KNN算法的改进30
’4.3分类器的构造3 l
4.3.1文本分类系统结构3 l
4.3.1文本预处理.32
4.3.2训练阶段34
4.3.3分类阶段34
4.4分类器的阈值选择。35
第五章分类实验结果与分析。37
5.1实验环境37
5.2实验语料库37
5.2实验评估指标.38
5.3实验设计和结果分析38
5.3.1特征维数对分类效果的影响39
5.3.2 K值的选取对分类效果的影响。39
5.3.3改进的KNN算法与传统KNN算法性能比较。40
总结与展望..4 l
工作总结4l
工作展望.4l
参考文献43
攻读硕士学位期间发表的论文46
独创性声明..47
致谢。48
VH
..............................

上一篇:工业控制系统信息安全技术(ppt 34页)

下一篇:高一信息技术教案总集(doc 65页)

无线网卡的网络管理技术(ppt 46页)

管理信息系统的开发过程与方法(ppt 51页)

报价转让系统业务模式完善之券商技术系统变更指引(pdf 18页)

商业集成管理系统建议书(doc 35页)

安全审计系统经典白皮书(pdf 32页)

论基于ARM嵌入式车载监控终端的设计与实现(pdf 6页)

精品资料网 m.cnshu.cn

Copyright © 2004- 粤ICP备10098620号-1