
主题特定的网络爬虫研究
作品编号:WL105 WORD全文:32页 论文字数:14000字 此主题特定的网络爬虫研究毕业设计完整版包含[论文,答辩稿] |

5.1 全文总结与创新点
本文首先对基于Java的传统网络爬虫的相关理论和技术实现进行了详细的介绍,并且分别介绍了网络爬虫在搜索引擎等方面的应用. 然后在传统网络爬虫基本功能的基础上进行了主题定制的网络爬虫的研究,其中重点研究了如何充分利用现有搜索引擎的资源以减小爬行范围,提高爬虫效率;使用了一种基于正则表达式的通用匹配提取方法;通过大量的例子分析,总结出一些当前应用的流媒体链接方式,并提出了相应的分析抽取的方法,及对html的半结构化分析提取方法做了一些有益尝试。最后基于Java语言实现了一种跨平台的面向网络媒体资源信息的动态监测和信息自动获取的可主题定制的网络爬虫。
本文的创新之处主要体现在以下几个方面:
1) 充分利用现有的搜索引擎的巨大的数据库作为数据来源,利用现有搜索引擎提交的查询而得到的结果,为爬虫的起始爬行的种子地址,通过其查找候选站点的相关页面中的媒体资源,从而发现挖掘信息,本例中为挖掘流媒体资源,并进行筛选,如找到与安徽有关的媒体资源。
2) 对于获取的html文件的分析处理,采用了半结构化的方式,这是因为大多数站点的源代码是符合html规范的,但也有很大部分是不完整的。本例中采用关键标记法进行筛选,主要是利用功能强大的正则表达式来达到通用的匹配提取方法。
3) 对于流媒体资源的提取方法进行了一些研究和探索:
其一为直接的链接形式的,最好出处理,直接找到相关协议或是相关文件的后缀匹配;
其二为嵌入式的控件方式,依据现有的流媒体的播放控件的 class id 和<embed></embed>标记中的value 值的猜测获取;
其三为asp jsp php 等动态站点的交互式的,采用一般的?url=的中缀方式匹配;
其四为日渐流行的flash 外部加载数据方式,其也是属于嵌入式控件的方式,但由于flash支持外部的嵌套式的数据载入,在页面中根本不会出现任何与播放媒体相关的资源的url,对于此种形式,可以有几种方式来分析:
(1)是数据流的截获,截获用户层的协议,问题在于可能会发生意想不到的错误;
(2)是本地的flash解析,查找其中的 moiveload() geturl() 0nload() 等函数的参数,现在一般有xml外部载入的方式,在去读取其中的链接资源,从而实现动态载入时的媒体资源地址的获取问题。
本计算机网络工程专业毕业设计“主题特定的网络爬虫研究”论文由清风毕业设计网[www.lunwen550.com]征集整理!
相关毕业设计:
客服微信号:hastp888
添加好友时请备注“论文”