摘 要 文章提出一种基于DOM的Web信息提取方法,通过归纳学习获得被提取信息的定位路径,利用XPath和XSLT在数据定位和数据转换方面的特点编写提取模式,根据网页元素与DOM节点对应关系,判断所获得信息源是否适用于已有提取模式。关键词 Web信息提取;DOM;XPath;XSLT;基于DOM的网页结构判断 1 引言 Web信息的爆炸性增长,给我们带来了获取更多信息的机会,同时,也增加了在纷繁复杂的Web信息库中准确地获取信息的困难。例如,使用搜索引擎搜索信息时,返回信息成千上万,其中包含大量无用甚至是错误的信息,进行人工挑选要耗费时间和精力。另外,由于网页的编写方式,编写风格各种各样,使得所搜集的信息也不适于结构化存储。本文提出了一种基于DOM[1]的Web信息提取方法,利用DOM提取信息,并进行相关信息源的搜索,实现信息的精确定位。2 基本思想 本文的基本思想是:将不够规范的HTML文档整理成格式良好的XHTML[2]文档,再将XHTML文档解析成一个树模型——DOM树,然后围绕DOM树进行信息的提取以及相似结构网页的搜索,提取的结果以XML文档表示,并进行结构化存储。如图1所示: 图1 设计思想以下是对各个处理步骤的分析说明:2.1 整理 HTML用一对预定义的标记来描述包含在其间文本的表现方式,要求标记成对出现。事实上,有许多HTML文档中的标记不符合HTML语法要求,比如缺乏结束标记等。这些错误影响对HTML文档的正确解析,因此,为便于解析,首先要对HTML文档进行整理,将其转换成XHTML文档,XHTML严格建立在XML基础之上,并且明确定义了格式良好的文档规则。这样就可以像对待一般XML文档一样对待XHTML文档,可以利用各种XML标准技术来操纵XHTML文档。对HTML文档的整理主要是以下三个方面: (1)为不成对的标记加上结束符“/”,例如<br>加上结束符为<br />; (2)为所有属性值加上引号,例如,<a href=http://www.w3c.org>加上引号变为<a _fcksavedurl=http://www.w3c.org>加上引号变为<a href=”http://www.w3c.org”>; (3)将URL中所有的“/”换成“/”。2.2 解析 解析,就是将经过转换得到的XHTML文档构造成DOM树,将文档中的元素映射成DOM树中的节点。 DOM全称是文档对象模型(Document Object Model, DOM),它根据文档中标记之间的嵌套关系,将文档表示为一个树形结构,文档中的元素、属性、以分析的字符数据、注释以及处理指令等都是节点。Document是文档根,是操作整个DOM树的句柄。 DOM树是面向对象的文档模型,树中的节点都是接口,它们派生于Node接口,每个节点都有各自的特性和操作,处理节点比较方便。 当解析生成DOM树之后,对HTML文档中信息的提取,就转换成为对DOM树中相应节点的查找,节点位置由定位规则指出,提取模式中的模板按照定位规则的指示提取出相应位置的信息。 解析的处理过程如下,首先找出网页中所有的开始标记,将其名称存入标记表。接着逐次找出网页中每个标记,并检查其是不是一个有开始标记与其对应的结束标记或者是注释标记,如果是没有对应开始标记的结束标记或者是注释标记,就删除该标记;否则,如果是有对应开始标记的结束标记,就将这个结束标记与其开始标记之间的内容存储到标记表中,这个内容就是叶节点,重复操作,直到网页中每个标记都处理完之后,就建立了一个由标记及其所包含内容构成的表,整棵树被分解成n棵子树存入表中。然后,将<html>标记设置为根节点,将表中n棵子树顺次添加到根节点下,形成一棵n叉树。2.3 信息提取 提取信息分两步,现生成提取模式,然后利用提取模式提取信息。2.3.1 提取模式生成 生成提取模式分三个步骤,归纳单个样本网页信息块定位路径,归纳样本网页集合信息块定位路径,定位信息块内信息点路径。 (1) 归纳单个样本网页信息块定位路径根据用户提供的样本网页的结构特点,将样本网页按相似结构分块,本文所感兴趣的信息就位于这些相似结构的信息块中,这也是本文学习提取算法的一个限制条件,即,被提取信息点位于结构相似的信息块内,各信息点之间没有其他信息。单个样本学习算法如下:IBPATHi=NULL; 先序遍历解析树DOMi; 得到的路径表达式记入treePath; 依次扫描treePath;while(treePath未结束){ 比较两条路径中的相应路径结点;if(两路径结点的索引值和孩子结点的索引值相同){ 将该路径写入IBPATHi;比较下一组路径表达式;}else(结点的索引值相同,而孩子结点的索引值不同){ 截取该路径表达式中该节点及该节点之前的路径,将该路径写入IBPATHi; 进入下一组路径比较;} }return IBPATHi;(2) 归纳样本网页集合信息块定位路径算法描述如下:LocationIBs=null;for(i=1;i<=m;i++){ Path[i]=null; LocationIB[i]=null;}for(i=1;i<=m;i++) for(j=1;j<=n;j++){扫描第j个样本页面的DOM树;把第j个样本页面中的第i项内容的路径表达式写入path[i]中,即path[i]=path[i]+{path[i][j]};}for(i=1;i<=m;i++){ while(path[i]!=null){随机提取一条path[i][j]令其等于apath;apath与path[i]中其它路径表达式与其它进行比较,获得被apath覆盖的正例集合S;path[i]=path[i]-S;//删除被覆盖的正例LocationIB [i]= LocationIB [i]+apath;}}LocationIBs={ LocationIB [1], LocationIB [2],……, LocationIB [m]};return LocationIBs;}
[8]电大学习网.免费论文网[EB/OL]. /d/file/p/2024/0424/fontbr />
网站地址 | 样本网页数目 | 查全率% | 查准率% | F值% |
www.amazon.com | 13 | 96.1 | 91.1 | 93.5 |
www.oreilly.com | 10 | 93.7 | 88.7 | 91.1 |
[8]电大学习网.免费论文网[EB/OL]. /d/file/p/2024/0424/fontbr />
相关文章:
大数据时代D市公安局维稳工作策略探讨04-26
美国对华的贸易救济调查及应对策略思考——基于美国对04-26
战略投资者引入对新零售企业绩效影响04-26
违约方司法解除权的规范解释与适用展开04-26
H高城投公司发展战略思考04-26
农业论文文献综述的基本框架「精选模板」04-26
AS银行零售客户经理绩效考核方案改进思考04-26
涉诉信访治理法治化路径探讨04-26
初中班主任班级情绪管理策略04-26
营改增对JH物流公司财务绩效的影响探讨04-26