当前位置:文库下载 > 所有分类 > 工程科技 > 信息与通信 > 基于PageRank算法的一种搜索引擎优化方法及实现
免费下载此文档侵权投诉

基于PageRank算法的一种搜索引擎优化方法及实现

本文在介绍Google等搜索引擎最常用的PageRank搜索结果排名算法的基础上,提出了一种针对PageRank算法的搜索引擎优化方法,设计并用Java技术实现了一个采用此方法的搜索引擎优化工具。

维普资讯 http://www.wenkuxiazai.com

科技信息

0本刊重稿0

S I N E I F R AT O CE C O M I N N

20年 07

第4期

Pg ak法的种索引优方及现 a Rn算一搜擎化法实 e 张光年李茂青 (门大学系统与控制研究中心福建厦

厦 f 3 1 0 ) - 6 0 5 1

摘要:文在介绍 C ol搜索引擎最常用的 Pg R n本 oge等 ae ak搜索结果排名算法的基础上,出了一种针对 Pg R n提 ae ak算法的搜索引擎优化方 法,计并用 Jv设 aa技术实现了一个采用此方法的搜索引擎优化工具。 关键词:ae ak G ol;索引擎优化;aa P g R n; oge搜 Jv An S EO eho n I p e n s d n Pa e n Al o ih M t d a d m l me t Ba e o g Ra k g r t m Zh n a n a LiM a q n a g Gu ng i n o ig

( ne o ytmsa dC nr 1Xime Ce trfrS se n o to. a nUnv ri Xime 6 0 5 ies y t a n3 l 0 ) Ab t a t Th sa t l s o h a i o a e n l o ih s r c: i ri e i n t e b s s fP g Ra k a g r m,w c s mo t r q e ty u e y s a c n i e s c o l,t . EO t o c t hih i s e u n l s d b e r h e g n u h a Go s ee c An S f s me h d

b e nteag rtm sp o o e .Fn l tea t rd sg e n mp e ne nS s a d o h oih i rp sd ia y,h uho e in da d i lme tda EO o lb e n ten w to yJv a g a e l l to a d o h e meh b a aln u g、 s d Ke wo d: g P n Go ge;EO;a a y r Pa e a k; o l S Jv

引擎排名的重要因素。拥有越多的入站链接,将会提高网页的, ae a k值。因此,如何拥有比较多的入站链接就是提高网站主页随着互联网信息的成倍增长,索引擎的地位在网民心中日益重 P gR n搜 aea k值的关键所在。下面提出几种提高

主页 P e ̄k值的一般 g a R要。而同时大量的企业建立网站将产品营销推广出去。如何让网民可 P gR n 1引言、 以通过搜索引擎更容易的找到自己的网站,为了企业网站经营的一方法:成 ()先要将网站主页提交到各大搜索引擎,样搜索引擎才会知 1首这个重要问题。We matr针对搜索引擎数据采集和标引算法频繁设 b se们 计。化自己的网页,使其在搜索引擎相关关键词检索结果中排列道你的网站的存在。优以【1供有趣、价值的网站内容,样其他网站的 Wematr 2提有这 b se们在前。事实上今年来国外的 S O(erhE sn pi z g针对搜索 E S ac nieO t i, min会主动和你进行友情链接,而提高你的外部链接值。从 引擎的网站优化 )究风起云涌,至已形成了一个新的业态。研甚

()将网站主页添加到行业门户站点、 37网上论坛、言簿等等各留搜索结果排序算法和组织技术的细节作为搜索引擎的商业机密 是秘不示入的,综合迄今为止这方面的研究实践,但主要有关键字的种允许添加网址链接的地方。 f)尽量与其他 P e ̄ k值高的网站交换链接来提高链接权值。 4 g aR 词频、置,位网页问的链接流行度这样几种思路。对关键字的词频、位置所进行的优化属于页面上 (n ae优化,过将关键字放于页面需要注意的是 .与其他网站交换链接时首先要查看对方站点是否被 o pg )通 oge删或 os e收没 o se收 tl,页面正文中提高关键字词频等等手段,提高页面的关键 G o l除,是否被 G ol录,有被 G ol录的站点最好不 ie中在 t来 字相似度。这类的页面上优化已经被广大的 Wematr熟知,且要做链接。 b s所 e并可以看到上面的几种方法,实也是一个新网站进行网络宣传的其是可以很容易实现的。而对网页问的链接流行度的优化属于页面外需在一 (f ae优化。网页间的链接流行度也是决定页面在搜索结果中排名基本方法。要注意的是,网上论坛和

留言簿上进行网站宣传时, opg)而 的重要因素。这种搜索结果排名技术建立在一种针对 We b文档的复定要有指向网站主页的链接 .不仅仅是写出网址。 杂算法上,之为 P gR n称 ae a k算法。 本文的目的是在对 P e ̄k算法分析的基础上,提出了一种提 g a R

4基于 P g R n . a e a k的一种搜索引擎优化方法 我们知道 .论是通过交换链接,是在论坛和留言簿上添加网无还址链接,是人为的制造了一些拥有入站链接的页面。过公式 ( )都通 1可以得到,有入站链接的页面越多,们网站主页的 P gR n拥我 ae ak值就越

高网站主页的链接流行度的方法,其基于 Jv技术的实现。及 aa

2Pa e an . g R k算法

但这就 PgRak取自 G ol ae n t oge的创始人 L r ae它是 G ol名运高。是,一切都建立在一个前提下,是这些拥有入站链接的页面 ar P g, y oge排即存在于搜索引擎的数据库中。而不同的搜算法则(名公式)排的一部分,来标识网页的等级和重要性。级别从必须要被搜索引擎索引,用相 1到 1 0级。 R值越高说明该网页越受欢迎 (重要 ) P越。一般搜索引擎索引擎爬虫的运行机制不尽相同,同的页面却不一定能够被不同的将 P gR n ae a k值与网页搜索结果相似度共同作为搜索结果的排序依搜索引擎索引。 例如,对于新浪主页: w .ia o c,通过查询 l k w .n . w wsn. m, c a i: ws a nw i 据。

o c a,我们可以得到在 G ol, N和 Ah e b中,拥有到 w . oge MS l hWe ww Pg R n ae ak算法的具体思路是 .某个页面的 P gR n将 a e a k除以存在 cm i c a链接的页面数量分别是 4 3 0 l,8,4 ao 2, 0、1 650和 4 60 0。 0 7 4, * o于这个页面的正向链接,由此得到的值分别和正向链接所指向的页面 sn. mc的 P gR n加, ae a k相即得到了被链接的页面的 P gR n。 ae a k因此,们可以做出这样的一些页面,们包含了各大搜

索引擎我它将算法基于“许多优质的网页链接过来的网页,定还是优质网中索引的所有拥有到我们主页入站链接的页面。这些页面放在我们从必页”回归关系,判定所有网页的重要性。一个网页的得票越多 .的来则的网站上,搜索引擎能够发现。这些页面将帮助搜索引擎爬虫发现让 本身的重要程度。Pg R n ae a k的算法如下: L n Ma i k p。

认为它的重要性也就越高。进一步说,票网页的重要性也决定着票其他搜索引擎所找到的到我们主页的入站链接。我称这些页面为投

在文章的下半部分,我将提出一种自动生成 Ln Ma ik p的工具,我 P )(一 d艘 (/ (++ R 7 c ) R= 1+ ( ) )£ ( c ( () 1公式中的 P R代表页面的 P e ̄k数值,l代表有链接指向称之为 Ln Ma rd cr及其基于 v g a R~ ik pPo ue, aa技术的实现。 页面 A的网页, C是网页出链接的数量,【阻尼系数 (数, o#e d是 常 Co 通常取值 0 8 )由 ( )可知,算某个页面的 Pg R n . 5。 1式计 ae ak值实际上

5Ln Ma rd c r计思路 .ik p P o u e设

在下面的叙述中,假设我们要优化的网站主页为 w wxz o 我 w . . m。 yc是一个迭代的过程,算结果的精确程度依赖于初值的选取和迭代的计第一步:接获取。先,们尽可能从各个搜索引擎中获得拥有链首我次数。对于初值一般取 1而为了保证实际应用中这个结果总是收敛到 w wxz o链接的页面的 U L。基本上各大搜索引擎都提供了这, w . .m yc R的,加入了阻尼系数 d则。样的高级搜索。例如,于 G ol, N, lh We,用 l kw w. z对 ogcMS Ah e b使 i:w x . n y另外需要说明的是,在 I安装了 G ol工具栏的用户也许看 cm进行搜索。可以得到链接到 w wxz o的页面的搜索结果; E上 ose o就 w . .m yc而到工具栏上的 P gR n ae a k显示条,个工具可以即时地反映出 I当前对于 Y h oAS这

E ao, K就要用 l k:w . z o我们可以通过 We ev e i s wx . m。 n w yc bSri c访问的网页在 G s o l的 P gR n e中 ae a k值,该值在 0至 1 0的范围内变来获得搜索结果, G ol, N就提供了 W e rie 1程序调像 o s MS e bS v接 3供 e c化。这个值并非该页面的真实 P R值,而是真实 P R值的一个对数指用。于那些没有提供 We e ri对 bS vc e接口的搜索引擎,们就可以直接我标,数基应该是 5 6范围内的某个数值。对— 从搜索结果页面中提取我们所需要的信息,页面的 U。一般情况如 RL

3提高网站主页 P g R n . a e a k值的一般方法

下,索引擎并不会将其数据库中的数据都提供出来,其所提供的搜但

通过对公式 ( )分析,们知道:面的 P gR n 1的我页 ae a k是影响搜索页面也是对所要优化页面的 P R值最有贡献的页面。 6

基于PageRank算法的一种搜索引擎优化方法及实现

第1页

免费下载Word文档免费下载:基于PageRank算法的一种搜索引擎优化方法及实现

(下载1-1页,共1页)

我要评论

返回顶部