国产成人精品一区二区_欧美精品一区二区三区在线_国产成人久久_女人一级毛片

淺談互聯網頁面價值

2023-10-22 未知 admin
淺談互聯網頁面價值

搜索引擎每天處理著數以億計的查詢請求,每個查詢請求都代表了一個用戶對于某種資源的特定需求。多數時候,通過查詢返回的網頁結果,這些需求被滿足了,我們可以認為結果中的某些頁面對特定用戶的特定需求產生了價值。那么對于搜索引擎而言,頁面的價值是指什么,我們為什么要研究頁面價值,技術上怎樣判斷頁面的價值呢?本文將逐一回答這些問題。

一、什么頁面價值

前面我們說了,某個頁面滿足了某一用戶的特定需求,就體現了這個頁面對用戶的價值。那么對搜索引擎而言,價值體現在哪些方面呢?一個簡單的推論,所有可能會對用戶產生價值的頁面都是對搜索引擎有價值的,將這些頁面建入搜索引擎的索引中能夠滿足最終檢索到它們用戶的需求,我們稱這種價值為檢索價值。只要是能解決某個用戶信息需求的,并且是可以通過某些正常檢索需求到達的,那么就是有檢索價值的。

小學生張三喜歡在qzone上寫日記,寫他前天吃了什么,今天玩了什么。這些內容,是有價值的。它們對張三的家長、同學、老師,以及其他小學生,和對小學生日記感興趣的人來說,都是有價值的。對于這個信息體來說,“張三”這個名字是檢索的“key”。

有一些信息單元,只有“瀏覽”價值,而沒有到達該信息的檢索途徑,那么該資源可能是有價值的,但檢索價值就很低。比如一張百度大廈附近的地圖,從瀏覽角度,是有價值的;但是如果沒有任何周邊文字說明(或者link的anchor text),只有一張光禿禿的地圖,就沒有檢索價值。當然,如果圖片的內容識別技術,有朝一日能自動識別出這個是“百度大廈附近地圖”,或者能夠自動分析出地圖內的各種大廈、街道、餐館等的名稱,那么這張圖一樣變得有檢索價值了。所以一個頁面是否有檢索價值,應該取決于兩點:

1) 是否能解決某個特定的需求(價值)
2) 是否可以通過某個常規的搜索方式獲得該信息(檢索)

那么,沒有檢索價值的頁面,是否對搜索引擎就沒有價值了呢?仔細想想,答案是否定的。索引只是搜索引擎的一個環節,對于其他環節而言,沒有檢索價值的頁面有可能對我們更好的收錄那些檢索價值高的頁面有幫助。比如對負責抓取互聯網資源的spider而言,有一些頁面,本身沒有檢索價值,但通過這些頁面的抓取和分析,能夠更快的幫助我們掌握這一類頁面沒有檢索價值這一重要信息,從而節省更多的流量進行更加有效的抓取。

考慮到這種價值可以算作一種“間接的”檢索價值,最終還是立足于索引價值的,在本文中就不再展開論述,我們只關注“檢索價值”這一根本問題。下文中提到的“頁面價值”特指頁面的“檢索價值”。

二、為什么要研究頁面價值

首先,互聯網上的頁面是無窮盡的,而搜索引擎的硬件資源是有限的,想用有限的資源去覆蓋無窮盡的互聯網,我們就需要對頁面價值做出判斷,不收錄那些無檢索價值的頁面,少收錄那些檢索價值低的頁面。這是頁面價值在收錄控制方面的應用。

第二,搜索引擎spider的抓取能力是有限的,出于訪問友好性的考慮,對于一個網站或一個IP抓取速率需要有一個抓取速率的上限。在這一限制下,抓取或頁面更新就需要有一個先后順序,而這一排序的主要參考依據就是頁面價值,或者說對頁面價值的預測(未抓取時)。這是頁面價值在spider調度方面的應用。

第三,對于某些頁面,頁面內容發生變化,導致它的檢索價值從有到無,典型的就是變為“死鏈”,或者“被黑”。對于這些頁面,好的搜索引擎會在第一時間將其排除出索引,或在檢索時對其進行屏蔽,以保證返回給用戶的結果是更多檢索價值高的“好頁面”。對于另一些頁面,它不僅具有很高的檢索價值,而且有很強的“時效性”,能夠第一時間讓用戶檢索到這些頁面對搜索體驗有很大的提升。對搜索引擎而言,越快的收錄和索引頁面意味著越多的額外資源開銷,以多快的速度收錄和以多短的周期更新索引,需要通過頁面價值的分析來指導。這兩方面是頁面價值在死鏈率和時效性兩大搜索引擎指標提升上的應用。

最后,普遍意義上的頁面價值高低對搜索引擎返回給用戶的結果排序上也存在著指導意義。理想情況下搜索引擎的結果是按照與查詢請求的相關性進行排序的,在相關性大體相當的情況下,用戶更傾向與瀏覽普遍意義上頁面價值高的網頁。這是頁面價值在ranking方面的應用。

可以說,頁面檢索價值的研究是搜索引擎中的一項較為基礎的工作,對頁面價值的認識和判斷的準確程度直接影響著搜索引擎的覆蓋率、死鏈率、時效性等幾大主要指標。

三、如何判斷頁面價值

前文中提到過一個小學生張三qzone日記的例子。我們認為這個頁面是有價值的,對張三的同學,朋友,家人都有價值。與此類似的,百度CEO李彥宏在i貼吧上發表一條十幾個字的i貼,也是有價值的,對李彥宏的上千萬粉絲都有價值。雖然李彥宏的i貼長度可能遠小于張三的日記,但就這兩個頁面的價值來說,我們都會有一個共同的認識,即從普遍意義上講,李彥宏的i貼價值遠大于張三的日記。(當然,對于張三的媽媽來說很可能這個價值的關系是相反的)

再舉個例子,搜索某個人的手機號碼,搜索引擎返回了一個結果,是這個人在某個論壇上的一個回復。雖然這個手機號碼關心的人不多,但因為資源是絕對稀缺的,對于關心這個手機號碼的查詢需求,這個頁面是完全不可替代的,因此具有極高的價值。

另外,頁面檢索價值,還受到頁面質量的影響。相似的頁面,對于滿足用戶需求來說,往往會有很大差異,比如資源下載速度,頁面的布局,廣告的多寡。這類差異,姑且稱之為頁面質量。

最后,有些頁面具有明顯的公眾話題性質,且這些資源往往在剛剛產生時有非常高的關注度,隨著時間的推移熱度顯著下降,有著“新聞”的特征。典型的像各種“門”事件,地震、火災等大型的自然災害。我們認為這類資源具有“時效性”特征。

所以,一個頁面的檢索價值,大致受以下四個要素的影響:

  • 感興趣的受眾群大小
  • 該頁面的稀缺程度(可替代性)
  • 該頁面的質量高低
  • 該頁面的時效性特征強弱

這四種要素,簡稱受眾,稀缺,質量和時效性。

1. 受眾

受眾群體的大小,即代表了用戶檢索需求的大小。評價受眾的大小主要依據信息發布源的受眾和信息內容本身受眾兩大方面。具體因素包括且不限于:

網站忠實用戶群大小

一般來說,擁有自己忠實用戶群的知名網站,他們的成功,在于他們的內容和服務,比別人更能吸引和滿足用戶。從這個角度來說,我們可以推論,擁有更多忠實用戶群的網站上的內容,會比忠實用戶群較少的網站上的內容,有更多的既有和潛在受眾群。這樣的話,忠實用戶群大小,就可以變成對站點內資源檢索價值的一種衡量指標。忠實用戶群的好處在于,它是變動的。如果一個網站變差了,那么用戶就會用腳投票。超鏈有過期問題,作弊問題,而虛假用戶群作弊很難。一般所謂的網站知名度,會和忠實用戶群數量密切相關。

資源分布規律

我們再考慮一個網站內部的資源分布所體現的受眾群大小問題。比如新浪新聞首頁的那些推介內容。新浪編輯為什么要推這些內容?因為他們認為這些是用戶最感興趣的。那么從索引價值角度而言,相當于有一個龐大的編輯團隊,已經對這些內容打上了“符合大眾口味”的標簽。搜索引擎只需要樂享其成就行了。這樣的話,資源相對于某些結構性關鍵頁面(首頁、頻道頁等)的鏈接深度,也可以成為衡量一個資源受眾群大小的指標了。

訪問熱門度

我們再從訪問熱門度角度來考慮受眾群大小問題。這個是最直接的,當然,它需要第三方的工具來獲取關鍵數據。通過這個途徑,獲取的不應僅僅是需要入庫的頁面,還有用戶訪問一個網站的訪問模式。

超鏈

超鏈某種程度上也是受眾群大小的反映。某個資源的質量越高,接觸的受眾群越大,那么獲得正常鏈接的數量往往也越大。

內容特征

A:我寫博客:“傳言郭德綱要上春晚了。”
B:我寫博客:“我今天吃早飯了。”

同樣的來源,前者的受眾必然高于后者。即:當在發布源相同的情況下,具有公眾屬性的內容分值會更高。

2. 稀缺

稀缺主要是描述頁面在互聯網中的獨特性。說到稀缺往往會想到重復,稀缺是否等同于無重復,我們應該怎樣解讀這一概念呢?可以看一個例子:

某人發表了一篇針對某新聞事件的原創博客,隨后被新浪轉載到了新聞頻道。從描述的內容上講,這是一種重復。但這種重復僅僅是主體內容上的重復,一方面它的轉載帶來了訪問速度、穩定性等方面的增益,并且之后的檢索用戶還有可能用“新聞事件+新浪”來檢索此新聞。這可以被稱之為站點增益。另一方面,它在轉載過程中可能會改變頁面的標題,而且依托其受眾,在轉載頁面上,還有可能出現更多的有價值評論和回復等,還有可能存在指向其它相關事件的新聞鏈接。這些可以被稱之為內容增益。因此即使主題內容沒有任何變化,新浪的這次轉載也是有價值的,其稀缺度也是較高的。

同樣,反過來說,如果轉載的網站相當不知名,則其無法帶來站點名/穩定性/速度的增益。更有甚者,轉載之后在頁面上加入大量廣告妨礙閱讀,或者只轉載了內容中不完整的一部分,這樣的轉載,或者說采集,就是純重復的,與采集源相比,就是沒有檢索價值的了。

綜上所述,對于主體內容重復的頁面,我們應該評價其是否存在站點增益和內容增益,只有對于大量完全無增益的重復頁面,我們才應該認為其稀缺度較低。

3. 質量

頁面的質量是它對需求的滿足程度的一種體現。判斷頁面質量的高低,應該是從最基礎的需求依次遞進的。

首先,不能是死鏈、網站要有一定的穩定性、訪問速度要令人滿意。其次,主體內容是否完整、版式和字體是否易讀、各類廣告會不會太多。最后,信息是否豐富、延伸出的次級需求是否滿足。

典型的低質量頁面存在以下一些特征:

  • 主需求無效/未滿足(過期分類廣告/軟件下載頁面,下載鏈接無效等)
  • 死鏈
  • 虛假信息/詐騙等
  • 空頁面
  • 站點不穩定
  • 影響主需求的權限問題(下載/瀏覽需要注冊會員/積分等)
  • 信息不完整(轉載不全等)
  • 瀏覽體驗差(廣告/字體/頁面布局等)

典型的高質量頁面存在以下一些特征:

  • 訪問速度快(頁面加載快/資源下載速度快)
  • 頁面整潔干凈,主體內容在顯著位置
  • 頁面信息完整
  • 頁面元素豐富(文字、圖片、評論、相關推薦等)

4. 時效性

“時效性”是頁面價值的一個屬性,它一般體現在兩個方面:一是頁面所描述的事物本身有著較強的公眾話題性,容易被傳播。這其實是受眾的一個體現。二是頁面所描述的事物僅在第一時間有較高熱度,隨著時間推移熱度顯著下降。這是一種“新聞”性。對于具有上述兩種屬性的頁面,如果搜索引擎spider發現頁面的時間正處于該事物的“爆發期”或“爆發期”之前,我們認為該頁面具有時效性。

需要說明的是,搜索引擎的廣義“時效性”是指對所有有價值新資源的及時收錄提供檢索,而所有的有價值新資源中,有一大部分其收錄速度的提升對用戶的搜索體驗改善意義是不大的,比如介紹如何瘦身的知識性文章,張三的日記。頁面價值中的“時效性”指得是一種突發時效性,也就是所有有價值頁面中最需要及時收錄的那些。對頁面時效性的判斷是為了指導我們將搜索引擎有限的資源投入到最關鍵的地方,產生最好的性價比。

判斷頁面的時效性價值,主要通過下面一些途徑:

  • 頁面本身受眾是否有短時間的突增,比如超鏈爆發。賈君鵬的帖子就是一個典型的例子。
  • 描述相同事物的互聯網頁面是否有段時間的突增。賈君鵬事件短時間內爆發出大量相關討論、報 ...
  • 根據一個集合內的頁面是否具有上述兩種特征,推測該集合的時效性價值。比如魔獸世界吧經常 ...

四、頁面價值的研究重點

前文已經介紹了頁面價值的含義,研究的意義與價值判斷的方法。最后我們再看一下,從技術角度上,這一方向的研究中的重點方向。對頁面價值的研究工作主要致力于三方面:

  1. 對頁面價值體系的認識。我們目前對頁面價值的認識是來源于前文所述的四個維度,這個認識是否全面,對于不斷變化的互聯網環境與用戶需求,這些維度應該如何擴展與變化才能更好的服務于整體的搜索體驗提升,是一個很重要問題。
  2. 對于反映頁面價值的頁面特征提取。巧婦難為無米之炊,挖掘更多的頁面特征,更準確合理的特征提取是頁面價值判定準確率提升的基礎。
  3. 對各種頁面特征的組合策略(機器學習)。針對不用的應用方向,需要利用相應的特征通過合理且高效的策略擬合出頁面價值的最終評價結果。 
責任編輯:淺談互聯網頁面價值

相關文章

樂天云培訓中心

国产成人精品一区二区_欧美精品一区二区三区在线_国产成人久久_女人一级毛片

    
    

      9000px;">

        
        

          国产69精品久久99不卡| 亚洲444eee在线观看| 日韩一区二区免费视频| 欧亚一区二区三区| 在线观看欧美精品| 欧美色综合网站| 精品视频1区2区| 欧美日韩一二区| 在线播放亚洲一区| 欧美肥妇毛茸茸| 7777精品伊人久久久大香线蕉最新版 | 欧美国产精品中文字幕| 337p粉嫩大胆噜噜噜噜噜91av| 日韩一区二区高清| 欧美日韩一区二区三区免费看| 欧美亚洲一区二区在线| 91福利国产成人精品照片| 欧美性videosxxxxx| 欧美日本高清视频在线观看| 欧美一区二区视频在线观看2022 | 国产精品美女久久久久久久久久久| 国产欧美精品国产国产专区| 国产精品日韩精品欧美在线| 亚洲摸摸操操av| 日韩精品电影一区亚洲| 国产一区999| 在线亚洲一区二区| 91精品啪在线观看国产60岁| 亚洲精品一区二区三区四区高清 | 日韩午夜电影在线观看| 亚洲国产精品传媒在线观看| 亚洲人成人一区二区在线观看 | 欧美mv日韩mv国产网站app| 久久精品一区蜜桃臀影院| 亚洲天堂福利av| 青青青伊人色综合久久| 成人白浆超碰人人人人| 欧美群妇大交群的观看方式| 国产亚洲欧美日韩日本| 一区二区三区高清不卡| 狠狠色综合日日| 在线视频一区二区三区| 久久亚洲综合色一区二区三区| 亚洲欧洲综合另类在线| 麻豆成人91精品二区三区| 波多野结衣91| 日韩欧美国产不卡| 亚洲黄色小说网站| 国产一区二区三区av电影| 欧美伊人久久大香线蕉综合69| 欧美大片顶级少妇| 亚洲国产成人av网| 91天堂素人约啪| 久久久久久99久久久精品网站| 亚洲一本大道在线| 91在线porny国产在线看| 久久久青草青青国产亚洲免观| 午夜精品一区二区三区电影天堂| 国产一区不卡在线| 日韩一级高清毛片| 亚洲午夜久久久久久久久电影院| 成人一区在线看| 久久久久久久一区| 日本欧美一区二区在线观看| 在线免费精品视频| 亚洲蜜桃精久久久久久久| 国产河南妇女毛片精品久久久 | 亚洲自拍偷拍图区| 欧美最猛黑人xxxxx猛交| 国产精品久久毛片av大全日韩| 精品一区二区三区视频在线观看| 色婷婷一区二区| 国产精品久久久久久久久搜平片| 国产成人亚洲综合a∨猫咪| 欧美电影免费观看高清完整版在线| 亚洲成人动漫在线观看| 欧美在线不卡视频| 亚洲高清不卡在线| 欧美主播一区二区三区美女| 一区二区三区四区乱视频| 99久久精品情趣| 亚洲精品中文在线影院| 在线观看日韩av先锋影音电影院| 亚洲日本在线a| 色噜噜偷拍精品综合在线| 亚洲一级二级三级在线免费观看| 色综合视频在线观看| 亚洲色欲色欲www| 91看片淫黄大片一级| 亚洲另类在线视频| 欧美伦理影视网| 老司机精品视频导航| 日韩一区二区三区高清免费看看| 久久精品国产精品青草| 久久午夜免费电影| 成人一级片网址| 亚洲自拍欧美精品| 欧美一区三区四区| 国产成人自拍高清视频在线免费播放 | 欧美猛男gaygay网站| 蜜桃av噜噜一区二区三区小说| 日韩免费电影一区| 国产精品888| 日韩理论片一区二区| 欧美日韩日日骚| 狠狠狠色丁香婷婷综合激情| 中文字幕亚洲区| 欧美巨大另类极品videosbest| 极品少妇一区二区三区精品视频 | 五月激情综合色| 精品福利av导航| 91首页免费视频| 日一区二区三区| 国产精品美女久久久久久2018| 欧美午夜精品久久久| 久久精品国产99国产| 亚洲欧美另类小说| 欧美日韩一区 二区 三区 久久精品| 蜜臀av性久久久久蜜臀aⅴ四虎| 久久精品一区二区三区四区| 欧美在线观看18| 风间由美一区二区av101| 亚洲成a人在线观看| 亚洲国产岛国毛片在线| 在线播放亚洲一区| 91免费看视频| 国产成人av自拍| 日本午夜一区二区| 亚洲精品一二三| 国产精品私房写真福利视频| 欧美精品三级日韩久久| 色婷婷av久久久久久久| 国产精品主播直播| 另类小说图片综合网| 亚洲精品国产无套在线观| 国产视频一区在线播放| 欧美精品日韩一本| 欧美亚洲国产bt| 成人av网在线| 国产福利91精品一区二区三区| 午夜不卡av免费| 亚洲va国产va欧美va观看| 亚洲欧美激情在线| 国产精品乱人伦中文| 久久久亚洲午夜电影| 91精品国产综合久久久久久久 | 久久久久久久久久久久久久久99| 欧美精品xxxxbbbb| 色婷婷综合久久久久中文| 99久久精品国产毛片| 国产aⅴ精品一区二区三区色成熟| 国产中文字幕一区| 久久99精品久久久久久动态图| 亚洲成人午夜影院| 五月激情丁香一区二区三区| 亚洲午夜在线观看视频在线| 亚洲一区电影777| 一区二区三区免费看视频| 夜夜爽夜夜爽精品视频| 一区二区三区四区中文字幕| 一区av在线播放| 午夜视频一区二区| 日韩1区2区日韩1区2区| 九色porny丨国产精品| 麻豆91免费看| 国产精品一卡二卡| 成人h动漫精品| 色噜噜狠狠成人中文综合| 91久久精品午夜一区二区| 欧美日韩一区二区在线观看视频| 在线观看欧美日本| 精品久久人人做人人爰| 国产日产欧美一区二区视频| 国产日韩欧美制服另类| 中文字幕在线播放不卡一区| 亚洲欧美激情视频在线观看一区二区三区 | 亚洲精品在线免费播放| 国产欧美日韩精品一区| 国产精品视频在线看| 成人免费一区二区三区在线观看 | ...xxx性欧美| 亚洲一二三四区| 精品一区二区三区久久| 丰满少妇久久久久久久| 色88888久久久久久影院按摩| 欧美丰满嫩嫩电影| 欧美国产1区2区| 午夜免费欧美电影| 国产精品自拍三区| 91黄色激情网站| 久久综合色8888| 亚洲欧美在线高清| 青青草国产成人99久久| 成人美女视频在线看| 欧美图区在线视频| 国产清纯白嫩初高生在线观看91| 亚洲一区二区三区影院| 国产综合色在线| 欧美特级限制片免费在线观看| 久久影院午夜片一区|