亚洲调教一区_91久久视频_这里只有视频精品_亚洲免费成人av在线

24小時熱線電話: 贛州網(wǎng)站建設(shè),贛州網(wǎng)絡(luò)公司,贛州做網(wǎng)站,贛州網(wǎng)站建設(shè)價格,贛州網(wǎng)頁制作,贛州建網(wǎng)站公司,贛州微信二維碼平臺,贛州微信公眾號,贛州百度公司,贛州百度推廣,贛州百度優(yōu)化,贛州朝揚(yáng)網(wǎng)絡(luò),朝揚(yáng)網(wǎng)絡(luò)

熱線:0797-8296060

QQ咨 詢?nèi)肟?/a> 稍后再說 立 即咨詢
  • 0797-8296060
  • 掃一掃 公眾號
您當(dāng)前所在位置 : 首頁   »  新聞動態(tài)  »  行業(yè)新聞

行業(yè)新聞

朝揚(yáng)解讀前沿 資訊,分享互聯(lián)網(wǎng)時代精英智慧

谷歌搜索引擎的原理

發(fā)布時間:2018-01-23 作者: 來源: http://www.sdzrjx.com/ 瀏覽:

一、Google官方對其搜索技術(shù)的敘述 

  我們搜索技術(shù)的后端軟件會在服務(wù)器側(cè)觸發(fā)一系列執(zhí)行時間不到1秒的并行計算,Google問世前的傳統(tǒng)搜索引擎的搜索結(jié)果嚴(yán)重依賴于關(guān)鍵詞在頁面上出現(xiàn)的頻度,我們使用了200多個指標(biāo)信號(其中包括我們擁有專利的PageRank頁面等級加權(quán)算法)用來檢查萬維網(wǎng)的鏈接結(jié)構(gòu)(佩奇和布林最初的想法是把萬維網(wǎng)的鏈接結(jié)構(gòu)用圖論的有向無環(huán)圖來建模)并決定網(wǎng)頁的重要程度,我們假定一個網(wǎng)頁的重要程度取決于別的頁面對它的引用,就像學(xué)術(shù)論文中的引用指數(shù)一樣,重要的論文總是會被很多其他論文引用。然后我們再根據(jù)搜索條件進(jìn)行超文本匹配分析(對bot抓取的頁面內(nèi)容進(jìn)行關(guān)鍵詞倒排索引檢索)確定跟搜索請求最相關(guān)的網(wǎng)頁。綜合最重要的網(wǎng)頁和跟搜索請求最相關(guān)的網(wǎng)頁兩個方面,我們就能按重要程度和用戶搜索請求相關(guān)程度把查詢結(jié)果排序后呈現(xiàn)給我們的用戶。 

  二、數(shù)據(jù)中心:Google用來索引世界的塔 

  Google的數(shù)據(jù)中心高度機(jī)密,我們能了解到的不多: 

  1. 在美國本土有19個以上的數(shù)據(jù)中心,其余17個數(shù)據(jù)中心分布在美國以外的世界各地。 

  2. 每個數(shù)據(jù)中心有50萬平方英尺那么大,建造一個數(shù)據(jù)中心要花費約6億美元。 

  3. Google數(shù)據(jù)中心是世界上最高效的設(shè)施之一,而且也非常環(huán)保,幾乎沒有碳排放。 

  4. 數(shù)據(jù)中心使用50到100兆瓦的電力,由于需要冷卻,通常建在便于用水的地方。 

  5. Google服務(wù)器安置在一個一組容得下1160臺服務(wù)器的有房子那么大的標(biāo)準(zhǔn)集裝箱容器中。 

  三、處理流程: 

  1. 你寫博客、或在Twitter上推微博、更新站點等諸如此類往web上添加內(nèi)容的操作 

  2. Google爬蟲(一種作為搜索引擎構(gòu)件的智能代理程序)抓取你網(wǎng)頁的title和description、keyword等內(nèi)容。 

  (1) Google bots程序沿鏈接路徑周游萬維網(wǎng),如果沒有http路徑到你的站點,你的站點將不會被索引。 

  (2) 如果你在robots.txt中設(shè)置不許索引,Google bots程序?qū)⒉粫ト∧愕木W(wǎng)頁。 

  (3) 如果鏈接到你站點的html鏈接上有nofollow標(biāo)簽,Google bots將不會從這些鏈接路徑周游到你的站點。 

  (4) Google也能通過blog軟件或xml站點地圖找到你的網(wǎng)站。 

  (5) 從PageRank越高的網(wǎng)站鏈接到你的網(wǎng)站的鏈接越多,你的網(wǎng)站的PageRank就越高。 

  (6) Google爬蟲將周游所有未標(biāo)注為nofollow的鏈接。 

  3. 一旦被Google爬蟲訪問到,網(wǎng)頁幾秒內(nèi)就被索引了 

  (1) 網(wǎng)頁內(nèi)容被存儲在一個倒排索引中。 

  ① 網(wǎng)頁標(biāo)題和鏈接數(shù)據(jù)被保存在一個索引中,用于廣度優(yōu)先搜索。 

  ② 網(wǎng)頁內(nèi)容保存在另一個索引中,以用于檢索頻率不高的長尾、個性化、深度優(yōu)先搜索。 

  (2) 當(dāng)你用Google搜索時,你并沒有在檢索時時更新的萬維網(wǎng),而是在檢索Google的緩存,Google定期更新其索引庫,在Twitter實時搜索等的競爭下,Google的索引庫更新周期趨短。 

  4. Google基于鏈接評估域名和網(wǎng)頁的總體PageRank值。 

  5. 檢查網(wǎng)頁以防止作弊行為 

  (1) Google的搜索質(zhì)量和反垃圾信息審查和優(yōu)化算法。 

  (2) 1萬多遠(yuǎn)程測試用戶評價搜索結(jié)果的質(zhì)量。 

  (3) Google征請用戶對有PageRank訛詐嫌疑的垃圾信息進(jìn)行舉報。 

  (4) Google接到 (美國)數(shù)字千年版權(quán)法案的通知,要求Google把盜版行為記錄備案。 

  6. 在對頁面做了損害分析后,現(xiàn)在每個頁面都有很多用于輔助用戶搜索的數(shù)據(jù)片(比如檢索關(guān)鍵詞)反向引用著它。 

  7. 用戶發(fā)出搜索請求 

  (1)Google搜索質(zhì)量工程師Patrick Riley:在大多數(shù)Google搜索中,你的搜索處于許多并行的控制過程或Google實驗室的創(chuàng)新項目組過程中,可以說每一個查詢請求都會參與一些Google的創(chuàng)意實驗。 

  8. Google會用同義詞匹配與你的搜索關(guān)鍵詞語義相近的查詢結(jié)果。 

  9. 生成初步的查詢結(jié)果。 

  (1) 也許Google宣言能返回成千上萬數(shù)量無限的查詢結(jié)果,但一般只顯示不到1000條的查詢結(jié)果,出于“少則得,多則惑”的考慮。 

  (2) 對查詢結(jié)果做本地化處理,本土站點在查詢結(jié)果中優(yōu)先出現(xiàn)。 

  10. 對查詢結(jié)果集按權(quán)威性和PageRank進(jìn)行排序,重復(fù)的查詢結(jié)果被剔除。 

  (1) Google根據(jù)關(guān)鍵詞、廣告類型、用戶所處位置找出相關(guān)的被競價拍賣的關(guān)鍵詞廣告。 

  (2) 關(guān)鍵詞廣告必須遵守當(dāng)?shù)胤蓷l文。 

  ① 廣告業(yè)主的非法廣告將被取締 

  ② 如果關(guān)鍵詞的搜索流量過低或關(guān)鍵詞廣告點擊量偏低,則會被自動禁用。 

  ③ 出于商業(yè)策略,像亞馬遜這樣的客戶會給予優(yōu)惠折扣。 

  (3) 關(guān)鍵詞相關(guān)廣告按收益潛力(對關(guān)鍵詞進(jìn)行競價拍賣后的廣告質(zhì)量不斷進(jìn)行評估)排序。 

  (4) 對廣告業(yè)主來說廣告內(nèi)容一般都是固定的,但有時使用動態(tài)關(guān)鍵詞使關(guān)鍵詞廣告與搜索關(guān)鍵詞相關(guān)度更高。 

  ①一些廣告本身允許增加易變的附屬信息,比如網(wǎng)站鏈接、電話號碼、產(chǎn)品鏈接、地址等。 

  (5) 當(dāng)廣告擁有了相當(dāng)高的點擊率,則會顯示在搜索結(jié)果列表的上方,以使其更顯眼。 

  (6) 其余的廣告依序顯示在相應(yīng)的位置。 

  11. 對查詢結(jié)果進(jìn)行過濾處理 

  (1) 對通常的查詢(比如在Google首頁上發(fā)出的搜索請求),Google會把相關(guān)的專題性垂直搜索結(jié)果(比如新聞、購物、視頻、書籍、地圖等)也加到返回的查詢結(jié)果中。 

  (2) 個性化方面:用戶訪問過的網(wǎng)站在查詢結(jié)果列表中會更靠上。 

  (3) 大量使用錨點的網(wǎng)站有可能被從查詢結(jié)果中刪除。 

  (4) 搜索結(jié)果集的聚簇性:如果網(wǎng)頁被其他高PageRank的網(wǎng)站引用,則網(wǎng)頁的重要性會大大提高。 

  (5) 趨勢分析:對搜索流量爆增或有大量新聞的搜索關(guān)鍵詞,Google會在新的查詢結(jié)果中增加額外的PageRank權(quán)值。(Google有反映關(guān)鍵詞搜索流量的Google趨勢專題頁面) 

  (6) 同一個域名下的多個網(wǎng)頁如果具有相同的PageRank會被歸為一組。 

  12. 最終返回給瀏覽器端的用戶一個人性化的、布局良好的、查詢結(jié)果和廣告涇渭分明的有機(jī)查詢結(jié)果頁面。 

  所有這些步驟在總共不到1秒的響應(yīng)時間內(nèi)完成,每天3億次的點擊量給Google帶來了超過200億美元的年收入。


贛州網(wǎng)站建設(shè)|贛州網(wǎng)絡(luò)公司|贛州做網(wǎng)站|贛州網(wǎng)站建設(shè)價格|贛州網(wǎng)頁制作|贛州建網(wǎng)站公司|贛州微信二維碼平臺|贛州微信公眾號|贛州百度公|贛州百度推廣|贛州百度優(yōu)化|贛州朝揚(yáng)網(wǎng)絡(luò)|朝揚(yáng)網(wǎng)絡(luò)

贛州朝揚(yáng)網(wǎng)絡(luò)科技有限公司

贛州朝揚(yáng)一部:贛州市章貢區(qū)富升大廈1604室??? 贛州朝揚(yáng)二部:贛州市安虔路22號A棟(203)

備案號:贛ICP備15004771號

贛公網(wǎng)安備 36070202000138號