最近看了關(guān)于推廣的4本書,有兩本書讓我印象最深刻,一本是《走進搜索引擎》,另外一本是《SEO 搜索引擎優(yōu)化:技巧、策略與實戰(zhàn)案例》,這兩本書的特點是前者用21萬字詳細說明了搜索引擎的原理,后者穿插了一些實際的案例來講解具體優(yōu)化技巧,所以從一定程度上講,你看完兩本書之后,你如果說還不會做搜索引擎優(yōu)化、還是被割韭菜,那么不好意思,你可以遠離這個行業(yè)了。
但是第1本書的唯一的缺點就是有一定的專業(yè)度,對新手小白真的不是很友好,因為這本書的作者是一位博士。書中穿插了不少公式,所以降維打擊還是挺厲害的。
這本書把搜索引擎劃分了4個部分,下載系統(tǒng)、分析系統(tǒng),索引系統(tǒng)、查詢系統(tǒng)。還是老規(guī)矩,我簡單的4個部分做個總結(jié)。
一、下載系統(tǒng)
下載系統(tǒng)事實上其實也就是我們說的下載各類型的頁面,談到下載系統(tǒng)肯定要少不了爬蟲系統(tǒng),這部分內(nèi)容主要講起了他從以什么方式去抓頁面和抓取策略的介紹,我直接拿例子做說明,在下載系統(tǒng)中按照域名分解抓取任務(wù)的工作由一個調(diào)度員的模塊來處理。通過域名分解將不同的網(wǎng)頁調(diào)度給不同的爬蟲進行抓取。
(1)調(diào)度員通過更新規(guī)則向URL請求一個URL 抓取任務(wù)。
(2)調(diào)度員計算出該URL,然后分配給編號為0的爬蟲抓取。
(3)爬蟲0實際抓取的網(wǎng)頁存放在 Page庫中。
(4)爬蟲0在抓取的網(wǎng)頁中提取其他鏈接后反饋給調(diào)度員。
(5)調(diào)度員判斷網(wǎng)頁類型,并設(shè)定初始更新時間等后存放在URL庫中,繼續(xù)轉(zhuǎn)(1),周而復(fù)始。
二、分析系統(tǒng)
分析系統(tǒng)其實就是信息抽取及網(wǎng)頁信息結(jié)構(gòu)化。這句話怎么理解呢?事實上蜘蛛在抓取的url中去分析處理頁面信息。在這一部分我們就需要注意點一個叫標簽樹的東西。而在處理這個過程需要標簽分析棧,在這個過程中,其實就是提取代碼塊中的文本,我們這里舉個例子:
測試1
測試2
測試3
...
分析系統(tǒng)從進棧到退棧之后,只會提取到測試1,測試2,測試3等文本信息,那么如何判斷出哪些是正文信息呢?這里就需要用到投票方法,通過不同的規(guī)則去打分,打分越高的那一部分就是正文部分,怎么理解呢?比如我們得到文本塊文本長度<10個字,得分為0,10-50個字得分5等依次類推。同樣的,文本塊文本在左側(cè)位置加分5,右側(cè)位置是0,中間部分是10,換句話說,打分越高的會被判斷成正文,打分低的會被判斷成廣告或者無效信息,那么百度判斷內(nèi)容的時候,也是根據(jù)這些內(nèi)容判斷的。
提到分析肯定就少不了網(wǎng)頁查重。這也是決定了頁面是否收錄的關(guān)鍵因素,在這一部分的實現(xiàn)方法中用的最多的就是l-Match算法和Shingle 算法。
這兩種算法的不同之處在于前者去掉高頻和低頻詞匯后的詞匯通過排序得到一個字符串,使用簽名算法獲得該字符串的簽名。如果有其他文檔和這個簽名值相同,則判定為相似。
后者采取抽瓦片方式去把一個文檔轉(zhuǎn)化為一組字符串集合(每個元素為一個Shingle),因此判斷兩個文檔的相似性就轉(zhuǎn)化為字符串集合的相似性。(我知道你聽不懂,我舉個例子)
比如這有兩段話:
第一段:中國足球隊在米盧的率領(lǐng)下首次獲得世界杯決賽階段的比賽資格,新浪體育播報。第二段:米盧率領(lǐng)中國足球隊首次殺入世界杯決賽階段,搜狐體育播報
l-Match算法
Shingle 算法
一般說來,網(wǎng)頁查重至少需要如下3個主要步驟:
(1)特征抽取
(2)相似度計算、評價是否相似。
(3)消重
PS:判斷內(nèi)容原創(chuàng)度方面還是依據(jù)時間戳和爬蟲爬取頁面先后順序,也就說先被爬蟲爬取的,時間早的,基本判斷是原創(chuàng)。
到達這一步之后就會分詞,事實上市面上分詞軟件有很多,這里就不做做介紹了,分詞基本上是按照字典分詞和統(tǒng)計分詞方法。我這里舉個例子:
走進搜索引擎
分詞后的最終實際結(jié)果是走進/搜索引擎,不要問為什么?
這里提到一個PR模型,也就是我們經(jīng)常說的網(wǎng)頁投票。從實際的應(yīng)用來看就是我們需要對頁面進行內(nèi)鏈處理。
總結(jié) 一下:
三、索引系統(tǒng)
索引系統(tǒng)是一個復(fù)雜的工作流程,這里面涉及到倒排索引,倒排表,臨時倒排文件,最終倒排文件,這里大概就講一下系統(tǒng)會把一個個頁面處理成文檔編號,然后通過一系列計算形成正排表和倒排表。
四、查詢系統(tǒng)
4個系統(tǒng)中只有查詢系統(tǒng)是面對用戶的,對于信息的量化問題,我們需要知道一個「信息嫡」(shang)的概念。另外用戶提交的是一個query,但對搜索引擎來說,它需要處理的是一個檢索詞。這一部分會用到布爾檢索模型。我們還是舉個例子:比如用戶搜索引擎系統(tǒng)構(gòu)成這個詞,那么下面有3個段落:
(1)在傳統(tǒng)搜索引擎架構(gòu)中,搜索引擎由4個系統(tǒng)構(gòu)成,分別是下載系統(tǒng)、分析系統(tǒng)、索引系統(tǒng)及查詢系統(tǒng)。
(2)機械行業(yè)內(nèi)一般把小型挖掘簡稱為小挖,小挖由5個系統(tǒng)構(gòu)成,分別是……,詳細地理解這些名詞可以使用Google 搜索引擎搜索一下。
(3)搜索引擎有4個主要功能模塊,分別是下載系統(tǒng),分析系統(tǒng),索引系統(tǒng)和查詢系統(tǒng)。這4個系統(tǒng)是搜索引擎的核心,其中查詢系統(tǒng)是搜索引擎唯—直接面對客戶的系統(tǒng)。
顯而易見的,用戶在查詢搜索引擎系統(tǒng)構(gòu)成,而百度是在檢索搜索引擎、系統(tǒng)構(gòu)成,那么以上3個頁面中1、2都 包含這兩個詞,尤其第一個,在直觀來講,1相關(guān)性更好,但是布爾檢索模型只解決有和沒有問題,不解決好和不好的問題。
所以就要引入向量空間模型,這個模型把文字進行向量相似度計算,向量化的過程對一個文檔按照關(guān)鍵詞維度進行向量化,舉個例子,走進搜索引擎,學(xué)習(xí)搜索引擎,那么分詞后結(jié)果是,走進(1),學(xué)習(xí)(1),搜索引擎(2),那么這個短句的向量化計算是(2,1,1)。
按照剛才搜索結(jié)果來看,事實上是無法搜索出(3)的,所以,我們就需要經(jīng)典的TF/IDF權(quán)重計算方法。(TF/IDF參考相關(guān)資料)
那么頁面是如何排序的呢?算法通過計算文檔向量和查詢向量的夾角余弦求得向量相似度(一個可以量化的數(shù)值),排序就按照這個數(shù)的大小關(guān)系進行排列。
由于搜索結(jié)果是海量的,用戶也幾乎不會耐著性子看完全部的檢索結(jié)果。有調(diào)查表明,大部分的用戶使用搜索引擎查詢時,在得到搜索結(jié)果頁后不會向下翻頁,而只關(guān)注搜索結(jié)果的第1 頁。
總結(jié)一下:
查詢系統(tǒng)中所謂的頁面排序,事實上是依據(jù)相關(guān)度、頁面重要級別等因素排序,這也是為什么有的人覺得同樣都是一篇文章,為什么人家的頁面比你排名高,原因在于別人的頁面被投票次數(shù)多的多。(這個頁面投票可能是外鏈或內(nèi)鏈投票)
看完這兩本書,感觸頗深,這兩本書的含金量都遠高于其他SEO的書籍,至少在我目前看到書中,已經(jīng)找不到跟這兩本書所媲美的了。
相信行業(yè)的從業(yè)人員,除了采集和快排,書中的很多東西恐怕很多人也不了解,也不熟悉,所以如果你對這方面的東西感興趣,建議好好看看,最起碼可以避免被割韭菜,還能變相的提高知識面。
比如說花幾千學(xué)個TDK?或者說花幾千就學(xué)到個基礎(chǔ)的東西,拉倒吧,這TM就是割韭菜。
掃描二維碼推送至手機訪問。
版權(quán)聲明:本文由信途科技轉(zhuǎn)載于網(wǎng)絡(luò),如有侵權(quán)聯(lián)系站長刪除。
轉(zhuǎn)載請注明出處http://www.quickersubmitter.com/xintu/18795.html