2020AV天堂网,午夜色色视频,美女黄片免费观看,欧美黄色电影网站,亚洲人在线

商業(yè)新聞

商業(yè)新聞
首頁 > 新聞資訊 > 商業(yè)新聞 > 正文內(nèi)容

網(wǎng)絡(luò)推廣方面的書籍(網(wǎng)絡(luò)推廣方案案例)

時間:2023-11-30 信途科技商業(yè)新聞

最近看了關(guān)于推廣的4本書,有兩本書讓我印象最深刻,一本是《走進搜索引擎》,另外一本是《SEO 搜索引擎優(yōu)化:技巧、策略與實戰(zhàn)案例》,這兩本書的特點是前者用21萬字詳細說明了搜索引擎的原理,后者穿插了一些實際的案例來講解具體優(yōu)化技巧,所以從一定程度上講,你看完兩本書之后,你如果說還不會做搜索引擎優(yōu)化、還是被割韭菜,那么不好意思,你可以遠離這個行業(yè)了。

但是第1本書的唯一的缺點就是有一定的專業(yè)度,對新手小白真的不是很友好,因為這本書的作者是一位博士。書中穿插了不少公式,所以降維打擊還是挺厲害的。

這本書把搜索引擎劃分了4個部分,下載系統(tǒng)、分析系統(tǒng),索引系統(tǒng)、查詢系統(tǒng)。還是老規(guī)矩,我簡單的4個部分做個總結(jié)。

一、下載系統(tǒng)

下載系統(tǒng)事實上其實也就是我們說的下載各類型的頁面,談到下載系統(tǒng)肯定要少不了爬蟲系統(tǒng),這部分內(nèi)容主要講起了他從以什么方式去抓頁面和抓取策略的介紹,我直接拿例子做說明,在下載系統(tǒng)中按照域名分解抓取任務(wù)的工作由一個調(diào)度員的模塊來處理。通過域名分解將不同的網(wǎng)頁調(diào)度給不同的爬蟲進行抓取。

(1)調(diào)度員通過更新規(guī)則向URL請求一個URL 抓取任務(wù)。

(2)調(diào)度員計算出該URL,然后分配給編號為0的爬蟲抓取。

(3)爬蟲0實際抓取的網(wǎng)頁存放在 Page庫中。

(4)爬蟲0在抓取的網(wǎng)頁中提取其他鏈接后反饋給調(diào)度員。

(5)調(diào)度員判斷網(wǎng)頁類型,并設(shè)定初始更新時間等后存放在URL庫中,繼續(xù)轉(zhuǎn)(1),周而復(fù)始。

二、分析系統(tǒng)

分析系統(tǒng)其實就是信息抽取及網(wǎng)頁信息結(jié)構(gòu)化。這句話怎么理解呢?事實上蜘蛛在抓取的url中去分析處理頁面信息。在這一部分我們就需要注意點一個叫標簽樹的東西。而在處理這個過程需要標簽分析棧,在這個過程中,其實就是提取代碼塊中的文本,我們這里舉個例子:

測試1

測試2

測試3

...

分析系統(tǒng)從進棧到退棧之后,只會提取到測試1,測試2,測試3等文本信息,那么如何判斷出哪些是正文信息呢?這里就需要用到投票方法,通過不同的規(guī)則去打分,打分越高的那一部分就是正文部分,怎么理解呢?比如我們得到文本塊文本長度<10個字,得分為0,10-50個字得分5等依次類推。同樣的,文本塊文本在左側(cè)位置加分5,右側(cè)位置是0,中間部分是10,換句話說,打分越高的會被判斷成正文,打分低的會被判斷成廣告或者無效信息,那么百度判斷內(nèi)容的時候,也是根據(jù)這些內(nèi)容判斷的。

提到分析肯定就少不了網(wǎng)頁查重。這也是決定了頁面是否收錄的關(guān)鍵因素,在這一部分的實現(xiàn)方法中用的最多的就是l-Match算法和Shingle 算法。

這兩種算法的不同之處在于前者去掉高頻和低頻詞匯后的詞匯通過排序得到一個字符串,使用簽名算法獲得該字符串的簽名。如果有其他文檔和這個簽名值相同,則判定為相似。

后者采取抽瓦片方式去把一個文檔轉(zhuǎn)化為一組字符串集合(每個元素為一個Shingle),因此判斷兩個文檔的相似性就轉(zhuǎn)化為字符串集合的相似性。(我知道你聽不懂,我舉個例子)

比如這有兩段話:

第一段:中國足球隊在米盧的率領(lǐng)下首次獲得世界杯決賽階段的比賽資格,新浪體育播報。第二段:米盧率領(lǐng)中國足球隊首次殺入世界杯決賽階段,搜狐體育播報

l-Match算法

Shingle 算法

一般說來,網(wǎng)頁查重至少需要如下3個主要步驟:

(1)特征抽取

(2)相似度計算、評價是否相似。

(3)消重

PS:判斷內(nèi)容原創(chuàng)度方面還是依據(jù)時間戳和爬蟲爬取頁面先后順序,也就說先被爬蟲爬取的,時間早的,基本判斷是原創(chuàng)。

到達這一步之后就會分詞,事實上市面上分詞軟件有很多,這里就不做做介紹了,分詞基本上是按照字典分詞和統(tǒng)計分詞方法。我這里舉個例子:

走進搜索引擎

分詞后的最終實際結(jié)果是走進/搜索引擎,不要問為什么?

這里提到一個PR模型,也就是我們經(jīng)常說的網(wǎng)頁投票。從實際的應(yīng)用來看就是我們需要對頁面進行內(nèi)鏈處理。

總結(jié) 一下:

三、索引系統(tǒng)

索引系統(tǒng)是一個復(fù)雜的工作流程,這里面涉及到倒排索引,倒排表,臨時倒排文件,最終倒排文件,這里大概就講一下系統(tǒng)會把一個個頁面處理成文檔編號,然后通過一系列計算形成正排表和倒排表。

四、查詢系統(tǒng)

4個系統(tǒng)中只有查詢系統(tǒng)是面對用戶的,對于信息的量化問題,我們需要知道一個「信息嫡」(shang)的概念。另外用戶提交的是一個query,但對搜索引擎來說,它需要處理的是一個檢索詞。這一部分會用到布爾檢索模型。我們還是舉個例子:比如用戶搜索引擎系統(tǒng)構(gòu)成這個詞,那么下面有3個段落:

(1)在傳統(tǒng)搜索引擎架構(gòu)中,搜索引擎由4個系統(tǒng)構(gòu)成,分別是下載系統(tǒng)、分析系統(tǒng)、索引系統(tǒng)及查詢系統(tǒng)。

(2)機械行業(yè)內(nèi)一般把小型挖掘簡稱為小挖,小挖由5個系統(tǒng)構(gòu)成,分別是……,詳細地理解這些名詞可以使用Google 搜索引擎搜索一下。

(3)搜索引擎有4個主要功能模塊,分別是下載系統(tǒng),分析系統(tǒng),索引系統(tǒng)和查詢系統(tǒng)。這4個系統(tǒng)是搜索引擎的核心,其中查詢系統(tǒng)是搜索引擎唯—直接面對客戶的系統(tǒng)。

顯而易見的,用戶在查詢搜索引擎系統(tǒng)構(gòu)成,而百度是在檢索搜索引擎、系統(tǒng)構(gòu)成,那么以上3個頁面中1、2都 包含這兩個詞,尤其第一個,在直觀來講,1相關(guān)性更好,但是布爾檢索模型只解決有和沒有問題,不解決好和不好的問題。

所以就要引入向量空間模型,這個模型把文字進行向量相似度計算,向量化的過程對一個文檔按照關(guān)鍵詞維度進行向量化,舉個例子,走進搜索引擎,學(xué)習(xí)搜索引擎,那么分詞后結(jié)果是,走進(1),學(xué)習(xí)(1),搜索引擎(2),那么這個短句的向量化計算是(2,1,1)。

按照剛才搜索結(jié)果來看,事實上是無法搜索出(3)的,所以,我們就需要經(jīng)典的TF/IDF權(quán)重計算方法。(TF/IDF參考相關(guān)資料)

那么頁面是如何排序的呢?算法通過計算文檔向量和查詢向量的夾角余弦求得向量相似度(一個可以量化的數(shù)值),排序就按照這個數(shù)的大小關(guān)系進行排列。

由于搜索結(jié)果是海量的,用戶也幾乎不會耐著性子看完全部的檢索結(jié)果。有調(diào)查表明,大部分的用戶使用搜索引擎查詢時,在得到搜索結(jié)果頁后不會向下翻頁,而只關(guān)注搜索結(jié)果的第1 頁。

總結(jié)一下:

查詢系統(tǒng)中所謂的頁面排序,事實上是依據(jù)相關(guān)度、頁面重要級別等因素排序,這也是為什么有的人覺得同樣都是一篇文章,為什么人家的頁面比你排名高,原因在于別人的頁面被投票次數(shù)多的多。(這個頁面投票可能是外鏈或內(nèi)鏈投票)

看完這兩本書,感觸頗深,這兩本書的含金量都遠高于其他SEO的書籍,至少在我目前看到書中,已經(jīng)找不到跟這兩本書所媲美的了。

相信行業(yè)的從業(yè)人員,除了采集和快排,書中的很多東西恐怕很多人也不了解,也不熟悉,所以如果你對這方面的東西感興趣,建議好好看看,最起碼可以避免被割韭菜,還能變相的提高知識面。

比如說花幾千學(xué)個TDK?或者說花幾千就學(xué)到個基礎(chǔ)的東西,拉倒吧,這TM就是割韭菜。

掃描二維碼推送至手機訪問。

版權(quán)聲明:本文由信途科技轉(zhuǎn)載于網(wǎng)絡(luò),如有侵權(quán)聯(lián)系站長刪除。

轉(zhuǎn)載請注明出處http://www.quickersubmitter.com/xintu/18795.html

相關(guān)文章

關(guān)于鹽田網(wǎng)絡(luò)營銷網(wǎng)站制作都有哪些的信息

目前,網(wǎng)絡(luò)營銷推廣受到了廣泛的關(guān)注,同時又是新一輪的營銷革 取決于內(nèi)容是否符合網(wǎng)站內(nèi)容顧客要求眾所周知,制作原創(chuàng)內(nèi)。網(wǎng)絡(luò)安全及網(wǎng)站管理員勞務(wù)派遣5名工作地點鹽田區(qū)龍 施工圖制作和后期建筑圖紙修改獨立承...

信陽新站關(guān)鍵詞優(yōu)化排名技術(shù)(新站整站關(guān)鍵詞排名)

轉(zhuǎn)自:江西疾控4月29日,上海新增1249例新冠肺炎確診病例和8932例無癥狀感染者;江蘇新增5例確診病例和15例無癥狀感染者;浙江新增8例確診病例和22例無癥狀感染者;江西新增2例確診病例和68例無...

搜狗關(guān)鍵詞排名工具(搜狗手機關(guān)鍵詞排名公司)

最近很多搜狗站長問我的搜狗收錄怎么做搜狗關(guān)鍵詞排名工具?別人的百萬蜘蛛是怎么實現(xiàn)的 搜狗關(guān)鍵詞排名工具,有沒有搜狗泛收錄的方法?搜狗收錄究竟應(yīng)該怎么做?今天我針對這些問題統(tǒng)一發(fā)表一下我的個人見解。搜狗...

哈爾濱關(guān)鍵詞排名的簡單介紹

哈爾濱留學(xué)中介排名前十?哈爾濱留學(xué)中介排名?真的有哈爾濱留學(xué)中介排名前十的問題么?一到暑期哈爾濱關(guān)鍵詞排名,就有很多留學(xué)機構(gòu)放出來各種所謂的排名哈爾濱關(guān)鍵詞排名,關(guān)于這個排名問題哈爾濱關(guān)鍵詞排名,筆者...

給企業(yè)做網(wǎng)站的銷售工作(做網(wǎng)站的銷售工作好嗎)

怎么才能做好企業(yè)網(wǎng)絡(luò)營銷  第一個關(guān)鍵詞,營銷體系。百度競價是網(wǎng)絡(luò)營銷的一部分,也是企業(yè)整體營銷的一個重要部分,傳統(tǒng)的營銷已經(jīng)不能完全適應(yīng)如今的互聯(lián)網(wǎng)發(fā)展模式,網(wǎng)絡(luò)營銷就成了兵家必爭之地。競價只是網(wǎng)絡(luò)...

平臺推廣費用包含(平臺推廣費用一般是多少)

平臺推廣費用包含(平臺推廣費用一般是多少)

百度的推廣形式有哪些,費用是怎么計算的? 百度推廣業(yè)務(wù),分為競價推廣和網(wǎng)盟推廣等幾個部份。百度競價推廣,當(dāng)用戶搜某個關(guān)鍵詞時,會把在該關(guān)鍵詞搜索結(jié)果中,展現(xiàn)用戶投放的廣告創(chuàng)意。這種推廣方式是按點擊付費...

現(xiàn)在,非常期待與您的又一次邂逅

我們努力讓每一次邂逅總能超越期待

  • 效果付費
    效果付費

    先出效果再付費

  • 極速交付
    極速交付

    響應(yīng)速度快,有效節(jié)省客戶時間

  • 1對1服務(wù)
    1對1服務(wù)

    專屬客服對接咨詢

  • 持續(xù)更新
    持續(xù)更新

    不斷升級維護,更好服務(wù)用戶