網站 SEO 排名殺手,重複內容的解決大全
willie
By: willie

網站 SEO 排名殺手,重複內容的解決大全

分類: 網站設計與架設 標籤: |

在搜尋引擎優化(Search Engine Optimization, SEO)過程裡,搜尋引擎結果頁(Search Engine Results Page, SERP)的排名是相當重要的指標。而我們今天的主題 – 重複內容,是嚴重損害網站排名的敵人之一!

#1 什麼是重複內容?

根據 Google 文件的定義,重複內容通常是指一個(或多個)網域中完全(或大致)與其他內容相符的實質內容區塊,其實只要在不同的網址(URL)出現大致相同的內容就可以被稱為重複內容。

講到這裡需要先提到 URL 的組成,URL 是指一個網頁的完整連結,通常包含了三個部分(如下範例):

URL的介紹
  1. 連線的協定
  2. 網域
  3. 資料夾和檔案名稱

換句話說,整個網站基本上是由很多小資料夾以及檔案組合而成的資料集,而網域是這個資料集的名稱。

一般而言,重複內容本身並不構成欺騙行為,常見的重複內容出現於電商的同款不同色的衣服等,其實只要不是刻意的詐欺、欺騙內容,意圖影響 SERP 的排名,Google 對於重複內容(Duplicate Content)或重複頁面(Duplicate Pages)並不會懲罰,也不會導致 SERP 的排名下降,不過一旦重複內容是涉及欺騙,那麼就不僅僅是排名下降,而是會直接遭到 Google 將涉及詐騙的網站直接從 SERP 當中移除。

雖然說 Google 官方文件指出"只要不是刻意的詐欺、欺騙內容,就不會對重複頁面或重複內容進行懲罰",但這種模稜兩可的宣稱,官方並沒有提供任何保證,所以在實務上,盡可能的減少與降低重複內容才是最安全的做法。

網站 SEO 排名殺手,重複內容的解決大全

#2 重複內容會有哪些危害?

這裡我們整理出四種重複內容會造成的危害:

  1. 不利於 SERP 排名表現
  2. 影響搜尋引擎爬蟲爬取網站的效率
  3. 傷害使用者體驗
  4. 分散權重

接著讓我們逐一介紹這四種重複內容造成的危害以及背後起因。

#2-1 不利於 SERP 排名表現

前 Google 資深工程師曾在2013年表示: 在 Google 搜尋引擎數據資料庫裡,約有 25%~30% 的網頁內容重複。這會透過內部演算法(如網域的權重、網站可信度、外部連結品質等)進行分析並排序,將認為的原創內容網頁顯示在搜尋引擎結果頁中,而將其餘的網頁隱藏或降低排名(如下圖)。

重複內容影響排名

#2-2 影響搜尋引擎爬蟲爬取網站的效率

當搜尋引擎爬蟲在爬取網站時,重複爬取太多重複頁面,當要收錄進資料庫會需要耗費更多的運算資源來決定該顯示哪個版本,久而久之,為了搜尋引擎為了增加效率,可能會降低這個網站的權重,或是降低爬蟲爬取網站的頻率,會間接地影響網站在 SEO 的表現。

#2-3 傷害使用者體驗

在非欺騙或惡意製造重複內容的前提下,重複內容的出現更多是出自於技術性或非人為所造成的,這種狀況大部分都是可以透過技術層面的手段排除,就算沒辦法完全讓重複內容消失(基本上也不太可能),只要重複內容的產生不要太奇怪,Google 基本上是不會進行大幅度的調整與懲罰的。

最明顯的例子是內容農場型的網站,基本上站內都有很多重複內容,為了營造內容豐富的假象贏得更多流量、謀取廣告費,甚至操縱排名和外部連結等,這種欺騙性的重複內容作法,除了傷害使用者體驗外,也容易被搜尋引擎盯上並進行懲罰。

另一個情況是,在多個網域中置入同樣的重複內容,這種行為會讓使用者在 SERP 中看到許多幾乎相同的內容,導致使用者體驗大打折扣(因為 Google 致力在 SERP 顯示多元的結果)。

來源:避免重複內容| Google 搜尋中心 | 說明文件

#2-4 分散權重

當我們了解 Google 為增加使用者體驗在搜尋引擎結果頁上所做的努力後,如果一個網站出現幾篇內容相似的文章(換句話說就是以同樣的關鍵字產出內容),這時 Google 當要顯示這個關鍵字的搜尋引擎結果時,這幾篇重複內容的文章就會分散關鍵字的權重,反而讓搜尋引擎結果頁的最高排名下降。

另外,重複頁面也會影響外部連結的數量,當一篇好的文章內容被分享、轉發到不同網站時,就會獲得外部連結,外部連結可以被視為其他網站為這篇文章投下一張信任票,這除了能夠提高文章頁面的權重,也會增加整個網站的權重,這時候如果有三種版本的網址都能夠連到這篇文章時,我們沒辦法確定被分享是同一個網址,這就會導致信任票數被分散,最終會導致降低 SEO 的表現。

網站 SEO 排名殺手,重複內容的解決大全

#3 重複內容有哪些種類?

由於重複內容的類型非常多種,解決方法也各不相同,這裡我們可以從網域(domain)來進行分類:

#3-1 同網域(網站內的重複內容)

HTTP 與 HTTPS 版本

早期的時候,許多網站都還是 HTTP 協定,但在 Google 一直倡導網站採用 HTTPS 加密協定後,現在 HTTP 網站反而比較少見了。

作為影響排名的 SEO 因素之一,如果網站最初是 HTTP 協定,在購買了 SSL 憑證擁有 HTTPS 後,卻沒有將網站所有頁面都重新指向到 HTTPS 的話,那麼就會發生同時間擁有 HTTP 與 HTTPS 兩種頁面卻擁有一樣的內容。

WWW 與 non-WWW

這個問題與 HTTP、HTTPS 情況類似,也就是網域可以同時經由 www.example.com 或 example.com 進行訪問。而這兩個網址都是呈現相同的內容。

後綴網址

許多使用 .html、.php 或是 .asp 的網站,其主頁通常會是 example.com/index.html 的格式,而你會發現,有時這類型的網站不管是輸入 example.com 或是 example.com/index.html,都可以進入到相同的首頁內容。

產品變化

最常見的就是電商網站,這類型網站內都有許多的單一商品頁面,但不同型號或配色而產生許多內容大致相同的商品頁(如下圖)。

產品頁的重複內容

這些不同規格的產品頁,事實上是同一種產品,只是產品的規格不同,因此除了產品的圖片以及產品名稱之外,其他內容基本會一模一樣,這些都算是重複內容,但如果這個產品頁有分產品規格,比如顏色、型號等,但卻還是在同一個網址,那就沒有重複內容問題!

#3-2 不同網域的(不同網站間的重複內容)

不論是商業合作、自主投稿,當我們到不同網站推廣,或是文章內容被自主分享到其他網站時,這些都算是跨網域的重複內容。

其實很多時候,在判斷不同網站間的重複內容時,哪個是原創版本?哪個只是轉載?搜尋引擎很有可能會發生判斷失準的情況,以致於原創內容的網站在 SERP 的排名表現反而比較差。

#4 重複內容的解決方法

#4-1 同網域

利用 301 轉址

  • HTTP 與 HTTPS
  • WWW 與 non-WWW
  • 後綴網址

上面這三種因為網址變化而產生的重複內容,我們都可以利用 301 轉址來解決,透過 .htaccess 檔案設定,利用 301 轉址將不要的頁面重新導向到同一個頁面,比如將 HTTP 自動轉址到 HTTPS 版本的網址,這樣可以讓搜索引擎知道這些頁面已經被更新或移動,將特定網頁權重集中,以獲得更好的排名。

不過使用轉址解決問題要特別注意,使用者將不能瀏覽被轉址的網頁(會被跳轉),因此如果該頁面雖然內容重複,但是希望讓使用者能夠看到(例如:不同顏色的商品、特殊的活動頁)就不適合用轉址解決。

利用 HTML 語法設定 Canonical 標記

不同型號或配色而產生許多內容大致相同的商品頁,這類型的重複內容建議使用 Canonical 標記(標準網址標記)來處理,我們不是要讓看到的商品頁被 301 轉址到特定頁面,這只會降低使用者體驗(因為不能瀏覽不同型號的頁面了)。

Canonical 標記是由 Google 所提出,是 HTML 語法的標記之一,這個標記會幫助 Google 了解網站特定頁面的重複內容,當我們設定好標準網址後,其他重複內容都會被認為是標準網址的不同變化而已,理論上的意涵就是將關鍵字的權重集中到標準網址頁面上。

我們可以在網頁 <head> 的區塊裡增加 <link> 標籤來指出該網頁與其他網頁內容重複。這裡我們舉個例子,當我們要有紅、藍、綠三色同樣款式的洋裝,並且以綠色洋裝作為標準網址 https://example.com/洋裝/綠色洋裝 時,可以依照下列步驟設定:

  1. 綠色洋裝不用加 Canonical 標記!(準確的說是加入沒有幫助,但如果不小心指到別頁就會有壞處。)
  2. 在紅、藍洋裝的商品頁中 <head> 區塊內中新增 <link> 標籤
  3. 設定 rel=”canonical”
  4. 設定 href 再加入標準網址 https://example.com/洋裝/綠色洋裝
<html>
<head>
<link rel="canonical" href="https://example.com/洋裝/綠色洋裝">
</head>
</html>

接著搜尋引擎便會知道這三個頁面之間的關係,三個頁面都是同一種產品,綠色洋裝為標準網址,紅、藍兩色的商品頁為重複內容,並且在 SERP 中只出現綠色洋裝的頁面。設定標準網址還有個好處,就是當紅、藍洋裝也獲得外部連結時,Google 會把權重都放進綠色洋裝中(但只是理論上,因為 Google 官方不保證我們所寫的 canonical 標記會被採用)。

添加 noindex 標記

我們也可以使用 noindex 標記,來避免重複內容的產生,noindex 的含意是告訴 Google 不要收錄某個頁面,那就不會出現在 SERP 中(但爬蟲還是會爬這個頁面的內容),舉例來說,假如網站的許多頁面資訊都有「普通」和「列印」版本,可以在列印版本的頁面添加 noindex 標籤,避免 Google 判定網站有過多的重複頁面。

做法跟 Canonical 標記類似,在網頁的 <head> 區段裡的<meta>標籤加入 noindex 標記:

<html>
<head>
<meta name="robots" content="noindex">
</head>
</html>

網站內容優化

在消除重複內容的問題時,我們也可能從網站內容部分著手,檢查網站時如果發現有兩個頁面的內容有部分相似,但仍有所不同,可以重新思考這兩個頁面資訊想要呈現的差異性,將這兩個頁面內容做出差異化。

這種方式可以讓網站的整體架構更加清晰,當我們讓每個頁面都有獨特的主題與內容,也能增進使用者體驗,獲得更好的 SEO 效果。

另外,當我們努力將網站中大量相似的內容整合成為單一篇文章,除了能夠降低重複性,還能讓單篇文章的內容篇幅更長,所觸及的深度更廣,大大提升單篇文章的品質,提供使用者真正想看的資訊,增加使用者體驗才是最優解。

#4-2 不同網域

商業合作、自主投稿到不同網站,或是其他網站自主分享原創內容等這些基本上都難以以上面談到的方式來避免,雖然沒有刻意要製造重複內容,但是在定義上來說就是!這時候只能事後通知其他網站加上引用連結以及請對方加上 canonical 標記,或是檢舉文章侵權盜用等消極的方式處理,不過還是有一些方式能盡量處理這方面的重複內容,那就是:

管控文章的刊登處以及刊登時間

如果是以優化自有網站的關鍵字排名為目的的話,比較建議不要在其他網站投稿(當然這還是無法避免盜用、侵權等行為),如果投稿的網站在搜尋引擎演算法的分數比自有網站高得多,就可能發生搜尋引擎認為投稿網站才是原創者的情況。

如果文章的目的是曝光或宣傳時,那在自有網站先刊登文章,間隔一段時間(可以抓個幾周到一個月,或是透過 Search Console 告知 Google 自有網站已經新增頁面,請來更新並收錄這篇文章),再將文章刊登到其他投稿網站,這樣可以盡量避免搜尋引擎不了解原創文章出處,但即使如此我們依然無法保證排名一定不會受到影響,這也是商業合作在 SEO 上要考量到的風險之一!

網站內容優化

#5 重複內容的檢查工具

#5-1 同網域

Search Console

在【體驗】區段的『網頁體驗』裡,可以看到非 HTTPS 網址HTTPS 網址的頁面數量,再交叉比對找出是否有重複頁面。

在【成效】區段的『搜尋結果』裡,我們可以比對使用同一個關鍵字進入網站的到達頁面清單,比對是否有內容大致相同的網頁是同個關鍵字的到達頁面。

在『改善HTML』報表內,Google 會整理出不同網址的頁面,卻有 一模一樣 的 Title 與 Description 的清單,這基本上就會被判定為無意義的重複內容,我們就可以從這份清單逐步檢查網站的重複頁面。(改版後已沒有這功能)

Google Analytics

可以從【行為】→【網站內容】→【所有網頁】看到網站被 Google 收錄的所有頁面,我們先篩選出流量較低的頁面,再檢查是有否可以從不同版本的網址進入同個頁面,這個方法雖然可以確實檢測出重複內容,但是需要耗費許多時間。

Google 搜尋指令 site

在自有網站域名前加site:,網址的最後面再加上關鍵字,查看是否有相同或相似的內容出現在多個頁面上。

其他付費工具(如Screaming Frog、Ahrefs、Semrush 等)

上面提到的三種方式都是透過 Google 已收錄以及有流量的網頁做檢測,但這不代表網站內沒有重複內容,這時我們就可以使用外部的付費工具對網站進行全面的內容和架構分析,以判斷是否存在重複內容問題。

#5-2 不同網域

目前要尋找不同網域的重複內容就只能依靠在搜尋引擎輸入關鍵字直接查詢,例如我們可以複製網站文章的一小段內容,用 Google 搜尋網站內容是不是有重複,看網站內容是不是有被抄襲或引用?如果有發現內容重複,或是對方網站引用卻沒有提供原始出處的連結,都可以主動告知對方,如對方不改善可以針對事實向 Google 檢舉,根據〈數位千禧年著作權法 (DMCA)〉進行申訴。

重複內容的解決辦法-申訴

#6 總結

重複內容是網站常見的問題,且很可能對網站的 SEO 表現產生負面影響,要解決這個問題,我們需要對網站內容進行全面的審查,並采取相應的措施,如刪除或合併頁面、修改內容、使用 301 轉址、使用 canonical 標記以及創建有價值的內容等。

此外,解決重複內容問題也需要持續的努力和定期反覆檢驗網站狀況。因為網站的內容會不斷更新和增加,搜索引擎也會不斷調整排名演算法。

#7 常見問題

有想法嗎?我們很期待與你交流喔~

發佈留言必須填寫的電子郵件地址不會公開。 必填欄位標示為 *

專欄主題

    • 數位轉型 cover
    • 數位轉型 page

    數位轉型知識手冊

    by Procrustes 作者群

    「數位轉型」並不是一個解決方案,而是一種企業經營的思維:「持續性的改善並迭代,最終才能創造高效率、高收益的企業體質!」,Procrustes 收錄各種對數位轉型有幫助的文章,讓你了解數位轉型的執行關鍵。

    • seo-guide-cover
    • seo-guide-page

    SEO 入門指南:全面掌握 SEO 基本知識

    by 賴彤兒(Tony)

    此指南以深入淺出的方式整理所有 SEO 相關知識,並以合理的結構整理,讓你能在短時間內掌握 SEO 龐大的知識體系,是你進入 SEO 領域最好的入門磚。

更多優質文章