導航:首頁 > 知識產權 > robots協議與著作權

robots協議與著作權

發布時間：2021-02-12 07:11:38

㈠網站收錄了首頁之後用robots協議禁止了。之後又允許了,還能被收錄嗎時間大概是多長

robots放開許可權後，搜索引擎會觀察一段時間，大概一周之後就會重新抓取版
你可以給網站重權新提交下sitemap，多做些外鏈引導蜘蛛去抓取，當然頁面能不能收錄
取決於頁面內容的質量符不符合收錄要求，蜘蛛有抓取不一定會被收錄。

㈡ robots協議是什麼

Robots是一抄個英文單詞，對英語比較懂的朋友相信都知道，Robots的中文意思是機器人。而我們通常提到的主要是Robots協議，Robots.txt被稱之為機器人或Robots協議（也稱為爬蟲協議、機器人協議等）它的全稱是「網路爬蟲排除標准」
英文「Robots Exclusion Protocol」這也是搜索引擎的國際默認公約。我們網站可以通過Robots協議從而告訴搜索引擎的蜘蛛哪些頁面可以抓取，哪些頁面不能抓取。Robots協議的本質是網站和搜索引擎爬蟲的溝通方式，是用來指引搜索引擎更好地抓取網站里的內容。
比如說，一個搜索蜘蛛訪問一個網站時，它第一個首先檢查的文件就是該網站的根目錄里有沒有robots.txt文件。
如果有，蜘蛛就會按照該文件中的條件代碼來確定能訪問什麼頁面或內容；如果沒有協議文件的不存在，所有的搜索蜘蛛將能夠訪問網站上所有沒有被協議限制的內容頁面。
而網路官方上的建議是：僅當您的網站包含不希望被搜索引擎收錄的內容時，才需要使用robots.txt文件進行屏蔽。而如果您希望搜索引擎收錄網站上所有內容，請勿建立robots.txt文件。

㈢說360被指違反Robots協議收集敏感數據，是真的嗎

這是利益之爭，3SB大戰，只有勝者是對的，robots協議只是個借口而已，是互相撕咬的一個理由。

㈣我的網站被收錄了首頁之後，用robots協議禁止了。修改之後又允許了,還能被收錄嗎時間大概多長

可以再次被收錄的。時間一般為一周到半個月吧。

1、去做一些有質量的外鏈或友鏈
2、去網路站長工具裡面，用抓取診斷功能，可以加速收錄的。

㈤用戶在使用微博服務過程中應當嚴格遵守微博運營方所發布的Robots協議請問這個Robots協議在哪看

我的-設置-右上角齒輪圖標-關於微博-下面藍字有《微博服務使用協議》等文件。

㈥ robots協議的功能

Robots協議用來告知搜索引擎哪些頁面能被抓取，哪些頁面不能被抓取；可以屏蔽一些網站中比較大的文件，如：圖片，音樂，視頻等，節省伺服器帶寬；可以屏蔽站點的一些死鏈接。方便搜索引擎抓取網站內容；設置網站地圖連接，方便引導蜘蛛爬取頁面。 User-agent: * 這里的*代表的所有的搜索引擎種類，*是一個通配符
Disallow: /admin/ 這里定義是禁止爬尋admin目錄下面的目錄
Disallow: /require/ 這里定義是禁止爬尋require目錄下面的目錄
Disallow: /ABC/ 這里定義是禁止爬尋ABC目錄下面的目錄
Disallow: /cgi-bin/*.htm 禁止訪問/cgi-bin/目錄下的所有以.htm為後綴的URL(包含子目錄)。
Disallow: /*?* 禁止訪問網站中所有包含問號 (?) 的網址
Disallow: /.jpg$ 禁止抓取網頁所有的.jpg格式的圖片
Disallow:/ab/adc.html 禁止爬取ab文件夾下面的adc.html文件。
Allow: /cgi-bin/這里定義是允許爬尋cgi-bin目錄下面的目錄
Allow: /tmp 這里定義是允許爬尋tmp的整個目錄
Allow: .htm$ 僅允許訪問以.htm為後綴的URL。
Allow: .gif$ 允許抓取網頁和gif格式圖片
Sitemap: 網站地圖告訴爬蟲這個頁面是網站地圖例1. 禁止所有搜索引擎訪問網站的任何部分
User-agent: *
Disallow: /
實例分析：淘寶網的 Robots.txt文件
User-agent: Baispider
Disallow: /
User-agent: spider
Disallow: /
很顯然淘寶不允許網路的機器人訪問其網站下其所有的目錄。
例2. 允許所有的robot訪問 (或者也可以建一個空文件「/robots.txt」 file)
User-agent: *
Allow:/
例3. 禁止某個搜索引擎的訪問
User-agent: BadBot
Disallow: /
例4. 允許某個搜索引擎的訪問
User-agent: Baispider
allow:/
例5.一個簡單例子
在這個例子中，該網站有三個目錄對搜索引擎的訪問做了限制，即搜索引擎不會訪問這三個目錄。
需要注意的是對每一個目錄必須分開聲明，而不要寫成「Disallow: /cgi-bin/ /tmp/」。
User-agent:後的*具有特殊的含義，代表「any robot」，所以在該文件中不能有「Disallow: /tmp/*」 or 「Disallow:*.gif」這樣的記錄出現。
User-agent: *
Disallow: /cgi-bin/
Disallow: /tmp/
Disallow: /~joe/
Robot特殊參數：
允許 Googlebot：
如果您要攔截除Googlebot以外的所有漫遊器不能訪問您的網頁，可以使用下列語法：
User-agent:
Disallow: /
User-agent: Googlebot
Disallow:
Googlebot 跟隨指向它自己的行，而不是指向所有漫遊器的行。
「Allow」擴展名：
Googlebot 可識別稱為「Allow」的 robots.txt 標准擴展名。其他搜索引擎的漫遊器可能無法識別此擴展名，因此請使用您感興趣的其他搜索引擎進行查找。「Allow」行的作用原理完全與「Disallow」行一樣。只需列出您要允許的目錄或頁面即可。
您也可以同時使用「Disallow」和「Allow」。例如，要攔截子目錄中某個頁面之外的其他所有頁面，可以使用下列條目：
User-agent: Googlebot
Allow: /folder1/myfile.html
Disallow: /folder1/
這些條目將攔截 folder1 目錄內除 myfile.html 之外的所有頁面。
如果您要攔截 Googlebot 並允許 Google 的另一個漫遊器（如 Googlebot-Mobile），可使用」Allow」規則允許該漫遊器的訪問。例如：
User-agent: Googlebot
Disallow: /
User-agent: Googlebot-Mobile
Allow:
使用 * 號匹配字元序列：
您可使用星號 (*) 來匹配字元序列。例如，要攔截對所有以 private 開頭的子目錄的訪問，可使用下列條目：User-Agent: Googlebot
Disallow: /private*/
要攔截對所有包含問號 (?) 的網址的訪問，可使用下列條目：
User-agent: *
Disallow: /*?*
使用 $ 匹配網址的結束字元
您可使用 $字元指定與網址的結束字元進行匹配。例如，要攔截以 .asp 結尾的網址，可使用下列條目：User-agent: Googlebot
Disallow: /*.asp$
您可將此模式匹配與 Allow 指令配合使用。例如，如果 ? 表示一個會話 ID，您可排除所有包含該 ID 的網址，確保 Googlebot 不會抓取重復的網頁。但是，以 ? 結尾的網址可能是您要包含的網頁版本。在此情況下，可對 robots.txt 文件進行如下設置：
User-agent: *
Allow: /*?$
Disallow: /*?
Disallow: / *?
一行將攔截包含 ? 的網址（具體而言，它將攔截所有以您的域名開頭、後接任意字元串，然後是問號 (?)，而後又是任意字元串的網址）。
Allow: /*?$ 一行將允許包含任何以 ? 結尾的網址（具體而言，它將允許包含所有以您的域名開頭、後接任意字元串，然後是問號 (?)，問號之後沒有任何字元的網址）。
盡管robots.txt已經存在很多年了，但是各大搜索引擎對它的解讀都有細微差別。Google與網路都分別在自己的站長工具中提供了robots工具。如果您編寫了robots.txt文件，建議您在這兩個工具中都進行測試，因為這兩者的解析實現確實有細微差別。 1. Robot-version: 用來指定robot協議的版本號
例子: Robot-version: Version 2.0
2.Crawl-delay：雅虎YST一個特定的擴展名，可以通過它對我們的抓取程序設定一個較低的抓取請求頻率。您可以加入Crawl-delay:xx指示，其中，「XX」是指在crawler程序兩次進入站點時，以秒為單位的最低延時。
3. Visit-time:只有在visit-time指定的時間段里,robot才可以訪問指定的URL,否則不可訪問.
例子: Visit-time: 0100-1300 #允許在凌晨1:00到13:00訪問
4. Request-rate: 用來限制URL的讀取頻率
例子: Request-rate: 40/1m 0100 - 0759 在1:00到07:59之間,以每分鍾40次的頻率進行訪問
Request-rate: 12/1m 0800 - 1300 在8:00到13:00之間,以每分鍾12次的頻率進行訪問 Robots.txt文件主要是限制整個站點或者目錄的搜索引擎訪問情況，而Robots Meta標簽則主要是針對一個個具體的頁面。和其他的META標簽（如使用的語言、頁面的描述、關鍵詞等）一樣，Robots Meta標簽也是放在頁面中，專門用來告訴搜索引擎ROBOTS如何抓取該頁的內容。
Robots Meta標簽中沒有大小寫之分，name=」Robots」表示所有的搜索引擎，可以針對某個具體搜索引擎寫為name=」BaiSpider」。content部分有四個指令選項：index、noindex、follow、nofollow，指令間以「,」分隔。
index指令告訴搜索機器人抓取該頁面；
follow指令表示搜索機器人可以沿著該頁面上的鏈接繼續抓取下去；
Robots Meta標簽的預設值是index和follow，只有inktomi除外，對於它，預設值是index、nofollow。上述的robots.txt和Robots Meta標簽限制搜索引擎機器人（ROBOTS）抓取站點內容的辦法只是一種規則，需要搜索引擎機器人的配合才行，並不是每個ROBOTS都遵守的。目前看來，絕大多數的搜索引擎機器人都遵守robots.txt的規則，而對於RobotsMETA標簽，支持的並不多，但是正在逐漸增加，如著名搜索引擎GOOGLE就完全支持，而且GOOGLE還增加了一個指令「archive」，可以限制GOOGLE是否保留網頁快照。

㈦ robots協議的影響

Robots協議是網站出於安全和隱私考慮，防止搜索引擎抓取敏感信息而設置的。搜索引擎的原理是通過一種爬蟲spider程序，自動搜集互聯網上的網頁並獲取相關信息。而鑒於網路安全與隱私的考慮，每個網站都會設置自己的Robots協議，來明示搜索引擎，哪些內容是願意和允許被搜索引擎收錄的，哪些則不允許。搜索引擎則會按照Robots協議給予的許可權進行抓取。
Robots協議代表了一種契約精神，互聯網企業只有遵守這一規則，才能保證網站及用戶的隱私數據不被侵犯。違背Robots協議將帶來巨大安全隱憂——此前，曾經發生過這樣一個真實的案例：國內某公司員工郭某給別人發了封求職的電子郵件，該Email存儲在某郵件服務公司的伺服器上。因為該網站沒有設置robots協議，導致該Email被搜索引擎抓取並被網民搜索到，為郭某的工作生活帶來極大困擾。
如今，在中國國內互聯網行業，正規的大型企業也都將Robots協議當做一項行業標准，國內使用Robots協議最典型的案例，就是淘寶網拒絕網路搜索、京東拒絕一淘搜索。不過，絕大多數中小網站都需要依靠搜索引擎來增加流量，因此通常並不排斥搜索引擎，也很少使用Robots協議。
北京市漢卓律師事務所首席律師趙虎表示，Robots協議是維護互聯網世界隱私安全的重要規則。如果這種規則被破壞，對整個行業就是滅頂之災。

㈧分別查找出以下網站的Robots協議，寫出每個網站的Robots協議地址並每

域名/robots.txt就是網站的Robots協議，可以查詢想要查詢的網站的Robots協議

㈨ robots協議到底有沒有法律效力，能否保護UGC內容

協議只要不違反法律的規定，是雙方的真實意思表示，就是有效的，至於履行情況，可以按照雙方當事人的約定進行。

㈩什麼是robots協議網站中的robots.txt寫法和作用

Robots協議（也稱為爬蟲協議、機器人協議等）的全稱是「網路爬蟲排除標准」（Robots Exclusion Protocol），網站通過Robots協議告訴搜索引擎哪些頁面可以抓取，哪些頁面不能抓取。
文件寫法
User-agent: * 這里的*代表的所有的搜索引擎種類，*是一個通配符
Disallow: /admin/ 這里定義是禁止爬尋admin目錄下面的目錄
Disallow: /require/ 這里定義是禁止爬尋require目錄下面的目錄
Disallow: /ABC/ 這里定義是禁止爬尋ABC目錄下面的目錄
Disallow: /cgi-bin/*.htm 禁止訪問/cgi-bin/目錄下的所有以".htm"為後綴的URL(包含子目錄)。
Disallow: /*?* 禁止訪問網站中所有包含問號 (?) 的網址
Disallow: /.jpg$ 禁止抓取網頁所有的.jpg格式的圖片
Disallow:/ab/adc.html 禁止爬取ab文件夾下面的adc.html文件。
Allow: /cgi-bin/這里定義是允許爬尋cgi-bin目錄下面的目錄
Allow: /tmp 這里定義是允許爬尋tmp的整個目錄
Allow: .htm$ 僅允許訪問以".htm"為後綴的URL。
Allow: .gif$ 允許抓取網頁和gif格式圖片
Sitemap: 網站地圖告訴爬蟲這個頁面是網站地圖
文件用法
例1. 禁止所有搜索引擎訪問網站的任何部分
User-agent: *
Disallow: /
實例分析：淘寶網的 Robots.txt文件
User-agent: Baispider
Disallow: /
User-agent: spider
Disallow: /
很顯然淘寶不允許網路的機器人訪問其網站下其所有的目錄。
例2. 允許所有的robot訪問 (或者也可以建一個空文件「/robots.txt」 file)
User-agent: *
Allow:/
例3. 禁止某個搜索引擎的訪問
User-agent: BadBot
Disallow: /
例4. 允許某個搜索引擎的訪問
User-agent: Baispider
allow:/
例5.一個簡單例子
在這個例子中，該網站有三個目錄對搜索引擎的訪問做了限制，即搜索引擎不會訪問這三個目錄。
需要注意的是對每一個目錄必須分開聲明，而不要寫成「Disallow: /cgi-bin/ /tmp/」。
User-agent:後的*具有特殊的含義，代表「any robot」，所以在該文件中不能有「Disallow: /tmp/*」 or 「Disallow:*.gif」這樣的記錄出現。
User-agent: *
Disallow: /cgi-bin/
Disallow: /tmp/
Disallow: /~joe/
Robot特殊參數：
允許 Googlebot：
如果您要攔截除Googlebot以外的所有漫遊器不能訪問您的網頁，可以使用下列語法：
User-agent:
Disallow: /
User-agent: Googlebot
Disallow:
Googlebot 跟隨指向它自己的行，而不是指向所有漫遊器的行。
「Allow」擴展名：
Googlebot 可識別稱為「Allow」的 robots.txt 標准擴展名。其他搜索引擎的漫遊器可能無法識別此擴展名，因此請使用您感興趣的其他搜索引擎進行查找。「Allow」行的作用原理完全與「Disallow」行一樣。只需列出您要允許的目錄或頁面即可。
您也可以同時使用「Disallow」和「Allow」。例如，要攔截子目錄中某個頁面之外的其他所有頁面，可以使用下列條目：
User-agent: Googlebot
Allow: /folder1/myfile.html
Disallow: /folder1/
這些條目將攔截 folder1 目錄內除 myfile.html 之外的所有頁面。
如果您要攔截 Googlebot 並允許 Google 的另一個漫遊器（如 Googlebot-Mobile），可使用」Allow」規則允許該漫遊器的訪問。例如：
User-agent: Googlebot
Disallow: /
User-agent: Googlebot-Mobile
Allow:
使用 * 號匹配字元序列：
您可使用星號 (*) 來匹配字元序列。例如，要攔截對所有以 private 開頭的子目錄的訪問，可使用下列條目：User-Agent: Googlebot
Disallow: /private*/
要攔截對所有包含問號 (?) 的網址的訪問，可使用下列條目：
User-agent: *
Disallow: /*?*
使用 $ 匹配網址的結束字元
您可使用 $字元指定與網址的結束字元進行匹配。例如，要攔截以 .asp 結尾的網址，可使用下列條目：User-agent: Googlebot
Disallow: /*.asp$
您可將此模式匹配與 Allow 指令配合使用。例如，如果 ? 表示一個會話 ID，您可排除所有包含該 ID 的網址，確保 Googlebot 不會抓取重復的網頁。但是，以 ? 結尾的網址可能是您要包含的網頁版本。在此情況下，可對 robots.txt 文件進行如下設置：
User-agent: *
Allow: /*?$
Disallow: /*?
Disallow: / *?
一行將攔截包含 ? 的網址（具體而言，它將攔截所有以您的域名開頭、後接任意字元串，然後是問號 (?)，而後又是任意字元串的網址）。
Allow: /*?$ 一行將允許包含任何以 ? 結尾的網址（具體而言，它將允許包含所有以您的域名開頭、後接任意字元串，然後是問號 (?)，問號之後沒有任何字元的網址）。
盡管robots.txt已經存在很多年了，但是各大搜索引擎對它的解讀都有細微差別。Google與網路都分別在自己的站長工具中提供了robots工具。如果您編寫了robots.txt文件，建議您在這兩個工具中都進行測試，因為這兩者的解析實現確實有細微差別。

閱讀全文

與robots協議與著作權相關的資料

熱點內容

武漢疫情投訴發布：2025-10-20 05:35:24 瀏覽：149

知識產權合作開發協議doc 發布：2025-10-19 21:36:07 瀏覽：932

廣州加里知識產權代理有限公司發布：2025-10-19 09:27:19 瀏覽：65

企業知識產權部門管理辦法發布：2025-10-18 12:08:43 瀏覽：455

消費315投訴發布：2025-10-17 18:34:04 瀏覽：981

馬鞍山鋼城醫院發布：2025-10-17 15:22:33 瀏覽：793

馮超知識產權發布：2025-10-17 10:59:53 瀏覽：384

介紹小發明英語作文發布：2025-10-17 10:31:42 瀏覽：442

版權使用權協議發布：2025-10-17 07:02:05 瀏覽：1000

2018年基本公共衛生服務考核表發布：2025-10-16 19:42:52 瀏覽：884

馬鞍山候車亭發布：2025-10-16 19:39:03 瀏覽：329

學校矛盾糾紛排查領導小組發布：2025-10-15 09:24:52 瀏覽：709

張江管委會知識產權合作協議發布：2025-10-13 22:51:59 瀏覽：635

關於開展公共衛生服務項目相關項目督導的函發布：2025-10-13 22:39:29 瀏覽：941

閨蜜證書高清發布：2025-10-13 21:16:10 瀏覽：11

轉讓房轉讓合同協議發布：2025-10-13 05:26:39 瀏覽：329

矛盾糾紛排查調處工作協調交賬會議紀要發布：2025-10-12 21:18:00 瀏覽：877

雲南基金從業資格證書查詢發布：2025-10-12 02:44:14 瀏覽：313

新知識的搖籃創造力發布：2025-10-11 21:02:47 瀏覽：187

股轉轉讓協議發布：2025-10-11 17:37:59 瀏覽：676