㈠ 網站收錄了首頁之後用robots協議禁止了。之後又允許了,還能被收錄嗎時間大概是多長
robots放開許可權後,搜索引擎會觀察一段時間,大概一周之後就會重新抓取版
你可以給網站重權新提交下sitemap,多做些外鏈引導蜘蛛去抓取,當然頁面能不能收錄
取決於頁面內容的質量符不符合收錄要求,蜘蛛有抓取不一定會被收錄。
㈡ robots協議是什麼
Robots是一抄個英文單詞,對英語比較懂的朋友相信都知道,Robots的中文意思是機器人。而我們通常提到的主要是Robots協議,Robots.txt被稱之為機器人或Robots協議(也稱為爬蟲協議、機器人協議等)它的全稱是「網路爬蟲排除標准」
英文「Robots Exclusion Protocol」這也是搜索引擎的國際默認公約。我們網站可以通過Robots協議從而告訴搜索引擎的蜘蛛哪些頁面可以抓取,哪些頁面不能抓取。Robots協議的本質是網站和搜索引擎爬蟲的溝通方式,是用來指引搜索引擎更好地抓取網站里的內容。
比如說,一個搜索蜘蛛訪問一個網站時,它第一個首先檢查的文件就是該網站的根目錄里有沒有robots.txt文件。
如果有,蜘蛛就會按照該文件中的條件代碼來確定能訪問什麼頁面或內容;如果沒有協議文件的不存在,所有的搜索蜘蛛將能夠訪問網站上所有沒有被協議限制的內容頁面。
而網路官方上的建議是:僅當您的網站包含不希望被搜索引擎收錄的內容時,才需要使用robots.txt文件進行屏蔽。而如果您希望搜索引擎收錄網站上所有內容,請勿建立robots.txt文件。
㈢ 說360被指違反Robots協議收集敏感數據,是真的嗎
這是利益之爭,3SB大戰,只有勝者是對的,robots協議只是個借口而已,是互相撕咬的一個理由。
㈣ 我的網站被收錄了首頁之後,用robots協議禁止了。修改之後又允許了,還能被收錄嗎時間大概多長
可以再次被收錄的。時間一般為一周到半個月吧。
1、去做一些有質量的外鏈或友鏈
2、去網路站長工具裡面,用抓取診斷功能,可以加速收錄的。
㈤ 用戶在使用微博服務過程中應當嚴格遵守微博運營方所發布的Robots協議 請問這個Robots協議在哪看
我的-設置-右上角齒輪圖標-關於微博-下面藍字有《微博服務使用協議》等文件。
㈥ robots協議的功能
Robots協議用來告知搜索引擎哪些頁面能被抓取,哪些頁面不能被抓取;可以屏蔽一些網站中比較大的文件,如:圖片,音樂,視頻等,節省伺服器帶寬;可以屏蔽站點的一些死鏈接。方便搜索引擎抓取網站內容;設置網站地圖連接,方便引導蜘蛛爬取頁面。 User-agent: * 這里的*代表的所有的搜索引擎種類,*是一個通配符
Disallow: /admin/ 這里定義是禁止爬尋admin目錄下面的目錄
Disallow: /require/ 這里定義是禁止爬尋require目錄下面的目錄
Disallow: /ABC/ 這里定義是禁止爬尋ABC目錄下面的目錄
Disallow: /cgi-bin/*.htm 禁止訪問/cgi-bin/目錄下的所有以.htm為後綴的URL(包含子目錄)。
Disallow: /*?* 禁止訪問網站中所有包含問號 (?) 的網址
Disallow: /.jpg$ 禁止抓取網頁所有的.jpg格式的圖片
Disallow:/ab/adc.html 禁止爬取ab文件夾下面的adc.html文件。
Allow: /cgi-bin/這里定義是允許爬尋cgi-bin目錄下面的目錄
Allow: /tmp 這里定義是允許爬尋tmp的整個目錄
Allow: .htm$ 僅允許訪問以.htm為後綴的URL。
Allow: .gif$ 允許抓取網頁和gif格式圖片
Sitemap: 網站地圖 告訴爬蟲這個頁面是網站地圖 例1. 禁止所有搜索引擎訪問網站的任何部分
User-agent: *
Disallow: /
實例分析:淘寶網的 Robots.txt文件
User-agent: Baispider
Disallow: /
User-agent: spider
Disallow: /
很顯然淘寶不允許網路的機器人訪問其網站下其所有的目錄。
例2. 允許所有的robot訪問 (或者也可以建一個空文件 「/robots.txt」 file)
User-agent: *
Allow:/
例3. 禁止某個搜索引擎的訪問
User-agent: BadBot
Disallow: /
例4. 允許某個搜索引擎的訪問
User-agent: Baispider
allow:/
例5.一個簡單例子
在這個例子中,該網站有三個目錄對搜索引擎的訪問做了限制,即搜索引擎不會訪問這三個目錄。
需要注意的是對每一個目錄必須分開聲明,而不要寫成 「Disallow: /cgi-bin/ /tmp/」。
User-agent:後的*具有特殊的含義,代表「any robot」,所以在該文件中不能有「Disallow: /tmp/*」 or 「Disallow:*.gif」這樣的記錄出現。
User-agent: *
Disallow: /cgi-bin/
Disallow: /tmp/
Disallow: /~joe/
Robot特殊參數:
允許 Googlebot:
如果您要攔截除Googlebot以外的所有漫遊器不能訪問您的網頁,可以使用下列語法:
User-agent:
Disallow: /
User-agent: Googlebot
Disallow:
Googlebot 跟隨指向它自己的行,而不是指向所有漫遊器的行。
「Allow」擴展名:
Googlebot 可識別稱為「Allow」的 robots.txt 標准擴展名。其他搜索引擎的漫遊器可能無法識別此擴展名,因此請使用您感興趣的其他搜索引擎進行查找。「Allow」行的作用原理完全與「Disallow」行一樣。只需列出您要允許的目錄或頁面即可。
您也可以同時使用「Disallow」和「Allow」。例如,要攔截子目錄中某個頁面之外的其他所有頁面,可以使用下列條目:
User-agent: Googlebot
Allow: /folder1/myfile.html
Disallow: /folder1/
這些條目將攔截 folder1 目錄內除 myfile.html 之外的所有頁面。
如果您要攔截 Googlebot 並允許 Google 的另一個漫遊器(如 Googlebot-Mobile),可使用」Allow」規則允許該漫遊器的訪問。例如:
User-agent: Googlebot
Disallow: /
User-agent: Googlebot-Mobile
Allow:
使用 * 號匹配字元序列:
您可使用星號 (*) 來匹配字元序列。例如,要攔截對所有以 private 開頭的子目錄的訪問,可使用下列條目:User-Agent: Googlebot
Disallow: /private*/
要攔截對所有包含問號 (?) 的網址的訪問,可使用下列條目:
User-agent: *
Disallow: /*?*
使用 $ 匹配網址的結束字元
您可使用 $字元指定與網址的結束字元進行匹配。例如,要攔截以 .asp 結尾的網址,可使用下列條目:User-agent: Googlebot
Disallow: /*.asp$
您可將此模式匹配與 Allow 指令配合使用。例如,如果 ? 表示一個會話 ID,您可排除所有包含該 ID 的網址,確保 Googlebot 不會抓取重復的網頁。但是,以 ? 結尾的網址可能是您要包含的網頁版本。在此情況下,可對 robots.txt 文件進行如下設置:
User-agent: *
Allow: /*?$
Disallow: /*?
Disallow: / *?
一行將攔截包含 ? 的網址(具體而言,它將攔截所有以您的域名開頭、後接任意字元串,然後是問號 (?),而後又是任意字元串的網址)。
Allow: /*?$ 一行將允許包含任何以 ? 結尾的網址(具體而言,它將允許包含所有以您的域名開頭、後接任意字元串,然後是問號 (?),問號之後沒有任何字元的網址)。
盡管robots.txt已經存在很多年了,但是各大搜索引擎對它的解讀都有細微差別。Google與網路都分別在自己的站長工具中提供了robots工具。如果您編寫了robots.txt文件,建議您在這兩個工具中都進行測試,因為這兩者的解析實現確實有細微差別 。 1. Robot-version: 用來指定robot協議的版本號
例子: Robot-version: Version 2.0
2.Crawl-delay:雅虎YST一個特定的擴展名,可以通過它對我們的抓取程序設定一個較低的抓取請求頻率。您可以加入Crawl-delay:xx指示,其中,「XX」是指在crawler程序兩次進入站點時,以秒為單位的最低延時。
3. Visit-time:只有在visit-time指定的時間段里,robot才可以訪問指定的URL,否則不可訪問.
例子: Visit-time: 0100-1300 #允許在凌晨1:00到13:00訪問
4. Request-rate: 用來限制URL的讀取頻率
例子: Request-rate: 40/1m 0100 - 0759 在1:00到07:59之間,以每分鍾40次的頻率進行訪問
Request-rate: 12/1m 0800 - 1300 在8:00到13:00之間,以每分鍾12次的頻率進行訪問 Robots.txt文件主要是限制整個站點或者目錄的搜索引擎訪問情況,而Robots Meta標簽則主要是針對一個個具體的頁面。和其他的META標簽(如使用的語言、頁面的描述、關鍵詞等)一樣,Robots Meta標簽也是放在頁面中,專門用來告訴搜索引擎ROBOTS如何抓取該頁的內容。
Robots Meta標簽中沒有大小寫之分,name=」Robots」表示所有的搜索引擎,可以針對某個具體搜索引擎寫為name=」BaiSpider」。content部分有四個指令選項:index、noindex、follow、nofollow,指令間以「,」分隔。
index指令告訴搜索機器人抓取該頁面;
follow指令表示搜索機器人可以沿著該頁面上的鏈接繼續抓取下去;
Robots Meta標簽的預設值是index和follow,只有inktomi除外,對於它,預設值是index、nofollow。 上述的robots.txt和Robots Meta標簽限制搜索引擎機器人(ROBOTS)抓取站點內容的辦法只是一種規則,需要搜索引擎機器人的配合才行,並不是每個ROBOTS都遵守的。目前看來,絕大多數的搜索引擎機器人都遵守robots.txt的規則,而對於RobotsMETA標簽,支持的並不多,但是正在逐漸增加,如著名搜索引擎GOOGLE就完全支持,而且GOOGLE還增加了一個指令「archive」,可以限制GOOGLE是否保留網頁快照。

㈦ robots協議的影響
Robots協議是網站出於安全和隱私考慮,防止搜索引擎抓取敏感信息而設置的。搜索引擎的原理是通過一種爬蟲spider程序,自動搜集互聯網上的網頁並獲取相關信息。而鑒於網路安全與隱私的考慮,每個網站都會設置自己的Robots協議,來明示搜索引擎,哪些內容是願意和允許被搜索引擎收錄的,哪些則不允許。搜索引擎則會按照Robots協議給予的許可權進行抓取。
Robots協議代表了一種契約精神,互聯網企業只有遵守這一規則,才能保證網站及用戶的隱私數據不被侵犯。違背Robots協議將帶來巨大安全隱憂——此前,曾經發生過這樣一個真實的案例:國內某公司員工郭某給別人發了封求職的電子郵件,該Email存儲在某郵件服務公司的伺服器上。因為該網站沒有設置robots協議,導致該Email被搜索引擎抓取並被網民搜索到,為郭某的工作生活帶來極大困擾。
如今,在中國國內互聯網行業,正規的大型企業也都將Robots協議當做一項行業標准,國內使用Robots協議最典型的案例,就是淘寶網拒絕網路搜索、京東拒絕一淘搜索。不過,絕大多數中小網站都需要依靠搜索引擎來增加流量,因此通常並不排斥搜索引擎,也很少使用Robots協議。
北京市漢卓律師事務所首席律師趙虎表示,Robots協議是維護互聯網世界隱私安全的重要規則。如果這種規則被破壞,對整個行業就是滅頂之災。

㈧ 分別查找出以下網站的Robots協議,寫出每個網站的Robots協議地址並每
域名/robots.txt就是網站的Robots協議,可以查詢想要查詢的網站的Robots協議
㈨ robots協議到底有沒有法律效力,能否保護UGC內容
協議只要不違反法律的規定,是雙方的真實意思表示,就是有效的,至於履行情況,可以按照雙方當事人的約定進行。
㈩ 什麼是robots協議網站中的robots.txt寫法和作用
Robots協議(也稱為爬蟲協議、機器人協議等)的全稱是「網路爬蟲排除標准」(Robots Exclusion Protocol),網站通過Robots協議告訴搜索引擎哪些頁面可以抓取,哪些頁面不能抓取。
文件寫法
User-agent: * 這里的*代表的所有的搜索引擎種類,*是一個通配符
Disallow: /admin/ 這里定義是禁止爬尋admin目錄下面的目錄
Disallow: /require/ 這里定義是禁止爬尋require目錄下面的目錄
Disallow: /ABC/ 這里定義是禁止爬尋ABC目錄下面的目錄
Disallow: /cgi-bin/*.htm 禁止訪問/cgi-bin/目錄下的所有以".htm"為後綴的URL(包含子目錄)。
Disallow: /*?* 禁止訪問網站中所有包含問號 (?) 的網址
Disallow: /.jpg$ 禁止抓取網頁所有的.jpg格式的圖片
Disallow:/ab/adc.html 禁止爬取ab文件夾下面的adc.html文件。
Allow: /cgi-bin/這里定義是允許爬尋cgi-bin目錄下面的目錄
Allow: /tmp 這里定義是允許爬尋tmp的整個目錄
Allow: .htm$ 僅允許訪問以".htm"為後綴的URL。
Allow: .gif$ 允許抓取網頁和gif格式圖片
Sitemap: 網站地圖 告訴爬蟲這個頁面是網站地圖
文件用法
例1. 禁止所有搜索引擎訪問網站的任何部分
User-agent: *
Disallow: /
實例分析:淘寶網的 Robots.txt文件
User-agent: Baispider
Disallow: /
User-agent: spider
Disallow: /
很顯然淘寶不允許網路的機器人訪問其網站下其所有的目錄。
例2. 允許所有的robot訪問 (或者也可以建一個空文件 「/robots.txt」 file)
User-agent: *
Allow:/
例3. 禁止某個搜索引擎的訪問
User-agent: BadBot
Disallow: /
例4. 允許某個搜索引擎的訪問
User-agent: Baispider
allow:/
例5.一個簡單例子
在這個例子中,該網站有三個目錄對搜索引擎的訪問做了限制,即搜索引擎不會訪問這三個目錄。
需要注意的是對每一個目錄必須分開聲明,而不要寫成 「Disallow: /cgi-bin/ /tmp/」。
User-agent:後的*具有特殊的含義,代表「any robot」,所以在該文件中不能有「Disallow: /tmp/*」 or 「Disallow:*.gif」這樣的記錄出現。
User-agent: *
Disallow: /cgi-bin/
Disallow: /tmp/
Disallow: /~joe/
Robot特殊參數:
允許 Googlebot:
如果您要攔截除Googlebot以外的所有漫遊器不能訪問您的網頁,可以使用下列語法:
User-agent:
Disallow: /
User-agent: Googlebot
Disallow:
Googlebot 跟隨指向它自己的行,而不是指向所有漫遊器的行。
「Allow」擴展名:
Googlebot 可識別稱為「Allow」的 robots.txt 標准擴展名。其他搜索引擎的漫遊器可能無法識別此擴展名,因此請使用您感興趣的其他搜索引擎進行查找。「Allow」行的作用原理完全與「Disallow」行一樣。只需列出您要允許的目錄或頁面即可。
您也可以同時使用「Disallow」和「Allow」。例如,要攔截子目錄中某個頁面之外的其他所有頁面,可以使用下列條目:
User-agent: Googlebot
Allow: /folder1/myfile.html
Disallow: /folder1/
這些條目將攔截 folder1 目錄內除 myfile.html 之外的所有頁面。
如果您要攔截 Googlebot 並允許 Google 的另一個漫遊器(如 Googlebot-Mobile),可使用」Allow」規則允許該漫遊器的訪問。例如:
User-agent: Googlebot
Disallow: /
User-agent: Googlebot-Mobile
Allow:
使用 * 號匹配字元序列:
您可使用星號 (*) 來匹配字元序列。例如,要攔截對所有以 private 開頭的子目錄的訪問,可使用下列條目:User-Agent: Googlebot
Disallow: /private*/
要攔截對所有包含問號 (?) 的網址的訪問,可使用下列條目:
User-agent: *
Disallow: /*?*
使用 $ 匹配網址的結束字元
您可使用 $字元指定與網址的結束字元進行匹配。例如,要攔截以 .asp 結尾的網址,可使用下列條目:User-agent: Googlebot
Disallow: /*.asp$
您可將此模式匹配與 Allow 指令配合使用。例如,如果 ? 表示一個會話 ID,您可排除所有包含該 ID 的網址,確保 Googlebot 不會抓取重復的網頁。但是,以 ? 結尾的網址可能是您要包含的網頁版本。在此情況下,可對 robots.txt 文件進行如下設置:
User-agent: *
Allow: /*?$
Disallow: /*?
Disallow: / *?
一行將攔截包含 ? 的網址(具體而言,它將攔截所有以您的域名開頭、後接任意字元串,然後是問號 (?),而後又是任意字元串的網址)。
Allow: /*?$ 一行將允許包含任何以 ? 結尾的網址(具體而言,它將允許包含所有以您的域名開頭、後接任意字元串,然後是問號 (?),問號之後沒有任何字元的網址)。
盡管robots.txt已經存在很多年了,但是各大搜索引擎對它的解讀都有細微差別。Google與網路都分別在自己的站長工具中提供了robots工具。如果您編寫了robots.txt文件,建議您在這兩個工具中都進行測試,因為這兩者的解析實現確實有細微差別。