怎樣防止伺服器文件被爬
A. 伺服器怎麼防止病毒入侵
業務系統的伺服器都很脆弱,即使裝了殺毒軟體,部署了防火牆,並定時打補丁,但仍然會有各種風險,各種中毒,各種被入侵,核心數據還是會被偷窺、被破壞、被篡改、被偷走。
推薦使用MCK雲私鑰,重新定義操作系統各模塊的功能,構建獨立的身份鑒別體系,在當殺毒軟體、防火牆都不起作用時,仍然能頑強的對核心數據進行保護,防止木馬病毒入侵;程序/腳本白名單,從根本上杜絕程序/腳本的病毒入侵;文件保護,對存儲的數據進行加密,防止核心數據被偷窺、被破壞、被篡改、被偷走!
B. 如何繞開網站防護抓取數據
控制下載頻率大規模集中訪問對伺服器的影響較大,爬蟲可以短時間增大伺服器負載。這里需要注意的是:設定下載等待時間的范圍控制,等待時間過長,不能滿足短時間大規模抓取的要求,等待時間過短則很有可能被拒絕訪問。在之前「從url獲取HTML」的方法里,對於httpGet的配置設置了socket超時和連接connect超時,其實這里的時長不是絕對的,主要取決於目標網站對爬蟲的控制。
另外,在scrapy爬蟲框架里,專有參數可以設置下載等待時間download_delay,這個參數可以設置在setting.py里,也可以設置在spider里。
IP的訪問頻率被限制,一些平台為了防止多次訪問網站,會在某個同一個IP在單元時間內超過一定的次數的時候,將禁止這個IP繼續訪問。對於這個限制IP訪問效率,可以使用代理IP的方法來解決問題比如使用IPIDEA。
採用分布式爬取分布式爬取的也有很多Githubrepo。原理主要是維護一個所有集群機器能夠有效分享的分布式隊列。使用分布式爬取還有另外一個目的:大規模抓取,單台機器的負荷很大,況且速度很慢,多台機器可以設置一個master管理多台slave去同時爬取。
修改User-Agent最常見的就是偽裝瀏覽器,修改User-Agent(用戶代理)。User-Agent是指包含瀏覽器信息、操作系統信息等的一個字元串,也稱之為一種特殊的網路協議。伺服器通過它判斷當前訪問對象是瀏覽器、郵件客戶端還是網路爬蟲。在request.headers里可以查看user-agent,關於怎麼分析數據包、查看其User-Agent等信息,這個在前面的文章里提到過。
具體方法可以把User-Agent的值改為瀏覽器的方式,甚至可以設置一個User-Agent池(list,數組,字典都可以),存放多個「瀏覽器」,每次爬取的時候隨機取一個來設置request的User-Agent,這樣User-Agent會一直在變化,防止被牆。
綜上所述,爬蟲怎麼突破反爬蟲的方法比較多,上文從更換IP、控制下載頻率、分布式爬取、修改User-Agent這四個方面介紹了突破反爬蟲機制的方法,從而實現數據的爬取。
C. 如何防止重復爬蟲
1.基於程序本身去防止爬取:作為爬蟲程序,爬取行為是對頁面的源文件爬取,如爬取靜態頁面的html代碼,可以用jquery去模仿寫html,這種方法偽裝的頁面就很難被爬取了,不過這種方法對程序員的要求很高。
2.基於iptables和shell腳本:可以對nginx的access.log進行策略定義,例如定義在1分鍾內並發連接數超過30個ip為非法,如ip不在白名單內,則加入iptables策略封掉,當然這種的缺點是會有「誤傷」,策略細粒度越小就會有更多的「誤傷」,細粒度大就會使效果變差,另外還有類似的第三方工具fail2ban,利用做filter和actor對一些有危害的操作記錄或是封ip。但是對於某個特定的爬蟲地址(例如網易、有道)的爬取行為拒絕也很難准確做到,因為你無法准確知道這些特定的爬蟲ip地址(例如網易、有道),以下是我的定位方式,不過發現由於ip庫不準確造成錯誤的屏蔽。注意:建議不要用封ip條目的方式,iptables列表長度是65535時就會封滿,伺服器也就會死機。
D. 如何防止伺服器共享文件被人復制
區域網極大地方便了公司企業的工作,區域網伺服器上存放著公司重要的需要共享的一些文件資源,以便員工自行使用。但是由於很多共享文件都是員工辛勤
工和的成果,有的甚至涉及到企業的商業機密信息,如果這些共享文件被員工有意或者無意的傳播出去,比如復制到自己的電腦上發送給別人、拷貝到U盤里攜帶出
去、私自修改共享文件的內容...等,使得企業在共享這些文件有著一定的顧慮,但是不共享,員工又不能查看、使用這些文件,那麼企業管理者需要怎麼做才能
既共享文件方便了員工的使用,提高工作效率,又不讓這些文件隨意外傳、泄露,保護了企業數據的安全呢?
我們可以用超時代共享文件夾加密專家來禁止伺服器共享文件的復制,拷貝、修改和刪除等,以保護共享文件的安全使用。有的人可能會說,系統自帶有共享文件夾許可權設置功能,為什麼要用超時代共享文件夾加密專家呢?主要有以下4個原因:
第一,共享文件夾加密專家節省企業管理者設置花費的大量時間。用系統自帶的功能,這種方法較耗時,需要一個個用戶設置。而企業管理者共享
文件時不可能對員工一個個進行許可權的設置。共享文件夾加密將不同的許可權設置成不同的分組,然後把不同的分組用戶名和密碼給不同的員工/部門就可以了,只需
要設置好許可權分組,不論是幾百員工還是幾千員工都不需要再進行設置。
第二,共享文件夾加密專家更靈活。可以輕松調整該分組下的許可權,以達到批量調整員工對共享文件的許可權。
第三,共享文件夾加密專家可以對高達15項許可權進行任意組合,能夠全面保護共享文件在相應的授權下才能被操作,比如查看、修改、復制、刪除、列印、另存、新建等等,甚至還可以設置共享文件的使用次數和訪問期限,360度保護共享文件的安全使用。
第四,共享文件夾加密專家還可以直接加密移動硬碟上的數據,讓用戶可以瀏覽裡面的文件,但無法修改,復制,刪除。 適用於員工需要拷貝資料進行文檔演示、或者出差攜帶U盤離線辦公等情況。
E. 如何防止網站被爬蟲爬取的幾種辦法
相較於爬蟲技術,反爬蟲實際上更復雜。目前許多互聯網企業都會花大力氣進行「反爬蟲」,網路爬蟲不但會占據過多的網站流量,導致有真正需求的用戶沒法進入網站,另外也有可能會導致網站關鍵數據的外泄等現象。網路爬蟲遍布互聯網的各個角落,因此網路爬蟲有好處也有壞處,接下來介紹一下和網路爬蟲一同誕生的反爬蟲技術,如何才能防止別人爬取自己的網站?
1、基於程序本身去防止爬取:作為爬蟲程序,爬取行為是對頁面的源文件爬取,如爬取靜態頁面的html代碼,可以用jquery去模仿寫html,這種方法偽裝的頁面就很難被爬取了,不過這種方法對程序員的要求很高。
2、基於iptables和shell腳本:可以對nginx的access.log進行策略定義,例如定義在1分鍾內並發連接數超過30個ip為非法,如ip不在白名單內,則加入iptables策略封掉,當然這種的缺點是會有「誤傷」,策略細粒度越小就會有更多的「誤傷」,細粒度大就會使效果變差,另外還有類似的第三方工具fail2ban,利用做filter和actor對一些有危害的操作記錄或是封ip。但是對於某個特定的爬蟲地址(例如網易、有道)的爬取行為拒絕也很難准確做到,因為你無法准確知道這些特定的爬蟲ip地址。注意:建議不要用封ip條目的方式,iptables列表長度是65535時就會封滿,伺服器也就會死機。
3.使用robots.txt文件:例如阻止所有的爬蟲爬取,但是這種效果不是很明顯。
User-agent: *
Disallow: /
4.使用nginx的自帶功能:通過對httpuseragent阻塞來實現,包括GET/POST方式的請求,以nginx為例,具體步驟如下:
編輯nginx.conf
拒絕以wget方式的httpuseragent,增加如下內容
## Block http user agent - wget ##
if ($http_user_agent ~* (Wget) ) {
return 403;
}
## Block Software download user agents ##
if ($http_user_agent ~* LWP::Simple|BBBike|wget) {
return 403;
平滑啟動
# /usr/local/nginx/sbin/nginx -s reload
如何拒絕多種httpuseragent,內容如下:
if ($http_user_agent ~ (agent1|agent2|Foo|Wget|Catall Spider|AcoiRobot) ) {
return 403;
}
大小寫敏感匹配
### 大小寫敏感http user agent拒絕###
if ($http_user_agent ~ (Catall Spider|AcoiRobot) ) {
return 403;
}
### 大小寫不敏感http user agent拒絕###
if ($http_user_agent ~* (foo|bar) ) {
return 403;
}
注意語法:~*表示是大小寫不敏感,~表示是大小寫敏感
}
以上就是預防網站信息被別人爬取的一些方法,大量的爬取行為會對web伺服器的性能有影響,所以一定要注重反爬蟲措施。
F. 軟體公司怎麼去防止公司內部伺服器里的資料不被員工外泄
可以通過在公司內部安裝域之盾軟體 來實現。域之盾軟體是國內相關行業做的比較好的一款軟體。
域之盾軟體安裝簡單 操作方便 。易於管理 還集成了數據防泄密,上網行為管理,保密U盤管理,列印管理,准入控制,文檔自動備份,遠程管理,外設管理,遠程監控,桌面管理,操作審計等功能。
G. 伺服器怎麼防止被攻擊
1、關閉不必要的埠和服務
2、安裝類似安全狗軟體這種的防火牆,來防禦攻擊,同時查殺病毒。同時,可利用安全狗服雲來管理伺服器和網站,添加IP黑名單,分析安全威脅,並找到攻擊源頭並進行處理。
3、定期修改賬戶密碼,盡量設置的復雜些,不要使用弱密碼。
4、日常維護的時候要注意,不建議在伺服器上安裝過多的軟體。
5、及時修復漏洞,在有官方安全補丁發布時,要及時更新補丁。
6、設置賬戶許可權,不同的文件夾允許什麼賬號訪問、修改等,同時,重要的文件夾建議增加密碼。
7、建議要定期備份數據,當有發現問題時,可以及時替換成正常的文件
H. 怎麼防止黑客入侵我的伺服器
深圳專業網站建設服務公司「圖蘭科技」為你解答。
防止黑客入侵伺服器第一步:防ACCESS資料庫下載
添加MDB的擴展映射就可以了。方法:IIS屬性,主目錄,配置,映 射,應用程序擴展里添加.mdb的應用解析,至於選擇的解析文件大 家可以自已測試,只要訪問資料庫時出現無法找到該頁就可以了, 這里給出一個選擇為wam.dll
防止黑客入侵伺服器第二步:防上傳
以MSSQL資料庫為例。在IIS的WEB目錄,在許可權選項里只能IIS用戶 讀取和列出目錄的許可權,然後進入上傳文件保存和存放資料庫的目 錄,給IIS用戶加上寫入的許可權,然後在這二個目錄的屬性,執行權 限選項
防止黑客入侵伺服器第三步:防MSSQL注入
這很重要,在一次提醒,連接資料庫萬萬不能用SA帳號。一般來說 可以使用DB——OWNER許可權來連接資料庫。不過這存在差異備份來獲 得WEBSHELL的問題。下面就說一下如何防差異備份。
差異備份是有備份的許可權,而且要知道WEB目錄。現在找WEB目錄的 方法是通過注冊表或是列出主機目錄自已找,這二個方法其實用到 了XP_REGREAD和XP_DRITREE這二個擴展存儲,我們只要刪除他們就 可以了。但是還有一點就是萬一程序自已爆出目錄呢。所以要讓帳 號的許可權更低,無法完成備份。操作如下:在這個帳號的屬性,數 據庫訪問選項里只需要選中對應的資料庫並賦予其DB_OWNER許可權,對 於其它資料庫不要操作,接著還要到該資料庫,屬性,許可權,把該用戶 的備份和備份日誌的許可權去掉就可以了,這樣入侵者就不能通過差異 備份來獲取WEBSEHLL了.
上面給出了三種方法,可能還有人會說有注入點怎麼辦,哪真是老生 常談了,補嘛.至於怎麼補,如果你不懂寫過濾語句的話,就用網上現 成的防注入系統好了.
I. 伺服器要做那些安全措施,怎樣防止黑客入侵那
伺服器安全這問題,很重要,之前伺服器被黑,管理員賬號也被篡改,遠程埠也登陸不了了。,在網上搜索了一些伺服器安全設置以及防黑的文章,對著文章,我一個一個的設置起來,費了好幾天的時間才設置完,原以為會防止伺服器再次被黑,沒想到伺服器竟然癱瘓了,網站都打不開了,無奈對伺服器安全也是一竅不通,損失真的很大,資料庫都損壞了,我哪個後悔啊。娘個咪的。最後還是讓機房把系統重裝了。找了幾個做網站伺服器方面的朋友,咨詢了關於伺服器被黑的解決辦法,他們建議找國內最有名的伺服器安全的安全公司來給做安全維護,推薦了sinesafe,伺服器被黑的問題,才得以解決。
一路的走來,才知道,伺服器安全問題可不能小看了。經歷了才知道,伺服器安全了給自己帶來的也是長遠的利益。 希望我的經歷能幫到樓主,幫助別人也是在幫助我自己。
下面是一些關於安全方面的建議!
建站一段時間後總能聽得到什麼什麼網站被掛馬,什麼網站被黑。好像入侵掛馬似乎是件很簡單的事情。其實,入侵不簡單,簡單的是你的網站的必要安全措施並未做好。
一:掛馬預防措施:
1、建議用戶通過ftp來上傳、維護網頁,盡量不安裝asp的上傳程序。
2、定期對網站進行安全的檢測,具體可以利用網上一些工具,如sinesafe網站掛馬檢測工具!
序,只要可以上傳文件的asp都要進行身份認證!
3、asp程序管理員的用戶名和密碼要有一定復雜性,不能過於簡單,還要注意定期更換。
4、到正規網站下載asp程序,下載後要對其資料庫名稱和存放路徑進行修改,資料庫文件名稱也要有一定復雜性。
5、要盡量保持程序是最新版本。
6、不要在網頁上加註後台管理程序登陸頁面的鏈接。
7、為防止程序有未知漏洞,可以在維護後刪除後台管理程序的登陸頁面,下次維護時再通過ftp上傳即可。
8、要時常備份資料庫等重要文件。
9、日常要多維護,並注意空間中是否有來歷不明的asp文件。記住:一分汗水,換一分安全!
10、一旦發現被入侵,除非自己能識別出所有木馬文件,否則要刪除所有文件。
11、對asp上傳程序的調用一定要進行身份認證,並只允許信任的人使用上傳程序。這其中包括各種新聞發布、商城及論壇程
二:掛馬恢復措施:
1.修改帳號密碼
不管是商業或不是,初始密碼多半都是admin。因此你接到網站程序第一件事情就是「修改帳號密碼」。帳號
密碼就不要在使用以前你習慣的,換點特別的。盡量將字母數字及符號一起。此外密碼最好超過15位。尚若你使用
SQL的話應該使用特別點的帳號密碼,不要在使用什麼什麼admin之類,否則很容易被入侵。
2.創建一個robots.txt
Robots能夠有效的防範利用搜索引擎竊取信息的駭客。
3.修改後台文件
第一步:修改後台里的驗證文件的名稱。
第二步:修改conn.asp,防止非法下載,也可對資料庫加密後在修改conn.asp。
第三步:修改ACESS資料庫名稱,越復雜越好,可以的話將數據所在目錄的換一下。
4.限制登陸後台IP
此方法是最有效的,每位虛擬主機用戶應該都有個功能。你的IP不固定的話就麻煩點每次改一下咯,安全第一嘛。
5.自定義404頁面及自定義傳送ASP錯誤信息
404能夠讓駭客批量查找你的後台一些重要文件及檢查網頁是否存在注入漏洞。
ASP錯誤嘛,可能會向不明來意者傳送對方想要的信息。
6.慎重選擇網站程序
注意一下網站程序是否本身存在漏洞,好壞你我心裡該有把秤。
7.謹慎上傳漏洞
據悉,上傳漏洞往往是最簡單也是最嚴重的,能夠讓黑客或駭客們輕松控制你的網站。
可以禁止上傳或著限制上傳的文件類型。不懂的話可以找專業做網站安全的sinesafe公司。
8. cookie 保護
登陸時盡量不要去訪問其他站點,以防止 cookie 泄密。切記退出時要點退出在關閉所有瀏覽器。
9.目錄許可權
請管理員設置好一些重要的目錄許可權,防止非正常的訪問。如不要給上傳目錄執行腳本許可權及不要給非上傳目錄給於寫入權。
10.自我測試
如今在網上黑客工具一籮筐,不防找一些來測試下你的網站是否OK。
11.例行維護
a.定期備份數據。最好每日備份一次,下載了備份文件後應該及時刪除主機上的備份文件。
b.定期更改資料庫的名字及管理員帳密。
c.借WEB或FTP管理,查看所有目錄體積,最後修改時間以及文件數,檢查是文件是否有異常,以及查看是否有異常的賬號。
J. 如何設置讓網站禁止被爬蟲收錄
網站建設好了,當然是希望網頁被搜索引擎收錄的越多越好,但有時候我們也會碰到網站不需要被搜索引擎收錄的情況。
比如,要啟用一個新的域名做鏡像網站,主要用於PPC 的推廣,這個時候就要想辦法屏蔽搜索引擎蜘蛛抓取和索引我們鏡像網站的所有網頁。因為如果鏡像網站也被搜索引擎收錄的話,很有可能會影響官網在搜索引擎的權重。
以下列舉了屏蔽主流搜索引擎爬蟲(蜘蛛)抓取/索引/收錄網頁的幾種思路。注意:是整站屏蔽,而且是盡可能的屏蔽掉所有主流搜索引擎的爬蟲(蜘蛛)。
1、通過 robots.txt 文件屏蔽
可以說 robots.txt 文件是最重要的一種渠道(能和搜索引擎建立直接對話),給出以下建議:
User-agent: Baispider
Disallow: /
User-agent: Googlebot
Disallow: /
User-agent: Googlebot-Mobile
Disallow: /
User-agent: Googlebot-Image
Disallow:/
User-agent: Mediapartners-Google
Disallow: /
User-agent: Adsbot-Google
Disallow: /
User-agent:Feedfetcher-Google
Disallow: /
User-agent: Yahoo! Slurp
Disallow: /
User-agent: Yahoo! Slurp China
Disallow: /
User-agent: Yahoo!-AdCrawler
Disallow: /
User-agent: YouBot
Disallow: /
User-agent: Sosospider
Disallow: /
User-agent: Sogou spider
Disallow: /
User-agent: Sogou web spider
Disallow: /
User-agent: MSNBot
Disallow: /
User-agent: ia_archiver
Disallow: /
User-agent: Tomato Bot
Disallow: /
User-agent: *
Disallow: /
2、通過 meta tag 屏蔽
在所有的網頁頭部文件添加,添加如下語句:
<meta name="robots" content="noindex, nofollow">
3、通過伺服器(如:Linux/nginx )配置文件設置
直接過濾 spider/robots 的IP 段。
小註:第1招和第2招只對「君子」有效,防止「小人」要用到第3招(「君子」和「小人」分別泛指指遵守與不遵守 robots.txt 協議的 spider/robots),所以網站上線之後要不斷跟蹤分析日誌,篩選出這些 badbot 的ip,然後屏蔽之。