c語言惡意代碼
『壹』 c語言里的gets()函數
C語言里的 gets(),scanf() 都不檢查緩沖區是否會溢出。至於此「漏洞」有什麼樣的風險,我沒有體會。自己寫的程序,自己用,沒有風險。
如果別人寫的程序,含惡意代碼,你也無可奈何,你不能叫別人用scanf()不用 gets()。
再說,
gets() 讀取一行字元串,包括空白(空格,tab...)。
scanf("%s",....) 它沒有 讀取一行 的功能,遇到 空白 就不讀下去了(它以空白為分隔符).
所以 scanf() 並不能代替 gets() 。
『貳』 C語言一個簡單的問題:輸入一段文本,計算其中每個單詞的出現頻率:下面是代碼
網站的域名綁定到,例如可以綁定到一級域名的博客,或網頁,這樣重新提交網路就可以收錄了.
3,將網站的域名作跳轉,跳轉到網路,新浪,163,sohu等門戶網站,重新提交後就可以了,
4,注冊網路的聯盟,加入網路的代碼,在重新提交.
急不來的
通常的步驟是:
- 提交到網路,正常情況是1個月後將你的網站添加到搜索引擎的index
- 整理你的頁面,讓你的頁面變得search engine friend,你可以到這個網站去看看有一些建議
- 到處去做你的網站的連接(提高搜索引擎訪問你的網站的速度)
如何讓網路收錄網路給站長的建站指南
如何使您的站點被網路有效收錄
給每個網頁加上與正文相關的標題。如果是網站首頁,則標題建議使用站點名稱或者站點代表的公司/機構名稱;其餘內容頁面,標題建議做成正文內容的提煉和概括。這可以讓您的潛在用戶快速的訪問到您的頁面。
請不要在標題中堆積與正文無關的關鍵詞。
確保每個頁面都可以通過一個文本鏈接到達。網路無法識別Flash中的鏈接,這些單元上的鏈接所指向的網頁,網路就無法收錄了。
頁面間的鏈接,盡量使用平實的超鏈,而不是重定向跳轉。使用自動跳轉的頁面,可能會被網路丟棄。
盡量少使用frame和iframe框架結構。
如果是動態網頁,請控制一下參數的數量和URL的長度。網路更偏好收錄靜態網頁。
在同一個頁面上,不要有過多鏈接。在那些站點地圖類型的頁面上,請把重要的內容給出鏈接,而不是所有細枝末節。鏈接太多,也可能會導致無法被網路收錄。
什麼樣的站點會受到網路歡迎
站點應該是面向用戶的,而不是面向搜索引擎的。一個受到用戶歡迎的站點,最終也會受到搜索引擎歡迎;反過來,如果您的站點做了很多針對網路的優化,但卻給用戶帶來大量負面體驗,那麼,您的站點最終可能還是會受到網路的冷落。
網路更喜歡有獨特內容的網頁,而不是簡單抄襲和重復互聯網上已有內容的網頁。對於已經被重復了千百遍的內容,網路可能會不予收錄。
請謹慎使用您的站點鏈接。與一些垃圾站點做友情鏈接,很可能會使您的網站受到負面影響。因此,當有人很熱情的要求您為他的站點提供友情鏈接時,請審視以下兩點:
一,對方的站點在他那個領域是否是高質量的?站長間所謂的流量以及排名,很多都是用欺騙手段獲取的,無法保持長久。
二,對方要求的鏈接名稱是否和對方網站地位相稱?用一個涵蓋范圍廣泛的關鍵詞來做一個內容非常局限的網站的鏈接名稱,很可能會使您的網站受到負面影響。
經常保持內容更新。經常有新內容產生的站點,網路是會注意到,並且大力歡迎,而且會頻繁造訪。
網站登錄問題
我的網站更新了,可是網路收錄的內容還沒更新怎麼辦?
答:網路會定期自動更新所有網頁(包括去掉死鏈接,更新域名變化,更新內容變化)。因此請耐心等一段時間,您的網站上的變化就會被網路察覺並修正。
怎樣使我的網站被網路收錄?
答:網路免費自動收錄您的站點。如果您希望網路盡快收錄,可以到網站登錄提交您的網址;只需提交網站首頁,內部頁面網路會自動抓取。
從提交到被收錄,大約需要多久?
答:通常需要1-4周時間。
我不想讓網路收錄我的站點,該怎麼辦?
答:網路尊重和遵守robots協議,您可以寫一個robots文件限制您的網站全部或部分不被網路收錄。詳情參見禁止搜索引擎收錄的辦法。
我的站點為什麼在網路中搜不到?
答:可能的原因如下:
您可能還沒向網路提交您的網站;
您已經登錄了網站,但由於時間短,網路還未收錄;
如果網路檢測到您的網站無法訪問,您的站點就有可能被網路暫時刪除;
如果您的網站內容有不符合中國法律的地方,則無法被網路收錄;
如果您的站點頁面結構復雜,則可能無法被網路收錄(詳見如何使您的站點被網路有效收錄);
如果您的網站被網路判別為垃圾站點,則可能被網路拒絕收錄或者隨時刪除(詳見網路關於垃圾網站的處理)。
如果您的網站的首頁在網路搜索不到,則可能是由於您的網站不穩定使首頁被判別為死鏈接導致丟失。您的網站穩定後,首頁會重新在網路中被搜索到。 網路並不允諾能收錄所有站點。如果有上述回答無法說明的問題,也可以發信到[email protected]詢問。
我的站點在網路搜索結果中排名下降了,該怎麼辦?
答:排序變動很正常。一般情況下,只要您不斷提高網站內容質量,讓更多的用戶喜歡您的網站,成為您的忠實用戶,您的網站在網路的排名一般就不會很差。
網路關於垃圾網站的處理
如果您的站點中的網頁,做了很多針對搜索引擎而非用戶的處理,使得:用戶從搜索結果中看到的內容與頁面實際內容完全不同,或者站點質量與站點在搜索結果中的排名極不相稱,從而導致用戶產生受欺騙感覺,那麼,您的網站就有可能被網路丟棄。
如果您的站點上的網頁,大量都是復制自互聯網上的高度重復性的內容,那麼,您的站點也有可能被網路丟棄。
所以,當您的網站從網路消失,請先審視一下自己的站點有無問題。有任何意見,也可以反饋到[email protected]。您也可以向網路投訴搜索中遇到的垃圾網站或者網頁,幫助網路保持搜索結果的質量。
讓網路等搜索引擎收錄您的網站當您發現在以下搜索引擎里,無法搜索到您或者您客戶的網站時,您就打開以下登錄口,填好申請表提交,等這些網站的工作人員審核通過後,您的網站就可以在上面搜索到了。
怎樣才能讓網路及時更新網站的收錄數據?你有沒有發現搜索引擎已經很久沒有收錄你的網站了,有沒有方法能讓搜索引擎及時更新你的網站收錄數據,不知道那麼就跟我來吧!(此處以網路搜索引擎為例)
1.在網路搜索引擎輸入:site: (此處就是你網站的網址)得到網站收錄數據.
網路一下,找到相關網頁29600篇,用時0.001秒
2.在網路最底下找到
1 [2] [3] [4] [5] [6] [7] [8] [9] [10] 下一頁 每10頁點下去,一直點到最後一頁,當出現
提示:為了提供最相關的結果,我們省略了一些內容相似的條目,點擊這里可以看到所有搜索結果。 再點擊提示上的連接. 3.最後再次輸入:site:,是不是發現比原來少了很多頁數了?不要害怕,已經達到讓網路更新收錄數據的目的了.一天以後就會發現重新收錄更多了!
注意:如果你的網站有新的內容,而又未被收錄的話,經驗證會有有明顯效果的。什麼?沒有新內容??那就增加你的網站內容吧…………
怎樣避免被搜索引擎視為作弊 >一個網站要想成功注冊,它起碼應具備兩個條件,一是網站本身要有較好的內容和設計,二是網站沒有作弊行為。這里所謂的「作弊」,是指採用一些特殊的、有悖常規的網頁設計手法,以期提高網站排名的行為。如何設計好網站,相關的資料很多,本文就不廢話了。這里主要談談後者,即在提高網站排名的同時,如何避免被搜索引擎視為作弊而拒絕注冊。 那麼,在搜索引擎看來,哪些行為算作弊呢?這里羅列了一下,從中你可看到,現在有些人還視為「密技」的東西,其實已經過時了。
>
> 堆砌頁面關鍵字:為了增加某個詞彙在網頁上的出現頻率,而故意重復它。這是有人常用的花招,不過,現在很多搜索引擎都能識破它。它們通過統計網頁單詞總數,判斷某個單詞出現的比例是否正常。一旦超過「內定標准」,就對你的網頁說「ByeBye」了。
>
> 放置隱形文本:所謂的「鬼頁法」。為了增加關鍵字數量,網頁中放一段與背景顏色相同的、包含密集關鍵字的文本,訪客看不到,可搜索引擎卻能找到,過去一度還真能提高網站排名,但現在,主要搜索引擎都能識別出來,照樣玩不通了。
>
> 安插微型文本:與「鬼頁法」相似,只是文本更些�更分散、更隱蔽。但是,對於敏感的搜索引擎來說,仍然是枉費心機。
>
> 網頁重定向:使用META刷新標記、CGI程序、java、Javascript或其它技術,當用戶點擊一個鏈接時,自動跳到另一個網頁。有人正是用這種方法,欺騙人們進入並不想去的地方。因此,有些搜索引擎(如Infoseek),對此類網頁也很反感,一般不予登記。
>
> 濫用Meta標記關鍵字:有人為增加關鍵字的出現次數,在語句中,重復關鍵字,或者加入與網站內容毫不相關的熱門詞彙。這種作弊行為,大部分搜索引擎也能識破。
>
> 濫用門戶網頁:門戶網頁(也稱「橋頁」),是指為了獲得好的排名,而專門針對各搜索引擎排序演算法設計的網頁。盡管今天,多數搜索引擎並不反對這種作法。但俗話說:「物極必反。」建立太多具有相近關鍵字的門戶網頁,會招致搜索引擎的反感而無法成功注冊。
>
> 連續注冊:有人為加大保險系數,在一天之內,將一個網頁重復提交給同一個搜索引擎,其實,這種作法適得其反。
>
> 重復注冊:有人以為,將一個網頁簡單復製成多個網頁,然後,給它們安上不同的名字,並分別予以注冊,會增大訪問量,結果,搜索引擎會認為你在濫用它,而拒絕登記你的網站。
>
> 偷換網頁:是指一個網頁成功注冊並獲得較好排名後,用另一個內容無關的網頁(如產品廣告)來替換它的行為。
>
> 張冠李戴:上面提到的門戶網頁,只適用於Altavista這類自動登錄的搜索引擎,如果提交給Yahoo這類人工分類的目錄式搜索引擎,它就會認為你在作弊。
>
>
突破頁數限制:一些搜索引擎允許每個用戶每天或每周提交的網頁數量是有限制的。例如,Altavista每天允許10頁;HotBot允許每天50頁;Excite允許每周25頁;Infoseek允許每天50頁(但使用e-mail注冊,沒有頁數限制)。請注意,這並不是說,搜索引擎每天或每周只能為你登錄以上頁數,而只是允許你提交的頁數。還不明白?那就舉個例吧,對於Excite而言,每周只允許你提交25頁,如果你的網站有1000頁,那該怎麼辦呢?就提交25頁即可!餘下的Excite會自己檢查到,並將編入索引中。如果你強行突破這個限制,那麼,搜索引擎就會認為你在作弊,反而不予注冊。
>
> 上面這些條款似乎很明顯、很容易區分,但有時我們卻可能不知不覺犯上。例如,你有一個網頁,背景是白色,在這個網頁上,你設計了一個表格,其背景為藍色、文字為白色,這種設計應該說也是完全正常的,但如果你到搜索引擎Infoseek去注冊,它卻不理你。為什麼呢?它認為你在作弊!在Infoseek看來,表格中的白色文本,實際是置於白色的網頁背景上,也就是說,網頁文本與背景顏色相同,這就符合「鬼頁法」的作弊特徵。而這一點,可能你自己根本沒有意識到。還有一例,有時因設計需要,或者網站已遷移到其它地方,通常我們會用到網頁重定向,但對於Infoseek等搜索引擎而言,這也是不可容忍的作弊行為。另外,Infoseek等搜索引擎還要求,不要在多個網頁上布置指向同一個網頁的鏈接。例如,很多人喜歡在各個網頁放上「返回主頁」的鏈接,其實就屬於這種情況。這種司空見慣的設計,居然也被看成作弊,真是太苛刻了。不過,對此Infoseek在真正執行時,似乎也並不是很嚴格,一些這樣設計的網頁,它照樣登錄了(你也碰碰運氣?)。總體上說,這些限制都是為了對付真正的作弊者,使搜索引擎的檢索結果更加准確有效,但事實上,的確也錯怪了一些好人。如果萬一你碰上這種情況怎麼辦,搜索引擎到底會怎樣處罰你呢?
>
> 跟不少網主一樣,筆者以前對此不甚了解,以為自己的某個網頁違項,會導致整個網站被封殺。其實,事實並非如此!因為運作搜索引擎的人也知道,有時他們搜索引擎判定的「作弊」,實際是一種正常合法的設計,只是因為搜索引擎自身還不夠「聰明」,無法准確判斷是故意作弊,還是偶然巧合。所以,他們通常不會因為某網頁象在作弊,就拒絕登記整個網站,而只是對有違規嫌疑的網頁進行處罰——降低排名或不予登記,而其它的合法網頁不會受到影響。此時,你只需將這個網頁修改,並重新注冊即可。除非你有意作弊,肆無忌憚違反上述多項規則,或者由於你提交的大量垃圾網頁,對搜索結果造成明顯不良影響,那麼,你的整個網站將被永遠踢出門外。當然,也有個別搜索引擎(如HotBot)政策更加寬松,甚至對故意作弊者,也沒有永遠拒絕登記的規定。只要它認為你沒有攻擊或侵害到它,一般不會刪掉你整個網站的索引,不過,這個尺度掌握在人家手裡,勸你還是別去試它的耐性。
>
> 作為一名網主,明白了哪些行為是作弊,你就應該在允許范圍內,去探索如何獲得較高排名,以增大網站訪問量,讓盡可能多的人知道你的產品、服務或了解你本人,只有這樣,成功注冊才有實際意義。
>
> 使網路有效收錄
>
> 網路喜歡結構簡單的網頁,具有復雜結構的網頁可能無法順利登錄網路。您在進行網頁設計時應盡量:
>
> 1. 給每個網頁加上標題
>
> 網站首頁的標題,建議您使用您的網站名稱或公司名稱,其它網頁的標題建議與每個網頁內容相關,內容不同的網頁不用相同的標題。
>
> 2. 不要把整個網頁做成一個Flash或是一張圖片
>
> 網路是通過識別網頁源代碼中的漢字來認識每一個網頁的。如果您的整個網頁是一個Flash或一張圖片,網路在網頁中找不到漢字,就有可能不收錄您的網頁。
>
> 3. 不對網頁做重定向
>
> 重定向的網頁可能不容易登錄網路。
>
> 4.不在網頁中使用Frame(框架結構)
>
> 5.不在網頁中使用過分復雜的JavaScript
>
> 某些Java Script的內容對於搜索引擎是不可見的,所以不能被識別和登錄。
>
> 5.靜態網頁能更順利登錄網路,動態生成的網頁不容易登錄網路
>
> ·如果您的網頁url中含有如asp、?等動態特徵,網頁就可能被認為是動態網頁。
>
> ·如果您的網站中有很多網頁必須做成Frame結構或動態網頁,那麼建議您至少把網站首頁做成簡單的網頁,並且對網站內的一些重要網頁,在首頁加上鏈接。
>
> 6. 不要對搜索引擎進行作弊
>
> 作弊的網站不能登錄網路,即使登錄後也隨時可能被刪除。
>
> 作弊網站定義
>
> 對搜索引擎作弊,是指為了提高在搜索引擎中展現機會和排名的目的,欺騙搜索引擎的行為。
>
> 以下行為都可能被認為是作弊:
>
> · 在網頁源代碼中任何位置,故意加入與網頁內容不相關的關鍵詞;
>
> · 在網頁源代碼中任何位置,故意大量重復某些關鍵詞。即使與網頁內容相關的關鍵詞,故意重復也被視為作弊行為;
>
> · 在網頁中加入搜索引擎可識別但用戶看不見的隱藏文字。無論是使用同背景色文字、超小字型大小文字、文字隱藏層、還是濫用圖片ALT等方法,都屬於作弊行為;
>
> · 故意製造大量鏈接指向某一網址的行為;
>
> · 對同一個網址,讓搜索引擎與用戶訪問到不同內容的網頁(包括利用重定向等行為);
>
> · 作弊行為的定義是針對網站而不是網頁的。一個網站內即使只有一個網頁作弊,該網站也被認為是有作弊行為;
>
> · 有鏈接指向作弊網站的網站,負連帶責任,也會被認為是作弊(但是,作弊網站上鏈接指向的網站,不算作弊)。
>
> 作弊網站害處
>
> 根據網頁的作弊情況,會受到不同程度的懲罰:
>
> · 較輕微的懲罰,是系統在給網頁排名時略為降低該網頁的排名;
>
> · 較常見的懲罰,是作弊網站的某些關鍵詞(或所有關鍵詞)的排名降到其它任何網站之後;
>
> · 較嚴厲的懲罰,對於作弊行為和後果特別惡劣的網站,將從網路中消失;
>
> · 特別補充,含惡意代碼或惡意插件等用戶極端反感內容的網頁,雖然不是作弊,但只要用戶投訴,一經確認也會被網路拒絕收錄;
> = = = = = = = = = = = = = = = = = = = =
致
禮!
simon
[email protected]
2006-06-07
Google官方確認AdSense有助於網頁收錄
>Google官方確認AdSense有助於網頁收錄
>
>Google的網頁收錄的其中一種途徑是通過Googlebot的爬行來實現的,也就是說,Google派出它自己的網路蜘蛛,主動去抓取有價值的網頁內容。類似地,Google的AdSense也有自己的bot,它的名字為MediaBot。它會自動去到放置了AdSense廣告代碼的網頁,然後對網頁內容進行分析,以投放與網頁內容相關的廣告。但一直以來都有一個爭論,那就是到底AdSense的MediaBot與Googlebot有什麼區別?MediaBot在判斷廣告相關網頁的時候,會不會也對這個網站在Google收錄及排名等方面有一定的好處呢?也就是說,投放了AdSense廣告,會不會有助於改善自己的網站的Google收錄及排名呢?
>
> 根據SEJ的消息,Google的一名高級工程師及主管Matt Cutts已經正式確認,AdSense派出來的MediaBot在抓取網頁內容後,會把部分結果提交至BigDaddy的資料庫里。Matt解釋說,這是因為兩種bot都在不斷地抓取網頁,因此為了節省資源,MediaBot會幫Googlebot完成部分網頁抓取工作。但Matt同時也給出警告,如果你的網站提供給MediaBot的內容與提供給Googlebot的內容完全不同,那麼你就會「有麻煩」。因為Google會認為你在作弊。
>
> 我認為從Matt給出的訊息里可以證明,在網站上投放了AdSense的廣告,的確是有助於你的網站被Google收錄。比如,收錄得更快更多。但並不一定會提高你的網站排名。有這方面經驗的朋友應該會想到其它辦法,從Matt的話出發。
>來自幻滅的麥克風
搜索引擎原理-網路蜘蛛和ROBOTS
>搜索引擎原理-網路蜘蛛和ROBOTS
>
>一、網路蜘蛛基本原理
>
> 網路蜘蛛即Web Spider,是一個很形象的名字。把互聯網比喻成一個蜘蛛網,那麼Spider就是在網上爬來爬去的蜘蛛。網路蜘蛛是通過網頁的鏈接地址來尋找網頁,從網站某一個頁面(通常是首頁)開始,讀取網頁的內容,找到在網頁中的其它鏈接地址,然後通過這些鏈接地址尋找下一個網頁,這樣一直循環下去,直到把這個網站所有的網頁都抓取完為止。如果把整個互聯網當成一個網站,那麼網路蜘蛛就可以用這個原理把互聯網上所有的網頁都抓取下來。
>
> 對於搜索引擎來說,要抓取互聯網上所有的網頁幾乎是不可能的,從目前公布的數據來看,容量最大的搜索引擎也不過是抓取了整個網頁數量的百分之四十左右。這其中的原因一方面是抓取技術的瓶頸,無法遍歷所有的網頁,有許多網頁無法從其它網頁的鏈接中找到;另一個原因是存儲技術和處理技術的問題,如果按照每個頁面的平均大小為20K計算(包含圖片),100億網頁的容量是100×2000G位元組,即使能夠存儲,下載也存在問題(按照一台機器每秒下載20K計算,需要 340台機器不停的下載一年時間,才能把所有網頁下載完畢)。同時,由於數據量太大,在提供搜索時也會有效率方面的影響。因此,許多搜索引擎的網路蜘蛛只是抓取那些重要的網頁,而在抓取的時候評價重要性主要的依據是某個網頁的鏈接深度。
>
> 在抓取網頁的時候,網路蜘蛛一般有兩種策略:廣度優先和深度優先。
>
廣度優先是指網路蜘蛛會先抓取起始網頁中鏈接的所有網頁,然後再選擇其中的一個鏈接網頁,繼續抓取在此網頁中鏈接的所有網頁。這是最常用的方式,因為這個方法可以讓網路蜘蛛並行處理,提高其抓取速度。深度優先是指網路蜘蛛會從起始頁開始,一個鏈接一個鏈接跟蹤下去,處理完這條線路之後再轉入下一個起始頁,繼續跟蹤鏈接。這個方法有個優點是網路蜘蛛在設計的時候比較容易。兩種策略的區別,下圖的說明會更加明確。
>
> 由於不可能抓取所有的網頁,有些網路蜘蛛對一些不太重要的網站,設置了訪問的層數。例如,在上圖中,A為起始網頁,屬於0層,B、C、D、E、F屬於第1層,G、H屬於第2層, I屬於第3層。如果網路蜘蛛設置的訪問層數為2的話,網頁I是不會被訪問到的。這也讓有些網站上一部分網頁能夠在搜索引擎上搜索到,另外一部分不能被搜索到。對於網站設計者來說,扁平化的網站結構設計有助於搜索引擎抓取其更多的網頁。
>
> 網路蜘蛛在訪問網站網頁的時候,經常會遇到加密數據和網頁許可權的問題,有些網頁是需要會員許可權才能訪問。當然,網站的所有者可以通過協議讓網路蜘蛛不去抓取(下小節會介紹),但對於一些出售報告的網站,他們希望搜索引擎能搜索到他們的報告,但又不能完全**的讓搜索者查看,這樣就需要給網路蜘蛛提供相應的用戶名和密碼。網路蜘蛛可以通過所給的許可權對這些網頁進行網頁抓取,從而提供搜索。而當搜索者點擊查看該網頁的時候,同樣需要搜索者提供相應的許可權驗證。
>
> 網站與網路蜘蛛
>
> 網路蜘蛛需要抓取網頁,不同於一般的訪問,如果控制不好,則會引起網站伺服器負擔過重。今年4月,淘寶就因為雅虎搜索引擎的網路蜘蛛抓取其數據引起淘寶網伺服器的不穩定。網站是否就無法和網路蜘蛛交流呢?其實不然,有多種方法可以讓網站和網路蜘蛛進行交流。一方面讓網站管理員了解網路蜘蛛都來自哪兒,做了些什麼,另一方面也告訴網路蜘蛛哪些網頁不應該抓取,哪些網頁應該更新。
>
> 每個網路蜘蛛都有自己的名字,在抓取網頁的時候,都會向網站標明自己的身份。網路蜘蛛在抓取網頁的時候會發送一個請求,這個請求中就有一個欄位為User- agent,用於標識此網路蜘蛛的身份。例如Google網路蜘蛛的標識為GoogleBot,Bai網路蜘蛛的標識為BaiDuSpider, Yahoo網路蜘蛛的標識為Inktomi Slurp。如果在網站上有訪問日誌記錄,網站管理員就能知道,哪些搜索引擎的網路蜘蛛過來過,什麼時候過來的,以及讀了多少數據等等。如果網站管理員發現某個蜘蛛有問題,就通過其標識來和其所有者聯系。下面是博客中)2004年5月15日的搜索引擎訪問日誌:
>
> 網路蜘蛛進入一個網站,一般會訪問一個特殊的文本文件Robots.txt,這個文件一般放在網站伺服器的根目錄下。網站管理員可以通過robots.txt來定義哪些目錄網路蜘蛛不能訪問,或者哪些目錄對於某些特定的網路蜘蛛不能訪問。例如有些網站的可執行文件目錄和臨時文件目錄不希望被搜索引擎搜索到,那麼網站管理員就可以把這些目錄定義為拒絕訪問目錄。Robots.txt語法很簡單,例如如果對目錄沒有任何限制,可以用以下兩行來描述:
>
> User-agent: *
> Disallow:
>
> 當然,Robots.txt只是一個協議,如果網路蜘蛛的設計者不遵循這個協議,網站管理員也無法阻止網路蜘蛛對於某些頁面的訪問,但一般的網路蜘蛛都會遵循這些協議,而且網站管理員還可以通過其它方式來拒絕網路蜘蛛對某些網頁的抓取。
>
> 網路蜘蛛在下載網頁的時候,會去識別網頁的HTML代碼,在其代碼的部分,會有META標識。通過這些標識,可以告訴網路蜘蛛本網頁是否需要被抓取,還可以告訴網路蜘蛛本網頁中的鏈接是否需要被繼續跟蹤。例如:表示本網頁不需要被抓取,但是網頁內的鏈接需要被跟蹤。
>
> 關於Robots.txt的語法和META Tag語法,有興趣的讀者查看文獻[4]
>
> 現在一般的網站都希望搜索引擎能更全面的抓取自己網站的網頁,因為這樣可以讓更多的訪問者能通過搜索引擎找到此網站。為了讓本網站的網頁更全面被抓取到,網站管理員可以建立一個網站地圖,即Site Map。許多網路蜘蛛會把sitemap.htm文件作為一個網站網頁爬取的入口,網站管理員可以把網站內部所有網頁的鏈接放在這個文件裡面,那麼網路蜘蛛可以很方便的把整個網站抓取下來,避免遺漏某些網頁,也會減小對網站伺服器的負擔。
>
> 內容提取
>
> 搜索引擎建立網頁索引,處理的對象是文本文件。對於網路蜘蛛來說,抓取下來網頁包括各種格式,包括html、圖片、doc、pdf、多媒體、動態網頁及其它格式等。這些文件抓取下來後,需要把這些文件中的文本信息提取出來。准確提取這些文檔的信息,一方面對搜索引擎的搜索准確性有重要作用,另一方面對於網路蜘蛛正確跟蹤其它鏈接有一定影響。
>
> 對於doc、pdf等文檔,這種由專業廠商提供的軟體生成的文檔,廠商都會提供相應的文本提取介面。網路蜘蛛只需要調用這些插件的介面,就可以輕松的提取文檔中的文本信息和文件其它相關的信息。
『叄』 下面哪類屬於惡意代碼
在計算機環境下,軟體賴以生存的軟體環境被稱作是宿主環境(host environment). CLR (Common Language Runtime),環境就是稱作宿主(Host) 。宿主就是運行環境(即宿主程序),比如:asp需要運行在IIS里,IIS就是宿主程序。宿主環境(宿主程序)可以是操作系統,伺服器程序,應用程序,而開發這些宿主環境的程序語言(如開發操作系統一般使用c語言,開發WebServer一般使用c或java語言,開發應用程序一般使用C++/java/c#語言)被稱作系統開發語言,或用一個更貼切的說法是---宿主語言。馬神我並不太了解。
蠕蟲病毒是一種常見的計算機病毒。它是利用網路進行復制和傳播,傳染途徑是通過網路和電子郵件。最初的蠕蟲病毒定義是因為在DOS環境下,病毒發作時會在屏幕上出現一條類似蟲子的東西,胡亂吞吃屏幕上的字母並將其改形。蠕蟲病毒是自包含的程序(或是一套程序),它能傳播自身功能的拷貝或自身(蠕蟲病毒)的某些部分到其他的計算機系統中(通常是經過網路連接)。
"特洛伊城並"不是惡意代碼,「特洛伊木馬」(trojan horse)簡稱「木馬」,木馬和病毒都是一種人為的程序,都屬於電腦病毒,據說這個名稱來源於希臘神話《木馬屠城記》。 木馬(Trojan)這個名字來源於古希臘傳說(荷馬史詩中木馬計的故事,Trojan一詞的特洛伊木馬本意是特洛伊的,即代指特洛伊木馬,也就是木馬計的故事)。「木馬」程序是目前比較流行的病毒文件,與一般的病毒不同,它不會自我繁殖,也並不「刻意」地去感染其他文件,它通過將自身偽裝吸引用戶下載執行,向施種木馬者提供打開被種者電腦的門戶,使施種者可以任意毀壞、竊取被種者的文件,甚至遠程操控被種者的電腦
『肆』 各種在線編譯C語言,java等語言的編譯器是如何防止用戶提交的惡意代碼在後台運行的
添加審核功能,把有用的篩選下來,沒用的去掉。或者加一個提交限制,用戶提交的裡麵包含有惡意的內容就不讓他提交。再或者你就不用提交到後台,在前台來編譯,類似於HTML、json等的編譯
『伍』 6.16 C語言,getchar gets getc有什麼區別 分別是表示什麼的
區分C語言中getch、getche、fgetc、getc、getchar、fgets、gets首先,這兩個函數不是C標准庫中的函數,
int getch(void)//從標准輸入讀入一個字元,當你用鍵盤輸入的時候,屏幕不顯示你所輸入的字元。也就是,不帶回顯。
int getche(void) //從標准輸入讀入一個字元,鍵盤輸入的時候,屏幕顯示所輸入的字元。帶回顯。
這兩個函數包含在頭文件conio.h中,需要記住的是conio.h不是C標准庫中的頭文件。Micorsoft 和 Borland的 C編譯器提供了conio.h,用來創建控制台文本用戶界面。一般在Windows系統下安裝了VS、VC等,就可以包含conio.h頭文件。但是一般在Unix、Linux系統中,/usr/include/中都沒有這個頭文件。
getch和getche在等待用戶從鍵盤輸入的時候,用戶按下一個鍵後,不需要按回車,程序自動往下執行。在Linux中,終端輸入在預設情況下是被「一鍋端」的,也就是說整行輸入是被一起處理的。通常,這是一種人們所希望的方便的辦法,但它也意味著在讀入數據時必須按一下回車鍵表示輸入行結束後才能得到輸入的數據。在游戲中,很多都提供了「老闆鍵」,它的實現,就是利用了這兩個函數。
其次,除了getch和getche,其他的都是C標准庫中的頭文件,包含在頭文件stdio.h中。
int fgetc ( FILE * stream ); //從流stream中讀一個字元。可以將標准輸入stdin作為它的實參,這時候從標准輸入讀取一個字元。int getc(FILE * stream); //和fgetc等效,由fgetc通過宏實現。int getchar ( void ); //從標准輸入stdin讀入一個字元,程序等待你輸入的時候,你可以輸入多個字元,回車後程序繼續執行。 //但getchar只讀入一個字元說明:getc、getchar都是通過宏定義藉助fgetc實現。如getchar的實現為,#define getchar() fgetc(stdin)。 char * fgets (char * str, int num, FILE *stream); //從流stream中讀入最多num個字元到字元數組str中,當遇到換行符時、或讀到num-1個字元時停止。 //自動加上'\0'空字元結尾char * gets ( char * str );//從標准輸入stdin讀取一個字元串,遇到換行或結束時候終止。 //不同於fgets,他沒有指定num,所以需要注意字元數組str的大小。 說明: fgets和gets之間沒有宏定義的關系,彼此各自有自己的實現。蠕蟲病毒的實現就是函數gets的「功勞」。gets函數的任務是從流中讀入一個字元串。它的調用者會告訴它把讀入的字元串放在什麼地方。但是,gets()函數並不檢查緩沖區大小,如果調用者提供了一個指向堆棧的指針,並且get()函數讀入的字元數量超過了超過了緩沖區的空間大小,get()會愉快地將多出來的字元繼續寫入到堆棧中,這就覆蓋了堆棧中原來的內容。如:main()
{
char line[512]; //在程序的堆棧上分配512個字元的空間
...
gets(line); //蠕蟲病毒的入口,可以將惡意代碼通過多出來的數據寫入堆棧
}
建議不要用getch和getche,因為它們不是C標准庫中的函數。用它們寫出的程序可移植性差,不同的編譯器不保證可以包含conio.h。建議用fgets函數徹底替代gets函數。
『陸』 全國計算機等級考試二級c語言 操作題沒有編譯運行有分嗎
評分系統也是調取你的源代碼,然後自動編譯,再驗證運行結果和生成的文件。同學盡管放心,只要代碼正確是可以得分的!
網路安全素質教育考試,要求具有網路安全的基礎知識、網路安全意識和網路行為安全規范;了解計算機網路和網路安全的基本概念及法律法規標准、網路攻擊的步驟和安全模型。
掌握Windows系統及移動智能系統和網路應用安全防護的措施、常見安全威脅的應對措施、惡意代碼的基本概念及技術、典型網路安全工具的配置和使用。
考核內容:
「計算機基礎及MS Office應用」、「計算機基礎及WPS Office應用」、「計算機基礎及Photoshop應用」三個科目的考核內容都包括計算機基礎知識和操作技能兩部分。各科目對基礎知識的要求相同,以考查應知應會為主,題型為選擇題,分數佔全卷的20%(20分)。
辦公軟體類考試,操作技能部分包括漢字錄入、Windows系統使用、文字排版、電子表格、演示文稿、IE的簡單應用及電子郵件收發。
Adobe Photoshop國際認證(Adobe國際認證)考試,要求了解數字圖像的基本知識,熟悉Photoshop的界面與基本操作方法,掌握並熟練運用繪圖工具進行圖像的繪制、編輯、修飾,會使用圖層蒙版、樣式以及文字工具。
『柒』 C語言通過故意製造野指針,數組溢出載入惡意代碼會不會報毒
這是一定的。
刻意製造緩沖區溢出是一種常見的攻擊手段。
另外,在本機由編譯器直接生成的exe文件,即使不存在惡意代碼,也存在被殺毒軟體誤識別為病毒或惡意代碼而執行隔離刪除的可能性。
『捌』 HANDLE hToken; 這個是什麼語言的代碼
Windows API寫的,語言是C/C++,在VC++里編譯就行,頭文件加#include <windows.h>
先使該程序獲得足夠的許可權,然後調用ExitWindowsEx關機
沒有病毒的
『玖』 學惡意代碼要找誰啊
電話: 110
網站: http://www.mps.gov.cn/
『拾』 想學反匯編,現在在學匯編王爽的都到第九章了,認認真真看的,有c語言基礎以前學過,准備再復習一遍,我
學反匯編想干什麼?
(1)破解別人的軟體----侵犯知識產權
(2)查找軟體漏洞,利用漏洞----黑客
(3)在別人的軟體中植入惡意代碼----病毒製造者
.................
這些全是違規違法 !!!