利用www搜索引擎檢索
搜索引擎是互聯(lián)網(wǎng)上提供信息搜索服務的平臺,是應用最廣泛的網(wǎng)絡服務工具。我們現(xiàn)在通常使用的搜索引攀基本上是運行于WWW中的,所以也可以稱為WWW搜索引攀。隨著網(wǎng)絡信息越來越滲入普通人的生活,搜索引攀已經(jīng)成為互聯(lián)網(wǎng)上一種熱門和關鍵的技術,研究與開發(fā)的競賽此起彼伏,從未停止。我們之所以能輕點”數(shù)億計的Internet網(wǎng)頁信息,全倚仗互聯(lián)網(wǎng)中上千個搜索引攀兢兢業(yè)業(yè)不斷地進行著發(fā)現(xiàn)、抓取、存儲、索引并提供網(wǎng)絡信息檢索服務的工作。它們正朝著專業(yè)化、本土化、生活化方向邁進。WWW搜索引擎按其運作方式差異可劃分為三種類型:目錄網(wǎng)站、全文搜索引擎和元搜索引擎。
一、目錄網(wǎng)站
日錄網(wǎng)站建設屬早期的WWW信息搜索工具,其工作方式是由人工進行網(wǎng)絡信息的收集、整理,以分類主題形式呈現(xiàn)和瀏覽。由于人工成本極高,技術含里比較低。從本質(zhì)上講算不上真正的搜索引攀,所以至今不受人重視,幾乎全部目錄網(wǎng)站后來都開發(fā)了自己獨立的新一代的搜索引攀,演變成常見的關鍵詞搜索形式,如新浪、搜狐、中國雅虎目前都己難覓當初目錄瀏覽風格的蹤影,僅有少數(shù)還保留著原始網(wǎng)站分類搜索的特征。最著名的網(wǎng)站目錄當數(shù)Yahoo中文的網(wǎng)站目錄從出現(xiàn)的時間排序有搜狐、網(wǎng)易、新浪等,國外有LookSmart. About等,目錄網(wǎng)站有如下特點。
①基于樹型目錄瀏覽網(wǎng)絡信息,簡單,易用。以樹型目錄結構組織的信息資游,具有嚴密的系統(tǒng)性和良好的可擴充性,該月錄加入了人類智稼,屏蔽了網(wǎng)絡資深系統(tǒng)相對于用戶的復雜性,可以提高信息的準確性,導航質(zhì)量高。②資源分類目錄不夠細致。網(wǎng)絡信息資派的龐雜性,決定了很難確定一個全面的范疇體系作為主題樹結構的基礎來涵蓋所有的網(wǎng)絡信息資源。為了保證主題的可用性和結構的清晰性,范疇體系的類目也不宜過多,這就使一方面有些特殊的類別無處可尋,另一方面大量的Web頁因沒有包含在目錄中而被忽略。隨著Web的增長,這個問題會越來越嚴重。利用聚類或其他自動分類(包括自然語言處理,相關頂抽取等)的方法仍然不能讓人滿意。并且還會出現(xiàn)機器自動得到的類與人工分類的結果不相同的問題。⑧由于人工介入、維護量大、信息呈相對少、信息更新不及時等,所以為使用戶得到更多的信息,這種目錄網(wǎng)站常把查詢送到其他搜索引擎上,對整個Web進行搜索。當今的目錄網(wǎng)站與全文搜索引擎是相互融合的,用戶基本不能區(qū)分。如Yahoo曾經(jīng)采用Google的搜索引攀提供頁面搜索,Google則采用“OpenDirectory”目錄提供分類查詢,搜索界面也幾乎是千篇一律。
二、全文搜索引攀
全文搜索引擎被稱為真正的搜索引擎,與網(wǎng)站目錄的區(qū)別在于它不再使用人工參與的信息搜索與分類,全部采用軟件程序來搜集、索引、檢索網(wǎng)絡信息,全文搜索引攀的結構由四部分組成。
(I)搜索器。搜索器或稱網(wǎng)絡機器人。是一種網(wǎng)絡自動搜索軟件,通常稱為“蜘蛛”(spider)、爬蟲(crawler)或機器人(robots)等。“蜘蛛”唯一的工作就是在Web中漫游發(fā)現(xiàn)和收集信息,它每天可以“爬行”大約一千萬個網(wǎng)頁,盡可能多快地收集各種類型的新信息。同時因為Web的信息更新很快,所以還要定期更新已經(jīng)收集過的舊信息,以免死鏈接和無效鏈接。收集信息的策略有兩個。第一,從一組URL (資源定位器)開始,順粉這些URL中的超鏈接,以寬度優(yōu)先或深度優(yōu)先方式遞歸地在Web中抽取信息。這些起始URL常常是一些非常流行的、包含很多鏈接的站點,例如Yahoo的分類節(jié)點;第二,可以通過設置“添加網(wǎng)址”欄,允許網(wǎng)絡信息作者主動給搜索引擎提供網(wǎng)頁地址,但這種方法常受到垃圾網(wǎng)頁制造的轟擊,幾乎有95%通過添加網(wǎng)址欄提交的網(wǎng)址被拒收。搜索引攀采用的搜索信息策略不同,如搜索頻率、搜索對象等會造成每個搜索引擎的搜索結果、質(zhì)量之間存在差異。
(2)索引器。 索引器或稱為標引程序。它的功能是分析收集器所收集的信息,進行自動標引,將文檔表示為一種便于檢索的形式并儲存在索引庫中,也就是建立倒排文檔。倒排文檔中的每個標引項都包含一組指針,指向它出現(xiàn)的網(wǎng)頁。為了給用戶提供有關被檢出文檔的信息,標引中還包含每個頁面的簡單描述,如產(chǎn)生日期、大小、標題、子標題和摘要等。
(3)檢索器。檢索器或稱為檢索軟件,它的功能是根據(jù)用戶的查詢,在索引庫中快速檢索出相關文檔,進行文檔與查詢的相關度評價,對將要輸出的結果進行排序,并能夠實現(xiàn)某種用戶相關反饋機制(即可以對檢索策略的不斷修正)。檢索器被視為搜索引擎中最復雜的部分,其中包含關于檢索結果的排序的重要問題。研究者發(fā)現(xiàn)用戶不可能耐心地去瀏覽動輒上萬的搜索結果,而只會注意到最前幾頁的搜索結果,光靠點擊率和詞頻來簡單排序的方法顯然有缺陷。
三、元搜索引攀
元搜索引攀又稱多搜索引擎,這類搜索引攀沒有自己的海量數(shù)據(jù)庫,而是將用戶的查詢請求同時向多個搜索引擎遞交,將返回的結果進行去排序等處理后再將結果返回給用戶。按其搜索機制可分為并行式和串行式。并行式元搜索引攀指將查詢要求問時發(fā)向各個獨立的搜索引攀。然后將結果按特定的順序提供給用戶。串行式元搜索引攀是將查詢耍求先發(fā)給某個獨立的搜索引擎,待其返回結果后再將請求發(fā)給另一個搜索引攀。
建站流程
-
網(wǎng)站需求
-
網(wǎng)站策劃方案
-
頁面設計風格
-
確認交付使用
-
資料錄入優(yōu)化
-
程序設計開發(fā)
-
后續(xù)跟蹤服務
-
聯(lián)系電話
010-60259772
熱門標簽
- 網(wǎng)站建設
- 食品網(wǎng)站建設
- 微信小程序開發(fā)
- 小程序開發(fā)
- 無錫網(wǎng)站建設
- 研究所網(wǎng)站建設
- 沈陽網(wǎng)站建設
- 廊坊網(wǎng)站建設
- 鄭州網(wǎng)站建設
- 婚紗攝影網(wǎng)站建設
- 手機端網(wǎng)站建設
- 高校網(wǎng)站制作
- 天津網(wǎng)站建設
- 教育網(wǎng)站建設
- 品牌網(wǎng)站建設
- 政府網(wǎng)站建設
- 北京網(wǎng)站建設
- 網(wǎng)站設計
- 網(wǎng)站制作
最新文章
推薦新聞
更多行業(yè)-
北京做網(wǎng)站公司提醒網(wǎng)站加載速度的重要性
在營銷網(wǎng)站建設的過程中,為了更好的達到宣傳效果,北京網(wǎng)站公司會使用一些...
2020-05-14 -
百度如何判定內(nèi)容的標準
有些seoer可能會思考,什么位置的相同內(nèi)容,什么相同程度的內(nèi)容被搜索...
2014-01-22 -
醫(yī)院營銷型網(wǎng)站建設有哪些好處?
隨著響應式網(wǎng)站技術日益完善,越來越多的企業(yè)選擇了建站自助建站,對于如何...
2019-06-04 -
營銷電話從哪里來?
如果你做網(wǎng)上業(yè)務,使您所有的銷售通過您網(wǎng)站上的購物車,喝彩。但不是每個...
2012-02-21 -
提升網(wǎng)站用戶體驗:要知的6條建議
作為營銷型網(wǎng)站設計師,我們的任務就是與用戶對話。我們選擇顏色、字體,以...
2014-02-20 -
網(wǎng)站制作有哪些特殊性?一起來看看網(wǎng)站制作
隨著網(wǎng)站制作方式的不斷變化,似乎每個人都在關注網(wǎng)站的互動制作。那么什么...
2020-05-27
預約專業(yè)咨詢顧問溝通!
免責聲明
非常感謝您訪問我們的網(wǎng)站。在您使用本網(wǎng)站之前,請您仔細閱讀本聲明的所有條款。
1、本站部分內(nèi)容來源自網(wǎng)絡,涉及到的部分文章和圖片版權屬于原作者,本站轉載僅供大家學習和交流,切勿用于任何商業(yè)活動。
2、本站不承擔用戶因使用這些資源對自己和他人造成任何形式的損失或傷害。
3、本聲明未涉及的問題參見國家有關法律法規(guī),當本聲明與國家法律法規(guī)沖突時,以國家法律法規(guī)為準。
4、如果侵害了您的合法權益,請您及時與我們,我們會在第一時間刪除相關內(nèi)容!
聯(lián)系方式:010-60259772
電子郵件:394588593@qq.com