科技改變生活 · 科技引領未來
分布式搜索引擎的巨大潛力
中國互聯網絡信息中心發布的第43次《中國互聯網絡發展狀況統計報告》顯示,截至2018年12月,中國網民規模達8.29億,全年新增網民5653萬,用戶數量呈現不斷增長態勢?;ヂ摼W迎來大數據時代,搜索引擎也遇到了不小的挑戰。中心化的搜索到當今已難以發展,同時,以IPSE為代表的分布式搜索應運而生。IPSE目前已登陸全球最大的Dapp生態平臺DappReview,在未來,會逐步實現代碼開源,具有巨大的發展潛力。
中心化搜索的痛點
如今信息技術領域已經進入大數據、云計算時代,互聯網技術創新不斷突破,搜索引擎作為網絡信息的入口和第一大互聯網應用工具,也將發生改變。而目前搜索引擎技術發展相對落后,分布式搜索引擎技術方案相對較少,大部分傳統搜索引擎采用中心化體系結構。而中心化體系結構有以下幾個缺點,首先是系統可靠性差,中心化體系結構算力有限,不能應對大量的數據和訊息;其次是系統可拓展性不足,不能應對逐漸復雜的數據處理需求。同時,搜索引擎的用戶規模仍在不斷擴張,甚至超過了通訊工具的覆蓋率。
IPSE正是要解決這種痛點,發揮分布式搜索引擎最佳的性能,擁有更好的可靠性和可擴展性,它將分布式技術融入搜素引擎,指引出分布式搜索引擎的發展方向。
什么才是未來?
在IPSE的分布式搜索模式下,互聯網上所有的信息都應該在分布式的對等網絡上,進行唯一的、永久的并且可以按照內容來查找。分布式搜索引擎采用分布式計算技術架構,讓整個集群中的每臺計算機進行協作,來完成爬行、索引和搜索功能。分布式搜索引擎不僅解決了傳統搜索引擎面對的一些問題,如海量數據的信息處理低下問題、索引和搜索效率低下問題,而且具有更佳的安全性能,更強的容錯性,更高的效率,更加方便維護,使它的服務越來越完善。
分布式搜索利用分布式技術,使得多臺計算機串聯起來,能夠擁有更大的存儲、計算能力,部署成本也會更低,無疑對高校、企業等研究機構提供了更為廣闊的研究平臺和發展空間,也為知識產權保護提供了新的途徑??旖荨⒏咝У男畔⑻幚砀鼭M足了社會大眾的知識獲取需要,會創造巨大的社會價值。
分布式搜索的技術保證
在分布式計算領域,分布式搜索應用了分布式計算框架Hadoop,它具有低成本、高效性、高容錯性、高可靠性、高擴展性等優點,能夠讓開發者輕松對其進行架構和使用,在Hadoop上來開發和運行應用程序來對海量的數據進行處理,為分布式引擎IPSE提供很好的技術支撐。
目前,IPSE主要采用基于P2P的分布式搜索引擎。P2P系統一般采用非中心化的拓撲結構,并通過分布式散列表(DHT)技術來對網絡進行組織。DHT是由廣域網范圍中的大量節點共同進行維護的巨大散列表,它采用分布式散列計算法解決結構化的分布式存儲問題,通過分布式散列表,對文件能夠進行精確匹配查找,保證網絡中的文件經過有限的跳數一定能夠被找到。
由此可見,基于分布式的搜索引擎將會是未來搜索引擎的主要發展方向,也是互聯網領域中的熱點研究問題。隨著搜索引擎的商業化,未來的分布式搜索引擎也將不斷地取得發展,一個新的搜索時代正在到來。
王龍