飄天文學 > 重生之互聯網霸主 >0202.再一次挖角峯語-Kaltix歸心
    {時間2003年3月4日}

    {地點加州帕洛阿爾託}

    無論哪個時候謙虛總是好的,但是過於謙虛有時候難免給人誤會。所以面對katix三人組,寧子默並不謙虛。

    katix三人組說掌握的技術,確實是針對峯語的arank去做的提升。但bg同樣在網頁頁面權重方面有自己的專用算法,搜索引擎本質上的共性讓katix技術的融入並不存在問題。

    問題在於,如何將katix三人組納入旗下。這可不是簡單地把katix三人組挖過來那麼簡單,而是對峯語和bg相對此消彼長的“騷操作”。

    既然是此消彼長,寧子默不介意亮亮肌肉。

    用迅雷不及掩耳之勢,拿下三人

    於是,這一番大數據搜索的延伸場景擺在2003年這個時代,已經不足以用驚豔來形容。

    包括霍夫曼在內,辦公室裏呆着的四人一幅“懵逼”的樣子盯着寧子默,讓寧子默一時間有種“說過了”的感覺。

    確實,剛剛講的東西對眼前的四人而言。

    太超前了

    他們的理解,

    或許還跟不上。

    沒想到賽普突然張了張嘴,小心翼翼地說,“寧,我們三人曾就峯語搜索引擎討論過搜索引擎技術的發展。本以爲我們的展望已經十分超前,沒想到你鋪開在我們面前的那副畫卷完全超越過我們曾經的想象。”

    眼前這位叫做寧的年輕人,不僅僅是大名鼎鼎的倍寶o,竟然還是領贏和ysace的聯合創始人。

    他已經在過去的數個項目中展現了他的創造力,卻沒想到他在搜索引擎這麼專業的領域竟然有着超越這個時代的獨到見解。

    他關注的不僅僅是技術,更是科技,或者說互聯網技術在人類文明未來的發展中所起到的關鍵作用。

    如果說以前很多人問自己搜索引擎可以幹什麼,自己的回答最多會比寧給出的答案更好一些

    “搜索引擎可以幫你更快速找到更專業、更詳盡的答案。”

    但是今天過後,賽普覺得他或許會給問出問題的人一個更好的答案。

    或者說,今天過後,他突然給不出別人一個答案。

    搜索引擎可以做什麼

    寧已經講得清清楚楚,

    但那個未來,

    離現在確實還很遠。

    想到這裏,賽普鼓起勇氣問到,“寧,你說描繪的畫卷絕對是搜索引擎未來最值得去探索的發展方向。”

    抱歉地點了點頭,賽普訕笑着說,“並不是說我不看好你所說的未來,而是我意識到你所說的那個未來,離我們有些遠。它一定會用到大量的新技術去實現,而那些技術並不是一個簡簡單單的團隊可以完成的。

    甚至就連目前在搜索引擎領域十分領先的峯語,就算它有足夠的技術積累,也不能在短期內達成你所說的那個未來。單單如何將網頁文件串聯成數據,並以數據庫查詢的方式來實現搜索,都是個目前短期內難功課的難點。”

    “夢想總是要有的,要不然怎麼去一步一步實現它”

    寧子默把有關夢想的話變了個說話,就在賽普表態的同時,他已經想到了更深層次的東西。

    寧子默明白,有一些人,僅僅只靠畫餅是不能完全說服的。

    自己必須拿出完全體來對付這幫同樣有夢想的年輕人

    寧子默自信地笑笑,乘着抿一口咖啡的時間在腦子裏將峯語搜索的關鍵技術彙集成冊。

    把杯子從嘴邊拿開的時候,寧子默腦子裏有關峯語搜索關鍵技術的封印,

    已然打開

    “說到搜索,人們往往會簡單地認爲搜索只是抓取爬蟲從網絡上抓取的結果。但實際上,搜索並沒有人們想象的那麼簡單。”

    寧子默將杯子輕輕地放在桌上,笑着掃了三人一眼,細細地解釋到

    “我們談到大數據搜索,其核心一定是體量極大的數據量。這種體量的數據存儲、索引和檢索,已經不單單是數據庫結構能去實現並解決的。

    大數據量的數據存儲和搜索一定要有對應的文件存儲檢索系統,它必定是一個面向大規模數據密集型應用的、可伸縮的分佈式文件系統。

    我們bg除了在搜索和爬蟲上用心外,最核心的部分還是背後那套圍繞在bfsbgfiesyste文件系統的核心技術體。這套系統的設計目標,與許多傳統的分佈式文件系統有很多相同之處。比如,性能、可伸縮性、可靠性以及可用性。

    但bfs的還是以應用負載情況和技術環境的分析爲基礎着重考慮,不管現在還是將來,bfs和早期的分佈式文件系統的設想都有明顯的不同。所以我們重新審視了傳統文件系統在設計上的折衷選擇,衍生出了完全不同的設計思路。

    首先,組件失效被認爲是常態而不是意外。bfs需要管理成百上千存儲機器,同時被相當數量的用戶終端機訪問。bfs組件的數量和質量導致在事實上,任何給定時間內都有可能發生某些組件無法工作,某些組件無法從它們目前的失效狀態中恢復。

    當我們遇到過各種各樣的問題,比如應用程序bug、操作系統的bug、人爲失誤,甚至還有硬盤、內存、連接器、網絡以及電源失效等造成的問題。所以,持續的監控、錯誤偵測、災難冗餘以及自動恢復的機制必須集成在gfs中。

    其次,以通常的標準衡量,我們的文件非常巨大。數gb文件都可能非常普遍。每個文件通常都包含許多應用程序對象,比如eb文檔。

    當我們未來需要處理快速增長並由數億個對象構成的、數以tb的數據集時,採用管理數億個kb大小的小文件的方式是非常不明智的,儘管有些文件系統支持這樣的管理方式。因此,設計的假設條件和參數,比操作和bock的尺寸都需要重新考慮。

    第三,絕大部分文件的修改是採用在文件尾部追加數據,而不是覆蓋原有數據的方式。對文件的隨機寫入操作在實際中幾乎不存在。一旦寫完之後,對文件的操作就只有讀,而且通常是按順序讀。

    大量的數據符合這些特性,比如數據分析程序掃描的超大的數據集;正在運行的應用程序生成的連續的數據流;存檔的數據;由一臺機器生成、另外一臺機器處理的中間數據,這些中間數據的處理可能是同時進行的、也可能是後續才處理的。

    對於這種針對海量文件的訪問模式,客戶端對數據塊緩存是沒有意義的,數據的追加操作是性能優化和原子性保證的主要考量因素。


章節報錯(免登陸)