這幾年我在看Big Data,不過直到最近才比較能掌握到技術面的東西。

Big Data的概念是將過去無法處理的巨量資料,例如單一行為的持續記錄,像是網站的瀏覽紀錄,因為這類資料會持續累積,所以體積容量會一直增加,也因為檔案太大,過去當電腦硬體空間不夠大的時候,就只能刪除舊有的資料,而無法累積下來。 現在則因為硬體容量大,並且有比較快速的方式去處理這些舊有的資料。其處理的方式是將這些資料轉變為一連串數據的資料組,讓電腦可以快速運算,透過對資料的定義,進行分類找出趨勢。

雖然考古學家或者是人類學家所處理的是比較小區域的田野,但是背後所要探討的是非常巨大的基本議題,從田野長期所累計下來的資料也是非常可觀,而這些資料不論是數據型或者是文字型,如果可以透過Big Data的處理方式,搭配對於分類方式的選擇,人類學家或許可以看到如地圖在不同尺寸下所展現出的不同尺度的內容。

http://prediction.io/ 這是我目前正在實驗的軟體,他整合了目前Big Data的軟體,提供開發者一個快速且簡單的方式去處理資料,比如我將人類學文獻中,對於不同區域的生計方式的項目輸入,他可以找到另外可能在哪些區域也有這些生計模式,並且將剛才所輸入的生計模式也直接加入到資料庫,成為下一次分類時候的資訊;同時也會記錄研究者的查詢偏好,回吐給研究者可能感興趣但是沒注意到的資料。

人類學家或者是考古學家或許比較常做的是觀察現象,收集資料後提出假設,比較少的是朝"如果非A,是否會有其他可能"的樹狀型推論去進行研究。或許是學科特性,或者是技術上的限制。不過如果我們能結合技術,把本身的研究放在更巨大的資料脈絡下,我們或許有可能可以看到在更廣大的人類地圖中的種種人類行為的可能性。