網站首頁 個人文檔 個人總結 工作總結 述職報告 心得體會 演講稿 講話致辭 實用文 教學資源 企業文化 公文 論文

《大數據時代》讀書筆記【精彩多篇】

欄目: 讀書筆記 / 發佈於: / 人氣:2.89W

《大數據時代》讀書筆記【精彩多篇】

《大數據時代》讀書筆記 篇一

讀了《大數據時代》後,感覺到一個大變革的時代將要來臨。雖然還不怎麼明瞭到底要徹底改變哪些思維和操作方式,但顯然作者想要“終結”或顛覆一些傳統上作為我們思維和生存基本理論、方法和方式。在這樣的想法面前,我的思想被強烈震撼,不禁戰慄起來。

“在小數據時代,我們會假象世界是怎樣運作的,然後通過收集和分析數據來驗證這種假想。”“隨着由假想時代到數據時代的過渡,我們也很可能認為我們不在需要理論了。”書中幾乎肯定要顛覆統計學的理論和方法,也試圖通過引用《連線》雜誌主編安德森的話“量子物理學的理論已經脱離實際”來“終結”量子力學。對此我很高興,因為統計學和量子力學都是我在大學學習時學到抽筋都不能及格的課目。但這兩個理論實在太大,太權威,太基本了,我想我不可能靠一本書就能擺脱這兩個讓我頭疼一輩子的東西。作者其實也不敢旗幟鮮明地提出要顛覆它們的論點,畢竟還是在前面加上了“很可能認為”這樣的保護傘。

近幾十年,我們總是在遇到各種各樣的新思維。在新思維面前我們首先應該做到的就是要破和立,要改變自己的傳統,跟上時代的腳步。即使腦子還跟不上,嘴巴上也必須跟上,否則可能會被扣上思想僵化甚至阻礙世界發展的大帽子。既然大數據是“通往未來的必然改變”,那我就必須“不受限於傳統的思維模式和特定領域裏隱含的固有偏見”,跟作者一起先把統計學和量子力學否定掉再説。反正我也不喜歡、也學不會它們。

當我們人類的數據收集和處理能力達到拍字節甚至更大之後,我們可以把樣本變成全部,再加上有能力正視混雜性而忽視精確性後,似乎真的可以拋棄以抽樣調查為基礎的統計學了。但是由統計學和量子力學以及其他很多“我們也很可能認為我們不再需要的”理論上溯,它們幾乎都基於一個共同的基礎——邏輯。要是不小心把邏輯或者邏輯思維或者邏輯推理一起給“不再需要”的話,就讓我很擔心了!

《大數據時代》第16頁“大數據的核心就是預測”。邏輯是——描述時空信息“類”與“類”之間長時間有效不變的先後變化關係規則。兩者似乎是做同一件事。可大數據要的“不是因果關係,而是相關關係”,“知道是什麼就夠了,沒必要知道為什麼”,而邏輯學四大基本定律(同一律、矛盾律、排中律和充足理由律)中的充足理由律又“明確規定”任何事物都有其存在的充足理由。且邏輯推理三部分——歸納邏輯、溯因邏輯和演繹邏輯都是基於因果關係。兩者好像又是對立的。在同一件事上兩種方法對立,應該只有一個結果,就是要否定掉其中之一。這就是讓我很擔心的原因。

可我卻不能拭目以待,像旁觀者一樣等着哪一個“脱穎而出”,因為我身處其中。問題不解決,我就沒法思考和工作,自然就沒法活了!更何況還有兩個更可怕的事情。

其一:量子力學搞了一百多年,為了處理好混雜性問題,把質量和速度結合到能量上去了,為了調和量子力學與相對論的矛盾,又搞出一個量子場論,再七搞八搞又有了蟲洞和羅森橋,最後把四維的時空彎曲成允許時間旅行的樣子,恨不得馬上造成那可怕的時間旅行機器。唯一阻止那些“愛因斯坦”們“瞎胡鬧”的就是因果關係,因為爸爸就是爸爸,兒子就是兒子。那麼大數據會不會通過正視混雜性,放棄因果關係最後反而搞出時間機器,讓爸爸不再是爸爸,兒子不再是兒子了呢?其二:人和機器的根本區別在於人有邏輯思維而機器沒有。《大數據時代》也擔心“最後做出決策的將是機器而不是人”。如果真的那一天因為放棄邏輯思維而出現科幻電影上描述的機器主宰世界消滅人類的結果,那我還不如現在就趁早跳樓。

還好我知道自己對什麼統計學、量子力學、邏輯學和大數據來説都是門外漢,也許上面一大篇都是在胡説八道,所謂的擔心根本不存在。但問題出現了,還是解決的好,不然沒法睡着覺。自己解決不了就只能依靠專家來指點迷津。

所以想向《大數據時代》的作者提一個合理化建議:把這本書繼續寫下去,至少加一個第四部分——大數據時代的邏輯思維。

《大數據時代》讀書筆記 篇二

數據已經成為一種商業資本,一項重要的經濟投入,可以創造新的經濟利益。事實上,通過對海量數據進行分析,我們可以獲得巨大價值的產品或服務,或者深刻的洞見。

大數據時代的思維變革

(1)不是隨機樣本,而是全體數據:在大數據時代的第一個轉變就是利用所有數據,而不再僅僅依靠一小部分數據。採樣分析的精確性隨着採樣隨機性的增加而大幅提高,但與樣本數量的增加關係不大。因此樣本選擇的隨機性比樣本數量更加重要。大數據的方法不採用隨機分析法,而是採用所有數據,即樣本=總體。

(2)追求數據的混雜性而不是精確性:大數據為了擴大數據規模允許不精確。大數據的簡單算法比小數據的複雜算法更加有效。大數據要求我們接受紛繁性,放棄對精確性的追求,在大數據時代我們無法獲得精確性。

(3)大數據追求相關關係而非因果關係:通過監控一個現象的良好的關聯物,相關關係可以幫助我們捕捉現在和預測未來。大數據的相關關係分析法更加準確、更快,而且不易受傳統思維模式和特定領域裏隱含的固有偏見的影響。建立在相關關係分析法上基礎上的預測是大數據的核心。

大數據時代的商業變革

(1)一切皆可量化:量化是數據化的核心。我們要的是數據化而不是數字化。數據化是指一種把現象轉變為可製表分析的量化形式的過程。數字化指的是把模擬數據轉換為0和1換算表示的二進制碼。

有了大數據的幫助,我們不再會將世界看作世界是一連串我們認為或是自然或是社會的現象,我們會意識到本質上世界是由信息構成的。將世界看作信息,看作可以理解的數據海洋,為我們提供了一個從未有過的審視現實的視角。它是一種可以滲透到所有生活領域的世界觀。

(2)數據的絕大部分價值都隱藏在表面之下:數據的價值不僅限於特定用途,它可以為同一目的而被多次使用,也可以用於其他目的。數據的基本用途是為信息的收集和處理提供依據。不同於物質的東西,數據的價值不會隨着它的使用而減少,而是可以不斷地被處理。

數據的創新包括:數據的再利用(採集用户的搜索數據判斷用户的偏好或發展趨勢)、重組數據(多個數據集的總和重組在一起時比單個數據集更有價值)、可擴展數據(使得某種方式收集的單一數據集有多種不同的用途)、數據的折舊值(隨着時間推移,大多數數據都會失去一部分基本用途但潛在價值依然強大)、數據廢氣(使用用户在網上留下的數字軌跡,如在線交互痕跡,來改善舊服務)、開放數據(開放政府數據讓私營部門和社會大眾訪問)。

(3)數據、技術與思維的三足鼎立:大數據價值鏈的構成為大數據採集掌控、大數據挖掘技術、大數據思維。現今我們處在大數據時代的早期,思維和技能是最有價值的。但最終大部分的價值還是必須從數據本身中挖掘。大數據公司的`多樣性表明了數據價值的轉移。隨着數據價值轉移到數據擁有者手上,傳統的商業模式也就被顛覆了。

未來行業專家和技術專家的光芒都會因為統計數學家和數據分析家的出現而變暗。因為後者不受舊觀念的影響,能夠聆聽數據發出的聲音。

大數據決定企業的競爭力。規模很重要,大規模的公司擁有大量數據以及採集更多數據的能力,而小規模公司則更加靈活,因此中型企業將會逐漸消亡。

大數據時代的管理變革

(1)讓數據主宰一切隱憂:大數據的核心思想是用規模劇增來改變現狀,這會給我們帶來更多威脅。

在大數據時代,不管是告知與許可(很多數據在收集時並無意用作其他意圖,而最終卻產生了很多創新的用途)、模糊化(有意識的模糊化可能起到反作用)還是匿名化(大數據促進了內容的交叉檢驗),這三大隱私保護策略都失效了。

大數據被濫用於因果分析可能導致罪責的判定是基於對個人未來的預測。進行個人罪責推定需要行為人選擇某種特定的行為,他的選擇是造成這個行為的原因。而大數據並不是建立在因果關係基礎上的,而是相關關係!所以大數據絕不可以用來進行罪責推定!

(2)責任與自由並舉的信息管理:大數據時代要藉助限制信息濫用的規範而不是最初的審查來防止其氾濫。要想保護個人隱私就需要個人數據處理器對其政策和行為承擔更多的責任。

個人隱私保護從個人許可到讓數據使用者承擔責任:為了實現數據二次運用的優勢與過度披露所帶來的風險,監管機制可以決定不同種類的個人數據必須刪除的時間。再利用的時間框架則取決於數據內在風險和社會價值觀的不同。公司可以利用數據的時間更長,但相應的必須為其行為承擔責任以及負有特定時間之後刪除個人數據的義務。我們還可以開發新的技術促進隱私保護。如“差別隱私”:故意將數據模糊處理,促使對大數據庫的查詢不能顯示精確結果。

在依據大數據技術作重大決策時必須保證特定防護措施的到位:(a)公開原則。用來進行預測分析的數據和算法必須公開。(b)公正原則。具備由第三方專家公證的可靠、有效的算法系統。(c)可反駁原則。明確提出個人可以對其預測進行反駁的具體方式。(d)確保對人的評判依據真實行為而非大數據分析。

大數據的運作超出我們正常理解範圍。為了防止大數據的預測、運算法則和數據庫變得不透明、不可解釋、不可追蹤,大數據需要被檢測並保持透明度,當然還有使這兩項得以實現的新型專業技術和機構,大數計算法師將會崛起。

為了保護極具競爭力的大數據市場,必須防止壟斷。政府也應該公佈其數據。