網站首頁 個人文檔 個人總結 工作總結 述職報告 心得體會 演講稿 講話致辭 實用文 教學資源 企業文化 公文 論文

數據報告心得體會

欄目: 專題心得體會 / 發佈於: / 人氣:1W

數據報告心得體會

數據報告心得體會

轉眼間實習已去一月,之前因為工作原因需要惡補大量的專業知識並加以練習,所以一直抽不開身靜下心來好好整理一下學習的成果。如今,模型的建立已經完成,剩下的就是枯燥的參數調整工作。在這之前就先對這段時間的數據處理工作得到的經驗做個小總結吧。

從我個人的理解來看,數據分析工作,在絕大部分情況下的目的在於用統計學的手段揭示數據所呈現的一些有用的信息,比如事物的發展趨勢和規律;又或者是去定位某種或某些現象的原因;也可以是檢驗某種假設是否正確(心智模型的驗證)。因此,數據分析工作常常用來支持決策的制定。

現代統計學已經提供了相當豐富的數據處理手段,但統計學的侷限性在於,它只是在統計的層面上解釋數據所包含的信息,並不能從數據上得到原理上的結果。也就是説統計學並不能解釋為什麼數據是個樣子,只能告訴我們數據展示給了我們什麼。因此,統計學無法揭示系統性風險,這也是我們在利用統計學作為數據處理工具的時候需要注意的一點。數據挖掘也是這個道理。因為數據挖掘的原理大多也是基於統計學的理論,因此所挖掘出的信息並不一定具有普適性。所以,在決策制定上,利用統計結果+專業知識解釋才是最保險的辦法。然而,在很多時候,統計結果並不能用已有的知識解釋其原理,而統計結果又確實展示出某種或某些穩定的趨勢。為了抓住寶貴的機會,信任統計結果,僅僅依據統計分析結果來進行決策也是很普遍的事情,只不過要付出的代價便是承受系統環境的變化所帶來的風險。

用於數據分析的工具很多,從最簡單的Office組件中的Excel到專業軟件R、Matlab,功能從簡單到複雜,可以滿足各種需求。在這裏只能是對我自己實際使用的感受做一個總結。

Excel:這個軟件大多數人應該都是比較熟悉的。Excel滿足了絕大部分辦公制表的需求,同時也擁有相當優秀的數據處理能力。其自帶的ToolPak(分析工具庫)和Solver(規劃求解加載項)可以完成基本描述統計、方差分析、統計檢驗、傅立葉分析、線性迴歸分析和線性規劃求解工作。這些功能在Excel中沒有默認打開,需要在Excel選項中手動開啟。除此以外,Excel也提供較為常用的統計圖形繪製功能。這些功能涵蓋了基本的統計分析手段,已經能夠滿足絕大部分數據分析工作的需求,同時也提供相當友好的操作界面,對於具備基本統計學理論的用户來説是十分容易上手的。

SPSS:原名Statistical Package for the Social Sciences(社會科學統計軟件包),現在已被IBM收購,改名後仍然是叫SPSS,不過全稱變更為Statistical Product and Service Solutions(統計產品與服務解決方案)。SPSS是一個專業的統計分析軟件。除了基本的統計分析功能之外,還提供非線性迴歸、聚類分析(Clustering)、主成份分析(PCA)和基本的時序分析。SPSS在某種程度上可以進行簡單的數據挖掘工作,比如K-Means聚類,不過數據挖掘的主要工作一般都是使用其自家的Clementine(現已改名為SPSS Modeler)完成。需要提一點的是SPSS Modeler的建模功能非常強大且智能化,同時還可以通過其自身的CLEF(Clementine Extension Framework)框架和Java開發新的建模插件,擴展性相當好,是一個不錯的商業BI方案。

R:R是一個開源的分析軟件,也是分析能力不亞於SPSS和Matlab等商業軟件的輕量級(僅指其佔用空間極小,功能卻是重量級的)分析工具。官網地址:支持Windows、Linux和Mac OS系統,對於用户來説非常方便。R和Matlab都是通過命令行來進行操作,這一點和適合有編程背景或喜好的數據分析人員。R的官方包中已經自帶有相當豐富的分析命令和函數以及主要的作圖工具。但R最大的優點在於其超強的擴展性,可以通過下載擴展包來擴展其分析功能,並且這些擴展包也是開源的。R社區擁有一羣非常熱心的貢獻者,這使得R的分析功能一直都很豐富。R也是我目前在工作中分析數據使用的主力工具。雖然工作中要求用Matlab編程生成結果,但是實際分析的時候我基本都是用R來做的。因為在語法方面,R比Matlab要更加自然一些。但是R的循環效率似乎並不是太高。

Matlab:也是一個商業軟件,從名稱上就可以看出是為數學服務的。Matlab的計算主要基於矩陣。功能上是沒話説,涵蓋了生物統計、信號處理、金融數據分析等一系列領域,是一個功能很強大的數學計算工具。是的,是數學計算工具,這東西的統計功能只不過是它的一部分,這東西體積也不小,吃掉我近3個G的空間。對於我來説,Matlab是一個過於強大的工具,很多功能是用不上的。當然,我也才剛剛上手而已,才剛剛搞明白怎麼用這個怪物做最簡單的Garch(1,1)模型。但毫無疑問,Matlab基本上能滿足各領域計算方面的需求。

以上這些軟件算是主流了,數據分析軟件遠不止這些,還有Eviews、S-plus等工具,因為沒用過,所以也就不説了