網站首頁 個人文件 個人總結 工作總結 述職報告 心得體會 演講稿 講話致辭 實用文 教學資源 企業文化 公文 論文
當前位置:蒙田範文網 > 論文 > 論文精選

資料探勘技術論文【多篇】

欄目: 論文精選 / 釋出於: / 人氣:2.37W

資料探勘技術論文【多篇】

資料探勘技術論文 篇一

關鍵字:資料探勘金融資料

金融部門每天的業務都會產生大量資料,利用目前的資料庫系統可以有效地實現資料的錄入、查詢、統計等功能,但無法發現數據中存在的關係和規則,無法根據現有的資料預測未來的發展趨勢。缺乏挖掘資料背後隱藏的知識的手段,導致了資料爆炸但知識貧乏”的現象。與此同時,金融機構的運作必然存在金融風險,風險管理是每一個金融機構的重要工作。利用資料探勘技術不但可以從這海量的資料中發現隱藏在其後的規律,而且可以很好地降低金融機構存在的風險。學習和應用數扼挖掘技術對我國的金融機構有重要意義。

一、資料探勘概述

1.資料探勘的定義對於資料探勘,一種比較公認的定義是ley,etskShapiro等人提出的。資料探勘就是從大型資料庫的資料中提取人們感興趣的知識、這些知識是隱含的、事先未知的、潛在有用的資訊,提取的知識表示為概念(Concepts),規則(Rules)、規律(Regularities)、模式(Patterns)等形式。這個定義把資料探勘的物件定義為資料庫。

隨著資料探勘技術的不斷髮展,其應用領域也不斷拓廣。資料探勘的物件已不再僅是資料庫,也可以是檔案系統,或組織在一起的資料集合,還可以是資料倉庫。與此同時,資料探勘也有了越來越多不同的定義,但這些定義儘管表達方式不同,其本質都是近似的,概括起來主要是從技術角度和商業角度給出資料探勘的定義。

從技術角度看,資料探勘就是從大量的、不完全的、有噪聲的、模糊的、隨機的實際應用資料中,提取隱含在其中的、人們事先不知道的、但又是潛在的和有用的資訊和知識的過程。它是一門廣義的交叉學科,涉及資料庫技術、人工智慧、機器學習、神經網路、統計學、模式識別、知識庫系統、知識獲取、資訊檢索、高效能運算和資料視覺化等多學科領域且本身還在不斷髮展。目前有許多富有挑戰的領域如文字資料探勘、Web資訊挖掘、空間資料探勘等。

從商業角度看,資料探勘是一種深層次的商業資訊分析技術。它按照企業既定業務目標,對大量的企業資料進行探索和分析,揭示隱藏的、未知的或驗證已知的規律性並進一步將其模型化,從而自動地提取出用以輔助商業決策的相關商業模式。

2.資料探勘方法

資料探勘技術是資料庫技術、統計技術和人工智慧技術發展的產物。從使用的技術角度,主要的資料探勘方法包括:

2.1決策樹方法:利用樹形結構來表示決策集合,這些決策集合通過對資料集的分類產生規則。國際上最有影響和最早的決策樹方法是ID3方法,後來又發展了其它的決策樹方法。

2.2規則歸納方法:通過統計方法歸納,提取有價值的if-then規則。規則歸納技術在資料探勘中被廣泛使用,其中以關聯規則挖掘的研究開展得較為積極和深入。

2.3神經網路方法:從結構上模擬生物神經網路,以模型和學習規則為基礎,建立3種神經網路模型:前饋式網路、反饋式網路和自組織網路。這種方法通過訓練來學習的非線性預測模型,可以完成分類、聚類和特徵挖掘等多種資料探勘任務。

2.4遺傳演算法:模擬生物進化過程的演算法,由繁殖(選擇)、交叉(重組)、變異(突變)三個基本運算元組成。為了應用遺傳演算法,需要將資料探勘任務表達為一種搜尋問題,從而發揮遺傳演算法的優化搜尋能力。

2.5粗糙集(RoughSet)方法:Rough集理論是由波蘭數學家Pawlak在八十年代初提出的一種處理模糊和不精確性問題的新型數學工具。它特別適合於資料簡化,資料相關性的發現,發現數據意義,發現數據的相似或差別,發現數據模式和資料的近似分類等,近年來已被成功地應用在資料探勘和知識發現研究領域中。

2.6K2最鄰近技術:這種技術通過K個最相近的歷史記錄的組合來辨別新的記錄。這種技術可以作為聚類和偏差分析等挖掘任務。

2.7視覺化技術:將資訊模式、資料的關聯或趨勢等以直觀的圖形方式表示,決策者可以通過視覺化技術互動地分析資料關係。視覺化資料分析技術拓寬了傳統的圖表功能,使使用者對資料的剖析更清楚。

二、資料探勘在金融行業中的應用資料探勘已經被廣泛應用於銀行和商業中,有以下的典型應用:

1.對目標市場(targetedmarketing)客戶的分類與聚類。例如,可以將具有相同儲蓄和貨款償還行為的客戶分為一組。有效的聚類和協同過濾(collaborativefiltering)方法有助於識別客戶組,以及推動目標市場。

2..客戶價值分析。

在客戶價值分析之前一般先使用客戶分類,在實施分類之後根據“二八原則”,找出重點客戶,即對給銀行創造了80%價值的20%客戶實施最優質的服務。重點客戶的發現通常採用一系列資料處理、轉換過程、AI人工智慧等資料探勘技術來實現。通過分析客戶對金融產品的應用頻率、持續性等指標來判別客戶的忠誠度;通過對交易資料的詳細分析來鑑別哪些是銀行希望保持的客戶;通過挖掘找到流失的客戶的共同特徵,就可以在那些具有相似特徵的客戶還未流失之前進行鍼對性的彌補。

3.客戶行為分析。

找到重點客戶之後,可對其進行客戶行為分析,發現客戶的行為偏好,為客戶貼身定製特色服務。客戶行為分析又分為整體行為分析和群體行為分析。整體行為分析用來發現企業現有客戶的行為規律。同時,通過對不同客戶群組之間的交叉挖掘分析,可以發現客戶群體間的變化規律,並可通過資料倉庫的資料清潔與集中過程,將客戶對市場的反饋自動輸人到資料倉庫中。通過對客戶的理解和客戶行為規律的發現,企業可以制定相應的市場策略。

4.為多維資料分析和資料探勘設計和構造資料倉庫。例如,人們可能希望按月、按地區、按部門、以及按其他因素檢視負債和收入的變化情況,同時希望能提供諸如最大、最小、總和、平均和其他等統計資訊。資料倉庫、資料立方體、多特徵和發現驅動資料立方體,特徵和比較分析,以及孤立點分析等,都會在金融資料分析和挖掘中發揮重要作用。

5.貨款償還預測和客戶信用政策分析。有很多因素會對貨款償還效能和客戶信用等級計算產生不同程度的影響。資料探勘的方法,如特徵選擇和屬性相關性計算,有助於識別重要的因素,別除非相關因素。例如,與貨款償還風險相關的因素包括貨款率、資款期限、負債率、償還與收入(payment——to——income)比率、客戶收入水平、受教育程度、居住地區、信用歷史,等等。而其中償還與收入比率是主導因素,受教育水平和負債率則不是。銀行可以據此調整貨款發放政策,以便將貨款發放給那些以前曾被拒絕,但根據關鍵因素分析,其基本資訊顯示是相對低風險的申請。

6.業務關聯分析。通過關聯分析可找出資料庫中隱藏的關聯網,銀行儲存了大量的客戶交易資訊,可對客戶的收人水平、消費習慣、購買物種等指標進行挖掘分析,找出客戶的潛在需求;通過挖掘對公客戶資訊,銀行可以作為廠商和消費者之間的中介,與廠商聯手,在掌握消費者需求的基礎上,發展中間業務,更好地為客戶服務。

7.洗黑錢和其他金融犯罪的偵破。要偵破洗黑錢和其他金融犯罪,重要的一點是要把多個數據庫的資訊整合起來,然後採用多種資料分析工具找出異常模式,如在某段時間內,通過某一組人發生大量現金流量等,再運用資料視覺化工具、分類工具、聯接工具、孤立點分析工具、序列模式分析工具等,發現可疑線索,做出進一步的處理。

資料探勘技術可以用來發現資料庫中物件演變特徵或物件變化趨勢,這些資訊對於決策或規劃是有用的,金融

行業資料的挖掘有助於根據顧客的流量安排工作人員。可以挖掘股票交易資料,發現可能幫助你制定投資策略的趨勢資料。挖掘給企業帶來的潛在的投資回報幾乎是無止境的。當然,資料探勘中得到的模式必須要在現實生活中進行驗證。

參考文獻:

丁秋林,力士奇。客戶關係管理。第1版。北京:清華人學出版社,2002

張玉春。資料探勘在金融分析中的應用。華南金融電腦。2004

張嫻。資料探勘技術及其在金融領域的應用。金融教學與研究。2003

資料探勘技術論文 篇二

1.1安全技術資金不足

煤炭的持續開採會受到地質條件的直接影響,過去國家投入眾多的設施,使用至今均已出現老化,並且維修量非常大。隨著礦井的不斷延深,礦壓極度強化,巷道的維修任務更是不斷的增加,礦井的供電以及通風、提升與排水等都不能適應生產的需要。

1.2安全管理模式傳統

與西方發達產煤國家相比較,我國的煤礦使用技術研究起步很晚。並且人力、財力非常缺乏,某些重大的安全技術問題,比如衝擊地壓以及煤和瓦斯的突出、地熱以及突水等災害不能進行有效的預測和控制。且受到以往傳統運營思想的直接作用與影響以及各個企業的經濟實力的約束,我國的煤礦生產裝備和安全監控設施相對落後。井巷的斷面設計以及支護強度的確定、支護材料的型號選擇較小。生產設施功率以及礦井的供風量等富餘引數非常低,極易出現事故。絕大多數的煤炭企業還是利用以往傳統的安全管理模式,各種報表計算仍是靠人工勞動並且精確度很低。資訊傳送的時間較長,且速度較慢,管理者的工作重複性很大,資料查詢十分困難,並且工作效率很低。安全檢查以及等級鑑定等總是憑藉主觀意念以及相關的經驗

1.3安全資訊管理體制不健全

安全資訊可以說是安全管理工作的重要依據,它主要包括事故和職業傷害的有效記錄與分析統計,職業的安全衛生設施的相關研究與設計、生產以及檢驗技術,法律法規以及相應技術標準和其變化的動態,教育培訓以及宣傳和社會活動,國內的新型技術動態以及隱患評估與技術經濟類分析和諮詢、決策的體系。資訊體制的健全是安全體制工程以及計算機技術的有效結合,可促使安全工作轉型為定性和定量的超前預測,不過大多數礦井還是處於起步與摸索階段,並未呈現出健全的體制,真正的使用還有待進一步的發展。

2空間資料探勘技術

資料探勘研究行業的持續進展,開始由起初的關係資料以及事務資料探勘,發展至對空間資料庫的不斷挖掘。空間的資訊還在逐漸地呈現各類資訊體制的主體與基礎。空間資料探勘技術是一項非常關鍵的資料,具有比普通關係資料庫和事務資料庫更豐富、複雜的相關語義資訊,且蘊含了更豐富的知識。所以,雖說資料的挖掘最初是出現在關係資料探勘以及事務的資料庫,不過因為空間資料庫中的發掘知識,這就很快引起了各個研究者的關注與重視。很多的資料探勘類研究工作都是從關係型以及事務型資料庫拓展至空間資料庫的。在地學領域中,隨著衛星以及遙感技術的不斷使用,逐漸豐富的空間以及非空間的資料採集與儲存在較大空間資料庫中,大量的地理資料已經算是超過了人們的處理能力,並且傳統的地學分析很難在這些資料中萃取並發現地學知識,這也就給現階段的GIS帶來了很大的挑戰,急切的需要強化GIS相應的分析功能,提升GIS處理地學實際狀況的能力。資料探勘以及知識發現的產生能滿足地球空間的資料處理要求,並推進了傳統地學空間分析的不斷髮展。依據地學空間資料探勘技術的特性,把資料探勘的方式融進GIS技術中,呈現地學空間資料探勘技術和知識發展的新地學資料分析理念與依據。

3煤礦安全管理水平的提升

3.1建設評價指標體制庫

評價指標體制庫是礦井的自然災害危害存在的具體引數式的知識庫。模型的組建務必要根據礦井的瓦斯以及水害等自然災害危害呈現的不同指標體制和其臨界值構建一定的指標體制庫,危害的警報識別引數關鍵是採掘工程的平面圖動態開採面以及相應的巷道。各種瓦斯的危害以及水害隱患和通風隱患均呈現一定的評價指標庫。

3.2構建專業的分析模型庫

依據瓦斯以及水害等諸多不同的礦井自然災害類別構建相關的專業性模型庫,比如瓦斯的災害預測,應根據礦井的地質條件以及煤層所賦存的狀況構建瓦斯的地質區分圖,再根據採掘工程的平面圖動態呈現的採掘資訊以及相應的瓦斯分割槽構建關聯並實行相應的比較分析,確定可以採集區域未來的可採區域是不是高瓦斯區域。

3.3構建以GIS空間分析為基礎的方法庫

GIS空間分析可以說是礦井自然災害的隱患高度識別的關鍵性方式,並且還是安全故障警報的主要路徑。比如斷層的防水層的有效劃分,關鍵是根據斷層的保安煤柱來實行可靠的確定。斷層的保安煤柱確定可以利用GIS緩衝區域的分析得到。空間的統計分析以及多源資訊有效擬合和資料探勘亦是瓦斯和水害等安全隱患監測經常使用GIS空間分析方式,如物探水文的異常區域確定以及瓦斯突出相應的危險區域確定。

3.4決策支援體制與煤礦管理水平評價指標

體制庫以及模型庫、方式庫與圖形庫均是礦井的自然災害隱患識別和決策的最基礎。利用礦井的自然災害隱患識別決策來支援體系具體的功能呈現礦井的自然災害隱患識別以及決策分析,在根源處提高煤礦的安全管理水平。分類構建礦井的自然災害實時監控體系,進行動態跟蹤相應的災害實時資料,並事實呈現礦井的自然災害資料或是資訊和自然災害的指標體系庫以及模型庫與知識庫、空間資料庫的合理化比較,並運用圖形庫的資料再通過GIS空間分析方式來確定安全隱患的,礦井自然災害的隱患實時警報並進行決策分析,以提交空間資料的自然災害隱患識別以及分析處理的決策性報告。

4結語

隨著礦山持續的深化及開展,礦區的歷史以及實際資料量會日益增多,資料的處理會越來越困難。數字化礦山可以說是數字地球的主要構成,亦是呈現礦山可持續發展與礦業可持續發展的關鍵性決策,是呈現礦山、礦區資訊化管理的重要基礎。

資料探勘技術論文 篇三

資料探勘技術是一種新型的技術,在現代資料儲存以及測量技術的迅猛發展過程中,人們可以進行資訊的大量測量並進行儲存。但是,在大量的資訊背後卻沒有一種有效的手段和技術進行直觀的表達和分析。而資料探勘技術的出現,是對目前大資料時代的一種應急手段,使得有關計算機資料處理技術得到加快發展。資料探勘技術最早是從機器學習的概念中而產生的,在對機器的學習過程中,一般不採用歸納或者較少使用這種方法,這是一種非常機械的操作辦法。而沒有指導性學習的辦法一般不從這些環境得出反饋,而是通過沒有干預的情況下進行歸納和學習,並建立一種理論模型。資料探勘技術是屬於例子歸納學習的一種方式,這種從例子中進行歸納學習的方式是介於上述無指導性學習以及較少使用歸納學習這兩種方式之間的一種方式。因此,可以說,資料探勘技術的特徵在出自於機器學習的背景下,與其相比機器主要關心的是如何才能有效提高機器的學習能力,但資料探勘技術主要關心如何才能找到有用、有價值的資訊。其第二個特徵是,與機器學習特點相比較而言,機器關心的是小資料,而資料探勘技術所面臨的物件則是現實中海量規模的資料庫,其作用主要是用來處理一些異常現象,特別是處理殘缺的、有噪音以及維數很高的資料項,甚至是一些不同型別資料。以往的資料處理方法和現代的資料探勘技術相比較而言,其不同點是以往的傳統資料處理方法前提是把理論作為一種指導資料來進行處理,在現代資料探勘技術的出發角度不同,主要運用啟發式的歸納學習進行理論以及假設來處理的。

2、資料探勘技術主要步驟

資料探勘技術首先要建立資料倉庫,要根據實際情況而定,在易出現問題的有關領域建立有效的資料庫。主要是用來把資料庫中的所有的儲存資料進行分析,而目前的一些資料庫雖然可以進行大量的儲存資料,同時也進行了一系列的技術發展。比如,系統中的線上分析處理,主要是為使用者查詢,但是卻沒有查詢結果的分析能力,而查詢的結果仍舊由人工進行操作,依賴於對手工方式進行資料測試並建模。其次,在資料庫中儲存的資料選一資料集,作為對資料探勘演算法原始輸入。此資料集所涉及到資料的時變性以及統一性等情況。然後,再進行資料的預處理,在處理中主要對一些缺損資料進行補齊,並消除噪聲,此外還應對資料進行標準化的處理。隨後,再對資料進行降維和變換。如果資料的維數比較高,還應找出維分量高的資料,對高維數資料空間能夠容易轉化為檢點的低維數資料空間進行處理。下一步驟就是確定任務,要根據現實的需要,對資料探勘目標進行確定,並建立預測性的模型、資料的摘要等。隨後再決定資料探勘的演算法,這一步驟中,主要是對當前的資料型別選擇有效的處理方法,此過程非常重要,在所有資料探勘技術中起到較大作用。隨後再對資料探勘進行具體的處理和結果檢驗,在處理過程中,要按照不同的目的,選擇不同的演算法,是運用決策樹還是分類等的演算法,是運用聚類演算法還是使用迴歸演算法,都要認真處理,得出科學的結論。在資料探勘結果檢驗時,要注意幾個問題,要充分利用結論對照其他的資訊進行校核,可對圖表等一些直觀的資訊和手段進行輔助分析,使結論能夠更加科學合理。需要注意的是要根據使用者來決定結論有用的程度。最後一項步驟是把所得出的結論進行應用到實際,要對資料探勘的結果進行仔細的校驗,重點是解決好以前的觀點和看法有無差錯,使目前的結論和原先看法的矛盾有效解除。

3、資料探勘技術的方法以及在電力營銷系統中的應用和發展

數控挖掘技術得到了非常廣泛的應用,按照技術本身的發展出現了較多方法。例如,建立預測性建模方法,也就是對歷史資料進行分析並歸納總結,從而建立成預測性模型。根據此模型以及當前的其他資料進行推斷相關聯的資料。如果推斷的物件屬於連續型的變數,那麼此類的推斷問題可屬迴歸問題。根據歷史資料來進行分析和檢測,再做出科學的架設和推定。在常用的迴歸演算法以及非線性變換進行有效的結合,能夠使許多問題得到解決。電力營銷系統中的資料探勘技術應用中關聯規則是最為關鍵的技術應用之一。這種應用可以有效地幫助決策人員進行當前有關資料以及歷史資料的規律分析,最後預測出未來情況。把關聯規則成功引入電力營銷分析,通過FP-Growth演算法對電力營銷的有關資料進行關聯規則分析,從中得出各種電量銷售的影響因素以及外部因素、手電水平等的關聯資訊,以便更好地為電力的市場營銷策略提供參謀和決策。對電力營銷系統的應用中,時間序列挖掘以及序列挖掘非常經典、系統,是應用最為廣泛的一種預測方法。這種方法的應用中,對神經網路的研究非常之多。因此,在現實中應用主要把時間序列挖掘以及神經網路兩者進行有效地結合,然後再分析有關電力營銷資料。此外,有關專家還提出應用一種時間窗的序列挖掘演算法,這種方式可以進行有效地報警處理,使電力系統中的故障能夠準確的定位並診斷事故。此演算法對電力系統的分析和挖掘能力的提高非常有效,還可判定電力系統的執行是否穩定,對錯誤模型的分析精度達到一定的精確度。

4、結語

目前,對資料探勘技術在整個電力營銷系統中的應用還處於較低水平上,其挖掘演算法的單一併不能有效地滿足實際決策需要。但是,由於資料探勘技術對一些潛在的問題預測能力較強,特別是對電力營銷系統中較大規模的非線性問題,具有較強的處理能力,在未來的發展中會成為營銷領域中重要的應用工具。

資料探勘技術論文 篇四

1.較高的有效性新興起來的資料探勘技術的應用時間並不是很長,但是其在經濟統計領域的應用受到了良好的效果,其穩定的工作效能,不僅能夠對經濟統計資料進行分析整理,更能深層次地開發出更多的有用資訊,在實際的應用中展現出較高的有效性。

2.綜合應用性強資料探勘技術已經被廣泛地應用在統計工作中的多個領域,並且發揮著重要的作用。資料探勘技術不僅是一種綜合應用性強的技術手段,同時又能滿足統計資料使用者的特定資料需要。因此,資料探勘技術能夠對經濟統計資料進行定向的整理和開發,為資料使用者提供更好的服務。

3.巨集觀型的資料庫有利於資料探勘技術的應用當前,我國的經濟統計大多還是採用傳統的經濟統計方法,統計收集的資料資訊不能形成有機整體,在對資料進行管理過程中,出現了很多問題。因此。經濟統計工作需要能夠提供資料整理開發的新技術。巨集觀經濟統計資料庫,為資料探勘技術的開展提供了平臺。資料管理系統的經濟統計資訊要正確無誤,然後經過資料探勘技術的整合,就能得到更豐富的資料資源。

二、資料探勘技術的運用

資料探勘技術的特性決定了其對經濟統計資料整理的重要性,經濟統計所得到的資料資訊要求必須有實用性和真實性,資料探勘技術的特性正好滿足了經濟統計工作的需要。資料探勘的過程主要包括以下四種方法:

1.預處理方法首先,要對統計資料進行預處理。由於經濟統計資訊在收集過程中存在一些問題,導致收集到的資料存在缺失和模糊現象,這種有缺憾的資料資訊不能作為資料探勘的基礎,因此一定要對資料探勘物件進行事先的處理。其中包括對基礎資料中不正確、不真實、不準確和偏差較大的資料進行甄別。

2.整合化處理方法其次,要對統計資料進行整合化處理。經濟統計過程中,會出現對多個數據源進行重疊統計的現象,這就要求對資料進行挖掘之前,要有一個統一整理的過程,即資料的整合化處理。資料整合在統計中被廣泛的使用。經過資料整合處理的統計資訊更加全面,更加真實,可以作為資料探勘基礎資訊。

3.轉換方法再有,要對統計資料根據需要進行轉換。經濟統計資料的描述形式比較單一,為了滿足資料資訊使用者的需要,就要對資料進行轉換,使其的表現形式具有泛化或是更加規範。這裡所說的泛化指的是利用更深層次和更加抽象的定義來代替原有的低層資料。

4.決策樹方法除卻上述四種處理方法外,還有決策樹方法,指的是對龐雜的經濟資料進行分類,把有利用價值的統計資料提煉出來,這種資料探勘形式能夠對分析物件進行體現,並能快速的對資訊進行分類處理,能夠解決在經濟統計過程中出現的各種問題。

三、結語

經濟統計工作對我國經濟發展的重要作用越來越明顯,隨著資料探勘技術在統計系統中的應用,對統計資料的分析也逐步的走向高質量和高標準化。因此,加強資料探勘技術的應用,可以促進統計工作的提高,可以有效的減少統計資金的支出。通過資料探勘技術得到的資料資訊,其真實可靠的特性,有利於政府制定出符合社會發展的戰略目標,有利於工業企業等確立正確的經濟發展目標。資料探勘技術所帶來的經濟效益和社會效益是巨大的。

資料探勘論文 篇五

資料探勘技術是近些年發展起來的一門新興學科,它涉及到資料庫和人工智慧等多個領域。隨著計算機技術的普及資料庫產生大量資料,能夠從這些大量資料中抽取出有價值資訊的技術稱之為資料探勘技術。資料探勘方法有統計學方法、關聯規則挖掘、決策樹方法、聚類方法等八種方法,關聯規則是其中最常用的研究方法。關聯規則演算法是1993年由,Inipusqi,Sqtm三人提出的Apriori演算法,是指從海量資料中挖掘出有價值的能夠揭示實體和資料項間某些隱藏的聯絡的有關知識,其中描述關聯規則的兩個重要概念分別是Suppor(t支援度)和Confi-dence(可信度)。只有當Support和Confidence兩者都較高的關聯規則才是有效的、需要進一步進行分析和應用的規則。

二、使用Weka進行關聯挖掘

Weka的全名是懷卡託智慧分析環境(WaikatoEnviron-mentforKnowledgeAnalysis),是一款免費的、非商業化的、基於JAVA環境下開源的機器學習以及資料探勘軟體[2]。它包含了許多資料探勘的演算法,是目前最完備的資料探勘軟體之一。Weka軟體提供了Explorer、Experimenter、Knowledge-Flow、SimpleCLI四種模組[2]。其中Explorer是用來探索資料環境的,Experimenter是對各種實驗計劃進行資料測試,KnowledgeFlow和Explorer類似,但該模組通過其特殊的介面可以讓使用者通過拖動的形式去建立實驗方案,Simple-CLI為簡單的命令列介面。以下資料探勘任務主要用Ex-plorer模組來進行。

(一)資料預處理

資料探勘所需要的所有資料可以由系統排序模組生成並進行下載。這裡我們下載近兩年的教師科研資訊。為了使論文總分、學術著作總分、科研獲獎總分、科研立項總分、科研總得分更有利於資料探勘計算,在這裡我們將以上得分分別確定分類屬性值。

(二)資料載入

點選Explorer進入後有四種載入資料的方式,這裡採用第一種Openfile形式。由於Weka所支援的標準資料格式為ARFF,我們將處理好的xls格式另存為csv,在weka中找到這個檔案並重新儲存為arff檔案格式來實現資料的載入。由於所載入的資料噪聲比較多,這裡應根據資料探勘任務對資料表中與本次資料任務不相關的屬性進行移除,只將學歷、職稱、論文等級、學術著作等級、科研獲獎等級、科研立項等級、科研總分等級留下。

(三)關聯挖掘與結果分析

WeakExplorer介面中提供了資料探勘多種演算法,在這裡我們選擇“Associate”標籤下的Apriori演算法。之後將“lowerBoundMinSupprot”(最小支援度)引數值設為0.1,將“upperBoundMinSupprot”(最大支援度)引數值設為1,在“metiricType”的引數值選項中選擇lift選項,將“minMetric”引數值設為1.1,將“numRules”(資料集數)引數值設為10,其它選項儲存預設值,這樣就可以挖掘出支援度在10%到100%之間並且lift值超過1.1且排名前10名的關聯規則。其挖掘引數資訊和關聯挖掘的部分結果。

三、挖掘結果與應用

以上是針對教師基本情況和科研各項總分進行的反覆的資料探勘工作,從挖掘結果中找到最佳模式進行彙總。以下列出了幾項作為參考的關聯資料探勘結果。

1、科研立項得分與論文、科研總得分關聯度高,即科研立項為A級的論文也一定是A。這與實際也是相符的,因為科研立項得A的教師應該是主持了省級或是部級的立項的同時也參與了其他教師的科研立項,在課題研究的過程中一定會有部級論文或者省級論文進行發表來支撐立項,所以這類教師的論文得分也會很高。針對這樣的結果,在今後的科研工作中,科研處要鼓勵和幫助教師搞科研,為教師的科研工作提供精神上的支援和物質上的幫助,這樣在很大程度上能夠帶動整個學校科研工作的進展。

2、副教授類的教師科研立項得分很高,而講師類教師和助教類教師的科研立項得分很低,這樣符合實際情況。因為副教授類的教師有一定的教學經驗,並且很多副教授類的教師還想晉職稱,所以大多數副教授類教師都會申請一些課題。而對於講師類和助教類的教師,由於教學經驗不足很少能進行省級以上的課題研究,因此這兩類教師的科研立項分數不高。針對這樣的結果,在今後的科研工作中,科研處可以採用一幫一、結對子的形式來幫助年輕教師,這樣可以使青年教師參與到老教師的科研課題研究工作中去,在課題研究工程中提高科研能力和教學能力。

資料探勘論文 篇六

1.1資料探勘相關技術資料探勘相關技術介紹如下[6]:(1)決策樹:在表示決策集合或分類時採用樹形結構,在這一過程中發現規律併產生規則,找到資料庫中有著最大資訊量的欄位,從而可建立起決策樹的人工智慧及識別技術。(2)聚類分析:聚類分析指將物理或抽象物件的集合分組為由類似的物件組成的多個類的分析過程。它是一種重要的人類行為。(3)關聯分析:關聯分析又稱關聯挖掘,就是在交易資料、關係資料或其他資訊載體中,查詢存在於專案集合或物件集合之間的頻繁模式、因果、關聯或相關性結構。也可以說,關聯分析是用來發現有關交易的資料庫中不同商品(項)之間的聯絡。(4)神經網路方法:顧名思義,類似於生物的神經結構,由大量簡單的神經元,通過非常豐富和完善的連線組成自適應的非線性動態系統,具有自適應、自組織、自學習、聯想記憶、分佈儲存、大規模並行處理等功能。粗集方法:也就是在資料庫裡把行為物件列視為元素,將不同物件在某個(或多個)屬性上取值相同定義為等價關係R。其等價類為滿足R的物件組成的集合[5]。

1.2IBMSPSSModelerIBMSPSSModeler是一個數據挖掘工作臺,用於幫助使用者快速直觀地構建預測模型,而無需進行程式設計。其精密的資料探勘技術使使用者能夠對結果進行建模,瞭解哪些因素會對結果產生影響。它還能可提供資料探勘相關的資料提取、轉換、分析建模、評估、部署等全過程的功能[3]。通常,SPSSModeler將資料以一條條記錄的形式讀入,然後通過對資料進行一系列操作,最後將其傳送至某個地方(可以是模型,或某種格式的資料輸出)[3]。使用SPSSModeler處理資料的三個步驟:(1)將資料讀入SPSSModeler;(2)通過一系列操縱執行資料;(3)將資料傳送到目標位置。

2客戶流失預測分析

2.1資料預處理資料預處理[6],將需要的客戶投保資料按照業務預測分析的要求,將資料抽取到中間資料中,同時對資料清洗和轉換,滿足業務預測分析要求。每日凌晨呼叫儲存過程將核心業務系統資料提取到中間資料庫,壽險業務資料與其他資料一樣,存在不安全和不一致時,資料清洗與轉換可以幫助提升資料質量,進而提升資料探勘程序的有效性和準確性。資料清洗主要包括:遺漏資料清洗,錯誤資料處理,垃圾資料處理[1]。

2.2資料選取資料預處理後,可以從中得到投保人的投保資訊,包括投保人姓名,投保年齡(有效保單為當前年齡,無效保單為退保年齡),保費,投保年期,保單狀態等。資料如圖1所示。

2.3客戶流失預測模型建立壽險業務按渠道來分可分為個人保險、團體保險、銀行保險、網銷保險、經代保險五類。由於團體保險在壽險公司發展比較緩慢,團險業務基本屬於停滯階段。結合壽險公司的營銷特點,選定個人保單作為分析的物件,通過IBMSPSSModeler預測模型工具[3],使用決策樹預測模型對客戶流失進行預測分析。

2.4結果分析通過使用IBMSPSSModeler決策類預測模型分析某壽險公司2013年個人客戶承保情況來看有以下規則:(1)投保年數在1年以內,首期保費在0~2000元或大於9997.130保費的客戶比較容易流失。(2)保單終止保單中,女性客戶較男性客戶容易流失。(3)投保年數在2年以上,湖北及河北分支機構客戶流失率比較容易流失。(4)分紅壽險相對傳統壽險,健康壽險的客戶比較容易流失[1]。

3總結

本文在IBMSPSSModeler軟體應用的基礎上,根據現有的壽險業務資料資訊,利用資料探勘的決策樹預測模型,對壽險進行流失規則的分析,比較全面的瞭解了壽險公司客戶流失的原因,並建立客戶流失的決策樹預測模型,便於公司客戶服務部對現有客戶採取合適的措施防止客戶流失,從而達到保留現有客戶的目的。

資料探勘論文 篇七

1.1GPUGPU之所以在某些應用中較CPU能夠獲得更高的效能,主要是因為GPU和CPU在硬體結構設計上存在很大差異。如圖1所示[10],GPU將大量的電晶體用作ALU計算單元,從而適應密集且可並行的影象渲染計算處理需要。相對GPU而言,CPU卻是將更多的電晶體用作複雜的控制單元和快取等非計算功能,並以此來提高少量執行單元的執行效率。此外,儲存頻寬是另一個重要問題。儲存器到處理器的頻寬已經成為許多應用程式的瓶頸。目前GPU的晶片頻寬是CPU晶片頻寬的6倍左右。

1.2CPU/GPU協同平行計算在諸多適用於高效能運算的體系結構中,採用通用多核CPU與定製加速協處理器相結合的異構體系結構成為構造千萬億次計算機系統的一種可行途徑。而在眾多異構混合平臺中,基於CPU/GPU異構協同的計算平臺具有很大的發展潛力。在協同平行計算時,CPU和GPU應各取所長,即CPU承擔程式控制,而密集計算交由GPU完成。另外,除管理和排程GPU計算任務外,CPU也應當承擔一部分科學計算任務[12]。新型異構混合體繫結構對大規模並行演算法研究提出了新的挑戰,迫切需要深入研究與該體系結構相適應的並行演算法。事實上,目前基於GPU加速的資料探勘演算法實現都有CPU參與協同計算,只是討論的重點多集中在為適應GPU而進行的並行化設計上。實踐中,需要找出密集計算部分並將其遷移到GPU中執行,剩餘部分仍然由CPU來完成。

1.3CUDA為了加速GPU通用計算的發展,NVIDIA公司在2007年推出統一計算裝置架構(ComputeUnifiedDeviceArchitecture,CUDA)[10,13]。CUDA程式設計模型將CPU作為主機,GPU作為協處理器,兩者協同工作,各司其職。CPU負責進行邏輯性強的事務處理和序列計算,GPU則專注於執行高度執行緒化的並行處理任務。CUDA採用單指令多執行緒(SIMT)執行模式,而核心函式(kernel)執行GPU上的平行計算任務,是整個程式中一個可以被並行執行的步驟。CUDA計算流程通常包含CPU到GPU資料傳遞、核心函式執行、GPU到CPU資料傳遞三個步驟。CUDA不需要藉助於圖形學API,並採用了比較容易掌握的類C/C++語言進行開發,為開發人員有效利用GPU的強大效能提供了條件。CUDA被廣泛應用於石油勘探、天文計算、流體力學模擬、分子動力學模擬、生物計算和影象處理等領域,在很多應用中獲得了幾倍、幾十倍,乃至上百倍的加速比[13]。

1.4並行程式語言和模型過去幾十年裡,人們相繼提出了很多並行程式語言和模型,其中使用最廣泛的是為可擴充套件的叢集計算設計的訊息傳遞介面(MessagePassingInterface,MPI)和為共享儲存器的多處理器系統設計的OpenMP[14]。OpenMP最初是為CPU執行而設計的。OpenACC[15]是計算機廠商為異構計算系統提出的一種新程式設計模型,其主要優勢是為抽象掉許多並行程式設計細節提供了編譯自動化和執行時系統支援。這使得應用程式在不同廠商的計算機和同一廠商不同時代的產品中保持相容性。然而,學習OpenACC需要理解所有相關的並行程式設計細節。在MPI程式設計模型中,叢集中的計算節點之間相互不共享儲存器;節點之間的資料共享與互動都通過顯式傳遞訊息的方式實現。MPI成功應用於高效能科學計算(HPC)領域。現在很多HPC叢集採用的是異構的CPU/GPU節點。在叢集層次上,開發人員使用MPI進行程式設計,但在節點層次上,CUDA是非常高效的程式設計介面。由於計算節點之間缺乏共享儲存器機制,要把應用程式移植到MPI中需要做大量針對性分析和分解工作。包括蘋果公司在內的幾大公司在2009年共同開發了一套標準程式設計介面,稱之為OpenCL[16]。與CUDA類似,OpenCL程式設計模型定義了語言擴充套件和執行時API,使程式設計師可以在大規模並行處理中進行並行管理和資料傳遞。與CUDA相比,OpenCL更多地依賴API,而不是語言的擴充套件,這允許廠商快速調整現有編譯器和工具來處理OpenCL程式。OpenCL和CUDA在關鍵概念和特性上有諸多相似之處,因此CUDA程式設計師可以很快掌握OpenCL。

1.5MATLAB因提供豐富的庫函式庫以及諸多其他研究者貢獻和共享的函式庫,MATLAB是研究人員實現演算法的常用平臺。通過封裝的資料容器(GPUArrays)和函式,MATLAB允許沒有底層CUDA程式設計能力的研究人員可以較容易獲得GPU計算能力,因此MATLAB較OpenCL更容易上手。截止準備本文時,2014版本的MATLAB提供了226個內建的GPU版本的庫函式。對於有CUDA程式設計經驗的人員,MATLAB允許直接整合CUDA核心進MATLAB應用。本文第四節的實驗亦基於MATLAB實現。

1.6JACKET引擎JACKET[17]是一個由AccelerEyes公司開發專門用於以MATLAB為基礎的基於GPU的計算引擎,其最新版本已經包含了高層的介面,完全遮蔽了底層硬體的複雜性,並支援所有支援CUDA的GPU計算,降低了進行CUDA開發的門檻。JACKET是MATLAB程式碼在GPU上執行的外掛。JACKET允許標準的MATLAB程式碼能夠在任何支援CUDA的GPU上執行,這使得廣大的MATLAB及C/C++使用者可以直接使用GPU強大的計算能力進行相關應用領域的快速原型開發。JACKET包含了一套運行於MATLAB環境中優化平行計算的基礎函式庫。並且支援MATLAB資料型別,可將任何儲存於MATLABCPU記憶體中的變數資料轉換為GPU上的資料型別,對以往的MATLAB程式來說,只需更改資料型別,就能遷移到GPU上執行。本文的第四節的實驗亦基於JACKET在MATLAB上實現。

2相關工作綜述

2.1基於CPU的資料探勘演算法實現資料探勘演算法的研究一直很活躍,許多成熟和經典的演算法已經實現在諸多研究或商用軟體包/平臺,例如開源的Weka[18]和KNIME,以及商用的IBM公司的PASWModeler(即之前SPSS公司的Clementine®)。這些軟體預設都是單機版本,可執行在普通PC或高效能伺服器上,基於CPU的計算能力。為了適應目前大規模的計算,出現了基於Google公司提出的MapReduce[19]計算框架實現的開源資料探勘平臺Mahout[20]。相關的研究起源於斯坦福大學AndrewNg研究組2006年的經典論著[21]。由於現有的演算法需要先找到可“遷移”到MapReduce的方式,因此目前Mahout平臺上僅有幾個能支援分散式部署的資料探勘演算法,包括用於分類的樸素貝葉斯、隨機森林,用於聚類的k-Means,基於專案的協同過濾等。目前Mahout仍然是基於CPU的計算能力。

2.2聚類演算法聚類是資料探勘中用來發現資料分佈和隱含模式的一種無監督學習,每個訓練元組的類標號是未知的,並且要學習的個數或集合也可能事先不知道。對於給定的資料集,聚類演算法按照一定的度量,將資料物件分組為多個簇,使得在同一個簇中的物件之間具有較高的相似度,而不同簇中的物件差別很大[22-23]。k-Means演算法是經典的基於距離/劃分的聚類分析演算法,也是應用得最廣泛的演算法之一,採用距離作為相似性的評價指標,即認為兩個物件距離越近,其相似度就越大。k-Means演算法的流程如下[24]:輸入:簇的數目k和包含n個物件資料集D。輸出:k個簇的集合。方法:1)從D中任意選擇k個物件作為初始簇中心。計算每個資料物件到各簇中心的歐氏距離,將每個資料物件分配到最相似的簇中。2)重新計算每個簇中物件的均值。3)迴圈執行步驟2-3兩個步驟,直到各個簇內物件不再變化。上述演算法步驟2屬於計算密度最大的部分,且具備並行化的條件。計算各個資料物件到各簇中心的歐氏距離和將資料物件分配到最近的簇的時候,資料物件之間都是相互獨立的,不需要進行交換,且沒有先後順序,後計算的物件不需要等待前一次計算的結果,僅在完成全部分配過程之後,才需要進行一次資料彙總。所以文獻[25]的作者們使用GPU並行優化了一維資料的k-Means演算法的步驟2,並使用帶快取機制的常數儲存器儲存中心點資料,能獲得更好的讀取效率。文獻中還展示了實驗結果,在8600GT上取得了14倍左右的加速效果。DBSCAN屬於基於密度的聚類演算法中最常被引用的,G-DBSCAN是它的一個GPU加速版本[26]。文獻[26]的實驗顯示較DBSCAN可以實現高達112倍的加速。BIRCH是經典的基於層次的聚類演算法,文獻[27]中基於CUDA實現的GPU加速版本在實驗中獲得了高達154倍的加速。

2.3分類演算法分類是資料探勘中應用領域極其廣泛的重要技術之一,至今已經提出很多演算法。分類演算法[28]是一種監督學習,通過對已知類別訓練集的分析,從中發現分類規則,以此預測新資料的類別。分類演算法是將一個未知樣本分到幾個已存在類的過程,主要包含兩個步驟:首先,根據類標號已知的訓練資料集,訓練並構建一個模型,用於描述預定的資料類集或概念集;其次,使用所獲得的模型對新的資料進行分類。近年來,許多研究已經轉向實現基於GPU加速分類演算法,包括k-NN(k近鄰)分類演算法[29],支援向量機分類演算法[30],貝葉斯分類演算法[31-32]等。kNN演算法[33]是資料探勘中應用最廣泛的一種分類演算法,簡單易實現。它是一種典型的基於例項的學習法,將待判定的檢驗元組與所有的訓練元組進行比較,挑選與其最相似的k個訓練資料,基於相應的標籤和一定的選舉規則來決定其標籤。在ShenshenLiang等人的文章[34]指出,由於kNN演算法是一種惰性學習法,對於每個待分類的樣本,它都需要計算其與訓練樣本庫中所有樣本的距離,然後通過排序,才能得到與待分類樣本最相鄰的k個鄰居。那麼當遇到大規模資料並且是高維樣本時,kNN演算法的時間複雜度和空間複雜度將會很高,造成執行效率低下,無法勝任大資料分析任務。所以加速距離的計算是提高kNN演算法的核心問題。因為每個待分類的樣本都可以獨立地進行kNN分類,前後之間沒有計算順序上的相關性,因此可以採用GPU並行運算方法解決kNN演算法串行復雜度高的問題。將計算測試集和訓練集中點與點之間的距離和排序一步採用GPU並行化完成,其餘如判斷類標號一步難以在GPU上高效實現,由CPU完成。文獻[34]通過GPU並行化實現kNN演算法,讓kNN演算法時間複雜度大幅度減少,從而說明GPU對kNN演算法的加速效果是非常明顯的。

2.4關聯分析演算法關聯規則挖掘是資料探勘中較成熟和重要的研究方法,旨在挖掘事務資料庫頻繁出現的項集。因此,挖掘關聯規則的問題可以歸結為挖掘頻繁項集[35]。關聯分析演算法首先找出所有的頻繁項集,然後根據最小支援度和最小置信度從頻繁項集中產生強關聯規則。Apriori演算法[36]是最有影響力的挖掘布林關聯規則頻繁專案集的經典演算法。Apriori演算法使用逐層搜尋的迭代方法產生頻繁專案集,即利用k頻繁項集來產生(k+1)項集,是一種基於生成候選項集的關聯規則挖掘方法。在劉瑩等人的文章[37]中指出,產生候選項和計算支援度,佔據Apriori的大部分計算量。產生候選項的任務是連線兩個頻繁項集,而這個任務在不同執行緒之間是獨立的,所以這個過程適合在GPU上被並行化。通過掃描交易資料庫,計算支援度程式記錄一個候選項集出現的次數。由於每個候選項集的計數與其他項集的計數相對獨立,同樣適合於多執行緒並行。所以文獻[37]的作者們在實現Apriori時使用GPU並行化了產生候選項和計算支援度這兩個過程,取得了顯著的加速效果。文獻[38]是目前發現的對於在GPU上實現頻繁項集挖掘最全面細緻的研究。他們使用的是早期的CUDA平臺,採用了bitmap和trie兩種資料結構來實現GPU的挖掘演算法,並且根據不同資料集和支援度進行了演算法效能的對比,均相對於CPU版本的演算法獲得的一定的加速比。

2.5時序分析由於越來越多的資料都與時間有著密切的關係,時序資料作為資料探勘研究的重要分支之一,越來越受到人們的重視。其研究的目的主要包括以下兩個方面:一是學習待觀察過程過去的行為特徵;二是預測未來該過程的可能狀態或表現。時序資料探勘主要包含以下幾個主要任務:資料預處理,時序資料表示,分割,相似度度量,分類,聚類等。這些任務中很多都涉及到相當大的計算量。由於問題規模的不斷擴大,並且對於實時效能的要求,時序資料探勘的任務就必須要求充分地提高計算速度或者通過優化減少計算量。時序資料的表示有時候會採取特徵來表示,這就涉及到了特徵提取問題,當特徵數量龐大的時候就需要進行維數約簡,主要的方法有奇異值分解法,離散小波變換。這些計算都涉及到很大的時間複雜度,為了減少計算的時間消耗,SheetalLahabar等人使用GPU加速SVD的計算,獲得了60多倍的加速效果[39]。動態時間彎曲(DynamicTimeWarping,DTW)起初被應用於文字資料匹配和視覺模式識別的研究領域,是一種相似性度量演算法。研究表明這種基於非線性彎曲技術的演算法可以獲得很高的識別、匹配精度。Berndt和Clifford提出了將DTW的概念引入小型時間序列分析領域,在初步的實驗中取得了較好的結果[40]。隨著問題規模的擴大,對於DTW的計算成為了時序資料探勘的首先要處理的問題。在DTW中,搜尋需要找出與訓練資料最近距離的樣本,這就需要搜尋與每個訓練樣本的距離,這就可以很好的利用GPU進行並行化處理。DorukSart等人在對DTW加速的處理中,獲得了兩個數量級的加速效果[41]。而對於分類和聚類任務的加速,上面已經提到,這裡不再累贅。

2.6深度學習深度學習雖然隸屬機器學習,但鑑於機器學習和資料探勘領域的緊密聯絡,深度學習必定將在資料探勘領域獲得越來越多的應用。從2006年Hinton和他的學生Salakhutdinov在《科學》上發表的文章[42]開始,深度學習在學術界持續升溫。深度學習的實質是通過構建具有很多隱層的機器學習模型和海量的訓練資料,來學習更有用的特徵,從而最終提升分類預測的準確性[43]。如何在工程上利用大規模的平行計算平臺來實現海量資料訓練,是各個機構從事深度學習技術研發首先要解決的問題。傳統的大資料平臺如Hadoop,由於資料處理延遲太高而不適合需要頻繁迭代的深度學習。神經網路一般基於大量相似的神經元,故本質上可以高度並行化訓練;通過對映到GPU,可以實現比單純依賴CPU顯著地提升。谷歌搭建的DistBelief是一個採用普通伺服器的深度學習平行計算平臺,採用非同步演算法,由很多計算單元獨立更新同一個引數伺服器的模型引數,實現了隨機梯度下降演算法的並行化,加快了模型訓練速度。百度的多GPU平行計算平臺克服了傳統SGD訓練不能並行的技術難題,神經網路的訓練已經可以在海量語料上並行展開。NVIDIA在2014年9月推出了深度學習GPU加速庫cuDNN,可以方便地嵌入高層級機器學習框架中使用,例如Caffe[45]。cuDNN支援NVIDIA的全系列GPU,包括低端的TegraK1和高階的TeslaK40,並承諾可向上支援未來的GPU。

2.7小結並行化能帶來多少倍的加速取決於演算法中可並行化的部分。例如,如果可並行部分的時間佔整個應用程式執行時間的20%,那麼即使將並行部分加速100倍,總執行時間也只能減少19.8%,整個應用程式的加速只有1.247倍;即使無限加速也只能減少約20%的執行時間,總加速不會超過1.25倍。對於一個數據挖掘(學習和預測)演算法進行GPU加速實現,首先要思考是否存在可並行執行的部分,之後再結合GPU的架構特點進行鍼對性實現優化。然而,由於資料探勘演算法普遍是資料密集型計算,而GPU片記憶體儲容量有限,如何降低與記憶體交換資料集是一個要解決的關鍵問題。通過以上相關工作的分析,可以發現數據挖掘演算法在GPU上的加速具有資料獨立,可並行化共同特徵。本文提出資料探勘演算法在GPU上加速實現的一種解決思路:在大資料下,分析演算法的效能瓶頸,從而確定演算法中耗時大,時間複雜度高的部分,將此部分在GPU上執行,不耗時部分在CPU上序列執行,以達到加速效果。為了更充分利用GPU的平行計算的體系結構,可深入分析耗時大的部分,將具有資料獨立,可並行化的部分在GPU上並行執行,達到更進一步的加速效果。

3實踐和分析:協同過濾推薦

當前主要的協同過濾推薦演算法有兩類:基於使用者(r-based)和基於專案(item-based)的協同過濾推薦演算法。基於專案的協同過濾推薦演算法[46-50]認為,專案間的評分具有相似性,可以通過使用者對目標專案的若干相似專案的評分來估計該專案的分值。基於使用者的協同過濾推薦演算法認為,如果使用者對一些專案的評分比較相似,那麼他們對其他專案的評分也比較相似。本文根據以上總結的演算法特徵圍繞兩種經典協同過濾演算法的實現,通過大規模資料的實驗來驗證GPU相對於傳統CPU的優勢。

3.1演算法實現

3.1.1基於CPU實現協同過濾推薦的兩類經典演算法本文基於MATLAB實現CPU版本的基於使用者和基於專案的兩種經典協同過濾推薦演算法。實現的步驟:1)資料表示:收集使用者的評分資料,並進行資料清理、轉換,最終形成一個mn的使用者-專案評分矩陣R,m和n分別代表矩陣中的使用者數和專案數,矩陣中的元素代表使用者對專案的評分值。2)最近鄰居搜尋:主要完成對目標使用者/專案的最近鄰居的查詢。通過計算目標使用者/專案與其他使用者/專案之間的相似度,算出與目標使用者/專案最相似的最近鄰居集。該過程分兩步完成:首先採用協同過濾推薦演算法中運用較多的度量方法“Pearson相關係數”計算使用者/專案之間的相似度得到相應的相似度矩陣,其次是採用最近鄰方法找到目標使用者/專案的最近的K個鄰居,這些鄰居是由與目標相似度最高的一些使用者/專案組成的。3)產生推薦:根據之前計算好的使用者/專案之間的相似度,並使用相應的預測評分函式對使用者未打分的專案進行預測,得到預測評分矩陣,然後選擇預測評分最高的Top-n項推薦給目標使用者。4)效能評估:本研究擬採用平均絕對誤差MAE作為評價推薦系統預測質量的評價標準。MAE可以直觀地對預測質量進行度量,是最常用的一種方法。MAE通過計算預測的使用者評分與實際評分之間的偏差度量預測的準確性;MAE越小,預測質量越高。

3.1.2基於GPU實現協同過濾推薦的兩類經典演算法在大資料下,協同過濾演算法中主要的時間消耗在於相似度計算模組,佔了整個演算法的大部分時間,且每個使用者/專案之間的相似度可以被獨立計算,不依靠其他使用者/專案,具備並行化的條件,所以在以下的實驗中,將相似度計算模組在GPU上執行,其他部分在CPU上執行,進而提高整個演算法的執行效率。使用MATLAB程式設計技術和JACKET程式設計技術在GPU上分別實現基於使用者和基於專案的兩種經典協同過濾推薦演算法。實現步驟如下:1)資料表示:收集使用者的評分資料,並進行資料清理、轉換,最終形成使用者-專案評分矩陣。2)將收集的資料從CPU傳輸至GPU。3)對傳輸到GPU上的資料執行GPU操作,呼叫相關函式庫,採用公式(1)和(2)分別計算並獲取使用者/專案間的相似度矩陣。4)將GPU計算結果返回CPU中以便後續操作。5)採用公式(3)和(4)在CPU上分別獲取兩種經典演算法的評分預測矩陣。6)選擇預測評分最高的Top-n項推薦給目標使用者。7)採用公式(5)求兩種經典演算法的平均絕對誤差MAE。

3.2實驗結果與分析

3.2.1實驗環境本實驗所用的CPU是IntelXeonE52687W,核心數量是八核,主頻率是3.1GHz,記憶體大小是32GB;所使用的GPU是NVIDIAQuadroK4000,視訊記憶體容量是3GB,視訊記憶體頻寬是134GB/s核心頻率是811MHz,流處理器數是768個。使用Windows764位作業系統,程式設計環境使用最新的CUDA。

3.2.2實驗資料本實驗使用目前比較常用的MovieLens[56]資料集作為測試資料,該資料集從MovieLens網站採集而來,由美國Minnesota大學的GroupLens研究小組提供,資料集1包含943個使用者對1682部電影約10萬的評分資料,資料集2包含6040個使用者對3952部電影約100萬的評分資料,其中每個使用者至少對20部電影進行了評分。評分的範圍是1~5,1表示“很差”,5表示“很好”。實驗需要將每個資料集劃分為一個訓練集和一個測試集,每次隨機選出其中80%的評分資料用作訓練集,另20%用作測試集。

3.2.3實驗結果與分析本文采用加速比來比較演算法的CPU實現和GPU實現的執行效率。計算加速比的方法如式(6)所示:在公式中,TimeCPU表示演算法在CPU上的平均執行時間,TimeGPU表示演算法在GPU上的平均執行時間。所有實驗中均取最近鄰居數為20,且各實驗結果均為5次獨立測試的平均值。圖2是關於兩個演算法核心步驟的加速效果,而圖3則展示了演算法整體加速效果。可以看出,(1)整體加速效果取決於核心步驟的加速效果,(2)GPU版本的演算法在效能上較CPU版本有較顯著地優勢,且面對大資料集的加速效果更為明顯。例如在基於100萬條資料集時,Item-based的整體演算法的加速比達到了14倍左右,而面對10萬條資料集時,加速比不到8倍。這可以解釋為GPU的多核優勢在面對大資料集時被更為充分地得到釋放;(3)演算法對r-based和Item-based兩種演算法的加速比相近。圖4是關於演算法預測效果的評估,可以看出基於GPU加速的兩類經典協同過濾演算法與基於CPU的兩類經典協同過濾演算法在預測效果上相近。如果結合圖2和圖3,可獲得結論-能夠基於GPU獲得得可觀的計算加速而不犧牲應用效果。

3.3小結

本文通過使用JACKET加快開發過程。目前國內還缺少對JACKET的瞭解和應用,JACKET的出現為科學領域進行大規模計算模擬提供了新的研究方法,並使得研究人員可以在熟悉的MATLAB平臺上實現相關演算法。

4結束語

本文既對基於GPU加速經典資料探勘的研究進行了分類回顧和小結,也實踐了基於GPU加速協同過濾計算,通過和基於CPU的版本對比,確實可以實現可觀的效率提升。這對我們深入研究將GPU應用到大資料處理場景可以積累寶貴的一手經驗,並在已知的尚未基於GPU加速的資料探勘演算法有的放矢。

資料探勘論文 篇八

對於風電功率的預估,本文提出了一種短期的用於一至十五分鐘內的預測方法。其中輸入資料來自風力發電機的歷史暫存器,資料種類有電壓、電流、有功功率等。並且對兩種預測方法進行了比較。預測出的風力資料作為風力渦輪機預測模型的輸入值。風力發電機模型是參考了空氣力學、傳動系統、感應發電機等引數,並通過唯像模型建立的。風力渦輪模型則建立於一種現象學模型,這種模型將風的空氣動力學、傳動系統和感應發電機的引數都考慮了進來。另一種預測風電功率方法是使用資料探勘技術來進行預測。風電發電系統中的資料庫就應用到了這些技術。為了提高演算法的效率,使用了風速估計器,以估計空氣分子的布朗運動。並與沒有用風速估計器時平均發電功率進行比較。

二、風功率預測模型和現象學模型

(一)人工神經網路

每一個人工神經網路模型都有架構、處理單元和訓練方面的特性。在時間序列預測的人工神經網路模型中,其中很重要的一種是集中延時神經網路。它屬於動態神經網路的一般型別,在這種神經網路中,動態只出現於靜態的、有多個層級的前饋神經網路的輸入層中。集中延時神經網路的一個顯著特徵是它不要求有動態反向傳播來計算神經網路的梯度,原因是抽頭延遲線只在神經網路輸入資料時才出現。由於這個原因,這種神經網路比其他動態網路的訓練進行得更快。

(二)隨機時序

風功率模型和現象模型是使用最多的預測方法。如果假設預測變數Xt是已知值的線性組合,那麼自迴歸模型則能用於預測未知值。通過檢視自相關函式和偏自相關函式,用於找到模型的順序和結構,從而確定模型適當的結構和式子順序。根據赤池資訊準則,施瓦茨準則或貝葉斯資訊標準以及校正後的決定係數,我們就能選出最好的模型。

三、算例分析

(一)提出的預處理方法

在考慮風速的複雜動態的情況下,為了更好地描述ARMA模型,本文提出了一種新的資料預處理方法。這種方法是以模型的形式呈現的,我們將這種模型稱之為函式的ARMA。

(二)例項模擬

利用SVM工具箱在matlab7.1平臺上完成迴歸模型建立的工作,利用我國某風電場連續100個數據(每10s取一個數值)的實測風能功率輸出值,建立訓練和預測樣本。儘管神經網路在預測風速時誤差已經很小,但由風力渦輪機模型和函式的ARMA模型組成的複合模型在各方面效能更好。導致這一結果的原因是焦點延時神經網路(以下簡稱FTDNN)預測曲線的高度非線性。

四、結論

本文所得預測結果表明,當把風速預測資料當作風力渦輪模型的輸入資料時,函式的ARMA模型和焦點延時神經網路在預測風速時產生的誤差會平均降低74%。同樣地,本文提出的函式的ARMA模型(即FARMA模型)與典型的ARMA模型相比,能降低誤差30%~40%。在所有模型中,焦點延時神經網路(FTDNN)預測得最好。但當把現象學風力渦輪機模型和函式的AR-MA模型組成複合模型時,最終預測結果還能更好。

資料探勘論文 篇九

系統採用C/S+B/S結構,主要由前端資料採集裝置(位移及載荷感測器)、站點客戶端、資料庫及Web伺服器等組成。各部分採取分散式協同處理執行方式,站點客戶端利用前端採集的資料獨立分析計算,分析完成後上傳至資料庫伺服器,並通過網頁伺服器對外。

2系統資料

2.1系統資料結構系統採用MicrosoftSQLServer,建立了WPGUI與WPCHQ資料庫來管理3萬餘口油井資料採集、處理及儲存等,建設資料表65張(見主要資料表的關係圖2),主要包括生產井的完井資料、靜態資料、動態資料、採集資料、原油物性資料、機杆管泵等技術資料,同時系統儲存了油井近兩年功圖電引數據(每天每口井到少100張),以及根據這些資料分析計算出來的結果和彙總生成的資料。

3資料探勘應用

資料探勘是從大量資料集中發現可行資訊的過程,是統計分析技術、資料庫技術及人工智慧技術的綜合。面對油井工況實時分析及功圖計產系統大量的油井生產完備資料,長慶油田充分利用資料探勘技術,對資料進一步清理、整合、轉換、挖掘應用,深化功圖系統資料分析,先後開展了動液麵計算,系統效率線上實時監測、區塊動態分析研究等,並應用於油田現場,取得了較好的效果,既節約了生產成本,又方便了現場管理應用,進一步提升系統在長慶油田數字化前端的核心地位。

3.1區塊動態分析

油井生產中,每天都會獲得大量的實時生產資料,目前系統主要對單井完成工況分析及產液量計算,如何通過分析和處理這些資料,及時全面瞭解油田區塊產油量、壓力、含水等變化規律是資料探勘應用又一問題。長慶油田開展了基於油井工況診斷及功圖計產系統的區塊動態分析,從空間和歷史角度,對油井分類、分級、分層次進行統計分析,挖掘生產資料裡有用的資訊,提煉區塊共性問題,並按照設計的模板(區塊指標統計圖表、供液能力分析、產量分析、故障井分析等)每月30日自動生成全面及時的區塊油井生產動態分析,從而指導區塊生產管理,實現油田的精細管理,為油田開發決策提供依據。

4結束語

隨著長慶油田數字化建設的不斷深入,各種生產、研究、管理等資料庫不斷增加,如何深化資料應用,準確迅速從資料庫是提取有用資訊,已成為是數字油田生產管理的迫切需求。在基於油井工況實時分析及功圖計產系統資料探勘應用中我們積累了不少經驗,拓展了系統功能,提升系統在長慶油田數字化前端的核心地位。在今後應用中,油田資料探勘應用注意幾個問題:

(1)資料是數字油田的血液,為了保證資料探勘效率,在資料庫建設中要規範資料儲存格式,保證資料來源及資料型別的統一,同時加強資料稽核,注重資料入庫的質量;

(2)資料探勘中儘可能使用視覺化工具,一幅圖勝過千句話,資料探勘視覺化主要包括資料視覺化、挖掘結果視覺化、挖掘過程視覺化等;

資料探勘論文 篇十

【關鍵詞】資料探勘技術;檔案管理;分析運用

由於資訊科技的迅速發展,現代的檔案管理模式與過去相比,也有了很大的變化,也讓如今的檔案管理模式有了新的挑戰。讓人們對資訊即時、大量地獲取是目前檔案管理工作和檔案管理系統急切需要解決的問題。

一、資料探勘概述

(一)資料探勘技術。資料探勘是指從大量的、不規則、亂序的資料中,進行分析歸納,得到隱藏的,未知的,但同時又含有較大價值的資訊和知識。它主要對確定目標的有關資訊,使用自動化和統計學等方法對資訊進行預測、偏差分析和關聯分析等,從而得到合理的結論。在檔案管理中使用資料探勘技術,能夠充分地發揮檔案管理的作用,從而達到良好的檔案管理工作效果。(二)資料探勘技術分析。資料探勘技術分析的方法是多種多樣的,其主要方法有以下幾種:1.關聯分析。指從已經知道的資訊資料中,找到多次展現的資訊資料,由資訊的說明特徵,從而得到具有相同屬性的事物特徵。2.分類分析。利用資訊資料的特徵,歸納總結相關資訊資料的資料庫,建立所需要的資料模型,從而來識別一些未知的資訊資料。3.聚類分析。通過在確定的資料中,找尋資訊的價值聯絡,得到相應的管理方案。4.序列分析。通過分析資訊的前後因果關係,從而判斷資訊之間可能出現的聯絡。

二、資料探勘的重要性

在進行現代檔案資訊處理時,傳統的檔案管理方法已經不能滿足其管理的要求,資料探勘技術在這方面確有著顯著的優勢。首先,檔案是較為重要的資訊記錄,甚至有些檔案的重要性大到無價,因此對於此類的珍貴檔案,相關的檔案管理人員也是希望檔案本身及其價值一直保持下去。不過越是珍貴的檔案,其使用率自然也就越高,所以其安全性就很難得到保障,在檔案管理中運用資料探勘技術,可以讓檔案的資訊資料得到分析統計,歸納總結,不必次次實物查閱,這樣就極大地提升了檔案相關內容的安全性,降低檔案的磨損率。並且可以對私密檔案進行加密,進行授權查閱,進一步提高檔案資訊的安全性。其次,對檔案進行鑑定與甄別,這也是檔案工作中較困難的過程,過去做好這方面的工作主要依靠管理檔案管理員自己的能力和水平,主觀上的因素影響很大,但是資料探勘技術可以及時對檔案進行編碼和收集,對檔案進行數字化的管理和規劃,解放人力資源,提升檔案利用的服務水平。第三,資料探勘技術可以減少檔案的收集和保管成本,根據檔案的特點和規律建立的資料模型能為之後的工作人員建立一種標準,提升了檔案的鑑定效率。

三、檔案管理的資料探勘運用

(一)檔案資訊的收集。在實施檔案管理工作時,首先需要對檔案資訊資料的收集。可以運用相關檔案資料庫的資料資料,進行科學的分析,制定科學的說明方案,對確定的資料集合型別和一些相關概念的模型進行科學說明,利用這些資料說明,建立準確的資料模型,並以此資料模型作為標準,為檔案資訊的快速分類以及整合奠定基礎。例如,在體育局的相關網站上提供問卷,利用問卷來得到的所需要的資訊資料,匯入資料庫中,讓資料庫模型中保有使用者的相關個人資訊,通過對使用者的資訊資料進行說明,從而判斷使用者可能的型別,提升服務的準確性。因此,資料探勘技術為檔案資訊的迅速有效收集,為檔案分類以及後續工作的順利展開,提供了有利條件,為個性化服務的實現提供了保證。(二)檔案資訊的分類。資料探勘技術具有的屬性分析能力,可以將資料庫中的資訊進行分門別類,將資訊的物件通過不同的特徵,規劃為不同的分類。將資料探勘技術運用到檔案管理中時,可以簡單快速地找到想要的檔案資料,能根據資料中使用者的相關資料,找尋使用者在資料庫中的資訊,使用資料模型的分析能力,分析出使用者的相關特徵。利如,在使用者上網使用網址時,資料探勘技術可以充分利用使用者的搜尋資料以及網站的訪問記錄,自動儲存使用者的搜尋資訊、搜尋內容、下載次數、時間等,得到使用者的偏好和特徵,對使用者可能存在的需求進行預測和分類,更加迅速和準確的,為使用者提供個性化的服務。(三)檔案資訊的整合。資料探勘技術可以對新舊檔案的資訊進行整合處理,可以較為簡單地將“死檔案”整合形成為“活檔案”,提供良好的檔案資訊和有效的檔案管理。例如,對於企事業單位而言,培訓新員工的成本往往比聘請老員工的成本要高出很多。對老員工的檔案資訊情況進行全體整合,使檔案資源充分發揮作用,將檔案資料進行總結和規劃,根據資料之間的聯絡確定老員工流失的原因,然後建立清晰、明白的資料庫,這樣可以防止人才流失,也能大大提高檔案管理的效率。

四、結語

綜上所述,在這個資訊科技迅速跳躍發展的時代,將資料探勘技術運用到檔案管理工作中是時展的需求與必然結果。利用資料探勘技術,可以使檔案管理工作的效率大大提升,不僅減少了搜尋檔案資訊的時間,節省人力物力,避免資源的浪費,還能幫助使用者在海量的資訊資料中,快速找到所需的檔案資料資訊。資料探勘技術的運用,使靜態的檔案資訊變成了可以“主動”為企事業單位的發展,提供有效的個性化服務的檔案管家,推動了社會的快速發展。

【參考文獻】

[1]欒立娟,盧健,劉佳,資料探勘技術在檔案管理系統中的應用[J].計算機光碟軟體與應用,2015:35-36.

[2]宇然,資料探勘技術研究以及在檔案計算機管理系統中的應用[D].瀋陽工業大學,2002.