網站首頁 個人文件 個人總結 工作總結 述職報告 心得體會 演講稿 講話致辭 實用文 教學資源 企業文化 公文 論文
當前位置:蒙田範文網 > 論文 > 論文精選

資料探勘技術論文【通用多篇】

欄目: 論文精選 / 釋出於: / 人氣:4.11K

資料探勘技術論文【通用多篇】

資料探勘論文 篇一

[論文摘要]在電子商務中,資料探勘有助於發現業務發展的趨勢,幫助企業做出正確的決策。本文對目前電子商務中的Web資料探勘方法進行了總結,並對電子商務中的Web資料物件進行了分類,對網路資料探勘的作用進行了分析,為今後電子商務中實用Web資料探勘軟體的開發與應用提供了參考。

一、電子商務和資料探勘簡介

電子商務是指個人或企業通過Internet網路,採用數字化電子方式進行商務資料交換和開展商務業務活動。目前國內已有網上商情廣告、電子票據交換、網上訂購,網上銀行、網上支付結算等多種型別的電子商務形式。電子商務正以其成本低廉、方便、快捷、安全、可靠、不受時間和空間的限制等突出優點而逐步在全球流行。

資料探勘(DataMining)是伴隨著資料倉庫技術的發展而逐步完善起來的。資料探勘主要是為了幫助商業使用者處理大量存在的資料,發現其後隱含的規律性,同時將其模型化,來完成輔助決策的作用。它要求從大量的、不完全的、有噪聲的、模糊的和隨機的資料中,提取人們事先不知道的但又是潛在有用的資訊和知識。資料探勘的過程有時也叫知識發現的過程。

而電子商務中的資料探勘即Web挖掘,是利用資料探勘技術從www的資源(即Web文件)和行為(即We服務)中自動發現並提取感興趣的、有用的模式和隱含的資訊,它是一項綜合技術涉及到Internet技術學、人工智慧、計算機語言、資訊學、統計學等多個領域。

二、Web資料探勘物件的分類

Web資料有3種類型:HTML標記的Web文件資料,Web文件內連線的結構資料和使用者訪問資料。按照對應的資料型別,Web挖掘可以分為3類:

內容挖掘:就是從Web文件或其描述中篩選知識的過程。

結構挖掘:就是從Web的組織結構和連結關係中推導知識。它的目的是通過聚類和分析網頁的連結,發現網頁的結構和有用的模式,找出權威網頁。

使用記錄挖掘:就是指通過挖掘儲存在Web上的訪問日誌,來發現使用者訪問Web頁面的模式及潛在客戶等資訊的過程。

三、電子商務中資料探勘的方法

針對電子商務中不同的挖掘目標可以採用不同的資料探勘方法,資料探勘的方法有很多,主要包括下面3大類:統計分析或資料分析,知識發現,基於預測模型的挖掘方法等。

1.統計分析。統計分析主要用於檢查資料中的數學規律,然後利用統計模型和數學模型來解釋這些規律。通常使用的方法有線性分析和非線性分析、連續迴歸分析和邏輯迴歸分析、單變數和多變數分析,以及時間序列分析等。統計分析方法有助於查詢大量資料間的關係,例如,識別時間序列資料中的模式、異常資料等,幫助選擇適用於資料的恰當的統計模型,包括多維表、剖分、排序,同時應生成恰當的圖表提供給分析人員,統計功能是通過相應的統計工具來完成迴歸分析、多變數分析等,資料管理用於查詢詳細資料,瀏覽子集,刪除冗餘等。

2.知識發現。知識發現源於人工智慧和機器學習,它利用一種資料搜尋過程,去資料中抽取資訊,這些資訊表示了資料元素的關係和模式,能夠從中發現商業規則和商業事實。利用資料視覺化工具和瀏覽工具有助於開發分析以前挖掘的資料,以進一步增強資料發掘能力。其他資料探勘方法,如視覺化系統可給出帶有多變數的圖形化分析資料,幫助商業分析人員進行知識發現。

3.預測模型的挖掘方法。預測模型的挖掘方法是將機器學習和人工智慧應用於資料探勘系統。預測模型基於這樣一個假設:消費者的消費行為具有一定的重複性和規律性,這使得商家可以通過分析收集儲存在資料庫中的交易資訊,預測消費者的消費行為。按消費者所具有的特定的消費行為將其分類,商家就能將銷售工作集中於一部分消費者,即實現針對四、Web挖掘的作用

通過收集、加工和處理涉及消費者消費行為的大量資訊。確定特定消費群體或個體的興趣、消費習慣、消費傾向和消費需求,進而推斷出相應消費群體或個體未來的消費行為,然後對所識別出來的消費群體進行特定內容的定向營銷,節省成本,提高效率,從而為企業帶來更多的利潤。

1.優化Web站點。Web設計者不再完全依靠專家的定性指導來設計網站,而是根據訪問者的資訊來設計和修改網站結構和外觀。站點上頁面內容的安排和連結就如超級市場中物品的擺放一樣,把相關聯的物品擺放在一起有助於銷售。網站管理員也可以按照大多數訪問者的瀏覽模式對網站進行組織,按其所訪問內容來裁剪使用者與Web資訊空間的互動,儘量為大多數訪問者的瀏覽提供方便。

2.設計個性化網站。強調資訊個性化識別客戶的喜好,使客戶能以自己的方式來訪問網站。對某此使用者經常訪問的地方,有針對性地提供個性化的廣告條,以實現個性化的市場服務。

3.留住老顧客。通過Web挖掘,電子商務的經營者可以獲知訪問者的個人愛好,更加充分地瞭解客戶的需要。根據每一類(甚至是每一個)顧客的獨特需求提供定製化的產品,有利於提高客戶的滿意度,最終達到留住客戶的目的。

4.挖掘潛在客戶。通過分析和探究Web日誌記錄中的規律,可以先對已經存在的訪問者進行分類。確定分類的關鍵屬性及相互間關係,然後根據其分類的共同屬性來識別電子商務潛在的客戶,提高對使用者服務的質量。

5.延長客戶駐留時間。在電子商務中,為了使客戶在網站上駐留更長的時間就應該瞭解客戶的瀏覽行為,知道客戶的興趣及需求所在,及時根據需求動態地向客戶做頁面推薦,調整Web頁面,提供特有的一些商品資訊和廣告,以使客戶滿意。

6.降低運營成本。通過Web挖掘,公司可以分析顧客的將來行為,進行有針對性的電子商務營銷話動,可以根據關心某產品的訪問者的瀏覽模式來決定廣告的位置,增加廣告針對性,提高廣告的投資回報率。可以得到可靠的市場反饋資訊,降低公司的運營成本。

7.增強電子商務安全。Web的內容挖掘還包括挖掘存有客戶登記資訊的後臺交易資料庫。客戶登記資訊在電子商務話動中起著非常重要的作用,特別是在安全方面,或者在對客戶可訪問資訊的限制方面。

8.提高企業競爭力。分析潛在的目標市場,優化電子商務網站的經營模式,根據客戶的歷史資料不僅可以預測需求趨勢,還可以評估需求傾向的改變,有助於提高企業的競爭力。

五、小結

本文介紹了在電子商務中可以被用來進行資料探勘的資料來源,以及可用於電子商務中的基於Web上的幾種資料探勘技術。將資料探勘技術應用於電子商務,對這些資料進行挖掘,可以找出這些有價值的“知識”,企業使用者可以根據這些“知識”把握客戶動態,追蹤市場變化,做出正確的針對性的決策,比如改進網站、向各類使用者推出個性化的頁面,或者向高流失客戶群提供優惠政策進行挽留等等。但是在電子商務中進行Web的資料探勘時還有很多問題需要解決。例如,如何解決不同國家不同地區儲存Web資料的語義不一致性,如果提供更安全、快捷的服務方面還有很多工作要做。

參考文獻:

[1]郝先臣張德干尹國成趙海:用於電子商務中的資料探勘技術研究。小型微型計算機系統[J].2007(7)786~787

[2]趙煥平等:WEB資料探勘及其在電子商務中的應用。福建電腦[J].2008(1)167

[3]石巖:Web挖掘技術在電子商務中的應用。科技情報開發與經濟[J].2006(7)235~236

[4]凌傳繁:Web挖掘技術在電子商務中的應用。情報雜誌[J].2006(1)93~94

資料探勘論文 篇二

目前現有的針對菸草營銷策略的研究,多采用資料探勘的思想,基於資料探勘的營銷策略是對終端客戶進行分類,根據使用者的銷量和誠信記錄把使用者分為多個等級,但這種分級策略只能反應使用者的銷量資訊,把這個分類作為營銷策略依據太單薄,只能起一定的輔助作用。更深入地研究是根據客戶的資料和歷史訂單資料對現有商戶進行聚類,獲取到自主的商戶分類,但盲目的聚類會導致商戶的分類沒有實際意義,或獲取的結果是無助於營銷目的的。

2技術關鍵

本系統採用基於營銷目的的商戶聚類,技術關鍵包括三部分內容:資料預處理中的特徵選擇、基於限制目標的商戶精確聚類和基於聚類結果的多層關聯規則演算法的研究。

2.1特徵選擇

假定獲取的資料的維數為n,通常情況下n是很大的一個數,為簡化模型,也為了防止模型陷入過擬合(維數災難),需要進行降維處理,即僅把對專案改造判定起關鍵作用的因素挑選出來。本系統採用PCA演算法來進行降維處理,過程如下:

1)計算標準化後的矩陣Z的樣本的協方差矩陣Cov;

2)計算協方差矩陣Cov的本徵向量e1,e2,…,en的本徵值。本徵值按大到小排序;

3)投影資料

到本徵矢張成的空間之中,利用貢獻分析取前m個向量Y1,Y2,…,Ym。

2.2基於營銷目標限制的商戶精確聚類演算法

現有聚類演算法一般沒有約束條件,只根據相似度來進行聚類,為了能夠體現約束條件,需要在聚類相似度或者樣本距離之間把限制條件增加進去,這樣在樣本聚類的時候即可使得具有相同營銷特性的樣本或者客戶被劃分到同一個類中。菸草終端商戶的大部分屬性是分類屬性,例如:地區、類別等,此外還有數字型屬性、日期型屬性,由於存在不同型別的屬性,常規的聚類演算法無法使用,為此,採用把數字屬性和日期屬性劃分區間的思路,這樣可以轉化成分類屬性的方式來進行聚類。進而可建立如下商戶模型:分類物件X∈Ω,X=[A1=x1]∧[A2=x2]∧…∧[Am=xm],其中xj∈DOM(Aj),1≤j≤m,為簡便起見,將物件X∈Ω用向量(x1,x2,…,xm)表達,如果屬性Aj的值不存在,則Aj=ε。令Χ={X1,X2,…,Xn}為n個分類物件的集合,用集合方式表達分類物件,則Xi={xi,1,xi,2,…,xi,m},如果屬性Aj的值不存在,則集合中不出現xi,j,容易得到|Xi|≤m。如果存在Xi,j=Xk,j,1≤j≤m,則Xi=Xk。為方便聚類,利用聚類彙總來壓縮原始資料,從而達到提高演算法效率的目的。一個類C可以由如下三元組(n,I,S)來表示。其中n為類C中的物件數量,I={i1,i2,…,iu}是C內所有屬性值的集合,S={s1,s2,…,su},其中sj為ij在類C中的數量,ij∈I,1≤j≤u。集合S按升序排列,即s1≤s2≤…≤su,這同時也暗示集合I的元素按其在C中的數量按升序排列。三元組(n,I,S)被稱作類C的聚類彙總CS,CS的三個成員分別記作CS.n、CS.I和CS.S;對於CS.I的任一元素ij∈CS.I,則記作,對於sj∈CS.S,則記作,其中1≤j≤u。

2.3基於菸草營銷的多層關聯規則的研究

針對本專案,對關聯規則定義進行擴充套件,對形如:XY的關聯規則,不再限定X和Y為一個專案集,而把X和Y定義為條件的合取正規化,每個條件Ai=True/False為布林表示式。此時的Ai為一個專案集,它的含義與原來的X和Y的含義相同,如果把結果中的條件布林表示式寫成Cj=True/False,則關聯規則有如下形式:(A1=True/False)∧(A2=True/False)∧…∧(An=True/False)(C1=True/False)∧(C2=True/False)∧…∧(Cm=True/False)關聯規則的開採問題可以分解成以下兩個子問題:

①從資料集合或交易集合D中發現所有的頻繁專案集。

②從頻繁專案集中生成所有置信度不小於使用者定義的最小置信度minconf的關聯規則。即對任一個頻繁專案集F和F的所有非空真子集S,SF,如果sup(F)/sup(F-S)≥minconf,則(F-S)S就是一條有效的關聯規則。按上述方法發現所有類似的規則。這兩個步驟中第2步要相對容易,因此專案的研究將更關注第1步,由於最大頻繁專案集已經隱含了所有頻繁專案集,所以可以把發現頻繁專案集的問題轉化為發現最大頻繁專案集的問題。針對菸草營銷的客戶,進行關聯規則挖掘時,是在上一步的基礎上,即針對每一個商戶群進行規則挖掘。在獲取到最大頻繁專案集後,順序生成頻繁專案集,然後獲取到可用的關聯規則。此時獲取的關聯規則是底層關聯規則,然後再採用概念樹的方法對獲取的底層關聯規則進行彙總。概念樹由菸草領域專家根據屬性的領域知識提供,按特定屬性的概念層次從一般到具體排序。樹的根結點是用any表示最一般的概念,葉結點是最具體的概念即屬性的具體值。

資料探勘論文 篇三

近年來,我國的部隊管理體系已經逐漸向著自動化方向發展,部隊中各個部門都建立了一定的管理體系,也逐漸脫離了人工管理模式,實現資訊現代化模式,很大程度提高了部隊工作的效率,但是由於外界因素與經濟發展的多樣化以及人們的思維模式也在不斷改變,從而出現了一些新問題,使得部隊管理體系存在著一定問題:第一、關聯性小、系統比較獨立。現階段,部隊採購食品系統的作用以及目的比較簡單,思維面也比較窄,也就是說按照清單進行食品採購時,不能充分考慮到採購人員的健康、效率等問題,不能達到最優化採購方式,因此就變得比較獨立;第二,資料功能簡單,可靠性不高。現階段,部隊食品採購資料只是對採購的種類與過程進行簡單記錄,時間一久,就會被損壞或者丟失;第三,資料分散不集中。現階段與部隊人員健康、起居飲食、訓練相關的資料分散在不同系統中,使得資料變得不一致、不完整,僅僅只能進行簡單查詢、彙總、統計等工作,不能對資料進行多角度分析、關聯等,不能為採購食品提供很好的政策支援。針對部隊採購存在的問題,可以利用資料倉庫以及資料探勘技術建立多為資料庫,利用資料探勘進技術對食品採購資料進行挖掘。依據現階段部隊的實際發展情況,建立一套新資料庫的成本代價比較高,因此,選用了目前社會上通用方法,對已經存在的資料進行一定改革與拓展,合理優化系統資料,成為新的資料庫。並且選取對資料探勘影響比較大的系統性分析,包括訓練系統,食品採購系統、人員管理系統以及醫療衛生系統。針對食品採購採購系統建立資料模型。

二、在部隊食品採購系統中的應用以及其價值評價

在部隊食品採購系統實際應用工程中,其實可以運用MicrosoftSQLServerAnalysisServices來對資料進行分析,並且在資料探勘過程中對多維資料進行描述與查詢起到一定作用。因為多維資料比較複雜,增長的也比較快,因此,進行手動查詢是很困難的,資料探勘技術提供的計算模式可以很好的對資料進行分析與查詢。在建設部隊食品採購倉庫資料的時候,資料內容主要包括了人員的健康、兵員的飲食以及訓練等,進行資料探勘主要包括以下內容:第一,把每個主題資訊資料進行收集、彙總、分析等,對人員情況、健康、飲食、訓練等進行合理分析;第二,多維分析資料資訊。根據部隊的實際情況,利用資料探勘技術對部隊人員健康、飲食、訓練等資料資訊進行多維分析,其中包含上鑽、切片、下鑽等;第三,挖掘健康與飲食之間的內在關係。根據資料庫中許多面向主題的歷史資料,採用資料探勘技術進行分析與演算得到部隊人員的訓練和健康情況與部隊飲食之間內在關係,以便於為部隊食品採購提供合理的、有效的保障,從而提高部隊整體人員的健康水平、身體素質以及訓練質量,對提高我國部隊戰鬥力有著深遠的意義。

三、結束語

總而言之,對資料倉庫及資料探勘技術在部隊食品採購系統中的應用進行分析與理解,合理的建立部隊食品採集資料庫,對資料倉庫以及資料探勘技術進行一定的分析,得到多維資料,發現飲食和人員健康以及訓練情況的關係,為部隊發展提供科學依據,對提高我國部隊整體水平起到很大作用

資料探勘論文 篇四

關鍵詞:4G環境;行動通訊;網路優化;資料探勘

隨著我國的移動資訊力量不斷髮展,目前社會已進入了4G的通訊時代。4G環境下,行動通訊網路實現了實時的更新與擴大,同時人們對於行動網路的使用要求也越來越高。如果不及時對行動通訊網路進行更新優化,4G網路將無法發揮力量,進一步為社會與人們服務。因此,為深化4G網路的使用,必須對其資料進行深度挖掘與分析,從而找尋更好使其為人們服務的途徑與方法。

1關於資料探勘技術的問題分析

1.1資料探勘的概念。資料探勘技術是目前我國一類新興的網際網路科技技術,其運用基於目前的大資料時代形勢下。資料探勘的實質是對巨大的資訊量,通過後臺的整合處理,找尋具有一定規律的資料並對其深入分析,找尋各組資料之間的聯絡,對後續可能潛在產生的資料進行預測。因此,資料探勘在目前資訊量龐大的現代網路社會而言,具有找尋各組資料的關聯性,發現人們潛在需求的重要作用,是進一步優化4G網路通訊與使用的重要依據。1.2資料探勘的分析方法。資料探勘的方法較多,通常情況下使用以下三類方法進行具體的挖掘工作。首先,分類分析法是最常用的一類資料探勘方法。該方法需要技術人員對所有的資料進行初步篩選,並依據其特點做好標記的工作。在第一次篩選工作完成後,對其進行先前以標記分類的資料進行二次篩選,根據其特點再一次篩選。重複篩選的工作直至得到符合技術人員需求的規模後,在對其同類型的資料進行定點分析,找尋其規律後根據其特性對4G網路進行優化工作。其次,通常使用關聯分析法進行資料探勘的工作。所謂關聯分析法,是指對人們使用4G網路的情況排查,分析其使用某資料時與其關聯的資料,找尋二者的規律與相似處,並以此為依據對4G網路的使用進行進一步優化調整。關聯分析法的優勢是更貼合人們的需求,能夠基於人性化的基礎上對4G網路進行調整。最後,序列分析法也是常用的資料探勘方法。其原理類似於分類分析法,但其採用的方法是先由技術人員對所有需要分析的資料進行採集編號,然後由計算機對其資料根據序列的不同進行分析工作。相較於分類分析法,儘管其人性化程度較低,但其分析的速度是常用的資料分析法中速度最快的。因此,技術人員同時使用序列分析法對資料進行第一次篩選與分析的工作後,根據情況具體使用分類分析法或關聯分析法進行具體的篩選工作。

24G行動通訊網路的特點分析

2.14G行動通訊網路的移動性特點。4G網路通常情況下是使用在可移動的電子裝置如手機、平板電腦等,因此其首要特性是區別於傳統的計算機網際網路,其可移動性較強。因此,其使用的過程中對固定的寬頻使用不作要求,只需求我國的行動通訊機電站支援。在我國行動網路建設較為完善的前提下,4G網路幾乎可覆蓋整個國家並且24小時提供支援。故而對其的分析工作要充分考量其移動性與實時性,可根據其廣泛的區域性與時效性進行分析,進一步做好其優化調整工作。2.24G行動通訊網路的使用結構龐大。4G網路通訊是一項面對多使用者的網路系統,同時使用者能夠基於4G網路的支援產生聯絡與影響,因此其使用結構十分龐大。在對其資料探勘的過程中,要注意使用者之間的聯動影響,同時通過對其之間的聯動找尋資料應有的特點與聯絡,進一步做好其優化調整工作。此外,由於移動通訊系統要與衛星通訊網和市話網以及資料網等進行網路互聯,從而使得整個網路結構變得更加複雜。

3資料探勘在4G通訊網路優化中運用原則

3.1實現通訊網路的智慧性原則。行動通訊網路是一項非常龐大與複雜的系統,為更好幫助4G行動通訊網路的優化與使用,首先必須做到智慧性使用原則。所謂智慧性原則,是指技術人員利用好網際網路計算機科技的力量,對社會使用4G網路過程中產生的資料進行有效合理的篩選,而非盲目對其進行篩選與分類工作。同時,在對其進行初步的篩選後,要對其進行詳實的分析後在進行下一步驟的分析與篩選,不可盲目進行分析,應當遵循智慧化的原則。3.2分散式處理原則。由於資料量大,故而對其進行全盤分析是不切實際的,資料探勘工作應當秉持分散式處理原則。首先,為更高效地分析資料提高分析的準確率,其資料分析工作不能只掛載在一個網路伺服器上,除了根據時間為伺服器分類的原則以外,還可以根據地點的區分或使用人群的不同選擇伺服器。同時,分散式處理原則除了需要使用不同的伺服器對其資料進行分析以外,還需要利用不同的方法對資料進行處理。除了前文中提及的方法以外,技術人員可對部分重要的資料進行多重方法的分析,以期獲得更為準確的反饋更好進行優化調整。

44G環境下資料探勘在行動通訊網路中的應用對策

4.1幫助進行合理的站點選擇。4G網路是移動電子裝置使用的網際網路技術,其使用僅依靠由行動通訊的供應商設定的基站接入網路。而移動站點的運營成本相對較高,同一個站點可承載的使用者數量也有限,因此如何建設站點成為我國各大行動通訊供應商需要考量的重要問題。而通過資料探勘的工作,能夠對使用4G的使用者數量、使用高峰時間、使用低峰時間進行合理的分析,更好給予行動通訊供應商參考,幫助其進行站點的規劃建設。同時,在站點的使用過程中必然會出現一定的維修檢查工作,為更好幫助行動通訊商,為使用4G使用者提供更好的服務,通過對其資料的分析挖掘,行動通訊商可選擇站點的維護時間,減少使用者的損失。4.2幫助進行合理的干擾分析。4G網路在使用的過程中容易接受到其他如電磁波、磁場等影響與干擾,而通過資料探勘能夠較好地幫助行動通訊商定向分析干擾4G使用的干擾源,並以此為依據對其進行優化調整,以期向廣大使用者提供更為穩定高效的4G網路。同時,技術人員可以對其使用過程中的資料分析,找尋使用者使用程度高的資訊、資料,一定程度上排程其使用頻率與開放的通道,保障在盡力排除干擾的前提下使得使用者使用頻率更高的資訊得以較好使用。4.3幫助進行合理的掉話分析。在4G網路使用的過程中,掉話現象與干擾現象都給予使用者非正常的使用體驗。資料探勘的工作不僅能夠對資訊的特點進行分析,還能夠對錯誤的資訊進行篩選分類。首先,移動供應商可根據錯誤的資訊,找尋其網路傳播過程中的不足並找尋錯誤的原因,根據錯誤的原因進行優化調整。其次,針對資訊丟失的情況,移動供應商可在資料探勘過程中找尋丟失的去向或丟失資訊的部分。除了可將丟失的資訊還原以外,對於部分難以找尋的資訊,需要對其傳播通道進行修復調整,幫助使用者擁有流暢的4G網路使用體驗。4.4幫助進行合理的切換分析。非4G行動網路的使用在市場上仍然有一定的佔有率,而通過對資料的挖掘,可以幫助行動通訊商進行切換分析。首先,通過資料的挖掘行動通訊商可對使用者進行判斷,分析其主動進行資料切換的原因,進行對網路的調整優化。其次,行動通訊商可以通過對使用者非主動的網路切換原因進行分析,排查4G網路在使用過程中導致其波動的原因並對其進行優化工作,以期給予使用者更好的使用體驗。最後,4G網路並不是行動通訊網路的最終形態,其仍然需要進一步的更新與優化,通過對目前現有資訊資料的分析使用,做好未來網路切換的預備工作,更好優化其切換的過程與使用體驗。4.5幫助進行合理的分佈分析。目前我國4G網路的分步率非常高,我國95%以上的土地都能夠流暢使用4G網路,但其分佈使用網路覆蓋的問題仍然需要行動網路供應商進一步的優化工作。通過對資料的挖掘與分析,能夠較好地幫助行動通訊商優化通訊基站的佈局,使得網路覆蓋率更好提高,保障區域的使用網路順暢。同時,部分4G網路使用頻率較高的區域,經常發生網路擁堵、基站無法完全滿足使用者的使用要求的現象。而通過資料的挖掘工作,能夠更好檢測基站的承載力,以此對基站做擴大或再造的工作。同樣,針對基站承載力溢位過多,4G網路使用使用者較少的現象。行動通訊商可適度調整其基站的使用情況,減少其伺服器的使用數量,優化其服務質量。

5結束語

隨著我國資訊科技的不斷髮展以及4G技術的不斷推廣與應用,加上市場競爭的不斷激烈化與人們生活水平的不斷提高,促使人們對於網路的要求也越來越高,行動通訊商只有進一步優化技術,遵循資料探勘的選擇,使用恰當合理的方法進行工作,才能做好4G網路的調整工作,給予人民群眾更好的網路使用體驗,更好向社會貢獻自己的力量,提供更為優質的服務。

參考文獻:

[1]鄧波,黃同成,劉遠軍。基於4G行動網路的大資料與雲端計算技術應用分析及展望———以城市智慧交通系統為例[J].資訊與電腦,2015(23):28-30.

[2]本刊訊。中國移動設計院積極支撐中國移動4G規劃及網路建設方案編制工作[J].中國工程諮詢,2015(5):96.

[3]劉遠飛,方超,劉博。4GTD-LTE移動網際網路技術在監測監管資料傳輸中的研究[A].中國新聞技術工作者聯合會“新聞科技論文”優秀論文集[C].2015.

資料探勘論文 篇五

[關鍵詞]資料探勘資料探勘方法

隨著資訊科技迅速發展,資料庫的規模不斷擴大,產生了大量的資料。但大量的資料往往無法辨別隱藏在其中的能對決策提供支援的資訊,而傳統的查詢、報表工具無法滿足挖掘這些資訊的需求。因此,需要一種新的資料分析技術處理大量資料,並從中抽取有價值的潛在知識,資料探勘(DataMining)技術由此應運而生。

一、資料探勘的定義

資料探勘是指從資料集合中自動抽取隱藏在資料中的那些有用資訊的非平凡過程,這些資訊的表現形式為:規則、概念、規律及模式等。它可幫助決策者分析歷史資料及當前資料,並從中發現隱藏的關係和模式,進而預測未來可能發生的行為。資料探勘的過程也叫知識發現的過程。

二、資料探勘的方法

1.統計方法。傳統的統計學為資料探勘提供了許多判別和迴歸分析方法,常用的有貝葉斯推理、迴歸分析、方差分析等技術。貝葉斯推理是在知道新的資訊後修正資料集概率分佈的基本工具,處理資料探勘中的分類問題,迴歸分析用來找到一個輸入變數和輸出變數關係的最佳模型,在迴歸分析中有用來描述一個變數的變化趨勢和別的變數值的關係的線性迴歸,還有用來為某些事件發生的概率建模為預測變數集的對數迴歸、統計方法中的方差分析一般用於分析估計迴歸直線的效能和自變數對最終迴歸的影響,是許多挖掘應用中有力的工具之一。

2.關聯規則。關聯規則是一種簡單,實用的分析規則,它描述了一個事物中某些屬性同時出現的規律和模式,是資料探勘中最成熟的主要技術之一。關聯規則在資料探勘領域應用很廣泛適合於在大型資料集中發現數據之間的有意義關係,原因之一是它不受只選擇一個因變數的限制。大多數關聯規則挖掘演算法能夠無遺漏發現隱藏在所挖掘資料中的所有關聯關係,但是,並不是所有通過關聯得到的屬性之間的關係都有實際應用價值,要對這些規則要進行有效的評價,篩選有意義的關聯規則。

3.聚類分析。聚類分析是根據所選樣本間關聯的標準將其劃分成幾個組,同組內的樣本具有較高的相似度,不同組的則相異,常用的技術有分裂演算法,凝聚演算法,劃分聚類和增量聚類。聚類方法適合於探討樣本間的內部關係,從而對樣本結構做出合理的評價,此外,聚類分析還用於對孤立點的檢測。並非由聚類分析演算法得到的類對決策都有效,在運用某一個演算法之前,一般要先對資料的聚類趨勢進行檢驗。

4.決策樹方法。決策樹學習是一種通過逼近離散值目標函式的方法,通過把例項從根結點排列到某個葉子結點來分類例項,葉子結點即為例項所屬的分類。樹上的每個結點說明了對例項的某個屬性的測試,該結點的每一個後繼分支對應於該屬性的一個可能值,分類例項的方法是從這棵樹的根結點開始,測試這個結點指定的屬性,然後按照給定例項的該屬性值對應的樹枝向下移動。決策樹方法是要應用於資料探勘的分類方面。

5.神經網路。神經網路建立在自學習的數學模型基礎之上,能夠對大量複雜的資料進行分析,並可以完成對人腦或其他計算機來說極為複雜的模式抽取及趨勢分析,神經網路既可以表現為有指導的學習也可以是無指導聚類,無論哪種,輸入到神經網路中的值都是數值型的。人工神經元網路模擬人腦神經元結構,建立三大類多種神經元網路,具有非線形對映特性、資訊的分佈儲存、並行處理和全域性集體的作用、高度的自學習、自組織和自適應能力的種種優點。

6.遺傳演算法。遺傳演算法是一種受生物進化啟發的學習方法,通過變異和重組當前己知的最好假設來生成後續的假設。每一步,通過使用目前適應性最高的假設的後代替代群體的某個部分,來更新當前群體的一組假設,來實現各個個體的適應性的提高。遺傳演算法由三個基本過程組成:繁殖(選擇)是從一箇舊種群(父代)選出生命力強的個體,產生新種群(後代)的過程;交叉〔重組)選擇兩個不同個體〔染色體)的部分(基因)進行交換,形成新個體的過程;變異(突變)是對某些個體的某些基因進行變異的過程。在資料探勘中,可以被用作評估其他演算法的適合度。

7.粗糙集。粗糙集能夠在缺少關於資料先驗知識的情況下,只以考察資料的分類能力為基礎,解決模糊或不確定資料的分析和處理問題。粗糙集用於從資料庫中發現分類規則的基本思想是將資料庫中的屬性分為條件屬性和結論屬性,對資料庫中的元組根據各個屬性不同的屬性值分成相應的子集,然後對條件屬性劃分的子集與結論屬性劃分的子集之間上下近似關係生成判定規則。所有相似物件的集合稱為初等集合,形成知識的基本成分。任何初等集合的並集稱為精確集,否則,一個集合就是粗糙的(不精確的)。每個粗糙集都具有邊界元素,也就是那些既不能確定為集合元素,也不能確定為集合補集元素的元素。粗糙集理論可以應用於資料探勘中的分類、發現不準確資料或噪聲資料內在的結構聯絡。

8.支援向量機。支援向量機(SVM)是在統計學習理論的基礎上發展出來的一種新的機器學習方法。它基於結構風險最小化原則上的,儘量提高學習機的泛化能力,具有良好的推廣效能和較好的分類精確性,能有效的解決過學習問題,現已成為訓練多層感知器、RBF神經網路和多項式神經元網路的替代性方法。另外,支援向量機演算法是一個凸優化問題,區域性最優解一定是全域性最優解,這些特點都是包括神經元網路在內的其他演算法所不能及的。支援向量機可以應用於資料探勘的分類、迴歸、對未知事物的探索等方面。

事實上,任何一種挖掘工具往往是根據具體問題來選擇合適挖掘方法,很難說哪種方法好,那種方法劣,而是視具體問題而定。

三、結束語

目前,資料探勘技術雖然得到了一定程度的應用,並取得了顯著成效,但仍存在著許多尚未解決的問題。隨著人們對資料探勘技術的深人研究,資料探勘技術必將在更加廣泛的領域得到應用,並取得更加顯著的效果。

資料探勘論文 篇六

資料探勘技術是近些年發展起來的一門新興學科,它涉及到資料庫和人工智慧等多個領域。隨著計算機技術的普及資料庫產生大量資料,能夠從這些大量資料中抽取出有價值資訊的技術稱之為資料探勘技術。資料探勘方法有統計學方法、關聯規則挖掘、決策樹方法、聚類方法等八種方法,關聯規則是其中最常用的研究方法。關聯規則演算法是1993年由,Inipusqi,Sqtm三人提出的Apriori演算法,是指從海量資料中挖掘出有價值的能夠揭示實體和資料項間某些隱藏的聯絡的有關知識,其中描述關聯規則的兩個重要概念分別是Suppor(t支援度)和Confi-dence(可信度)。只有當Support和Confidence兩者都較高的關聯規則才是有效的、需要進一步進行分析和應用的規則。

二、使用Weka進行關聯挖掘

Weka的全名是懷卡託智慧分析環境(WaikatoEnviron-mentforKnowledgeAnalysis),是一款免費的、非商業化的、基於JAVA環境下開源的機器學習以及資料探勘軟體[2]。它包含了許多資料探勘的演算法,是目前最完備的資料探勘軟體之一。Weka軟體提供了Explorer、Experimenter、Knowledge-Flow、SimpleCLI四種模組[2]。其中Explorer是用來探索資料環境的,Experimenter是對各種實驗計劃進行資料測試,KnowledgeFlow和Explorer類似,但該模組通過其特殊的介面可以讓使用者通過拖動的形式去建立實驗方案,Simple-CLI為簡單的命令列介面。以下資料探勘任務主要用Ex-plorer模組來進行。

(一)資料預處理

資料探勘所需要的所有資料可以由系統排序模組生成並進行下載。這裡我們下載近兩年的教師科研資訊。為了使論文總分、學術著作總分、科研獲獎總分、科研立項總分、科研總得分更有利於資料探勘計算,在這裡我們將以上得分分別確定分類屬性值。

(二)資料載入

點選Explorer進入後有四種載入資料的方式,這裡採用第一種Openfile形式。由於Weka所支援的標準資料格式為ARFF,我們將處理好的xls格式另存為csv,在weka中找到這個檔案並重新儲存為arff檔案格式來實現資料的載入。由於所載入的資料噪聲比較多,這裡應根據資料探勘任務對資料表中與本次資料任務不相關的屬性進行移除,只將學歷、職稱、論文等級、學術著作等級、科研獲獎等級、科研立項等級、科研總分等級留下。

(三)關聯挖掘與結果分析

WeakExplorer介面中提供了資料探勘多種演算法,在這裡我們選擇“Associate”標籤下的Apriori演算法。之後將“lowerBoundMinSupprot”(最小支援度)引數值設為0.1,將“upperBoundMinSupprot”(最大支援度)引數值設為1,在“metiricType”的引數值選項中選擇lift選項,將“minMetric”引數值設為1.1,將“numRules”(資料集數)引數值設為10,其它選項儲存預設值,這樣就可以挖掘出支援度在10%到100%之間並且lift值超過1.1且排名前10名的關聯規則。其挖掘引數資訊和關聯挖掘的部分結果。

三、挖掘結果與應用

以上是針對教師基本情況和科研各項總分進行的反覆的資料探勘工作,從挖掘結果中找到最佳模式進行彙總。以下列出了幾項作為參考的關聯資料探勘結果。

1、科研立項得分與論文、科研總得分關聯度高,即科研立項為A級的論文也一定是A。這與實際也是相符的,因為科研立項得A的教師應該是主持了省級或是部級的立項的同時也參與了其他教師的科研立項,在課題研究的過程中一定會有部級論文或者省級論文進行發表來支撐立項,所以這類教師的論文得分也會很高。針對這樣的結果,在今後的科研工作中,科研處要鼓勵和幫助教師搞科研,為教師的科研工作提供精神上的支援和物質上的幫助,這樣在很大程度上能夠帶動整個學校科研工作的進展。

2、副教授類的教師科研立項得分很高,而講師類教師和助教類教師的科研立項得分很低,這樣符合實際情況。因為副教授類的教師有一定的教學經驗,並且很多副教授類的教師還想晉職稱,所以大多數副教授類教師都會申請一些課題。而對於講師類和助教類的教師,由於教學經驗不足很少能進行省級以上的課題研究,因此這兩類教師的科研立項分數不高。針對這樣的結果,在今後的科研工作中,科研處可以採用一幫一、結對子的形式來幫助年輕教師,這樣可以使青年教師參與到老教師的科研課題研究工作中去,在課題研究工程中提高科研能力和教學能力。

3、講師類教師的論文等級不高。從論文得分能夠推斷出講師類教師所的級別不高。為了鼓勵這類教師的,在今後的科研量化工作中對省級、部級的論文級別進行細化,並且降低一般論文的得分權重,加大高階論文的得分權重。並且鼓勵講師類教師參加假期培訓,提高自身的科研和教學水平。

資料探勘技術論文 篇七

1.1安全技術資金不足

煤炭的持續開採會受到地質條件的直接影響,過去國家投入眾多的設施,使用至今均已出現老化,並且維修量非常大。隨著礦井的不斷延深,礦壓極度強化,巷道的維修任務更是不斷的增加,礦井的供電以及通風、提升與排水等都不能適應生產的需要。

1.2安全管理模式傳統

與西方發達產煤國家相比較,我國的煤礦使用技術研究起步很晚。並且人力、財力非常缺乏,某些重大的安全技術問題,比如衝擊地壓以及煤和瓦斯的突出、地熱以及突水等災害不能進行有效的預測和控制。且受到以往傳統運營思想的直接作用與影響以及各個企業的經濟實力的約束,我國的煤礦生產裝備和安全監控設施相對落後。井巷的斷面設計以及支護強度的確定、支護材料的型號選擇較小。生產設施功率以及礦井的供風量等富餘引數非常低,極易出現事故。絕大多數的煤炭企業還是利用以往傳統的安全管理模式,各種報表計算仍是靠人工勞動並且精確度很低。資訊傳送的時間較長,且速度較慢,管理者的工作重複性很大,資料查詢十分困難,並且工作效率很低。安全檢查以及等級鑑定等總是憑藉主觀意念以及相關的經驗。

1.3安全資訊管理體制不健全

安全資訊可以說是安全管理工作的重要依據,它主要包括事故和職業傷害的有效記錄與分析統計,職業的安全衛生設施的相關研究與設計、生產以及檢驗技術,法律法規以及相應技術標準和其變化的動態,教育培訓以及宣傳和社會活動,國內的新型技術動態以及隱患評估與技術經濟類分析和諮詢、決策的體系。資訊體制的健全是安全體制工程以及計算機技術的有效結合,可促使安全工作轉型為定性和定量的超前預測,不過大多數礦井還是處於起步與摸索階段,並未呈現出健全的體制,真正的使用還有待進一步的發展。

2空間資料探勘技術

資料探勘研究行業的持續進展,開始由起初的關係資料以及事務資料探勘,發展至對空間資料庫的不斷挖掘。空間的資訊還在逐漸地呈現各類資訊體制的主體與基礎。空間資料探勘技術是一項非常關鍵的資料,具有比普通關係資料庫和事務資料庫更豐富、複雜的相關語義資訊,且蘊含了更豐富的知識。所以,雖說資料的挖掘最初是出現在關係資料探勘以及事務的資料庫,不過因為空間資料庫中的發掘知識,這就很快引起了各個研究者的關注與重視。很多的資料探勘類研究工作都是從關係型以及事務型資料庫拓展至空間資料庫的。在地學領域中,隨著衛星以及遙感技術的不斷使用,逐漸豐富的空間以及非空間的資料採集與儲存在較大空間資料庫中,大量的地理資料已經算是超過了人們的處理能力,並且傳統的地學分析很難在這些資料中萃取並發現地學知識,這也就給現階段的GIS帶來了很大的挑戰,急切的需要強化GIS相應的分析功能,提升GIS處理地學實際狀況的能力。資料探勘以及知識發現的產生能滿足地球空間的資料處理要求,並推進了傳統地學空間分析的不斷髮展。依據地學空間資料探勘技術的特性,把資料探勘的方式融進GIS技術中,呈現地學空間資料探勘技術和知識發展的新地學資料分析理念與依據。

3煤礦安全管理水平的提升

3.1建設評價指標體制庫

評價指標體制庫是礦井的自然災害危害存在的具體引數式的知識庫。模型的組建務必要根據礦井的瓦斯以及水害等自然災害危害呈現的不同指標體制和其臨界值構建一定的指標體制庫,危害的警報識別引數關鍵是採掘工程的平面圖動態開採面以及相應的巷道。各種瓦斯的危害以及水害隱患和通風隱患均呈現一定的評價指標庫。

3.2構建專業的分析模型庫

依據瓦斯以及水害等諸多不同的礦井自然災害類別構建相關的專業性模型庫,比如瓦斯的災害預測,應根據礦井的地質條件以及煤層所賦存的狀況構建瓦斯的地質區分圖,再根據採掘工程的平面圖動態呈現的採掘資訊以及相應的瓦斯分割槽構建關聯並實行相應的比較分析,確定可以採集區域未來的可採區域是不是高瓦斯區域。

3.3構建以GIS空間分析為基礎的方法庫

GIS空間分析可以說是礦井自然災害的隱患高度識別的關鍵性方式,並且還是安全故障警報的主要路徑。比如斷層的防水層的有效劃分,關鍵是根據斷層的保安煤柱來實行可靠的確定。斷層的保安煤柱確定可以利用GIS緩衝區域的分析得到。空間的統計分析以及多源資訊有效擬合和資料探勘亦是瓦斯和水害等安全隱患監測經常使用GIS空間分析方式,如物探水文的異常區域確定以及瓦斯突出相應的危險區域確定。

3.4決策支援體制與煤礦管理水平評價指標

體制庫以及模型庫、方式庫與圖形庫均是礦井的自然災害隱患識別和決策的最基礎。利用礦井的自然災害隱患識別決策來支援體系具體的功能呈現礦井的自然災害隱患識別以及決策分析,在根源處提高煤礦的安全管理水平。分類構建礦井的自然災害實時監控體系,進行動態跟蹤相應的災害實時資料,並事實呈現礦井的自然災害資料或是資訊和自然災害的指標體系庫以及模型庫與知識庫、空間資料庫的合理化比較,並運用圖形庫的資料再通過GIS空間分析方式來確定安全隱患的,礦井自然災害的隱患實時警報並進行決策分析,以提交空間資料的自然災害隱患識別以及分析處理的決策性報告。

4結語

隨著礦山持續的深化及開展,礦區的歷史以及實際資料量會日益增多,資料的處理會越來越困難。數字化礦山可以說是數字地球的主要構成,亦是呈現礦山可持續發展與礦業可持續發展的關鍵性決策,是呈現礦山、礦區資訊化管理的重要基礎。

資料探勘論文 篇八

資料探勘技術是近些年發展起來的一門新興學科,它涉及到資料庫和人工智慧等多個領域。隨著計算機技術的普及資料庫產生大量資料,能夠從這些大量資料中抽取出有價值資訊的技術稱之為資料探勘技術。資料探勘方法有統計學方法、關聯規則挖掘、決策樹方法、聚類方法等八種方法,關聯規則是其中最常用的研究方法。關聯規則演算法是1993年由,Inipusqi,Sqtm三人提出的Apriori演算法,是指從海量資料中挖掘出有價值的能夠揭示實體和資料項間某些隱藏的聯絡的有關知識,其中描述關聯規則的兩個重要概念分別是Suppor(t支援度)和Confi-dence(可信度)。只有當Support和Confidence兩者都較高的關聯規則才是有效的、需要進一步進行分析和應用的規則。

二、使用Weka進行關聯挖掘

Weka的全名是懷卡託智慧分析環境(WaikatoEnviron-mentforKnowledgeAnalysis),是一款免費的、非商業化的、基於JAVA環境下開源的機器學習以及資料探勘軟體[2]。它包含了許多資料探勘的演算法,是目前最完備的資料探勘軟體之一。Weka軟體提供了Explorer、Experimenter、Knowledge-Flow、SimpleCLI四種模組[2]。其中Explorer是用來探索資料環境的,Experimenter是對各種實驗計劃進行資料測試,KnowledgeFlow和Explorer類似,但該模組通過其特殊的介面可以讓使用者通過拖動的形式去建立實驗方案,Simple-CLI為簡單的命令列介面。以下資料探勘任務主要用Ex-plorer模組來進行。

(一)資料預處理

資料探勘所需要的所有資料可以由系統排序模組生成並進行下載。這裡我們下載近兩年的教師科研資訊。為了使論文總分、學術著作總分、科研獲獎總分、科研立項總分、科研總得分更有利於資料探勘計算,在這裡我們將以上得分分別確定分類屬性值。

(二)資料載入

點選Explorer進入後有四種載入資料的方式,這裡採用第一種Openfile形式。由於Weka所支援的標準資料格式為ARFF,我們將處理好的xls格式另存為csv,在weka中找到這個檔案並重新儲存為arff檔案格式來實現資料的載入。由於所載入的資料噪聲比較多,這裡應根據資料探勘任務對資料表中與本次資料任務不相關的屬性進行移除,只將學歷、職稱、論文等級、學術著作等級、科研獲獎等級、科研立項等級、科研總分等級留下。

(三)關聯挖掘與結果分析

WeakExplorer介面中提供了資料探勘多種演算法,在這裡我們選擇“Associate”標籤下的Apriori演算法。之後將“lowerBoundMinSupprot”(最小支援度)引數值設為0.1,將“upperBoundMinSupprot”(最大支援度)引數值設為1,在“metiricType”的引數值選項中選擇lift選項,將“minMetric”引數值設為1.1,將“numRules”(資料集數)引數值設為10,其它選項儲存預設值,這樣就可以挖掘出支援度在10%到100%之間並且lift值超過1.1且排名前10名的關聯規則。其挖掘引數資訊和關聯挖掘的部分結果。

三、挖掘結果與應用

以上是針對教師基本情況和科研各項總分進行的反覆的資料探勘工作,從挖掘結果中找到最佳模式進行彙總。以下列出了幾項作為參考的關聯資料探勘結果。

1、科研立項得分與論文、科研總得分關聯度高,即科研立項為A級的論文也一定是A。這與實際也是相符的,因為科研立項得A的教師應該是主持了省級或是部級的立項的同時也參與了其他教師的科研立項,在課題研究的過程中一定會有部級論文或者省級論文進行發表來支撐立項,所以這類教師的論文得分也會很高。針對這樣的結果,在今後的科研工作中,科研處要鼓勵和幫助教師搞科研,為教師的科研工作提供精神上的支援和物質上的幫助,這樣在很大程度上能夠帶動整個學校科研工作的進展。

2、副教授類的教師科研立項得分很高,而講師類教師和助教類教師的科研立項得分很低,這樣符合實際情況。因為副教授類的教師有一定的教學經驗,並且很多副教授類的教師還想晉職稱,所以大多數副教授類教師都會申請一些課題。而對於講師類和助教類的教師,由於教學經驗不足很少能進行省級以上的課題研究,因此這兩類教師的科研立項分數不高。針對這樣的結果,在今後的科研工作中,科研處可以採用一幫一、結對子的形式來幫助年輕教師,這樣可以使青年教師參與到老教師的科研課題研究工作中去,在課題研究工程中提高科研能力和教學能力。