網站首頁 個人文件 個人總結 工作總結 述職報告 心得體會 演講稿 講話致辭 實用文 教學資源 企業文化 公文 論文
當前位置:蒙田範文網 > 論文 > 論文精選

資料探勘論文精品多篇

欄目: 論文精選 / 釋出於: / 人氣:2.88W

資料探勘論文精品多篇

資料探勘論文 篇一

資料探勘技術在金融業、醫療保健業、市場業、零售業和製造業等很多領域都得到了很好的應用。針對交通安全領域中交通事故資料利用率低的現狀,可以通過資料探勘對相關交通事故資料進行統計分析,從而發現其中的關聯,這對提升交通安全水平具有非常重要的意義。

1資料探勘技術概述

資料探勘(DataMining)即對大量資料進行有效的分類統計,從而整理出有規律的、有價值的、潛在的未知資訊。一般來講,這些資料存在極大的隨機性和不完全性,其包括各行各業各個方面的資料。資料探勘是一個結合了資料庫、人工智慧、機器學習的學科,涉及統計資料和技術理論等領域。

2資料探勘關聯分析研究

關聯分析作為資料探勘中的重要組成部分,其主要作用就是通過資料之間的相互關聯從而發現數據集中某種未知的聯絡。關聯分析最初是在20世紀90年代初被提出來的,一直備受關注。已被廣泛應用於各行各業,包括醫療體檢、電子商務、商業金融等各個領域。關聯規則的挖掘一般可分成兩個步驟[1]:

(1)找出頻繁項集,不小於最小支援度的項集;

(2)生成強關聯規則,不小於最小置信度的關聯規則。相對於生成強關聯規則,找出頻繁項集這一步比較麻煩。由wal等人在1994年提出的Apriori演算法是生成頻繁項集的經典演算法[2]。Apriori演算法使用了Level-wise搜尋的迭代方法,即用k-項集探索(k+1)-項集。Apriori演算法在整體上可分為兩個部分。

(1)發現頻集。這個部分是最重要的,開銷相繼產生了各種各樣的頻集演算法,專門用於發現頻集,以降低其複雜度、提高發現頻集的效率。

(2)利用所獲得的頻繁項集各種演算法主要致力產生強關聯規則。當然頻集構成的聯規則未必是強關聯規則,還要檢驗構成的關聯規則的支援度和支援度是否超過它們的閾值。Apriori演算法找出頻繁項集分為兩步:連線和剪枝。

(1)連線。集合Lk-1為頻繁k-1項集的集合,它通過與自身連線就可以生成候選k項集的集合,記作Ck。

(2)剪枝。頻繁k項集的集合Lk是Ck的子集。剪枝首先利用Apriori演算法的性質(頻繁項集的所有非空子集都是頻繁的,如果不滿足這個條件,就從候選集合Ck中刪除)對Ck進行壓縮;然後,通過掃描所有的事務,確定壓縮後Ck中的每個候選的支援度;最後與設定的最小支援度進行比較,如果支援度不小於最小支援度,則認為該候選項是頻繁的。目前,在網際網路技術及科學技術的快速發展下,人工智慧、機器識別等技術興起,關聯分析也被越來越多應用其中,並在不斷髮展中提出了大量的改進演算法。

3資料探勘關聯分析在道路交通事故原因分析當中的應用

近年來,我國越來越多的學者將資料探勘關聯分析應用於道路交通事故的研究中,主要是分析道路、車輛、行人以及環境等因素與交通事故之間的某種聯絡。Pande和Abdel-Aty[3]通過關聯分析研究了美國佛羅里達州20xx年非交叉口發生的道路交通事故,重點分析了各個不同的影響因素與交通事故之間的內在聯絡,通過研究得出如下結論,道路照明條件不足是引發道路交通事故的主要因素,除此之外,還發現天氣惡劣的環境下道路彎道的直線段也極易發生交通事故。Graves[4]利用資料探勘技術中的關聯規則對歐洲道路交通事故進行了分析,主要研究了交通事故與道路設施狀況之間的關聯,通過研究發現了易導致交通事故發生的各個道路設施狀況因素,此研究為歐洲路面建設及投資提供了強大的決策支援。我國學者董立巖在研究道路交通事故資料的文獻中,將粗糙集與關聯分析進行了融合,提出了基於偏好資訊的決策規則簡約演算法並將其應用其中,通過分析發現了道路交通事故的未知規律。王豔玲通過關聯分析中的因子關聯樹模型重點分析了影響道路交通事故最重要的因子,發現在道路交通事故常見的誘因人、車、路及環境中對事故影響最大的因子是環境。許卉瑩等利用關聯分析、聚類分析以及決策樹分析三種資料探勘技術對道路交通事故資料進行分析,最終得出了科學的道路交通事故預防和交通安全管理決策依據。尚威等在研究中,對大量的道路交通資料進行了有效整合,並在此基礎上按照交通事故相關因素的不同特點整理出與事故發生有關的欄位資料,形成新的事故資料記錄表,然後再根據多維關聯規則對記錄的相關資料進行分析,從而發現了事故誘導因素記錄欄位值和事故結果欄位值組成的道路交通事故頻繁欄位的組合。張聽等在充分掌握聚類資料探勘理論與方法的基礎上,提出了多目標聚類分析框架和一個啟發式的聚類演算法k-WANMI,並將其用在道路交通事故的聚類研究中對不同權重的屬性進行了多目標分析。同樣,許巨集科也利用該方法對公路隧道交通流資料進行了聚類分析,其在研究中不僅明確了隧道交通流的峰值規律,而且還根據這種規律制訂了隧道監控裝置的不同控制方案,對提高隧道交通安全的水平做了極大的貢獻。徐磊和方源敏在研究中,提出了由簡化資訊熵構造的改進C4.5決策樹演算法,並將其應用在交通事故資料的研究中,對交通資料進行了正確分類,發現了一些隱藏的規則和知識,為交通管理提供了依據。劉軍、艾力斯木吐拉、馬曉鬆運用多維關聯規則分析交通事故記錄,從而找到導致交通事故發生次數多的主要原因,並且指導相關部門作出相應的決策。楊希剛運用關聯規則為現實中的交通事故的預防提供依據。吉林大學的吳昊等人,基於關聯規則的理論基礎,定義了公路交通事故屬性模型,並結合改進後的Apriori演算法,分析了交通事故歷史資料資訊,為有關單位和使用者尋找道路黑點(即事故多發點)提供了技術支援和決策幫助。

4結語

通過資料探勘中的關聯分析方法雖然能夠對道路交通事故的相關因素進行清晰的分析,但是目前在這一方面的研究仍有不足之處。因為關聯分析在道路交通事故的研究中往往只能片面發現某一種或幾種因素影響交通事故的規律,很難將所有影響因素結合起來進行全面系統的分析。然而道路交通事故的發生通常都是由相應因素導致,而後事故當事人意識到危險源的存在並採取措施,直到事故發生的連續過程,整體來看體現了時序性。也就是說,道路交通事故是受到一系列按照時間先後順序排列的影響因素組合共同作用而發生的,從整體的角度出發研究事故發生機理更加科學。

參考文獻

[1]楊秀萍。大資料下關聯規則演算法的改進及應用[J]。計算機與現代化,20xx(12):23-26.

[2]王雲,蘇勇。關聯規則挖掘在道路交通事故分析中的應用[J]。科學技術與工程,20xx(7):1824-1827.

[3]徐磊,方源敏。基於決策樹C4.5改進演算法的交通資料探勘[J]。微處理機,20xx,31(6):57-59.

[4]楊希剛。資料探勘在交通事故中的應用[[J]。軟體導刊,20xx,7(26):18-20.

資料探勘論文的參考文獻 篇二

[1]劉瑩。基於資料探勘的商品銷售預測分析[J].科技通報。2014(07)

[2]姜曉娟,郭一娜。基於改進聚類的電信客戶流失預測分析[J].太原理工大學學報。2014(04)

[3]李欣海。隨機森林模型在分類與迴歸分析中的應用[J].應用昆蟲學報。2013(04)

[4]朱志勇,徐長梅,劉志兵,胡晨剛。基於貝葉斯網路的客戶流失分析研究[J].計算機工程與科學。2013(03)

[5]翟健巨集,李偉,葛瑞海,楊茹。基於聚類與貝葉斯分類器的網路節點分組演算法及評價模型[J].電信科學。2013(02)

[6]王曼,施念,花琳琳,楊永利。成組刪除法和多重填補法對隨機缺失的二分類變數資料處理效果的比較[J].鄭州大學學報(醫學版).2012(05)

[7]黃傑晟,曹永鋒。挖掘類改進決策樹[J].現代計算機(專業版).2010(01)

[8]李淨,張範,張智江。資料探勘技術與電信客戶分析[J].資訊通訊技術。2009(05)

[9]武曉巖,李康。基因表達資料判別分析的隨機森林方法[J].中國衛生統計。2006(06)

[10]張璐。論資訊與企業競爭力[J].現代情報。2003(01)

[11]楊毅超。基於Web資料探勘的作物商務平臺分析與研究[D].湖南農業大學2008

[12]徐進華。基於灰色系統理論的資料探勘及其模型研究[D].北京交通大學2009

[13]俞馳。基於網路資料探勘的客戶獲取系統研究[D].西安電子科技大學2009

[14]馮軍。資料探勘在自動外呼系統中的應用[D].北京郵電大學2009

[15]於寶華。基於資料探勘的大學聯考資料分析[D].天津大學2009

[16]王仁彥。資料探勘與網站運營管理[D].華東師範大學2010

[17]彭智軍。資料探勘的若干新方法及其在我國證券市場中應用[D].重慶大學2005

[18]塗繼亮。基於資料探勘的智慧客戶關係管理系統研究[D].哈爾濱理工大學2005

[19]賈治國。資料探勘在大學聯考填報志願上的應用[D].內蒙古大學2005

[20]馬飛。基於資料探勘的航運市場預測系統設計及研究[D].大連海事大學2006

[21]周霞。基於雲端計算的太陽風大資料探勘分類演算法的研究[D].成都理工大學2014

[22]阮偉玲。面向生鮮農產品溯源的基層資料庫建設[D].成都理工大學2015

[23]明慧。複合材料加工工藝資料庫構建及資料整合[D].大連理工大學2014

[24]陳鵬程。齒輪數控加工工藝資料庫開發與資料探勘研究[D].合肥工業大學2014

[25]嶽雪。基於海量資料探勘關聯測度工具的設計[D].西安財經學院2014

[26]丁翔飛。基於組合變數與重疊區域的SVM—RFE方法研究[D].大連理工大學2014

[27]劉士佳。基於MapReduce框架的頻繁項集挖掘演算法研究[D].哈爾濱理工大學2015

[28]張曉東。全序模組模式下正規化分解問題研究[D].哈爾濱理工大學2015

[29]尚丹丹。基於虛擬機器的Hadoop分散式聚類挖掘方法研究與應用[D].哈爾濱理工大學2015

[30]王化楠。一種新的混合遺傳的基因聚類方法[D].大連理工大學2014

拓展閱讀

什麼是大資料?

“大資料”到底有多大?根據研究機構統計,僅在2011年,全球資料增量就達到了1.8ZB(即1.8萬億GB),相當於全世界每個人產生200GB以上的資料。這種增長趨勢仍在加速,據保守預計,接下來幾年中,資料將始終保持每年50%的增長速度。

縱觀人類歷史,每一次劃時代的變革都是以新工具的出現和應用為標誌的。蒸汽機把人們從農業時代帶入了工業時代,計算機和網際網路把人們從工業時代帶入了資訊時代,而如今大資料時代已經到來,它源自資訊時代,又是資訊時代全方位的深化應用與延伸。大資料時代的生產原材料是資料,生產工具則是大資料技術,是對資訊時代所產生的海量資料的挖掘和分析,從而快速地獲取有價值資訊的技術和應用。

概括來講,大資料有三個特徵,可總結歸納為“3V”,即量(Volume)、類(Variety)、時(Velocity)。量,資料容量大,現在資料單位已經躍升至ZB級別。類,資料種類多,主要來自業務系統,例如社交網路、電子商務和物聯網應用。時,處理速度快,時效性要求高,從傳統的事務性資料到實時或準實時資料。

什麼是資料探勘?

資料探勘,又稱為知識發現(Knowledge Discovery),是通過分析每個資料,從大量資料中尋找其規律的技術。知識發現過程通常由資料準備、規律尋找和規律表示3個階段組成。資料準備是從資料中心儲存的資料中選取所需資料並整合成用於資料探勘的資料集;規律尋找是用某種方法將資料集所含規律找出來;規律表示則是儘可能以使用者可理解的方式(如視覺化)將找出的規律表示出來。

“資料海量、資訊缺乏”是相當多企業在資料大集中之後面臨的尷尬問題。目前,大多數事物型資料庫僅實現了資料錄入、查詢和統計等較低層次的功能,無法發現數據中存在的有用資訊,更無法進一步通過資料分析發現更高的價值。如果能夠對這些資料進行分析,探尋其資料模式及特徵,進而發現某個客戶、群體或組織的興趣和行為規律,專業人員就可以預測到未來可能發生的變化趨勢。這樣的資料探勘過程,將極大拓展企業核心競爭力。例如,在網上購物時遇到的提示“瀏覽了該商品的人還瀏覽瞭如下商品”,就是在對大量的購買者“行為軌跡”資料進行記錄和挖掘分析的基礎上,捕捉總結購買者共性習慣行為,並針對性地利用每一次購買機會而推出的銷售策略。

資料探勘在供電企業的應用前景

隨著社會的進步和資訊通訊技術的發展,資訊系統在各行業、各領域快速拓展。這些系統採集、處理、積累的資料越來越多,資料量增速越來越快,以至用“海量、爆炸性增長”等詞彙已無法形容資料的增長速度。

2011年5月,全球知名諮詢公司麥肯錫全球研究院釋出了一份題為《大資料:創新、競爭和生產力的。下一個新領域》的報告。報告中指出,資料已經滲透到每一個行業和業務職能領域,逐漸成為重要的生產因素;而人們對於大資料的運用預示著新一波生產率增長和消費者盈餘浪潮的到來。2012年3月29日,美國政府在白宮網站上釋出了《大資料研究和發展倡議》,表示將投資2億美元啟動“大資料研究和發展計劃”,增強從大資料中分析萃取資訊的能力。

在電力行業,堅強智慧電網的迅速發展使資訊通訊技術正以前所未有的廣度、深度與電網生產、企業管理快速融合,資訊通訊系統已經成為智慧電網的“中樞神經”,支撐新一代電網生產和管理髮展。目前,國家電網公司已初步建成了國內領先、國際一流的資訊整合平臺。隨著三地集中式資料中心的陸續投運,一級部署業務應用範圍的拓展,結構化和非結構化資料中心的上線執行,電網業務資料從總量和種類上都已初具規模。隨著後續智慧電錶的逐步普及,電網業務資料將從時效性層面進一步豐富和拓展。大資料的“量類時”特性,已在海量、實時的電網業務資料中進一步凸顯,電力大資料分析迫在眉睫。

當前,電網業務資料大致分為三類:一是電力企業生產資料,如發電量、電壓穩定性等方面的資料;二是電力企業運營資料,如交易電價、售電量、用電客戶等方面的資料;三是電力企業管理資料,如ERP、一體化平臺、協同辦公等方面的資料。如能充分利用這些基於電網實際的資料,對其進行深入分析,便可以提供大量的高附加值服務。這些增值服務將有利於電網安全檢測與控制(包括大災難預警與處理、供電與電力排程決策支援和更準確的用電量預測),客戶用電行為分析與客戶細分,電力企業精細化運營管理等等,實現更科學的需求側管理。

例如,在電力營銷環節,針對“大營銷”體系建設,以客戶和市場為導向,省級集中的95598客戶服務、計量檢定配送業務屬地化管理的營銷管理體系和24小時面向客戶的營銷服務系統,可通過資料分析改善服務模式,提高營銷能力和服務質量;以分析型資料為基礎,優化現有營銷組織模式,科學配置計量、收費和服務資源,構建營銷稽查資料監控分析模型;建立各種針對營銷的系統性演算法模型庫,發現數據中存在的隱藏關係, 為各級決策者提供多維的、直觀的、全面的、深入的分析預測性資料, 進而主動把握市場動態,採取適當的營銷策略,獲得更大的企業效益,更好地服務於社會和經濟發展。此外,還可以考慮在電力生產環節,利用資料探勘技術,線上計算輸送功率極限,並考慮電壓等因素對功率極限的影響,從而合理設定系統輸出功率,有效平衡系統的安全性和經濟性。

公司具備非常好的從資料運維角度實現更大程度資訊、知識發現的條件和基礎,完全可以立足資料運維服務,創造資料增值價值,提供並衍生多種服務。以資料中心為紐帶,新型資料運維的成果將有可能作為一種新的消費形態與交付方式,給客戶帶來全新的使用體驗,打破傳統業務系統間各自為陣的局面,進一步推動電網生產和企業管理,從資料運維角度對企業生產經營、管理以及堅強智慧電網建設提供更有力、更長遠、更深入的支撐。

資料探勘專業就業方向

1.資料探勘主要是做演算法還是做應用?分別都要求什麼?

這個問題太籠統,基本上演算法和應用是兩個人來做的,可能是資料探勘職位。做演算法的比較少,也比較高階。

其實所謂做演算法大多數時候都不是設計新的演算法(這個可以寫論文了),更多的是技術選型,特徵工程抽取,最多是實現一些已經有論文但是還沒有開源模組的演算法等,還是要求紮實的演算法和資料結構功底,以及豐富的分散式計算的知識的,以及不錯的英文閱讀和寫作能力。但即使是這樣也是百裡挑一的,很難找到。

絕大讀書資料探勘崗位都是做應用,資料清洗,用現成的庫建模,如果你自己不往演算法或者架構方面繼續提升,和其他的開發崗位的性質基本沒什麼不同,只要會程式設計都是很容易入門的。

2.北上廣以外的普通公司用的多嗎?待遇如何?

實際情況不太清楚,由於資料探勘和大資料這個概念太火了,肯定到處都有人招聘響應的崗位,但是二線城市可能僅僅是停留在概念上,很多實際的工作並沒有接觸到足夠大的資料,都是生搬硬套框架(從我面試的人的工作經驗上看即使是在北上廣深這種情況也比較多見)。

只是在北上廣深,可能接觸到大資料的機會多一些。而且做資料探勘現在熱點的技術比如Python,Spark,Scala,R這些技術除了在一線城市之外基本上沒有足夠的市場(因為會的人太少了,二線城市的公司找不到掌握這些技術的人,不招也沒人學)。

所以我推測二線城市最多的還是用JAVA+Hadoop,或者用JAVA寫一些Spark程式。北上廣深和二線城市程式設計師比待遇是欺負人,就不討論了。

3.和前端後端程式設計師比有什麼區別?有什麼優缺點?

和傳統的前後端程式設計師相比,最主要的去別就是對程式設計水平的要求。從我招聘的情況來看,做資料探勘的人程式設計水平要求可以降低一個檔次,甚至都不用掌握面向物件。

但是要求技術全面,程式設計、SQL,Linux,正則表示式,Hadoop,Spark,爬蟲,機器學習模型等技術都要掌握一些。前後端可能是要求精深,資料探勘更強調廣博,有架構能力更好。

4.目前在學習機器學習,如果想找資料探勘方面的工作應該學習哪些內容?

打基礎是最重要的,學習一門資料探勘常用的語言,比如Python,Scala,R;學習足夠的Linux經驗,能夠通過awk,grep等Linux命令快速的處理文字檔案。掌握SQL,MySQL或者PostgreSQL都是比較常用的關係型資料庫,搞資料的別跟我說不會用資料庫。

補充的一些技能,比如NoSQL的使用,Elasticsearch的使用,分詞(jieba等模組的使用),演算法的資料結構的知識。

op,hive之類的需要學習嗎?

我覺得應當學習,首先Hadoop和Hive很簡單(如果你用AWS的話你可以開一臺EMR,上面直接就有Hadoop和Hive,可以直接從使用學起)。

我覺得如果不折騰安裝和部署,還有Linux和MySQL的經驗,只要半天到一天就能熟悉Hadoop和Hive的使用(當然你得有Linux和MySQL的基礎,如果沒有就先老老實實的學Linux和MySQL,這兩個都可以在自己的PC上安裝,自己折騰)。

Spark對很多人來說才是需要學習的,如果你有JAVA經驗大可以從JAVA入門。如果沒有那麼還是建議從Scala入門,但是實際上如果沒有JAVA經驗,Scala入門也會有一定難度,但是可以慢慢補。

所以總的來說Spark才足夠難,以至於需要學習。

最後的最後我有一些建議。第一要對自己有一個系統的認知,自己的程式設計水平夠麼,SQL會用麼,Linux會用麼,能流暢的看英文文件麼?

如果上面任何一個問題的答案是No,我都不建議直接轉行或者申請高階的資料探勘職位(因為你很難找到一個正經的資料探勘崗位,頂多是一些打擦邊球的崗位,無論是實際乾的工作還是未來的成長可能對你的幫助都不大)。

無論你現在是學生還是已經再做一些前段後端、運維之類的工作你都有足夠的時間補齊這些基礎知識。

補齊了這些知識之後,第一件事就是了解大資料生態,Hadoop生態圈,Spark生態圈,機器學習,深度學習(後兩者需要高等數學和線性代數基礎,如果你的大學專業學這些不要混)。

資料探勘論文 篇三

網路的發展帶動了電子商務市場的繁華,大量的商品、資訊在現有的網路平臺上患上以交易,大大簡化了傳統的交易方式,節儉了時間,提高了效力,但電子市場繁華違後暗藏的問題,同樣成為人們關注的焦點,凸起表現在海量資訊的有效應用上,如何更為有效的管理應用潛伏資訊,使他們的最大功效患上以施展,成為人們現在鑽研的重點,資料發掘技術的發生,在必定程度上解決了這個問題,但它也存在著問題,需要不斷改善。

資料發掘(Data Mining)就是從大量的、不完整的、有噪聲的、隱約的、隨機的原始資料中,提取隱含在其中的、人們事前不知道的、但又是潛伏有用的資訊以及知識的程序。或者者說是從資料庫中發現有用的知識(KDD),並進行資料分析、資料融會(Data Fusion)和決策支撐的程序。資料發掘是1門廣義的交叉學科,它匯聚了不同領域的鑽研者,特別是資料庫、人工智慧、數理統計、視覺化、平行計算等方面的學者以及工程技術人員。

資料發掘技術在電子商務的利用

一 找到潛伏客戶

在對於 Web 的客戶走訪資訊的發掘中, 應用分類技術可以在Internet 上找到未來的潛伏客戶。使用者可以先對於已經經存在的走訪者依據其行動進行分類,並依此分析老客戶的1些公共屬性, 抉擇他們分類的癥結屬性及互相間瓜葛。對於於1個新的走訪者, 通過在Web 上的分類發現, 辨認出這個客戶與已經經分類的老客戶的1些公共的描寫, 從而對於這個新客戶進行正確的分類。然後從它的分類判斷這個新客戶是有益可圖的客戶群仍是無利可圖的客戶群,抉擇是不是要把這個新客戶作為潛伏的客戶來對於待。客戶的型別肯定後, 可以對於客戶動態地展現 Web 頁面, 頁面的內容取決於客戶與銷售商提供的產品以及服務之間的關聯。若為潛伏客戶, 就能夠向這個客戶展現1些特殊的、個性化的頁面內容。

二 實現客戶駐留

在電子商務中, 傳統客戶與銷售商之間的空間距離已經經不存在, 在 Internet 上, 每一1個銷售商對於於客戶來講都是1樣的, 那末使客戶在自己的銷售站點上駐留更長的時間, 對於銷售商來講則是1個挑戰。為了使客戶在自己的網站上駐留更長的時間, 就應當全面掌握客戶的閱讀行動, 知道客戶的興致及需求所在, 並依據需求動態地向客戶做頁面舉薦, 調劑 Web 頁面, 提供獨有的1些商品資訊以及廣告, 以使客戶滿意, 從而延長客戶在自己的網站上的駐留的時間。

三 改良站點的設計

資料發掘技術可提高站點的效力, Web 設計者再也不完整依託專家的定性指點來設計網站, 而是依據走訪者的資訊特徵來修改以及設計網站結構以及外觀。站點上頁面內容的支配以及連線就如超級市場中物品的貨架左右1樣, 把擁有必定支撐度以及信任度的相干聯的物品擺放在1起有助於銷售。網站儘量做到讓客戶等閒地走訪到想走訪的頁面, 給客戶留下好的印象, 增添下次走訪的機率。

四 進行市場預測

通過 Web 資料發掘, 企業可以分析顧客的將來行動, 容易評測市場投資回報率, 患上到可靠的市場反饋資訊。不但大大降低公司的運營本錢, 而且便於經營決策的制訂。

資料發掘在利用中面臨的問題

一資料發掘分析變數的選擇

資料發掘的基本問題就在於資料的數量以及維數,資料結構顯的無比繁雜,資料分析變數即是在資料發掘中技術利用中發生的,選擇適合的分析變數,將提高資料發掘的效力,尤其合用於電子商務中大量商品和使用者資訊的處理。

針對於這1問題,咱們完整可以用分類的法子,分析出不同資訊的屬性和呈現頻率進而抽象出變數,運用到所選模型中,進行分析。

二資料抽取的法子的選擇

資料抽取的目的是對於資料進行濃縮,給出它的緊湊描寫,如乞降值、平均值、方差值、等統計值、或者者用直方圖、餅狀圖等圖形方式表示,更主要的是他從資料泛化的角度來討論資料總結。資料泛化是1種把最原始、最基本的資訊資料從低層次抽象到高層次上的程序。可採取多維資料分析法子以及面向屬性的歸納法子。

在電子商務流動中,採取維資料分析法子進行資料抽取,他針對於的是電子商務流動中的客戶資料倉庫。在資料分析中時常要用到諸如乞降、共計、平均、最大、最小等彙集操作,這種操作的計算量尤其大,可把彙集操作結果預先計算並存儲起來,以便用於決策支撐系統使用

三資料趨勢的。預測

資料是海量的,那末資料中就會隱含必定的變化趨勢,在電子商務中對於資料趨勢的預測尤為首要,尤其是對於客戶資訊和商品資訊公道的預測,有益於企業有效的決策,取得更多地利潤。但如何對於這1趨勢做出公道的預測,現在尚無統1標準可尋,而且在進行資料發掘程序中大量資料構成文字後格式的非標準化,也給資料的有效發掘帶來了難題。

針對於這1問題的發生,咱們在電子商務中可以利用聚類分析的法子,把擁有類似閱讀模式的使用者集中起來,對於其進行詳細的分析,從而提供更合適、更令使用者滿意的服務。聚類分析法子的優勢在於便於使用者在檢視日誌時對於商品及客戶資訊有全面及清晰的把握,便於開發以及執行未來的市場戰略,包含自動給1個特定的顧客聚類傳送銷售郵件,為1個顧客聚類動態地扭轉1個特殊的站點等,這不管對於客戶以及銷售商來講都是成心義。

四資料模型的可靠性

資料模型包含概念資料模型、邏輯資料模型、物理模型。資料發掘的模型目前也有多種,包含採集模型、處理模型及其他模型,但不管哪一種模型都不是很成熟存在缺點,對於資料模型不同採取不同的方式利用。可能發生不同的結果,乃至差異很大,因而這就觸及到資料可靠性的問題。資料的可靠性對於於電子商務來講尤為首要作用。

針對於這1問題,咱們要保障資料在發掘程序中的可靠性,保證它的準確性與實時性,進而使其在最後的結果中的準確度到達最高,同時在利用模型程序中要儘可能全面的分析問題,防止片面,而且分析結果要由多人進行評價,從而最大限度的保證資料的可靠性。

五資料發掘觸及到資料的私有性以及安全性

大量的資料存在著私有性與安全性的問題,尤其是電子商務中的各種資訊,這就給資料發掘造成為了必定的阻礙,如何解決這1問題成了技術在利用中的癥結。

為此相干人員在進行資料發掘程序中必定要遵照職業道德,保障資訊的祕要性。

六資料發掘結果的不肯定性

資料發掘結果擁有不肯定性的特徵,由於發掘的目的不同所以最後發掘的結果自然也會千差萬別,以因而這就需要咱們與所要發掘的目的相結合,做出公道判斷,患上出企業所需要的資訊,便於企業的決策選擇。進而到達提高企業經濟效益,取得更多利潤的目的。

資料發掘可以發現1些潛伏的使用者,對於於電子商務來講是1個不可或者缺的技術支撐,資料發掘的勝利請求使用者對於指望解決問題的領域有深入的瞭解,資料發掘技術在必定程度上解決了電子商務資訊不能有效應用的問題,但它在運用程序中呈現的問題也亟待人們去解決。相信資料發掘技術的改良將推動電子商務的深刻發展。

參考文獻:

[一]胡迎鬆,寧海霞。 1種新型的Web發掘資料採集模型[J]。計算機工程與科學,二00七

[二] 章寒雁,楊瑞珍。資料發掘技術在電子商務中的鑽研與利用[J]。計算機與網路,二00七

[三]董德民。 面向電子商務的Web使用發掘及其利用鑽研[J]。中國管理資訊化,二00六

[四] 尹中強。電子商務中的 Web 資料發掘技術利用[J]。計算機與資訊科技,二00七

資料探勘論文 篇四

摘要:在電子商務中運用資料探勘技術,對伺服器上的日誌資料、使用者資訊和訪問連結資訊進行資料探勘,有效瞭解客戶的購買慾望,從而調整電子商務平臺,最終實現利益更大化。本文旨在瞭解電子商務中的資料來源有哪些,發掘資料探勘在電子商務中的具體作用,從而為資料探勘的具體設計奠定基礎。

關鍵詞:資料探勘電子商務資料來源

一、電子商務中資料探勘的資料來源

1、伺服器日誌資料客戶在訪問網站時,就會在伺服器上產生相應的伺服器資料,這些檔案主要是日誌檔案。而日誌檔案又可分為Ser-vicelogs、Errorlogs、Cookielogs。其中Servicelogs檔案格式是最常用的標準公用日誌檔案格式,也是標準組合日誌檔案格式。標準公用日誌檔案的格式儲存關於客戶連線的物理資訊。標準組合日誌檔案格式主要包含關於日誌檔案元資訊的指令,如版本號,會話監控開始和結束的日期等。在日誌檔案中,Cookielogs日誌檔案是很重要的日誌檔案,是伺服器為了自動追蹤網站訪問者,為單個客戶瀏覽器生成日誌[1]。

2、客戶登記資訊

客戶登記資訊是指客戶通過Web頁輸入的、並提交給伺服器的相關使用者資訊,這些資訊通常是關於使用者的常用特徵。

在Web的資料探勘中,客戶登記資訊需要和訪問日誌整合,以提高資料探勘的準確度,使之能更進一步的瞭解客戶。

頁面的超級連結

輔之以監視所有到達伺服器的資料,提取其中的HTTP請求資訊。此部分資料主要來自瀏覽者的點選流,用於考察使用者的行為表現。網路底層資訊監聽過濾指監聽整個網路的所有資訊流量,並根據資訊源主機、目標主機、服務協議埠等資訊過濾掉垃圾資料,然後進行進一步的處理,如關鍵字的搜尋等,最終將使用者感興趣的資料傳送到給定的資料接受程式儲存到資料庫中進行分析統計。

二、Web資料探勘在電子商務中的應用通過對資料來源的原始積累、仔細分析,再利用資料發掘技術,最終達到為企業為使用者服務的目的,而這些服務主要有以下幾種。

1、改進站點設計,提高客戶訪問的興趣對客戶來說,傳統客戶與銷售商之間的空間距離在電子商務中已經不存在了,在Internet上,每一個銷售商對於客戶來說都是一樣的,那麼如何使客戶在自己的銷售站點上駐留更長的時間,對銷售商來說將是一個挑戰。為了使客戶在自己的網站上駐留更長的時間,就應該對客戶的訪問資訊進行挖掘,通過挖掘就能知道客戶的瀏覽行為,從而瞭解客戶的興趣及需求所在,並根據需求動態地調整頁面,向客戶展示一個特殊的頁面,提供特有的一些商品資訊和廣告,以使客戶能繼續保持對訪問站點的興趣。

2、發現潛在客戶

在對web的客戶訪問資訊的挖掘中,利用分類技術可以在Internet上找到未來的潛在客戶。獲得這些潛在的客戶通常的市場策略是:先對已經存在的訪問者進行分類。對於一個新的訪問者,通過在Web上的分類發現,識別出這個客戶與已經分類的老客戶的一些公共的描述,從而對這個新客戶進行正確的歸類。然後從它所屬類判斷這個新客戶是否為潛在的購買者,決定是否要把這個新客戶作為潛在的客戶來對待。

客戶的型別確定後,就可以對客戶動態地展示Web頁面,頁面的內容取決於客戶與銷售商提供的產品和服務之間的關聯。

對於一個新的客戶,如果花了一段時間瀏覽市場站點,就可以把此客戶作為潛在的客戶並向這個客戶展示一些特殊的頁面內容。

3、個性化服務

根據網站使用者的訪問情況,為使用者提供個性化資訊服務,這是許多網際網路應用,尤其是網際網路資訊服務或電子商務(網站)所追求的目標。根據使用者的訪問行為和檔案向使用者進行動態的推薦,對許多應用都有很大的吸引力。Web日誌挖掘是一個能夠出色地完成這個目標的方式。通過Web資料探勘,可以理解訪問者的動態行為,據此優化電子商務網站的經營模式。通過把所掌握的大量客戶分成不同的類,對不同類的客戶提供個性化服務來提高客戶的滿意度,從而保住老客戶;通過對具有相似瀏覽行為的客戶進行分組,提取組中客戶的共同特徵,從而實現客戶的聚類,這可以幫助電子商務企業更好地瞭解客戶的興趣、消費習慣和消費傾向,預測他們的需求,有針對性地向他們推薦特定的商品並實現交叉銷售,可以提高交易成功率和交易量,提高營銷效果。

例如全球最大中文購物網站淘寶網。當你購買一件商品後,淘寶網會自動提示你“購買過此商品的人也購買過……”類似的資訊,這就是個性化服務的代表。

4、交易評價

現在幾乎每一個電子商務網站都增加了交易評價功能,交易評價功能主要就是為了降低交易中的資訊不對稱問題。

電子商務交易平臺設計了線上信譽評價系統,對買賣雙方的交易歷史及其評價進行記錄。在聲譽效應的影響下,賣家也更加重視買家的交易滿意度,並且也形成了為獲取好評減少差評而提高服務質量的良好風氣。交易中的不滿意(或者成為糾紛)是產生非好評(包括中評和差評)的直接原因。那麼,交易中一般會產生哪些交易糾紛,這些交易糾紛的存在會如何影響交易評價結果,這些問題的解決對賣家的經營具有重要的指導價值。

總結

資料探勘是當今世界研究的熱門領域,其研究具有廣闊的應用前景和巨大的現實意義。藉助資料探勘可以改進企業的電子商務平臺,增加企業的經營業績,拓寬企業的經營思路,最終提高企業的競爭力。

參考文獻:

[1]。趙東東。電子商務中的web資料探勘系統設計[J]。微計算機資訊20xx,23(10-3):168[2]。劉曄。Web資料探勘在電子商務中的應用[J]。中國市場20xx,39(9):178