資料庫挖掘
『壹』 做資料庫挖掘,必須買數據挖掘軟體嗎如果買的話,哪些比較便宜呢請大家們推薦啊
數據挖掘是從大量的數據中,抽取出潛在的、有價值的知識(模型或規則)的過程。
1. 數據挖掘能做什麼?
1)數據挖掘能做以下六種不同事情(分析方法):
· 分類 (Classification)
· 估值(Estimation)
· 預言(Prediction)
· 相關性分組或關聯規則(Affinity grouping or association rules)
· 聚集(Clustering)
· 描述和可視化(Des cription and Visualization)
2)數據挖掘分類
以上六種數據挖掘的分析方法可以分為兩類:直接數據挖掘;間接數據挖掘
· 直接數據挖掘
目標是利用可用的數據建立一個模型,這個模型對剩餘的數據,對一個特定的變數(可以
理解成資料庫中表的屬性,即列)進行描述。
· 間接數據挖掘
目標中沒有選出某一具體的變數,用模型進行描述;而是在所有的變數中建立起某種關系
。
· 分類、估值、預言屬於直接數據挖掘;後三種屬於間接數據挖掘
3)各種分析方法的簡介
· 分類 (Classification)
首先從數據中選出已經分好類的訓練集,在該訓練集上運用數據挖掘分類的技術,建立分
類模型,對於沒有分類的數據進行分類。
例子:
a. 信用卡申請者,分類為低、中、高風險
b. 分配客戶到預先定義的客戶分片
注意: 類的個數是確定的,預先定義好的
· 估值(Estimation)
估值與分類類似,不同之處在於,分類描述的是離散型變數的輸出,而估值處理連續值的
輸出;分類的類別是確定數目的,估值的量是不確定的。
例子:
a. 根據購買模式,估計一個家庭的孩子個數
b. 根據購買模式,估計一個家庭的收入
c. 估計real estate的價值
一般來說,估值可以作為分類的前一步工作。給定一些輸入數據,通過估值,得到未知的
連續變數的值,然後,根據預先設定的閾值,進行分類。例如:銀行對家庭貸款業務,運
用估值,給各個客戶記分(Score 0~1)。然後,根據閾值,將貸款級別分類。
· 預言(Prediction)
通常,預言是通過分類或估值起作用的,也就是說,通過分類或估值得出模型,該模型用
於對未知變數的預言。從這種意義上說,預言其實沒有必要分為一個單獨的類。
預言其目的是對未來未知變數的預測,這種預測是需要時間來驗證的,即必須經過一定時
間後,才知道預言准確性是多少。
· 相關性分組或關聯規則(Affinity grouping or association rules)
決定哪些事情將一起發生。
例子:
a. 超市中客戶在購買A的同時,經常會購買B,即A => B(關聯規則)
b. 客戶在購買A後,隔一段時間,會購買B (序列分析)
· 聚集(Clustering)
聚集是對記錄分組,把相似的記錄在一個聚集里。聚集和分類的區別是聚集不依賴於預先
定義好的類,不需要訓練集。
例子:
a. 一些特定症狀的聚集可能預示了一個特定的疾病
b. 租VCD類型不相似的客戶聚集,可能暗示成員屬於不同的亞文化群
聚集通常作為數據挖掘的第一步。例如,"哪一種類的促銷對客戶響應最好?",對於這一
類問題,首先對整個客戶做聚集,將客戶分組在各自的聚集里,然後對每個不同的聚集,
回答問題,可能效果更好。
· 描述和可視化(Des cription and Visualization)
是對數據挖掘結果的表示方式。
2.數據挖掘的商業背景
數據挖掘首先是需要商業環境中收集了大量的數據,然後要求挖掘的知識是有價值的。有
價值對商業而言,不外乎三種情況:降低開銷;提高收入;增加股票價格。
1)數據挖掘作為研究工具 (Research)
2)數據挖掘提高過程式控制制(Process Improvement)
3)數據挖掘作為市場營銷工具(Marketing)
4)數據挖掘作為客戶關系管理CRM工具(Customer Relationship Management)
3.數據挖掘的技術背景
1)數據挖掘技術包括三個主要部分:演算法和技術;數據;建模能力
2)數據挖掘和機器學習(Machine Learning)
· 機器學習是計算機科學和人工智慧AI發展的產物
· 機器學習分為兩種學習方式:自組織學習(如神經網路);從例子中歸納出規則(如決
策樹)
· 數據挖掘由來
數據挖掘是八十年代,投資AI研究項目失敗後,AI轉入實際應用時提出的。它是一個新興
的,面向商業應用的AI研究。選擇數據挖掘這一術語,表明了與統計、精算、長期從事預
言模型的經濟學家之間沒有技術的重疊。
3)數據挖掘和統計
統計也開始支持數據挖掘。統計本包括預言演算法(回歸)、抽樣、基於經驗的設計等
4)數據挖掘和決策支持系統
· 數據倉庫
· OLAP(聯機分析處理)、Data Mart(數據集市)、多維資料庫
· 決策支持工具融合
將數據倉庫、OLAP,數據挖掘融合在一起,構成企業決策分析環境。
4. 數據挖掘的社會背景
數據挖掘與個人預言:數據挖掘號稱能通過歷史數據的分析,預測客戶的行為,而事實上
,客戶自己可能都不明確自己下一步要作什麼。所以,數據挖掘的結果,沒有人們想像中
神秘,它不可能是完全正確的。
客戶的行為是與社會環境相關連的,所以數據挖掘本身也受社會背景的影響。比如說,在
美國對銀行信用卡客戶信用評級的模型運行得非常成功,但是,它可能不適合中國
『貳』 資料庫,數據倉庫和數據挖掘技術之間的區別
資料庫就是我們通常用到的用於聯機事務處理的。數據倉庫主要針對聯機分析處理幫助決策人員進行決策的。數據挖掘技術可以作為數據倉庫的前端應用,在數據倉庫中挖掘出有價值的信息。
『叄』 數據挖掘的概念
數據挖掘(英語:Data mining),又譯為資料探勘、數據采礦。它是資料庫知識發現(英語:Knowledge-Discovery in Databases,簡稱:KDD)中的一個步驟。數據挖掘一般是指從大量的數據中自動搜索隱藏於其中的有著特殊關系性的信息的過程。數據挖掘通常與計算機科學有關,並通過統計、在線分析處理、情報檢索、機器學習、專家系統和模式識別等諸多方法來實現上述目標。
並非所有的信息發現任務都被視為數據挖掘。例如,使用資料庫管理系統查找個別的記錄,或通過網際網路的搜索引擎查找特定的Web頁面,則是信息檢索(information retrieval)領域的任務。雖然這些任務是重要的,可能涉及使用復雜的演算法和數據結構,但是它們主要依賴傳統的計算機科學技術和數據的明顯特徵來創建索引結構,從而有效地組織和檢索信息。盡管如此,數據挖掘技術也已用來增強信息檢索系統的能力。
關於數據挖掘的相關學習,推薦CDA數據師的相關課程,課程培養學員硬性的數據挖掘理論與Python數據挖掘演算法技能的同時,還兼顧培養學員軟性數據治理思維、商業策略優化思維、挖掘經營思維、演算法思維、預測分析思維,全方位提升學員的數據洞察力。點擊預約免費試聽課。
『肆』 如何利用資料庫審計挖掘出企業「內鬼」
這個命題很大。
審計對象的信息化、大數據化,要求現代審計手段必須相應創新。
利用企業數據開展非現場審計,也是一種數據分析挖掘,核心的因素不是數據分析技術,而是對業務的理解和分析思路。
所以有了數據,利用上分析挖掘技術,還需要結合被審對象的業務知識,結合審計人員的經驗積累和專家智慧,才能有效地開展非現場審計。
例如:有了一座大壩的用料數據,知道運輸車量的載量,可以計算出需要的車次,結合工期,可以計算出每日的運載次數,估算出每車次的平均用時,如果計算出來一車只用了10分鍾,與實際每車運營要40分鍾不符,那就是疑點,再後續審計核實。
在下10多年來,從IT基礎數據維護,到數據應用,到審計,目前也正在這一領域奮斗。
『伍』 研究生資料庫與數據挖掘
數據挖掘的話,主要就是計算機方向了,或者統計方向。國內名牌大學都有這方面導師,中科院當然也有,此外很多方向都是與數據挖掘掛鉤,比如什麼海量數據分析之類的。具體考,如果是指復試的話,大概會有資料庫、統計數學知識,最好能對數據挖掘的內容有所認識。我也是打算讀研,讀數據挖掘、機器學習方向的學生,多交流哈!
『陸』 資料庫,數據倉庫和數據挖掘技術之間的區別
先說說數據倉庫和數據挖掘的關系,再說說資料庫與數據倉庫的關系
數據倉庫與數據挖掘的聯系
(1) 數據倉庫為數據挖掘提供了更好的、更廣泛的數據源。
(2) 數據倉庫為數據挖掘提供了新的支持平台。
(3) 數據倉庫為更好地使用數據挖掘這個工具提供了方便。
(4) 數據挖掘為數據倉庫提供了更好的決策支持。
(5) 數據挖掘對數據倉庫的數據組織提出了更高的要求。
(6) 數據挖掘還為數據倉庫提供了廣泛的技術支持。
數據倉庫與數據挖掘的差別
(1) 數據倉庫是一種數據存儲和數據組織技術, 提供數據源。
(2) 數據挖掘是一種數據分析技術, 可針對數據倉庫中的數據進行分析。
1、資料庫:是一種邏輯概念,用來存放數據的倉庫,通過資料庫軟體來實現。資料庫由很多表組成,表是二維的,一張表裡面有很多欄位。欄位一字排開,對數據就一行一行的寫入表中。資料庫的表,在於能夠用二維表現多維的關系。如:oracle、DB2、MySQL、Sybase、MSSQL Server等。
2、數據倉庫:是資料庫概念的升級。從邏輯上理解,資料庫和數據倉庫沒有區別,都是通過資料庫軟體實現存放數據的地方,只不過從數據量來說,數據倉庫要比資料庫更龐大德多。數據倉庫主要用於數據挖掘和數據分析,輔助領導做決策;
區別主要總結為以下幾點:
1.資料庫只存放在當前值,數據倉庫存放歷史值;
2.資料庫內數據是動態變化的,只要有業務發生,數據就會被更新,而數據倉庫則是靜態的歷史數據,只能定期添加、刷新;
3.資料庫中的數據結構比較復雜,有各種結構以適合業務處理系統的需要,而數據倉庫中的數據結構則相對簡單;
4.資料庫中數據訪問頻率較高,但訪問量較少,而數據倉庫的訪問頻率低但訪問量卻很高;
5.資料庫中數據的目標是面向業務處理人員的,為業務處理人員提供信息處理的支持,而數據倉庫則是面向高層管理人員的,為其提供決策支持;
6.資料庫在訪問數據時要求響應速度快,其響應時間一般在幾秒內,而數據倉庫的響應時間則可長達數幾小時
『柒』 什麼是數據挖掘數據挖掘怎麼做啊
數據挖掘(Data Mining)是指通過大量數據集進行分類的自動化過程,以通過數據分析來識別趨勢和模式,建立關系來解決業務問題。換句話說,數據挖掘是從大量的、不完全的、有雜訊的、模糊的、隨機的數據中提取隱含在其中的、人們事先不知道的、但又是潛在有用的信息和知識的過程。
原則上講,數據挖掘可以應用於任何類型的信息存儲庫及瞬態數據(如數據流),如資料庫、數據倉庫、數據集市、事務資料庫、空間資料庫(如地圖等)、工程設計數據(如建築設計等)、多媒體數據(文本、圖像、視頻、音頻)、網路、數據流、時間序列資料庫等。也正因如此,數據挖掘存在以下特點:
(1)數據集大且不完整
數據挖掘所需要的數據集是很大的,只有數據集越大,得到的規律才能越貼近於正確的實際的規律,結果也才越准確。除此以外,數據往往都是不完整的。
(2)不準確性
數據挖掘存在不準確性,主要是由雜訊數據造成的。比如在商業中用戶可能會提供假數據;在工廠環境中,正常的數據往往會收到電磁或者是輻射干擾,而出現超出正常值的情況。這些不正常的絕對不可能出現的數據,就叫做雜訊,它們會導致數據挖掘存在不準確性。
(3)模糊的和隨機的
數據挖掘是模糊的和隨機的。這里的模糊可以和不準確性相關聯。由於數據不準確導致只能在大體上對數據進行一個整體的觀察,或者由於涉及到隱私信息無法獲知到具體的一些內容,這個時候如果想要做相關的分析操作,就只能在大體上做一些分析,無法精確進行判斷。
而數據的隨機性有兩個解釋,一個是獲取的數據隨機;我們無法得知用戶填寫的到底是什麼內容。第二個是分析結果隨機。數據交給機器進行判斷和學習,那麼一切的操作都屬於是灰箱操作。
『捌』 數據挖掘
數據挖掘其實跟資料庫沒有多大的關系,而是跟統計 優化有較大的關系
你要是做演算法的話 主要是一些統計學習 機器學習方面的(本質一模一樣),推薦da的模式分類,一位希臘人的模式識別,還有斯坦佛大學教授寫的統計學習
要是僅僅需要炒作軟體的話 說白了就是用買來的軟體挖掘數據背後的信息的話 沒什麼好學的了
『玖』 簡述資料庫 數據倉庫 和數據挖掘三者之間的關系
先說說數據倉庫和數據挖掘的關系,再說說資料庫與數據倉庫的關系
數據倉庫與數據挖掘的聯系
(1) 數據倉庫為數據挖掘提供了更好的、更廣泛的數據源。
(2) 數據倉庫為數據挖掘提供了新的支持平台。
(3) 數據倉庫為更好地使用數據挖掘這個工具提供了方便。
(4) 數據挖掘為數據倉庫提供了更好的決策支持。
(5) 數據挖掘對數據倉庫的數據組織提出了更高的要求。
(6) 數據挖掘還為數據倉庫提供了廣泛的技術支持。
數據倉庫與數據挖掘的差別
(1) 數據倉庫是一種數據存儲和數據組織技術, 提供數據源。
(2) 數據挖掘是一種數據分析技術, 可針對數據倉庫中的數據進行分析。
1、資料庫:是一種邏輯概念,用來存放數據的倉庫,通過資料庫軟體來實現。資料庫由很多表組成,表是二維的,一張表裡面有很多欄位。欄位一字排開,對數據就一行一行的寫入表中。資料庫的表,在於能夠用二維表現多維的關系。如:oracle、DB2、MySQL、Sybase、MSSQL Server等。
2、數據倉庫:是資料庫概念的升級。從邏輯上理解,資料庫和數據倉庫沒有區別,都是通過資料庫軟體實現存放數據的地方,只不過從數據量來說,數據倉庫要比資料庫更龐大德多。數據倉庫主要用於數據挖掘和數據分析,輔助領導做決策;
區別主要總結為以下幾點:
1.資料庫只存放在當前值,數據倉庫存放歷史值;
2.資料庫內數據是動態變化的,只要有業務發生,數據就會被更新,而數據倉庫則是靜態的歷史數據,只能定期添加、刷新;
3.資料庫中的數據結構比較復雜,有各種結構以適合業務處理系統的需要,而數據倉庫中的數據結構則相對簡單;
4.資料庫中數據訪問頻率較高,但訪問量較少,而數據倉庫的訪問頻率低但訪問量卻很高;
5.資料庫中數據的目標是面向業務處理人員的,為業務處理人員提供信息處理的支持,而數據倉庫則是面向高層管理人員的,為其提供決策支持;
6.資料庫在訪問數據時要求響應速度快,其響應時間一般在幾秒內,而數據倉庫的響應時間則可長達數幾小時
『拾』 資料庫與數據挖掘 需要准備哪些基礎知識
看你是計算機系還是數學系的了~
CS的話把好好把概率統計和微積分復習了,補習下樹和圖的演算法~
Math的話要學會編程吧,演算法要懂點吧,資料庫之類的基礎必須有~