❶ 請問有哪些常用的數據挖掘技術
數據挖掘的技術有很多種,按照不同的分類有不同的分類法。下面著重討論一下數據挖掘中常用的一些技術:統計技術,關聯規則,基於歷史的分析,遺傳演算法,聚集檢測,連接分析,決策樹,神經網路,粗糙集,模糊集,回歸分析,差別分析,概念描述等十三種常用的數據挖掘的技術。
1、統計技術
數據挖掘涉及的科學領域和技術很多,如統計技術。統計技術對數據集進行挖掘的主要思想是:統計的方法對給定的數據集合假設了一個分布或者概率模型(例如一個正態分布)然後根據模型採用相應的方法來進行挖掘。
2、關聯規則
數據關聯是資料庫中存在的一類重要的可被發現的知識。若兩個或多個變數的取值之I司存在某種規律性,就稱為關聯。關聯可分為簡單關聯、時序關聯、因果關聯。關聯分析的目的是找出資料庫中隱藏的關聯網。有時並不知道資料庫中數據的關聯函數,即使知道也是不確定的,因此關聯分析生成的規則帶有可信度。
3、基於歷史的MBR(Memory-based Reasoning)分析
先根據經驗知識尋找相似的情況,然後將這些情況的信息應用於當前的例子中。這個就是MBR(Memory Based Reasoning)的本質。MBR首先尋找和新記錄相似的鄰居,然後利用這些鄰居對新數據進行分類和估值。使用MBR有三個主要問題,尋找確定的歷史數據;決定表示歷史數據的最有效的方法;決定距離函數、聯合函數和鄰居的數量。
4、遺傳演算法GA(Genetic Algorithms)
基於進化理論,並採用遺傳結合、遺傳變異、以及自然選擇等設計方法的優化技術。主要思想是:根據適者生存的原則,形成由當前群體中最適合的規則組成新的群體,以及這些規則的後代。典型情況下,規則的適合度(Fitness)用它對訓練樣本集的分類准確率評估。
5、聚集檢測
將物理或抽象對象的集合分組成為由類似的對象組成的多個類的過程被稱為聚類。由聚類所生成的簇是一組數據對象的集合,這些對象與同一個簇中的對象彼此相似,與其它簇中的對象相異。相異度是根據描述對象的屬眭值來計算的,距離是經常採用的度量方式。
6、連接分析
連接分析,Link analysis,它的基本理論是圖論。圖論的思想是尋找一個可以得出好結果但不是完美結果的演算法,而不是去尋找完美的解的演算法。連接分析就是運用了這樣的思想:不完美的結果如果是可行的,那麼這樣的分析就是一個好的分析。利用連接分析,可以從一些用戶的行為中分析出一些模式;同時將產生的概念應用於更廣的用戶群體中。
7、決策樹
決策樹提供了一種展示類似在什麼條件下會得到什麼值這類規則的方法。
8、神經網路
在結構上,可以把一個神經網路劃分為輸入層、輸出層和隱含層。輸入層的每個節點對應—個個的預測變數。輸出層的節點對應目標變數,可有多個。在輸入層和輸出層之間是隱含層(對神經網路使用者來說不可見),隱含層的層數和每層節點的個數決定了神經網路的復雜度。
除了輸入層的節點,神經網路的每個節點都與很多它前面的節點(稱為此節點的輸入節點)連接在一起,每個連接對應一個權重Wxy,此節點的值就是通過它所有輸入節點的值與對應連接權重乘積的和作為—個函數的輸入而得到,我們把這個函數稱為活動函數或擠壓函數。
9、粗糙集
粗糙集理論基於給定訓練數據內部的等價類的建立。形成等價類的所有數據樣本是不加區分的,即對於描述數據的屬性,這些樣本是等價的。給定現實世界數據,通常有些類不能被可用的屬性區分。粗糙集就是用來近似或粗略地定義這種類。
10、模糊集
模糊集理論將模糊邏輯引入數據挖掘分類系統,允許定義「模糊」域值或邊界。模糊邏輯使用0.0和1.0之間的真值表示一個特定的值是一個給定成員的程度,而不是用類或集合的精確截斷。模糊邏輯提供了在高抽象層處理的便利。
11、回歸分析
回歸分析分為線性回歸、多元回歸和非線性同歸。在線性回歸中,數據用直線建模,多元回歸是線性回歸的擴展,涉及多個預測變數。非線性回歸是在基本線性模型上添加多項式項形成非線性同門模型。
12、差別分析
差別分析的目的是試圖發現數據中的異常情況,如噪音數據,欺詐數據等異常數據,從而獲得有用信息。
13、概念描述
概念描述就是對某類對象的內涵進行描述,並概括這類對象的有關特徵。概念描述分為特徵性描述和區別性描述,前者描述某類對象的共同特徵,後者描述不同類對象之間的區別,生成一個類的特徵性描述只涉及該類對象中所有對象的共性。
❷ 要分析多輸入,多輸出和非線性系統常用什麼方法
現 代控制系統對感測器的准確度、穩定性和工作條件等方面提出了很高的要求。然而,從嚴格意義上來說,目前絕大多數感測器特性都不理想,其輸入輸出特性大多為 非線性關系。為此,人們通過一些方法來進行非線性補償和修正。特別是近年來,隨著神經網路的發展,有不少學者提出了基於神經網路進行非線性感測特性校正的 方法。這些方法一般是用一個多層的前饋神經網路去映射感測器特性曲線的反函數作為校正環節,演算法相對簡單,實現容易。 但是通過分析神經網路的基本工作原理,筆者認為該方法依然存在一些不足[1、6]:1)在訓練過程中神經網路極容易陷入局部最小,而不能得到全局最小;2)神經網路過分依賴訓練數據的質量和數量,但大多數情況下樣本數據十分有限,由於雜訊影響,存在數據不一致情況,對神經網路的訓練結果影響較大;3)輸入數據往往是高維的,而訓練結果僅是輸入空間的稀疏分布,所以大量的高維數據必然會大大增加演算法的訓練時間。 支持向量機SVM[4,5](Support Vector Machine)是基於統計學習理論的一種新的學習方法,最早由Vapnik教授及其合作者於上世紀90年 代中期提出。由於其優良特性,最近引起了許多研究者的興趣。支持向量機主要用於模式識別,目前在該方面成功的範例較多;與模式識別相比,支持向量機用於函 數擬合的成功應用較少。和神經網路相比,支持向量機是基於統計學習理論的小樣本學習方法,採用結構風險最小化原則,具有很好的泛化性能;而神經網路是基於 大樣本的學習方法,採用經驗風險最小化原則。 將支持向量機函數擬合技術應用於感測器非線性特性校正的研究剛起步,國內尚無先例。如何在感測器非線性特性校正領域充分發揮支持向量機函數擬合的技術優勢,解決神經網路方法中的缺陷是一個值得研究的問題。 1支持向量機擬合基本理論 1.1線性函數擬合問題 與支持向量機的研究最初是針對模式識別中的線性可分問題[5]相似,先分析線性樣本點的線性函數擬合問題,擬合函數以線性函數的特性出現,可用形式=ωTx+b表示。假設所有訓練數據{xi,yi}能在精度ε下無誤差地用線性函數擬合,即 統計學理論指出,在這一優化目標是最小化ωTω/2時可取得較好的推廣能力。考慮到實際應用中允許擬合誤差的情況,則支持向量機優化目標可以表示為[3] 式中c為平衡因子,為懲罰因子,懲罰函數L(·)通常採用如下的離散定義形式(如圖1所示) n,進一步採用對偶優化方法,最大化目標函數 小部分不為0,它們對應在不靈敏區邊界上或外 式中,偏移量b可由支持向量(xi,yi)及精度ε求得,SVs表示支持向量集。 1.2非線性函數擬合問題 對於非線性函數擬合基本思想是:可以通過非線性變換x→φ(x)將原擬合問題映射到某個高維特徵空間中,然後在該空間中進行線性擬合,即 在支持向量機中,引入核函數(Kernel function)來簡化非線性逼近。在高維特徵空間中,線性問題中的內積運算可用核函數來代替。核函數滿足k(x,x′)=〈φ(x),φ(x′)〉,這樣目標函數式(4)就變成了式(6)所示的形式: 2感測器非線性誤差校正原理[6] 大多數感測系統都可用y=f(x),x∈(ζα,ζb)表示,其中y表示感測系統的輸出,x表示感測系統的輸入,ζα,ζb為輸入信號的范圍。y信號可經過電子設備進行測量,目的是根據測得的y信號求得未知的變數x,即表示為x=y-1(y)。在實際應用過程中,絕大多數感測器傳遞函數為非線性函數。 為了消除或補償感測系統的非線性特性,可使其輸出y通過一個補償環節。該模型的特性函數為u=g(y),其中u為非線性補償後的輸出,它與輸入信號x呈線性關系。很明顯函數g(*)也是一個非線性函數,並使得補償後的感測器具有理想特性。在實際應用中,非線性補償函數g(*)的表達式難以准確求出,但可以通過建模來實現,補償模型的建立就成了校正感測器非線性特性的關鍵。 筆者根據支持向量機的函數擬合能力,提出了基於支持向量機的感測器非線性特性校正方法。 3模擬與應用研究 該文使用支持向量機對兩個非線性感測系統的非線性誤差進行校正,取得了較滿意的效果。 3.1一維感測器非線性校正 用實驗法得出一組訓練樣本(見表1),在表1中x表示感測系統的輸入量,其值由精度較高的設備產生,在這里可作為標准量,y值為感測系統的輸出量。 設計支持向量機對該感測系統進行非線性校正,感測器輸出信號y經過該SVM的處理相當於進行了一個逆感測模型,支持向量機的輸出u作為非線性補償後的輸出,它與輸入信號x的誤差應更小。 由此可得到一組訓練樣本(yi,xi),其中yi表示支持向量機的輸入,xi為擬合的目標。 設計支持向量機時,精度ε=0.02,核函數選用多項式k(xi,x)=(xi·x+1)6,感測器非線性校正曲線如圖3所示,由此可見用該方法提高了感測器的精度。 3.2二維圖像感測器非線性校正 有二維圖像感測器,其校正前的輸出如圖4a所示,而實際像點應在柵格線的交叉點。從圖4a不難看出,該感測器存在著嚴重的非線性,且這種非線性不能以解析式表達。 如式(1)所示,文中介紹的支持向量機每個學習樣本的輸入數據xi是一個多維向量,樣本輸出yi是一個數而非向量。待校正的二維圖像感測器校正樣本{(xa,xb),(ya,yb)}是二維輸入二維輸出的數據,因此,不能直接用支持向量機進行校正。 筆者設計兩個SVM來解決該問題,一個SVMa用於校正a方向上的誤差,其學習樣本為{(xa,xb),ya};另一個SVMb用於校正b方向上的誤差,其學習樣本為{(xa,xb),yb}。兩個SVM設ε=0.01,核函數均選用多項式k(xi,x)=(xi·x+1)4。 用SVMa和SVMb分別校正樣本數據在a和b方向非線性誤差,校正結果如圖4b所示。 比較圖4b與圖4a,校正後的二維圖像感測器的非線性已得到校正,精度令人滿意。 4結束語 將SVM技術應用於感測器非線性特性校正的研究剛起步,國內尚無此 類文獻。畢竟支持向量機理論和應用還是一個較新的領域,仍處於理論和實驗研究 階段。筆者認為支持向量機今後的研究應該集中在以下幾個方面:①核函數的構造與選擇; ②大樣本條件下SVM演算法研究;③懲罰函數的改進。
❸ 神經網路的常見的工具
在眾多的神經網路工具中,NeuroSolutions始終處於業界領先位置。它是一個可用於windows XP/7高度圖形化的神經網路開發工具。其將模塊化,基於圖標的網路設計界面,先進的學習程序和遺傳優化進行了結合。該款可用於研究和解決現實世界的復雜問題的神經網路設計工具在使用上幾乎無限制。
❹ 非線性是神經網路的王道啥意思
神經元的廣泛互聯與並行工作必然使整個網路呈現出高度的非線性特點。在客觀世界中,許多系統的輸入與輸出之間存在著復雜的非線性關系,對於這類系統,往往很難用傳統的數理方法建立其數學模型。設計合理地神經網路通過對系統輸入輸出樣本對進行自動學習,能夠以任意精度逼近任何復雜的非線性映射。神經網路的這一優點能使其可以作為多維非線性函數的通用數學模型。該模型的表達式非解析的,輸入輸出數據之間的映射規則由神經網路在學習階段自動抽取並分布式存儲在網路的所有連接中。具有非線性映射功能的神經網路應用十分廣闊,幾乎涉及所有領域。
❺ 深度學習可以解決非線性問題么
深度學習已經在計算機視覺、語言識別和自然語言理解等多個領域取得了巨大的成就。深度學習的概念源於人工神經網路的研究。深度學習結構包含一個多隱層的多層感知器。深度學習通過組合低層特徵形成更加抽象的高層表示屬性類別或特徵,以發現數據的分布式特徵表示。
深度學習的概念由Hinton等人於2006年提出。基於深度信念網路(DBN)提出非監督貪婪逐層訓練演算法,為解決深層結構相關的優化難題帶來希望,隨後提出多層自動編碼器深層結構。此外Lecun等人提出的卷積神經網路是第一個真正多層結構學習演算法,它利用空間相對關系減少參數數目以提高訓練性能。
深度學習是機器學習研究中的一個新的領域,其動機在於建立、模擬人腦進行分析學習的神經網路,它模仿人腦的機制來解釋數據,例如圖像,聲音和文本。深度學習就是一種特徵學習方法,把原始數據通過一些簡單的但是非線性的模型轉變成為更高層次的,更加抽象的表達。
深入介紹深入學習
深入研究深度學習,發現其包含三個核心概念:多層組合、端到端的學習和分布式表示。
多層組合
多層表示更符合人類的學習方式,神經網路作為其中的一種,可以從一個單一的感知輸入中產生多種理解,例如一個單詞的發音(與其類比,深度學習具有驚人的相似)。從一個單詞的發音到大腦的理解之間存在多個隱層,這與深度學習的過程很一致。多層表示中最令人興奮的一件事情就是,原來在處理數據分類任務的時候,是通過數據科學家建模神經網路,而現在他們可以自動生成數據模型。
當前多數分類、回歸等學習方法為淺層結構演算法,很多情況下只有一層表示,其局限性在於有限樣本和計算單元情況下對復雜函數的表示能力有限,針對復雜分類問題其泛化能力受到一定製約。深度學習可通過學習一種深層非線性網路結構,實現復雜函數逼近,表徵輸入數據分布式表示,並展現了強大的從少數樣本集中學習數據集本質特徵的能力。(多層的好處是可以用較少的參數表示復雜的函數)
❻ 數學建模中除了回歸、灰色、時間序列、神經網路外還有些啥子預測方法
移動平均法
❼ 非線性擬合能力最好的數學模型是什麼 我所知道的比如插值,回歸等擬合復雜函數的效果不好,神經網路雖
實際也就敢用2階的級數來模擬,階數太高容易受雜訊干擾,太低有不能體現非線性系統的特徵,我也是遇到你所說的這些問題,說實話吧,神經網路這塊雖然人家論文寫的很多,但是在控制著要去實用實時性太差,還不如線性的積分法,動態系統( 難以得到樣本)中用泰勒級數還可以,靜態的系統里就多了,但是神經網路這個對樣本需求量太大了,最小二乘和多項式還是能接受的非線性擬合能力最好的數學模型是什麼? 我所知道的比如插值,回歸等擬合復雜函數的效果不好,神經網路雖
❽ 非線性系統控制除了魯棒還有哪些
控制系統與控制理論研究內容涵蓋從基礎理論到工程設計與實現技術的多個層次,應用遍及從工業生產過程到航空航天系統以及社會經濟系統等極其廣泛的領域。 控制系統與控制理論主要應用於航空類飛行器控制、人工智慧、神經網路技術、模糊控制等。 控制理論與控制工程學科是以工程系統為主要對象,以數學方法和計算機技術為主要工具,研究各種控制策略及控制系統的理論、方法和技術。控制理論是學科的重要基礎和核心內容,控制工程是學科的背景動力和發展目標。本學科的智能控制方向主要包括模糊控制、專家系統、神經元網路、遺傳演算法等方面的研究,特別強調的是上述方法的交叉及其在工業過程式控制制方面的應用。故障診斷方向主要研究當控制系統一旦發生故障時,仍能保證閉環系統穩定,且滿足規定的性能指標。利用獲得的實時數據對生產過程進行在線監測及故障診斷,根據系統的運行狀態制定相應的控制策略,使系統工作在最佳狀態。魯棒控制方向主要研究被控對象參數變化後,控制系統仍能穩定可靠的工作,並在某種意義下保證系統的最優性。信號處理方向主要研究控制系統中的信號處理問題,包括非線性系統的魯棒濾波器的設計,自適應濾波器、雜訊抵消器、小波分析等。
❾ 求助神經網路做非線性回歸問題
樣本變數不需要那麼多,因為神經網路的信息存儲能力有限,過多的樣本會造成一些有用的信息被丟棄。如果樣本數量過多,應增加隱層節點數或隱層數目,才能增強學習能力。一、隱層數一般認為,增加隱層數可以降低網路誤差(也有文獻認為不一定能有效降低),提高精度,但也使網路復雜化,從而增加了網路的訓練時間和出現「過擬合」的傾向。一般來講應設計神經網路應優先考慮3層網路(即有1個隱層)。一般地,靠增加隱層節點數來獲得較低的誤差,其訓練效果要比增加隱層數更容易實現。對於沒有隱層的神經網路模型,實際上就是一個線性或非線性(取決於輸出層採用線性或非線性轉換函數型式)回歸模型。因此,一般認為,應將不含隱層的網路模型歸入回歸分析中,技術已很成熟,沒有必要在神經網路理論中再討論之。二、隱層節點數在BP 網路中,隱層節點數的選擇非常重要,它不僅對建立的神經網路模型的性能影響很大,而且是訓練時出現「過擬合」的直接原因,但是目前理論上還沒有一種科學的和普遍的確定方法。 目前多數文獻中提出的確定隱層節點數的計算公式都是針對訓練樣本任意多的情況,而且多數是針對最不利的情況,一般工程實踐中很難滿足,不宜採用。事實上,各種計算公式得到的隱層節點數有時相差幾倍甚至上百倍。為盡可能避免訓練時出現「過擬合」現象,保證足夠高的網路性能和泛化能力,確定隱層節點數的最基本原則是:在滿足精度要求的前提下取盡可能緊湊的結構,即取盡可能少的隱層節點數。研究表明,隱層節點數不僅與輸入/輸出層的節點數有關,更與需解決的問題的復雜程度和轉換函數的型式以及樣本數據的特性等因素有關。
❿ 除了MATLAB能做BP神經網路,還有其他什麼軟體能做
在我看來bp神經網路是一種演算法,只要是演算法就可以用任何軟體工具(只要編譯器或者解釋器支持,c,c++,python,matlab......)來進行實現,只是實現時的復雜程度有區別而已