演算法rnn
A. lstm具有什麼特點
LSTM(Long Short-Term Memory)是長短期記憶網路,是一種時間遞歸神經網路(RNN),主要是為了解決長序列訓練過程中的梯度消失和梯度爆炸問題。簡單來說,就是相比普通的RNN,LSTM能夠在更長的序列中有更好的表現。 LSTM 已經在科技領域有了多種應用。基於 LSTM 的系統可以學習翻譯語言、控制機器人、圖像分析、文檔摘要、語音識別圖像識別、手寫識別、控制聊天機器人、預測疾病、點擊率和股票、合成音樂等等任務。
工作原理
LSTM區別於RNN的地方,主要就在於它在演算法中加入了一個判斷信息有用與否的「處理器」,這個處理器作用的結構被稱為cell。
一個cell當中被放置了三扇門,分別叫做輸入門、遺忘門和輸出門。一個信息進入LSTM的網路當中,可以根據規則來判斷是否有用。只有符合演算法認證的信息才會留下,不符的信息則通過遺忘門被遺忘。
說起來無非就是一進二出的工作原理,卻可以在反復運算下解決神經網路中長期存在的大問題。目前已經證明,LSTM是解決長序依賴問題的有效技術,並且這種技術的普適性非常高,導致帶來的可能性變化非常多。各研究者根據LSTM紛紛提出了自己的變數版本,這就讓LSTM可以處理千變萬化的垂直問題。
B. 深度學習演算法哪些適用於文本處理
作者:梅洪源
來源:知乎
現在實踐證明,對supervised-learning而言,效果較好的應該算是Recurrent Neural Network (RNN)吧,目前比較火的一類RNN是LSTM -- Long Short Term Memory。
對於這個model而言,最初的發明見於論文--Long Short Term Memory by Hochreiter and Schmidhuber,而之後較好的歸納和實現可以參考Frame Phoneme Classification with Bidirectional LSTM by Alex Graves,後者有比較清晰的back propagation的公式。
最近兩年這個model在speech,language以及multimodal with vision等方面可謂是大展宏圖,一再的刷新實驗結果,重要工作可以參考:
Speech recognition with Deep Recurrent Neural Networks by Graves
Sequence to Sequence Learning with Neural Networks by Sutskever
Show Attend and Tell by Kelvin Xu
至於具體的實現,希望避免造輪子的可以參考這個非常famous的github:karpathy (Andrej) · GitHub,Andrej Karpathy最近發了很多很有趣的RNN的fun project,可以borrow一些代碼。
希望自己造輪子的,可以選擇用Theano或者Torch,用畫data flow的方法來code整個structure,很簡潔實用,我個人一直用Theano,給個好評。:)
當然啦,至於你要研究什麼問題,還是具體問題具體分析的好。可以去搜搜有沒有研究類似問題的paper,看看目前的最好的技術是什麼。Deep Learning不一定是萬能的啦。
C. 常見的深度學習演算法主要有哪些
深度學習常見的3種演算法有:卷積神經網路、循環神經網路、生成對抗網路。
卷積神經網路(Convolutional Neural Networks, CNN)是一類包含卷積計算且具有深度結構的前饋神經網路(Feedforward Neural Networks),是深度學習的代表演算法之一。
循環神經網路(Recurrent Neural Network, RNN)是一類以序列數據為輸入,在序列的演進方向進行遞歸且所有節點(循環單元)按鏈式連接的遞歸神經網路。
生成對抗網路(GAN, Generative Adversarial Networks )是一種深度學習模型,是最近兩年十分熱門的一種無監督學習演算法。
D. 智能演算法有哪些
(1)人工神經網路(Artificial Neural Network)類:反向傳播(Backpropagation)、波爾茲曼機(Boltzmann Machine)、卷積神經網路(Convolutional Neural Network)、Hopfield網路(hopfield Network)、多層感知器(Multilyer Perceptron)、徑向基函數網路(Radial Basis Function Network,RBFN)、受限波爾茲曼機(Restricted Boltzmann Machine)、回歸神經網路(Recurrent Neural Network,RNN)、自組織映射(Self-organizing Map,SOM)、尖峰神經網路(Spiking Neural Network)等。
(2)貝葉斯類(Bayesin):樸素貝葉斯(Naive Bayes)、高斯貝葉斯(Gaussian Naive Bayes)、多項樸素貝葉斯(Multinomial Naive Bayes)、平均-依賴性評估(Averaged One-Dependence Estimators,AODE)
貝葉斯信念網路(Bayesian Belief Network,BBN)、貝葉斯網路(Bayesian Network,BN)等。
(3)決策樹(Decision Tree)類:分類和回歸樹(Classification and Regression Tree,CART)、迭代Dichotomiser3(Iterative Dichotomiser 3, ID3),C4.5演算法(C4.5 Algorithm)、C5.0演算法(C5.0 Algorithm)、卡方自動交互檢測(Chi-squared Automatic Interaction Detection,CHAID)、決策殘端(Decision Stump)、ID3演算法(ID3 Algorithm)、隨機森林(Random Forest)、SLIQ(Supervised Learning in Quest)等。
(4)線性分類器(Linear Classifier)類:Fisher的線性判別(Fisher』s Linear Discriminant)
線性回歸(Linear Regression)、邏輯回歸(Logistic Regression)、多項邏輯回歸(Multionmial Logistic Regression)、樸素貝葉斯分類器(Naive Bayes Classifier)、感知(Perception)、支持向量機(Support Vector Machine)等。
常見的無監督學習類演算法包括:
(1) 人工神經網路(Artificial Neural Network)類:生成對抗網路(Generative Adversarial Networks,GAN),前饋神經網路(Feedforward Neural Network)、邏輯學習機(Logic Learning Machine)、自組織映射(Self-organizing Map)等。
(2) 關聯規則學習(Association Rule Learning)類:先驗演算法(Apriori Algorithm)、Eclat演算法(Eclat Algorithm)、FP-Growth演算法等。
(3)分層聚類演算法(Hierarchical Clustering):單連鎖聚類(Single-linkage Clustering),概念聚類(Conceptual Clustering)等。
(4)聚類分析(Cluster analysis):BIRCH演算法、DBSCAN演算法,期望最大化(Expectation-maximization,EM)、模糊聚類(Fuzzy Clustering)、K-means演算法、K均值聚類(K-means Clustering)、K-medians聚類、均值漂移演算法(Mean-shift)、OPTICS演算法等。
E. 問一下大家神經網路演算法有多少種啊,說能科普一下啊
神經網路就是一種演算法,只是說比較大,屬於大型演算法。裡面有一些協助的小演算法,比如bp,rnn,lstm 屬於神經網路結構。
這個沒幾個月說不清楚的
F. 為什麼說Transformer的注意力機制是相對廉價的注意力機制相對更對於RNN系列及CNN系列演算法有何優勢
基於注意力機制的構造與基於RNN的不同,基於RNN的是在時間步上串聯(在每個time step只能輸入一個token),而基於注意力機制的是類似於桶狀結構(一起將數據輸入到模型中去)
G. 基於RNN的seq2seq與基於CNN的seq2seq區別,為什麼後者效果更好
作者:賈揚清
鏈接:
來源:知乎
著作權歸作者所有。商業轉載請聯系作者獲得授權,非商業轉載請註明出處。
終於碰到一個是真心談技術的問題,不容易啊。。。在熱那亞機場等飛機,所以時間有限,答得比較簡單,請勿怪罪。的確,如題主所說,RNN在數學上是可以處理任意長度的數據的。我們在TensorFlow中使用bucket的原因主要是為了工程實現的效率:(1)為什麼不直接在graph的層面上支持可變長度的計算?在實現上,這需要使用一個將長度作為一個可變參數的while loop,而while loop的實現又涉及到其他一系列問題,比如說自動梯度計算(autodiff)等等,並不是一個很容易的事情。並且,如果要保證運行時的schele的效率,還有一些不是那麼簡單地代碼要改。(2)即使可以支持while loop,還會有的一個問題是,我們在算minibatch,而每個minibatch裡面不同的sequence有不同的長度。於是有兩種解決方案:(a)對於每個minibatch,取最大的長度,然後跑那個最大長度。(b)實現一個sub-minibatch的計算方法,在每一個timestamp檢測每個樣本是否已經到達它的最大長度,如果超過就不計算。(3)可以看到,(2a)是一個很浪費的演算法,如果一個minibatch裡面有一個很長的,大家都得跟著算到那個長度,所以不好。(2b)對於每個operator的要求都很高,做過數值優化的都知道,基本的計算比如說矩陣乘積,數據結構越簡單越好,如果你要實現一個跳過某幾行只算某幾行的方法。。。good luck。(4)於是,一個折衷的方案就是,對於sequence先做聚類,預設幾個固定的長度bucket,然後每個sequence都放到它所屬的bucket裡面去,然後pad到固定的長度。這樣一來,首先我們不需要折騰while loop了,每一個bucket都是一個固定的computation graph;其次,每一個sequence的pad都不是很多,對於計算資源的浪費很小;再次,這樣的實現很簡單,就是一個給長度聚類,對於framework的要求很低。RNN的bucketing其實是一個很好的例子:在深度學習的演算法實現上,數學是一部分,工程是另一部分。好的實現,都是在數學的優雅和工程的效率之間尋找一個最優折衷的過程。
-
H. 人工智慧語言中的循環怎麼使用的呢
for循環是很多開發語言中最常用的一個循環。它可以大大提高代碼的運行速度,簡化邏輯代碼,非常適用。
首先:for 有兩種形式:一種是數字形式,另一種是通用形式。
數字形式的 for 循環,通過一個數學運算不斷地運行內部的代碼塊。 下面是它的語法:
stat ::= for Name 『=』 exp 『,』 exp [『,』 exp] do block end
block 將把 name 作循環變數。 從第一個 exp 開始起,直到第二個 exp 的值為止, 其步長為第三個 exp 。 更確切的說,一個 for 循環看起來是這個樣子
for v = e1, e2, e3 do block end
注意下面這幾點:
其次:所有三個控製表達式都只被運算一次, 表達式的計算在循環開始之前。 這些表達式的結果必須是數字。
var,limit,以及 step 都是一些不可見的變數。 這里給它們起的名字都僅僅用於解釋方便。
如果第三個表達式(步長)沒有給出,會把步長設為 1 。
你可以用 break 和 goto 來退出 for 循環。
循環變數 v 是一個循環內部的局部變數; 如果你需要在循環結束後使用這個值, 在退出循環前把它賦給另一個變數。
通用形式的 for 通過一個叫作 迭代器 的函數工作。 每次迭代,迭代器函數都會被調用以產生一個新的值, 當這個值為 nil 時,循環停止。
注意以下幾點:
explist 只會被計算一次。 它返回三個值, 一個 迭代器 函數, 一個 狀態, 一個 迭代器的初始值。
f, s,與 var 都是不可見的變數。 這里給它們起的名字都只是為了解說方便。
你可以使用 break 來跳出 for 循環。
環變數 var_i 對於循環來說是一個局部變數; 你不可以在 for 循環結束後繼續使用。 如果你需要保留這些值,那麼就在循環跳出或結束前賦值到別的變數里去。
var,limit,以及 step 都是一些不可見的變數。 這里給它們起的名字都僅僅用於解釋方便。
如果第三個表達式(步長)沒有給出,會把步長設為 1 。
你可以用 break 和 goto 來退出 for 循環。
循環變數 v 是一個循環內部的局部變數; 如果你需要在循環結束後使用這個值, 在退出循環前把它賦給另一個變數。
通用形式的 for 通過一個叫作 迭代器 的函數工作。 每次迭代,迭代器函數都會被調用以產生一個新的值, 當這個值為 nil 時,循環停止。
注意以下幾點:
explist 只會被計算一次。 它返回三個值, 一個 迭代器 函數, 一個 狀態, 一個 迭代器的初始值。
f, s,與 var 都是不可見的變數。 這里給它們起的名字都只是為了解說方便。
你可以使用 break 來跳出 for 循環。
環變數 var_i 對於循環來說是一個局部變數; 你不可以在 for 循環結束後繼續使用。 如果你需要保留這些值,那麼就在循環跳出或結束前賦值到別的變數里去。
I. 深度學習的主要分類是什麼呀這些網路cnn dbn dnm rnn是怎樣的關系
簡單來說:
1)深度學習(Deep Learning)只是機器學習(Machine Learning)的一種類別,一個子領域。機器學習 > 深度學習
2)大數據(Big Data)不是具體的方法,甚至不算具體的研究學科,而只是對某一類問題,或需處理的數據的描述
具體來說:
1)機器學習(Machine Learning)是一個大的方向,裡麵包括了很多種 approach,比如 deep learning, GMM, SVM, HMM, dictionary learning, knn, Adaboosting...不同的方法會使用不同的模型,不同的假設,不同的解法。這些模型可以是線性,也可以是非線性的。他們可能是基於統計的,也可能是基於稀疏的....
不過他們的共同點是:都是 data-driven 的模型,都是學習一種更加 abstract 的方式來表達特定的數據,假設和模型都對特定數據廣泛適用。好處是,這種學習出來的表達方式可以幫助我們更好的理解和分析數據,挖掘數據隱藏的結構和關系。
Machine Learning 的任務也可以不同,可以是預測(prediction),分類(classification),聚類(clustering),識別(recognition),重建(reconstruction),約束(regularization),甚至降噪(denoising),超分辨(super-resolution),除馬賽克(Demosaicing)等等....
2)深度學習(Deep Learning)是機器學習的一個子類,一般特指學習高層數的網路結構。這個結構中通常會結合線性和非線性的關系。
Deep Learning 也會分各種不同的模型,比如 CNN, RNN, DBN...他們的解法也會不同。
Deep Learning 目前非常流行,因為他們在圖像,視覺,語音等各種應用中表現出了很好的 empirical performance。並且利用 gpu 的並行運算,在模型相當復雜,數據特別大量的情況下,依然可以達到很理想的學習速度。
因為 Deep Learning 往往會構建多層數,多節點,多復雜度的模型,人們依然缺乏多裡面學習的結構模型的理解。很多時候,Deep Learning 甚至會被認為擁有類似於人類神經網路的結構,並且這種類似性被當做 deep learning 居然更大 potential 的依據。但答主個人認為,其實這略有些牽強...聽起來更像是先有了這種 network 的結構,再找一個類似性。當然,這僅僅是個人觀點...(私貨私貨)
3)大數據(Big Data,我們也叫他逼格數據....)是對數據和問題的描述。通常被廣泛接受的定義是 3 個 V 上的「大」:Volume(數據量), Velocity(數據速度)還有 variety(數據類別)。大數據問題(Big-data problem)可以指那種在這三個 V 上因為大而帶來的挑戰。
Volume 很好理解。一般也可以認為是 Large-scale data(其實學術上用這個更准確,只是我們出去吹逼的時候就都叫 big data 了...)。「大」可以是數據的維度,也可以是數據的 size。一般 claim 自己是 big-data 的演算法會比較 scalable,復雜度上對這兩個不敏感。演算法和系統上,人們喜歡選擇並行(Parallel),分布(distributed)等屬性的方法來增加 capability。
ITjob----採集