首頁(yè) » 生活常識 » lstm能與哪些方法相結合(為什么LSTM在參數初始化時(shí)要使用SVD方法使參數正交)

lstm能與哪些方法相結合(為什么LSTM在參數初始化時(shí)要使用SVD方法使參數正交)

分類(lèi)：生活常識日期：2022-09-21 12:40 瀏覽：5 次

1.為什么 LSTM 在參數初始化時(shí)要使用 SVD 方法使參數正交

首先，除了 orthogonal initialization 和 uniform initialization，現在常用的還有 Gaussian initialization。不常用的還有 identity initialization 和現在“已經(jīng)被時(shí)代拋棄”的 pretraining with autoencoder。這些方法在不同的場(chǎng)景下都被人選擇了。個(gè)人感覺(jué)，比較復雜的 LSTM 用 orthogonal initialization 的人比較多，而在 research paper 討論一個(gè)小 task 時(shí)，我看到的大部分還是說(shuō)用 uniform/Gaussian。這里可能的直觀(guān)的原因是后者的 layer 和 magnitude 比較少/小。

說(shuō)到 layer 比較少，其實(shí)我是想說(shuō)，orthogonal initialization，個(gè)人認為對于 LSTM (deep, high-dimensitional, non-convex)比較有效的原因是，（1）可以很方便地減緩 gradient vanishing/exploding problem 和 activation functions 的 saturation。因為 orthogonal matrix 的所有 vectors 都是 orthonormal 的，也就是不僅 orthogonal，還 magnitude 為 1. 這樣，在計算時(shí)候，乘上這個(gè) matrix，就可以修正 vanishing 也可以重置 saturation。(2)這個(gè)問(wèn)題應該是和 saddle point 有關(guān)系，復雜的 LSTM 受 saddle point structures 帶來(lái)的各種問(wèn)題更嚴重，而基于 SVD/QR 的 orthogonal initialization 可以 decouple networks 之間的依賴(lài)，消除 non-global minima。(3)當然還有這幾種 initialization 都用來(lái)破壞 symmetry。

上面這是可被證實(shí)的，下面來(lái)點(diǎn)個(gè)人的猜測：這和 weight variation 也有關(guān)系。

綜上，有些人覺(jué)得這幾種方法沒(méi)區別，有人覺(jué)得有，完全是 case-by-case。我個(gè)人在實(shí)踐過(guò)程中，即使是小網(wǎng)絡(luò )，也覺(jué)得有區別。

2.如何理解LSTM后接CRF

有一個(gè)答案給的是一篇acl2016的論文，采用的神經(jīng)網(wǎng)絡(luò )結構是 cnn + lstm +crf的經(jīng)典架構，是一個(gè)很成熟的系統

目前來(lái)說(shuō)，實(shí)體識別的應用領(lǐng)域，lstm+crf是一種標配了，短期內我認為只要在attention方面沒(méi)有很大的突破，這一框架都不會(huì )變化

要理解為什么lstm后面要接crf層，首先應該理解的是crf的功能

題主問(wèn)這個(gè)問(wèn)題，想必是明白lstm的output，我們姑且不討論原理，lstm在序列標注的問(wèn)題，落實(shí)到題主說(shuō)的ner，也就是一個(gè)seq2seq，在英文中，可以是對每一個(gè)input的單詞，對例如bieo的四個(gè)標簽進(jìn)行預測，假設當前輸出的事100個(gè)words，那個(gè)輸出的就是100*4的一個(gè)概率預測，這應該就是答主的疑惑，我們直接用一個(gè)分類(lèi)器，四個(gè)里面選一個(gè)就好了，為什么要再接crf呢？

那么，我們首先考慮我們使用lstm的初衷，就是為了考慮上下文來(lái)分析當前的tag標注，其實(shí)crf也是接近的原理，crf意會(huì )一點(diǎn)的描述其實(shí)有點(diǎn)像一張概率圖，在single crf中，你需要做的是盡可能的對每個(gè)對象挖掘多的特征，然后學(xué)習他們之間的一種“銜接”關(guān)系，在lstm后面加上crf，相當于對lstm抽象過(guò)的一種語(yǔ)言關(guān)系來(lái)進(jìn)行crf訓練，可以使用那篇論文上的likehood函數，當然使用labelwise的也可以，這也屬于調參的一部分

總之我個(gè)人的理解，crf相當于對lstm信息的再利用，利用效率高于一個(gè)簡(jiǎn)單的分類(lèi)器，實(shí)際情況也適合這一點(diǎn)，題主不妨找個(gè)實(shí)例測測玩玩，也就明白了

3.為什么 LSTM 在參數初始化時(shí)要使用 SVD 方法使參數正交

首先，除了 orthogonal initialization 和 uniform initialization，現在常用的還有 Gaussian initialization。

不常用的還有 identity initialization 和現在“已經(jīng)被時(shí)代拋棄”的 pretraining with autoencoder。這些方法在不同的場(chǎng)景下都被人選擇了。

個(gè)人感覺(jué)，比較復雜的 LSTM 用 orthogonal initialization 的人比較多，而在 research paper 討論一個(gè)小 task 時(shí)，我看到的大部分還是說(shuō)用 uniform/Gaussian。這里可能的直觀(guān)的原因是后者的 layer 和 magnitude 比較少/小。

(2)這個(gè)問(wèn)題應該是和 saddle point 有關(guān)系，復雜的 LSTM 受 saddle point structures 帶來(lái)的各種問(wèn)題更嚴重，而基于 SVD/QR 的 orthogonal initialization 可以 decouple networks 之間的依賴(lài)，消除 non-global minima。(3)當然還有這幾種 initialization 都用來(lái)破壞 symmetry。

上面這是可被證實(shí)的，下面來(lái)點(diǎn)個(gè)人的猜測：這和 weight variation 也有關(guān)系。綜上，有些人覺(jué)得這幾種方法沒(méi)區別，有人覺(jué)得有，完全是 case-by-case。

我個(gè)人在實(shí)踐過(guò)程中，即使是小網(wǎng)絡(luò )，也覺(jué)得有區別。

4.如何理解LSTM后接CRF

有一個(gè)答案給的是一篇acl2016的論文，采用的神經(jīng)網(wǎng)絡(luò )結構是 cnn + lstm +crf的經(jīng)典架構，是一個(gè)很成熟的系統目前來(lái)說(shuō)，實(shí)體識別的應用領(lǐng)域，lstm+crf是一種標配了，短期內我認為只要在attention方面沒(méi)有很大的突破，這一框架都不會(huì )變化要理解為什么lstm后面要接crf層，首先應該理解的是crf的功能題主問(wèn)這個(gè)問(wèn)題，想必是明白lstm的output，我們姑且不討論原理，lstm在序列標注的問(wèn)題，落實(shí)到題主說(shuō)的ner，也就是一個(gè)seq2seq，在英文中，可以是對每一個(gè)input的單詞，對例如bieo的四個(gè)標簽進(jìn)行預測，假設當前輸出的事100個(gè)words，那個(gè)輸出的就是100*4的一個(gè)概率預測，這應該就是答主的疑惑，我們直接用一個(gè)分類(lèi)器，四個(gè)里面選一個(gè)就好了，為什么要再接crf呢？那么，我們首先考慮我們使用lstm的初衷，就是為了考慮上下文來(lái)分析當前的tag標注，其實(shí)crf也是接近的原理，crf意會(huì )一點(diǎn)的描述其實(shí)有點(diǎn)像一張概率圖，在single crf中，你需要做的是盡可能的對每個(gè)對象挖掘多的特征，然后學(xué)習他們之間的一種“銜接”關(guān)系，在lstm后面加上crf，相當于對lstm抽象過(guò)的一種語(yǔ)言關(guān)系來(lái)進(jìn)行crf訓練，可以使用那篇論文上的likehood函數，當然使用labelwise的也可以，這也屬于調參的一部分總之我個(gè)人的理解，crf相當于對lstm信息的再利用，利用效率高于一個(gè)簡(jiǎn)單的分類(lèi)器，實(shí)際情況也適合這一點(diǎn)，題主不妨找個(gè)實(shí)例測測玩玩，也就明白了。

lstm能與哪些方法相結合

上一篇：校園淚水作文400字作文(校園里留下的淚水五年級作文400字) 下一篇：難忘的旅行普通話(huà)_句子學(xué)習

潮流時(shí)尚	寫(xiě)作素材	創(chuàng )新創(chuàng )業(yè)
生活常識	策劃方案	安全知識
自考專(zhuān)業(yè)	家居生活	三農創(chuàng )業(yè)
勵志故事	時(shí)尚穿搭	星座知識

久久久久久久久久久网站,国产成人第一页,精品国产精品,www,黄色片,com,91av视频导航,91美女福利视频,久久福利视频导航

lstm能與哪些方法相結合(為什么LSTM在參數初始化時(shí)要使用SVD方法使參數正交)

1.為什么 LSTM 在參數初始化時(shí)要使用 SVD 方法使參數正交

2.如何理解LSTM后接CRF

3.為什么 LSTM 在參數初始化時(shí)要使用 SVD 方法使參數正交

4.如何理解LSTM后接CRF

相關(guān)推薦

淹溺救護原則(淹溺者的現場(chǎng)救護)

屋頂的水筧是什么樣子的(古建水筧指的是啥東西)

饅頭是誰(shuí)發(fā)明的(饅頭是誰(shuí)發(fā)明的人是誰(shuí))

化石一般出現在什么中(化石一般存在什么中)

減肥晚上可以吃烤紅薯嗎?(減肥晚上可以吃葡萄嗎)

切蛋糕怎么能切的平整(6寸蛋糕能切幾塊)

什么動(dòng)物冬天不運動(dòng)(冬天冬眠的動(dòng)物有哪些)

泡水瓷磚可以刷背膠嗎不泡水嗎(依諾美瓷磚背膠價(jià)格)

沒(méi)有硅膠刷可以用什么代替(刷硅膠底涂濟的機器)

鼓浪嶼的地理位置介紹(廈門(mén)鼓浪嶼位置)