首先,除了 orthogonal initialization 和 uniform initialization,現在常用的還有 Gaussian initialization。不常用的還有 identity initialization 和現在“已經(jīng)被時(shí)代拋棄”的 pretraining with autoencoder。這些方法在不同的場(chǎng)景下都被人選擇了。個(gè)人感覺(jué),比較復雜的 LSTM 用 orthogonal initialization 的人比較多,而在 research paper 討論一個(gè)小 task 時(shí),我看到的大部分還是說(shuō)用 uniform/Gaussian。這里可能的直觀(guān)的原因是后者的 layer 和 magnitude 比較少/小。
說(shuō)到 layer 比較少,其實(shí)我是想說(shuō),orthogonal initialization,個(gè)人認為對于 LSTM (deep, high-dimensitional, non-convex)比較有效的原因是,(1)可以很方便地減緩 gradient vanishing/exploding problem 和 activation functions 的 saturation。因為 orthogonal matrix 的所有 vectors 都是 orthonormal 的,也就是不僅 orthogonal,還 magnitude 為 1. 這樣,在計算時(shí)候,乘上這個(gè) matrix,就可以修正 vanishing 也可以重置 saturation。(2)這個(gè)問(wèn)題應該是和 saddle point 有關(guān)系,復雜的 LSTM 受 saddle point structures 帶來(lái)的各種問(wèn)題更嚴重,而基于 SVD/QR 的 orthogonal initialization 可以 decouple networks 之間的依賴(lài),消除 non-global minima。(3)當然還有這幾種 initialization 都用來(lái)破壞 symmetry。
上面這是可被證實(shí)的,下面來(lái)點(diǎn)個(gè)人的猜測:這和 weight variation 也有關(guān)系。
綜上,有些人覺(jué)得這幾種方法沒(méi)區別,有人覺(jué)得有,完全是 case-by-case。我個(gè)人在實(shí)踐過(guò)程中,即使是小網(wǎng)絡(luò ),也覺(jué)得有區別。
有一個(gè)答案給的是一篇acl2016的論文,采用的神經(jīng)網(wǎng)絡(luò )結構是 cnn + lstm +crf的經(jīng)典架構,是一個(gè)很成熟的系統
目前來(lái)說(shuō),實(shí)體識別的應用領(lǐng)域,lstm+crf是一種標配了,短期內我認為只要在attention方面沒(méi)有很大的突破,這一框架都不會(huì )變化
要理解為什么lstm后面要接crf層,首先應該理解的是crf的功能
題主問(wèn)這個(gè)問(wèn)題,想必是明白lstm的output,我們姑且不討論原理,lstm在序列標注的問(wèn)題,落實(shí)到題主說(shuō)的ner,也就是一個(gè)seq2seq,在英文中,可以是對每一個(gè)input的單詞,對例如bieo的四個(gè)標簽進(jìn)行預測,假設當前輸出的事100個(gè)words,那個(gè)輸出的就是100*4的一個(gè)概率預測,這應該就是答主的疑惑,我們直接用一個(gè)分類(lèi)器,四個(gè)里面選一個(gè)就好了,為什么要再接crf呢?
那么,我們首先考慮我們使用lstm的初衷,就是為了考慮上下文來(lái)分析當前的tag標注,其實(shí)crf也是接近的原理,crf意會(huì )一點(diǎn)的描述其實(shí)有點(diǎn)像一張概率圖,在single crf中,你需要做的是盡可能的對每個(gè)對象挖掘多的特征,然后學(xué)習他們之間的一種“銜接”關(guān)系,在lstm后面加上crf,相當于對lstm抽象過(guò)的一種語(yǔ)言關(guān)系來(lái)進(jìn)行crf訓練,可以使用那篇論文上的likehood函數,當然使用labelwise的也可以,這也屬于調參的一部分
總之我個(gè)人的理解,crf相當于對lstm信息的再利用,利用效率高于一個(gè)簡(jiǎn)單的分類(lèi)器,實(shí)際情況也適合這一點(diǎn),題主不妨找個(gè)實(shí)例測測玩玩,也就明白了
首先,除了 orthogonal initialization 和 uniform initialization,現在常用的還有 Gaussian initialization。
不常用的還有 identity initialization 和現在“已經(jīng)被時(shí)代拋棄”的 pretraining with autoencoder。這些方法在不同的場(chǎng)景下都被人選擇了。
個(gè)人感覺(jué),比較復雜的 LSTM 用 orthogonal initialization 的人比較多,而在 research paper 討論一個(gè)小 task 時(shí),我看到的大部分還是說(shuō)用 uniform/Gaussian。這里可能的直觀(guān)的原因是后者的 layer 和 magnitude 比較少/小。
說(shuō)到 layer 比較少,其實(shí)我是想說(shuō),orthogonal initialization,個(gè)人認為對于 LSTM (deep, high-dimensitional, non-convex)比較有效的原因是,(1)可以很方便地減緩 gradient vanishing/exploding problem 和 activation functions 的 saturation。因為 orthogonal matrix 的所有 vectors 都是 orthonormal 的,也就是不僅 orthogonal,還 magnitude 為 1. 這樣,在計算時(shí)候,乘上這個(gè) matrix,就可以修正 vanishing 也可以重置 saturation。
(2)這個(gè)問(wèn)題應該是和 saddle point 有關(guān)系,復雜的 LSTM 受 saddle point structures 帶來(lái)的各種問(wèn)題更嚴重,而基于 SVD/QR 的 orthogonal initialization 可以 decouple networks 之間的依賴(lài),消除 non-global minima。(3)當然還有這幾種 initialization 都用來(lái)破壞 symmetry。
上面這是可被證實(shí)的,下面來(lái)點(diǎn)個(gè)人的猜測:這和 weight variation 也有關(guān)系。綜上,有些人覺(jué)得這幾種方法沒(méi)區別,有人覺(jué)得有,完全是 case-by-case。
我個(gè)人在實(shí)踐過(guò)程中,即使是小網(wǎng)絡(luò ),也覺(jué)得有區別。
有一個(gè)答案給的是一篇acl2016的論文,采用的神經(jīng)網(wǎng)絡(luò )結構是 cnn + lstm +crf的經(jīng)典架構,是一個(gè)很成熟的系統目前來(lái)說(shuō),實(shí)體識別的應用領(lǐng)域,lstm+crf是一種標配了,短期內我認為只要在attention方面沒(méi)有很大的突破,這一框架都不會(huì )變化要理解為什么lstm后面要接crf層,首先應該理解的是crf的功能題主問(wèn)這個(gè)問(wèn)題,想必是明白lstm的output,我們姑且不討論原理,lstm在序列標注的問(wèn)題,落實(shí)到題主說(shuō)的ner,也就是一個(gè)seq2seq,在英文中,可以是對每一個(gè)input的單詞,對例如bieo的四個(gè)標簽進(jìn)行預測,假設當前輸出的事100個(gè)words,那個(gè)輸出的就是100*4的一個(gè)概率預測,這應該就是答主的疑惑,我們直接用一個(gè)分類(lèi)器,四個(gè)里面選一個(gè)就好了,為什么要再接crf呢?那么,我們首先考慮我們使用lstm的初衷,就是為了考慮上下文來(lái)分析當前的tag標注,其實(shí)crf也是接近的原理,crf意會(huì )一點(diǎn)的描述其實(shí)有點(diǎn)像一張概率圖,在single crf中,你需要做的是盡可能的對每個(gè)對象挖掘多的特征,然后學(xué)習他們之間的一種“銜接”關(guān)系,在lstm后面加上crf,相當于對lstm抽象過(guò)的一種語(yǔ)言關(guān)系來(lái)進(jìn)行crf訓練,可以使用那篇論文上的likehood函數,當然使用labelwise的也可以,這也屬于調參的一部分總之我個(gè)人的理解,crf相當于對lstm信息的再利用,利用效率高于一個(gè)簡(jiǎn)單的分類(lèi)器,實(shí)際情況也適合這一點(diǎn),題主不妨找個(gè)實(shí)例測測玩玩,也就明白了。
聲明:本網(wǎng)站尊重并保護知識產(chǎn)權,根據《信息網(wǎng)絡(luò )傳播權保護條例》,如果我們轉載的作品侵犯了您的權利,請在一個(gè)月內通知我們,我們會(huì )及時(shí)刪除。
蜀ICP備2020033479號-4 Copyright ? 2016 學(xué)習?shū)B(niǎo). 頁(yè)面生成時(shí)間:2.998秒