最近應(yīng)邀提交了一個表情分析綜述,在這里把核心部分提前放一下,你若細看不信你沒有想法。
從實際使用精度和學(xué)術(shù)上非受控環(huán)境人臉表情識別精度來看,目前人臉表情識別遠沒有達到像人臉識別一樣的高度。其主要問題在于:可靠的表情數(shù)據(jù)量少、表情圖片存在不確定性問題、非受控環(huán)境下人臉遮擋和姿態(tài)問題、以及方法的對比公平性和可重復(fù)性問題。
1 可靠的表情數(shù)據(jù)規(guī)模較小
目前,經(jīng)心理學(xué)家驗證的數(shù)據(jù)庫,如CK+等,是*的可靠表情數(shù)據(jù)。但是,這些數(shù)據(jù)庫的規(guī)模非常小且是實驗室受控環(huán)境下的正臉拍攝,在該類型數(shù)據(jù)庫上訓(xùn)練的模型一般現(xiàn)實應(yīng)用效果比較差。比如使用深度學(xué)習(xí)方法,模型學(xué)習(xí)的特征可能是記住特定人的信息以及特定的表情表演方式,泛化能力較差。最近,在非受控環(huán)境下采集的網(wǎng)絡(luò)數(shù)據(jù),如FERPlus和RAF-DB之類的數(shù)據(jù)庫,經(jīng)過多人眾包標注可靠性有所增加,但是標注數(shù)量也只是在3萬左右。利用數(shù)據(jù)驅(qū)動型深度學(xué)習(xí)方法,在該類數(shù)據(jù)庫上直接訓(xùn)練的精度也不高。AffectNet雖然標注44萬基本表情,但標注質(zhì)量相對差,使得模型難以學(xué)習(xí)到真正的表情特征。
近年來,緩解表情數(shù)據(jù)庫規(guī)模問題的流行策略就是將物體識別模型或者人臉識別模型遷移到表情識別任務(wù),即遷移學(xué)習(xí)方法。(Ding 等,2017)提出一種FaceNet2ExpNet框架。該框架首先在大規(guī)模人臉識別數(shù)據(jù)庫上進行訓(xùn)練,然后聯(lián)合訓(xùn)練人臉表情和人臉識別,最后在人臉表情任務(wù)上進行微調(diào)以減少模型對人臉身份信息的依賴。在EmotiW2017的音視頻情感識別競賽中,(Knyazev 等,2017)使用超大規(guī)模的私有人臉數(shù)據(jù)庫訓(xùn)練的VGGFace網(wǎng)絡(luò)在比賽中獲得了亞軍。在EmotiW2018的音視頻情感識別比賽中,前五名的方法基本上都使用了人臉識別模型和物體識別模型進行初始化。(Zhou 等,2019)在EmotiW2019的音視頻情感識別比賽中對人臉識別模型、人臉識別預(yù)訓(xùn)練的數(shù)據(jù)庫等進行了綜合評估。另外,除了遷移學(xué)習(xí)策略,利用半監(jiān)督方法也是未來可能的發(fā)展趨勢,其主要原因是1)大規(guī)模人臉識別數(shù)據(jù)庫中包含了非常多的表情人臉和2)像AffectNet和EmotioNet等數(shù)據(jù)庫還有很大一部分表情人臉沒有進行標注。最近,(Liu 等,2020)建立了一些半監(jiān)督人臉表情識別基本策略。
2 表情的不確定性問題
對于基本表情識別而言,模擬兩可的表情、低質(zhì)量表情圖片、以及標注者的情感主觀性導(dǎo)致表情類別很多時候不是wei一確定的,即表情存在不確定性(Wang和Peng 等,2020)。表情的不確定性問題和噪聲標簽問題非常類似,它們的差別主要體現(xiàn)在:1)表情是本身也存在模擬兩可的不確定性,而一般物體分類的噪聲標簽是由于沒有進行人工標注的原因;2)物體分類的噪聲可以用人工標注方式進行有效消除,然而由于標注者的主觀性,大規(guī)模的表情分類里面的噪聲很難用標注的方式進行消除。表情的不確定性問題也導(dǎo)致了很難有較大規(guī)模的可靠表情數(shù)據(jù)庫。
為了緩解表情的不確定性問題,(Zeng 等,2018)和(Wang和Peng等,2020)分別進行了初步探索。其中,(Zeng 等,2018)利用多數(shù)據(jù)庫上的深度學(xué)習(xí)模型預(yù)測結(jié)果輔助訓(xùn)練潛在的正確標簽,以提升特征學(xué)習(xí)的魯棒性。(Wang和Peng等,2020)在每個Batch使用自注意力機制和重標注方案,抑制表情不確定的部分樣本。鑒于基本表情分類不可避免出現(xiàn)的不確定性問題,將大規(guī)模表情問題定義成多標簽表情分類問題(Li 等,2018)或者符合表情問題EmotioNet(Benitez 等,2016)也是兩種可選策略。
3 非受控環(huán)境的人臉遮擋和姿態(tài)問題
類似于人臉識別,非受控自然環(huán)境下人臉表情識別受人臉的遮擋和姿態(tài)影響較大。傳統(tǒng)方法研究人臉表情識別的遮擋問題一般是使用人工設(shè)定局部黑塊方式(Irene等,2008),其不一定適合現(xiàn)實中的遮擋情況,如戴眼鏡、帶口罩等。最近,(Wang和Peng等,2020)統(tǒng)計了在FERPlus數(shù)據(jù)庫的測試集上的遮擋和大姿態(tài)識別情況,結(jié)果表明平均精度為86%左右的模型在遮擋和大姿態(tài)情況下的精度只有73%-75%。
為了緩解遮擋和姿態(tài)對人臉表情識別的影響,利用人臉局部信息是比較*的有效策略。(Li 等,2019)和(Wang和Peng等,2020)分別在特征層次和圖片層次使用局部塊注意力機制,以提升模型對遮擋和姿態(tài)的魯棒性。(Wang 等,2020)使用人臉關(guān)鍵點作為注意圖引導(dǎo)深度網(wǎng)絡(luò),使得網(wǎng)絡(luò)集中關(guān)注人臉關(guān)鍵區(qū)域提高模型的魯棒性。另一個可能的策略就是利用大規(guī)模人臉識別數(shù)據(jù),先學(xué)習(xí)一個對姿態(tài)和遮擋魯棒的人臉識別模型然后再對人臉表情識別進行微調(diào)。筆者觀察到,(Wang 等,2020)使用VGGFace2數(shù)據(jù)庫進行人臉識別模型預(yù)訓(xùn)練,最終得到的人臉表情識別性能比比其他數(shù)據(jù)庫預(yù)訓(xùn)練的模型要好2%左右,這充分表明了先學(xué)一個對姿態(tài)和遮擋魯棒的人臉識別模型是可行的。
4 表情識別方法的對比性不強
由于深度學(xué)習(xí)方法中超參數(shù)比較多,最終性能對各個超參數(shù)都有一定的影響,且這種影響有時候是新方法的關(guān)鍵因素,這就導(dǎo)致了表情識別方法存在對比性不強以及可重復(fù)性不強問題。雖然這個問題是深度學(xué)習(xí)的一個普遍性問題,但是由于前面三個問題的存在,筆者認為超參數(shù)對表情識別性能的影響相對較大。比如其他參數(shù)相同情況下,在RAF-DB數(shù)據(jù)庫上使用batchsize為256訓(xùn)練的ResNet18模型(ImageNet預(yù)訓(xùn)練)比batchsize為32訓(xùn)練的模型(RAF-DB測試精度約86%)平均精度低5-10個百分點。如此簡單的基本方法就能獲得86%的平均精度,已經(jīng)優(yōu)于最近很多發(fā)表方法。
為了提高人臉表情識別方法的對比性,筆者認為有必要在對比時候?qū)⒚糠N預(yù)訓(xùn)練模型和對性能敏感的參數(shù)進行討論評估。為了避免有些方法是在比較低的基線方法才有效,有必要在簡單有效的基線方法(比如使用預(yù)訓(xùn)練的ImageNet模型、人臉識別模型)基礎(chǔ)上進行比較。
總結(jié)與展望
目前,雖然非受控自然環(huán)境下的表情分析得到較快發(fā)展,但是眾多問題和挑戰(zhàn)仍然有待解決。人臉表情分析是一個比較實用的任務(wù),未來發(fā)展除了要討論方法的精度也要關(guān)注方法的耗時以及存儲消耗。在全面深度學(xué)習(xí)化的時代,人臉AU檢測也在飛快發(fā)展,人臉表情識別未來可以考慮用非受控環(huán)境下高精度的人臉AU檢測結(jié)果進行表情類別推斷。由于人臉表情通常比較復(fù)雜多樣,單一標簽很難進行描述,未來多標簽人臉表情問題應(yīng)該受到更多關(guān)注。另外,表情和情感本身是連續(xù)性的,未來應(yīng)該加強對非受控條件人臉的二維V-A情感研究。