使用稱為深度神經(jīng)網(wǎng)絡(luò)的機(jī)器學(xué)習(xí)系統(tǒng),麻省理工學(xué)院的研究人員創(chuàng)造了第一個(gè)能夠在聽覺(jué)任務(wù)中復(fù)制人類表現(xiàn)的模型,例如識(shí)別音樂(lè)類型。
該模型由多層信息處理單元組成,可以對(duì)大量數(shù)據(jù)進(jìn)行訓(xùn)練以執(zhí)行特定任務(wù),研究人員使用該模型來(lái)闡明人類大腦如何執(zhí)行相同的任務(wù)。
(資料圖片僅供參考)
“這些模型首次為我們提供的機(jī)器系統(tǒng)能夠執(zhí)行對(duì)人類至關(guān)重要的感官任務(wù),并且在人類層面上這樣做,”Frederick A.和Carole J. Middleton神經(jīng)科學(xué)助理教授Josh McDermott說(shuō)。在麻省理工學(xué)院的腦與認(rèn)知科學(xué)系和該研究的高級(jí)作者。“從歷史上看,這種類型的感官處理很難理解,部分原因是我們沒(méi)有真正的理論基礎(chǔ)和開發(fā)可能發(fā)生的模型的好方法。”
這項(xiàng)研究發(fā)表在4月19日的“ 神經(jīng)元”雜志上,也提供了人類聽覺(jué)皮層排列在等級(jí)組織中的證據(jù),就像視覺(jué)皮層一樣。在這種類型的安排中,感官信息通過(guò)連續(xù)的處理階段,先前處理基本信息,并且在后期階段提取諸如詞義之類的更高級(jí)特征。
麻省理工學(xué)院的研究生Alexander Kell和斯坦福大學(xué)助理教授Daniel Yamins是該論文的主要作者。其他作者是前麻省理工學(xué)院訪問(wèn)學(xué)生Erica Shook和前麻省理工學(xué)院博士后Sam Norman-Haignere。
當(dāng)深度神經(jīng)網(wǎng)絡(luò)在20世紀(jì)80年代首次發(fā)展時(shí),神經(jīng)科學(xué)家希望這種系統(tǒng)可用于模擬人類大腦。然而,那個(gè)時(shí)代的計(jì)算機(jī)并不足以構(gòu)建足夠大的模型來(lái)執(zhí)行對(duì)象識(shí)別或語(yǔ)音識(shí)別等現(xiàn)實(shí)任務(wù)。
在過(guò)去五年中,計(jì)算能力和神經(jīng)網(wǎng)絡(luò)技術(shù)的進(jìn)步使得使用神經(jīng)網(wǎng)絡(luò)執(zhí)行困難的現(xiàn)實(shí)任務(wù)成為可能,并且它們已成為許多工程應(yīng)用中的標(biāo)準(zhǔn)方法。與此同時(shí),一些神經(jīng)科學(xué)家重新考慮了這些系統(tǒng)可能用于模擬人類大腦的可能性。
“對(duì)于神經(jīng)科學(xué)而言,這是一個(gè)令人興奮的機(jī)會(huì),因?yàn)槲覀儗?shí)際上可以創(chuàng)建能夠完成人們可以做的事情的系統(tǒng),然后我們可以查詢模型并將它們與大腦進(jìn)行比較,”Kell說(shuō)。
麻省理工學(xué)院的研究人員訓(xùn)練他們的神經(jīng)網(wǎng)絡(luò)執(zhí)行兩個(gè)聽覺(jué)任務(wù),一個(gè)涉及語(yǔ)音,另一個(gè)涉及音樂(lè)。對(duì)于演講任務(wù),研究人員給這個(gè)模型提供了成千上萬(wàn)的兩秒鐘錄音。任務(wù)是識(shí)別剪輯中間的單詞。對(duì)于音樂(lè)任務(wù),模型被要求識(shí)別兩秒音樂(lè)剪輯的類型。每個(gè)剪輯還包括背景噪聲,以使任務(wù)更加真實(shí)(并且更加困難)。
在成千上萬(wàn)的例子之后,模型學(xué)會(huì)了像人類聽眾那樣準(zhǔn)確地完成任務(wù)。
“這個(gè)想法隨著時(shí)間的推移,模??型在任務(wù)中變得越來(lái)越好,”凱爾說(shuō)。“希望它是學(xué)習(xí)一般的東西,所以如果你提出一個(gè)模型從未聽過(guò)的新聲音,它會(huì)表現(xiàn)良好,而在實(shí)踐中往往就是這樣。”
該模型也傾向于在人類犯錯(cuò)最多的相同剪輯上犯錯(cuò)誤。
構(gòu)成神經(jīng)網(wǎng)絡(luò)的處理單元可以以各種方式組合,形成影響模型性能的不同架構(gòu)。
麻省理工學(xué)院的團(tuán)隊(duì)發(fā)現(xiàn),這兩項(xiàng)任務(wù)的最佳模型是將處理分為兩組。第一組階段在任務(wù)之間共享,但在此之后,它分成兩個(gè)分支用于進(jìn)一步分析 - 一個(gè)用于語(yǔ)音任務(wù)的分支,一個(gè)用于音樂(lè)類型任務(wù)。
等級(jí)證據(jù)
然后,研究人員利用他們的模型探討了一個(gè)關(guān)于聽覺(jué)皮層結(jié)構(gòu)的長(zhǎng)期問(wèn)題:它是否是分層次組織的。
在分層系統(tǒng)中,一系列腦區(qū)域在感知信息流過(guò)系統(tǒng)時(shí)執(zhí)行不同類型的計(jì)算。已有文獻(xiàn)記載,視覺(jué)皮層具有這種類型的組織。早期的區(qū)域,即初級(jí)視覺(jué)皮層,對(duì)顏色或方向等簡(jiǎn)單特征作出反應(yīng)。后期階段可以實(shí)現(xiàn)更復(fù)雜的任務(wù),例如對(duì)象識(shí)別。
然而,很難測(cè)試這種類型的組織是否也存在于聽覺(jué)皮層中,部分原因是因?yàn)闆](méi)有好的模型可以復(fù)制人類的聽覺(jué)行為。
“我們認(rèn)為,如果我們能夠構(gòu)建一個(gè)可以做與人們相同的事情的模型,那么我們就可以將模型的不同階段與大腦的不同部分進(jìn)行比較,并獲得一些證據(jù),證明這些部分是否與大腦可能是分層組織的,“麥克德莫特說(shuō)。
研究人員發(fā)現(xiàn),在他們的模型中,聲音的基本特征如頻率在早期階段更容易提取。隨著信息的處理和向網(wǎng)絡(luò)的進(jìn)一步移動(dòng),提取頻率變得更加困難,但更容易提取諸如單詞之類的更高級(jí)別的信息。
為了觀察模型階段是否可以復(fù)制人類聽覺(jué)皮層如何處理聲音信息,研究人員使用功能磁共振成像(fMRI)來(lái)測(cè)量聽覺(jué)皮層的不同區(qū)域,因?yàn)榇竽X處理真實(shí)世界的聲音。然后,他們?cè)谔幚硐嗤曇魰r(shí)比較了大腦對(duì)模型中響應(yīng)的響應(yīng)。
他們發(fā)現(xiàn)模型的中間階段最能與初級(jí)聽覺(jué)皮層的活動(dòng)相對(duì)應(yīng),后期階段最能與初級(jí)皮層外的活動(dòng)相對(duì)應(yīng)。研究人員說(shuō),這提供了證據(jù)表明聽覺(jué)皮層可能以分層方式排列,類似于視覺(jué)皮層。
“我們非常清楚地看到的是初級(jí)聽覺(jué)皮層與其他一切之間的區(qū)別,”McDermott說(shuō)。
作者現(xiàn)在計(jì)劃開發(fā)能夠執(zhí)行其他類型聽覺(jué)任務(wù)的模型,例如確定特定聲音的來(lái)源,探索這些任務(wù)是否可以通過(guò)此模型中確定的路徑完成,或者是否需要單獨(dú)的路徑,然后可以在大腦中進(jìn)行調(diào)查。
本文由用戶上傳,如有侵權(quán)請(qǐng)聯(lián)系刪除!關(guān)鍵詞: