97久久精品人人做人人爽-97久久香蕉国产线看观看-996久久国产精品线观看-9999国产精品欧美久久久久久

首頁 > 科研進展

基于大規(guī)模自發(fā)言語的漢語學(xué)前兒童詞匯數(shù)據(jù)庫發(fā)布

2026年02月05日 心理研究所
【字體:

語音播報

詞匯數(shù)據(jù)庫是心理語言學(xué)和認知神經(jīng)科學(xué)研究的重要基礎(chǔ)工具。然而,現(xiàn)有的漢語詞匯數(shù)據(jù)庫主要來源于成人文本、兒童讀物及動畫等輸入性材料,難以客觀反映學(xué)前兒童在自然交流場景中能產(chǎn)出的詞匯類型及表達特征。學(xué)前階段是兒童詞匯量快速增長的關(guān)鍵時期,但兒童的表達性詞匯與理解性詞匯在規(guī)模與分布上存在明顯差異。因此,構(gòu)建基于兒童真實口語表達產(chǎn)出的專門數(shù)據(jù)庫,對于深入探討兒童語言發(fā)展規(guī)律與認知機制具有重要價值。

近日,中國科學(xué)院心理研究所研究團隊,發(fā)布了漢語學(xué)前兒童口語詞匯數(shù)據(jù)庫(CPCSLD)。該數(shù)據(jù)庫基于北京地區(qū)648名3至6歲兒童,在同伴對話情境中的自發(fā)言語構(gòu)建,語料涵蓋旅行、玩具、圖書、動畫、機器人、游樂園等貼近兒童日常生活的主題。該語料庫共包含約120萬詞次、21372個不同詞條、1147個帶聲調(diào)音節(jié)及400個不帶聲調(diào)音節(jié),并按幼兒園小班(K1)、中班(K2)及大班(K3)三個年齡段分別構(gòu)建了對應(yīng)的子數(shù)據(jù)庫。

該數(shù)據(jù)庫系統(tǒng)性提供了詞匯和音節(jié)兩個層面的多維信息,涵蓋詞頻、詞長、詞類、音節(jié)頻率(帶聲調(diào)/不帶聲調(diào))等多種指標,可支撐對學(xué)前兒童口語詞匯結(jié)構(gòu)特征和發(fā)展變化規(guī)律的精細刻畫。分析結(jié)果顯示,隨著兒童年齡增長,其自發(fā)言語中多音節(jié)詞占比呈逐步上升趨勢,詞匯結(jié)構(gòu)日趨復(fù)雜,且不同詞類在兒童表達性語言中的分布也呈現(xiàn)出年齡相關(guān)性發(fā)展規(guī)律

為檢驗該數(shù)據(jù)庫的心理語言學(xué)效度,研究團隊進一步將CPCSLD與多個已有的漢語詞匯數(shù)據(jù)庫開展對比分析,并將其應(yīng)用于學(xué)前兒童在語義判斷任務(wù)與圖片命名任務(wù)表現(xiàn)的預(yù)測。結(jié)果表明,CPCSLD在預(yù)測兒童圖片命名反應(yīng)和正確率方面具有明顯優(yōu)勢,其預(yù)測效果優(yōu)于基于成人語料或輸入性兒童語料構(gòu)建的數(shù)據(jù)庫;而在以詞匯理解為主的語義判斷任務(wù)中,其預(yù)測優(yōu)勢相對有限。上述結(jié)果表明,基于兒童自發(fā)言語構(gòu)建的詞匯數(shù)據(jù)庫,更能捕捉學(xué)前兒童言語產(chǎn)生過程中的關(guān)鍵統(tǒng)計特征。

CPCSLD是首個專門面向漢語學(xué)前兒童表達性詞匯、基于自然口語產(chǎn)出構(gòu)建的漢語詞匯數(shù)據(jù)庫,為兒童語言發(fā)展與言語產(chǎn)生研究提供了新的工具。同時,該數(shù)據(jù)庫可用于探討學(xué)前兒童詞匯與言語產(chǎn)生的發(fā)展機制,并可服務(wù)于兒童語言評估、語言障礙早期篩查及教育干預(yù)等研究,為探索兒童心理詞匯表組織結(jié)構(gòu)、發(fā)展軌跡以及其神經(jīng)基礎(chǔ),提供了重要的數(shù)據(jù)支撐。

相關(guān)研究成果發(fā)表在《行為研究方法》(Behavior Research Methods)上。研究工作得到國家自然科學(xué)基金委員會、中國科學(xué)院的支持。

論文鏈接

詞匯數(shù)據(jù)庫的構(gòu)建流程

詞頻和音節(jié)頻率的分布

打印 責(zé)任編輯:閆文藝

掃一掃在手機打開當(dāng)前頁

© 1996 - 中國科學(xué)院 版權(quán)所有 京ICP備05002857號-1 京公網(wǎng)安備110402500047號 網(wǎng)站標識碼bm48000002

地址:北京市西城區(qū)三里河路52號 郵編:100864

電話: 86 10 68597114(總機) 86 10 68597289(總值班室)