漢字資料庫的能耐

篇名叫漢字資料庫的能耐,其實應該正名為數位工具的能力,更具體的說,應該以B大的厲害來定義接下來的文章。

這一、二年的各式會議裡常見大家討論一個問題-究竟哪些字該先教?哪些部件重要?我不是專家,但從專家的研究和討論裡我們大概知道字詞頻很重要、取樣的語料庫很重要、依字詞等級與出現的順序很重要等等,也大概知道漢字由部件組成,部件又由筆畫組成;其中,部件又有成字和不成字部件的分別等等。

怪不得漢字這麼迷人,也真的有很多值得深入研究之處。但漢字何其多,教學的先後順序該取決於哪些因素呢?呃,因素太多,就像上段說的,我不是專家,絕對不敢也不能班門弄斧。那寫這篇文章幹嘛?嘿,雖然不是漢字專家,但這個部落格的主旨是讓大家享受資訊科技的好處,探索資訊科技在教學裡的優勢,因此,咱們一起就"漢字由部件組成"這項訊息,討論各部件在字群裡所扮演的角色。

對了,在討論之前,先說明標題定義的漢字資料庫。為了讓討論的資料更具科學性,我們蒐集了unicode字表裡20,890個字(正簡兼具),每個字參考行政院主計處電算中心全字庫517個部件拆分。在我們的資料庫裡,包含了每個字的部首、筆畫數、部件、注音(含破音)、拼音(含破音),也做了部首字標示圖及筆順拆解圖(做完後有機會公佈讓華語老師們免費使用)。有了這個資料庫,再加上各語料庫的字、詞頻,可以分析不同字詞頻裡的漢字特性,也能在匯入各測驗的字詞表後,立刻看到各等級字詞的平均筆畫數、最常見部件或部首等。

真有那麼好用嗎?舉個簡單的例子。這星期在網海裡找到中國大陸教育部語言文字應用研究所公佈的"現代常用字部件及部件名稱",除了讚(or感)嘆對岸資料之豐富且容易搜尋外,該文件的附錄A"現代常用字部件構字數表"也讓我感到相當好奇。大家都知道正簡字的構型略有不同,因此部件也會有些出入,教正體字的老師沒辦法按該表直接判斷哪些部件在字群裡出現的次數和構字數多。於是轉了身問B大,想一窺漢字資料庫的能耐。真是不問則已,一問驚人,沒幾下就把下頭這個網站做了出來:

http://huayu.org/ftp/ehuayu/picpick/2011-02-24142837.png 

輕而易舉查知在20,890個字裡,"口"出現4506次,有3780字包含該部件,重要性不言可喻。各教材用字是否也如此?各中文測驗的用字情況呢?只要透過系統比對,馬上可以查知。

資料庫經過適當運用,可以立刻產出不同結果,讓教學及研究都能事半功倍。您還想到什麼樣更有創意的用途呢?