全漢字檢索系統-ACCESS

今年除了在台灣華語文教學年會當卡麥拉桑在各演講室穿梭外,也順便跟在B大後頭發表了一個硬湊出名字的全漢字檢索系統:ACCESS。它的全名叫Advanced Chinese Character Electronic Search System,至於為什麼要這麼叫?最近許多和華語文教學相關的真正國家級大計畫都會有一個很的縮寫,基於輸人輸陣輸光光但還是要取個漂亮名字的原則下,讓大家可以自由存取、取用、取出…whatever的ACCESS系統就誕生了。

這是什麼碗糕?對華語文數位教學有什麼幫助?基於當前不讀書不寫paper做再多事都不算頂尖的前提下,先引用學者專家的論著,說明我們為什麼要做它:

葉德明(1990)指出學習漢字的最佳策略即利用字素符號作為記憶術,直接擷取其意符線索以記憶符號。學習者都可以先記住圖形符號,然後學習聲符部分,如此,學習漢字就成為容易且有趣的課程了。 

黃沛榮(2005)認為漢字教學策略應:先認識收字最多而重要的部首先學寫構字較活躍的部件先學會構詞率較高的字

陳奕全、葉素玲(2009)的研究表示部件本身可單獨成字,具有讀音與字義(如「楓」中的「木」與「風」)。在習字的階段多先以形體簡單且具象的獨體字(如「木」)做為入門練習直到精熟,之後再教導與其他部件組合成不同的字。

 

當字頻相當,但部件的組字數不同時,學習者對具有高組字數部件的字反應較快(Feldman and Siok, 1997)

結合部件與結構資訊,將可加快文字的處理流程。例如「楓」的部件為「木」、「風」、結構為「左右結構」。此輸入單元上傳至字形層次後,再進一步激發字音層次及意義層次。結果顯示,只須輸入部件的形體及位置關係,便可完成後續的字音及字義的處理。(Perfetti , 2005)

部件的錯覺組合現象,顯示出這些字的部件表徵先被激發。(ex:「核、討、該」=>村  )( Fang and Wu, 1989)

 

簡單的來說,當老師們拿到一則課文或自己撰寫發展了一套教材後,先教學生寫哪些單字不一定得看課本上生字的出現順序,從字素,也就是有意義的部件開始教,可以讓學生更容易學習更多的漢字。

這下問題就來了。從以前到現在,大家忙著為漢字、詞彙分等級,一整篇文章哪些是高組字數部件,構字率高?總不能一個一個算。為了方便老師們分析自己的教材,ACCESS再度展示「科技始終來自於人性」、「效率最終來自於科技」的特性,老師們只要直接在網頁上張貼教材內文,系統便能自動檢索、分析課文字詞,並統計教材或課文的部件資訊、生詞來源、漢字資訊等內文量化元素,透過B大得意的演算法,立即取得整篇文章的量化資料,以為教學或教材編輯的參考依據。無論您主張字本位或詞本位,只要將文章貼上,系統會立刻將裡頭的字拆光,並根據TOCFL詞表提供詞彙建議。

ACCESS提供二種主要功能:

1.漢字查詢:

http://huayu.org/ftp/ehuayu/picpick/2011-11-02100218.png

目前提供 35,841 個漢字的相關資訊,包含部首、筆劃、結構、部件、注音(含破音)、拼音(含破音)。除了基本資料外,ACCESS也提供漢字部首字圖片,目前共建置 7,870 字部首字圖;除部首字圖外,也提供漢字筆順字圖片,目前共建置 3,578 字。這些圖片都另外有高解析度版本,若您有教材製作或開發需求,歡迎留言洽詢。由於我們沒有經費,更只有少少的人力,這些圖片增加得可能不夠快,但每天仍會持續增加,希望有機會做到查詢不破圖的程度。 Continue reading

藉語音轉文字跟電腦說中文

語音辨識,或語音轉文字技術發展到現在,在行動裝置普及的加持下,已經愈來愈堪用了。例如我現在在手機上,常常偷懶用說的方式「打中文」:
http://huayu.org/ftp/ehuayu/picpick/speech_to_text_android.png 
常用詞彙的辨識率已經沒什麼問題,比起一個字一個字打方便許多。既然這麼方便,一般的蒐尋、短訊息甚至輸入,是否能用語音的方式取代呢?我想問題應該不大,所以有了以下的測試:

沒錯,用說的也行!可惜在網路上暢「說」無阻目前只支援Chrome這套瀏覽器。如果您用的是Chorme,可以直接到這裡下載語音輸入套件,安裝至Chrome後,所有的文字輸入欄位就會出現麥克風小圖示:

Continue reading