七、缺字處理

CBETA 經文數位化工作流程

七、缺字處理

CBETA 以「BIG5(大 五碼)」加上「組字式」作為記錄缺字的基礎。

使用一般組字式來表達佛典缺字的方法,是考量使用者能在純文字環境下閱讀,不需另外安裝造字檔或圖檔而設計的,這種方式提供了閱覽、散播上的便利性,也不會佔用使用者對造字檔自行運用的空間。

該組字法含「*」、「/」、「@」、「-」、「+」、「?」六個半形基本符號,及「()」、「[]」兩組半形分隔符號。

舉例說明如下:

符號

說明

範例

*

表橫向連接

明=日*月

/

表縱向連接

音=立/日

@

表包含

因=囗@大 或 閒=門@月

-

表去掉某部分

青=請-言

-+

若前後配合,表示去掉某部分,
而改以另一部分代替

閒=間-日+月

?

表字根特別,尚未找到足以表示者

背=(?* 匕)/月

( )

為運算分隔符號

繞=組-且+((土/(土*土))/兀)

[ ]

為文字分隔符號

羅[目*侯]羅母耶輸陀羅比丘尼

 

記錄缺字後,並將缺字相關資訊,包括注音、筆畫、部首、通用字、Unicode…等建構成漢文佛典缺字資料庫(圖十五)。

 

圖十五、缺字資料庫畫面

圖十五、缺字資料庫畫面