학술지 검색
Download PDF Export Citation Korean Bibliography PMC Previewer
ISSN : 2672-1902(Print)
ISSN : 2672-1341(Online)
International Han-character Education Research Vol.3 No.1 pp.59-77
DOI : https://doi.org/10.36523/HERC.2020.3.1.59

A Study on the Current Status and Improvement of Han Characters(漢字) Datasets in Korea

Woojeong Kim*, Youngmi Park**
*Professor, Dankook University(檀國大學漢文教育系教授) / E-mail: rtoran@dankook.ac.kr
**Research Professor, Dankook University(檀國大學東洋學研究院研究助教授) / E-mail: pdoma@hanmail.net
20200911 ; 20201014 ; 20201030

Abstract


This paper examines the current status and problems of the Han character datasets in Korea and suggests the direction of improvement. Han character dataset is very important as basic information of East Asian classical humanities research and utilization, including Han characters and Chinese literature. However, many problems were found due to the uniformity of the data set construction method and poor management system, and the value of utilization was greatly reduced due to poor connection and compatibility between datasets. As a way to solve this problem, it was suggested that efforts should be made to standardize datasets and improve quality while establishing a specialized committee and a comprehensive management system for the provision of Chinese character attribute information.



한국 한자 데이터셋의 구축 현황과 과제

진 위정*, 박 영미**

초록


본고는 한국의 한자 데이터셋 구축 현황과 문제점을 점검하고 그 개선방향을 제안한 것이다. 한자 데이터셋은 한자학과 한문학 등 동아시아 인문고전학 연구 및 활용의 기초정보로 매우 중요 하다. 하지만 데이터셋 구축방법의 통일성과 관리체계의 부실로 인한 문제점이 다수 발견되고 있으며, 데이터셋 간의 연계 및 호환도 잘 이루어지지 않아 활용가치가 크게 떨어짐을 확인하였다. 이를 해결하기 위한 방안으로 한자 속성정보 규정을 위한 전문위원회와 종합관리시스템을 구축하 는 한편, 데이터셋 표준화 및 품질 제고를 위한 노력을 지속적으로 해야 할 것을 제안하였다.



    Ⅰ. 導 言

    漢字是東亞知識信息的基礎。 因此系統地整理漢字信息, 構建漢字數據系統是奠定東亞人文 學研究和使用的基礎。 漢字數據系統不僅可以用於特殊學科領域, 例如不同時期和地區使用漢字 情況的研究, 出版和印刷文化研究以及對古文獻的研究;還可以用於知識行業, 例如漢字字體生 成, 字符識別以及通過AI技術進行的機器翻譯。 選定代表字形, 調查使用頻率, 同時掌握兩者之 間的關系, 可以大大提高以人類經驗和直覺爲依據編寫的字典和詞典的水平。

    但是未經加工的, 就是說非整理的漢字數據沒有信息價值, 因此, 爲了具備信息的價值, 需要 對漢字數據進行加工。 這就是爲什麼要進行整理或進行處理(即數據加工)使其具有信息價值的原 因。 數據加工是指提取並構造圖像, 照片, 音頻文件和文檔文件等非結構化數據的特徵, 並將其轉 換爲數字化的結構化數據。 然而現有的漢字數據存在一個問題, 即它不具有用作數字數據的價值。 本文旨在研究這些問題並提出補救措施, 同時也將雖同屬於漢字文化圈, 但與從不同方向構建起 漢字數據系統的日本作爲參考。

    Ⅱ. 韓國的漢字和漢文資料數據加工情況

    漢字隨着時代, 地域, 書寫習慣的不同, 其字體和字形存在很多不同。 以韓國爲例, 在復刻或 抄寫來自中國的書籍的過程中, 出現新的字形或字體, 也會出現創建一個新的字形並自行使用的 情況。 另外, 在複刻或抄寫的情況下, 一直存在混用的情況。 如使用了當時流行的字形和字體, 根 據複刻者或抄寫者的喜好選擇的字形, 由於複刻者或抄寫者的錯誤而導致誤刻或誤寫的字形等。 隨著時間的推移, 這些誤刻和誤寫的字也被視爲“正字”或“異體字”。

    像這樣存在多種異體字形的情況對使用漢字的東亞國家來說是共同面對的問題。 爲了解決這 個問題大家一直在不斷努力。 但是對於韓國來說。 在對十幾個世紀以來作爲主流文字的漢字, 還 沒準備好整理的方法, 就迅速轉換成只使用韓文, 以致現在在漢字的標記及信息處理過程中出現 了各種問題, 並處於難以收拾的局面。

    21世紀以來, 韓國先後建立了一批以“韓國古典綜合數據庫”爲首的“歷史信息綜合系統”, “韓 國學數字檔案館”等與漢字相關的數據庫。 由於其重點放在數據的收集和檢索上, 因此將其用作 信息處理的元數據存在一定的局限性。 韓國在建立這些數據庫時並沒有充分考慮將其作爲各種研 究的基礎資料, 同時未能做好充分的准備和設定合理的方向及建成後的使用方案。 在這樣的情況 下就進入了“整理工作”, 所以可以認爲這些只是使用價值不高的一次性數據庫。

    韓國漢字信息數據庫的代表有“韓國歷史信息綜合系統Unicode漢字檢索系統”和“韓國古典綜合DB 異體字信息”。 此外還有“韓國學數字檔案漢字字形典據”(http://yoksa.aks.ac.kr/jsp/hh/Directory.jsp?gb=1), “韓國學資料中心吏讀用例詞典”(http://kostma.aks.ac.kr/dic/dicMain.aspx?mT=A), “Naver數字漢字 詞典和韓國漢字語詞典”(由檀國大學東洋學研究院提供)等。

    以“unicode漢字搜索系統”(http://www.koreanhistory.or.kr/newchar/)爲例, 其具備23個項目的信 息並能對新出漢字臨時添加統合代碼, 並以位圖圖像的形式提供新出漢字的搜索結果。 新出漢字 一旦被最終登錄, 參與機構就會將最終確定的結果反饋到各機構的各種DB上。 這時根據各機構 的情況, 可以在DB文件內插入或通過拼字標記位圖圖像。

    “Unicode漢字搜索系統”雖然能提供相當龐大的文獻及圖像資料, 但其並未及時修正建立數據 庫過程中發生的錯誤, 而且還存在許多沒有整理的資料, 因此不能說是全面的, 系統性的數據庫。

    [表 1]是“Unicode漢字檢索系統”中顯示的2015年11月當時所提供的漢字領域和數量。 從表中可 知, 從KC00001到KC07355共收錄了7,360個新出漢字, 但實際上可以檢索的範圍只到KC09936, 也就 是說存在2,581個字的誤差。 另外, 還存在一些標有代碼卻無法被檢索到的漢字(例如KS00300)等, 由 此看出該數據庫管理不善。

    信息通訊部從2000年開始推進的“知識信息資源管理項目”從現代意義上可以說是韓國古代典 籍信息化的正式開端。 根據信息化所必需的文字代碼的數量和種類可判斷其成敗。 如以古代典籍 爲例, 能否輸入所有文字, 即能否在不因技術問題而改變字形的情況下輸入原本是關鍵所在。

    在建立“Unicode漢字搜索系統”時, 大部分瀏覽器可以支持的漢字代碼是Unicode擴張漢字A(ExtensionA) 領域。 爲了能輸入原字形, 即使想要使用Unicode擴張漢字B領域的漢字, 使用者在沒有瀏覽器或其他 應用軟件的支持時, 只能使用Unicode擴張漢字A領域內的漢字, 或是必須以相同的字進行置換或以 圖像, 拼字等方法進行處理。

    2015年Windows10問世後, 這一限制才得以解除。 到Unicode規定的擴展漢字E領域爲止, 幾乎所 有Unicode領域的漢字都可以被輸入1)。 因此, 原本需轉換成同樣的字或用圖像處理的漢字也可以 通過Unicode進行處理。 但是建立初期以後, 再沒有采取改进措施, 因此一直處於閑置狀態。 另外, 即使用Unicode進行處理, 也要同時建立屬性信息才能提高其使用價值。 但目前對這些方面不加 以關注也是問題。 隨著Unicode擴張漢字領域的擴大, 需要解決的漢字屬性信息也會持續增加, 因 此要盡快重整運行體制, 以便及時掌握與此相關的屬性信息。

    漢字的屬性信息除了出處信息(data resource屬性信息)以外, 還包括漢字的個別屬性信息。 屬 性信息除了形, 音, 義等基本信息外, 還包括總筆畫數, 部首, 剩餘筆畫數, 部件, 部件的組合方式, 五筆字型, 四角號等字形信息。 “unicode漢字檢索系統”已具備以下23個漢字屬性信息字段(field)。

    但是由於漢字學方面的研究非常薄弱, 甚至存在很多連字形, 字音, 字義等基本信息都沒有掌 握的研究事例。 以字音爲例, 在80,388個Unicode登錄的漢字中, 沒有音值信息或需要重新研究的 漢字達到了35,000多字2)

    實際上, 我們使用最多的軟件“한글(Hangeul)”可輸入的漢字音是27,469個, 而Ext.B以下的漢字 字音都沒有(CJK領域有20,891個, ExtA領域有6,578個)。 早在2004年, 在Ext.B領域中就已經確定 了17,211個字的字音, 但其並沒有反映在該軟件中。

    “Hangeul”都存在這樣的情況, 其他應用軟件的情況則更可想而知。 只要比較一下Unicode所支 持的搜集漢字個別信息的Unihan數據庫中, 有關音值的專欄中包含的各國音值信息的數據情況就

    HERC-3-1-59_P1.gif

    Ⅲ. 日本的漢字和漢文資料數據加工情況

    明治維新以後, 日本爲了實現近代化和學習近代知識, 展開了廢除漢字的運動。 但另一方面又 掀起了漢學新熱潮, 相繼出版了多種漢文書籍和字典。 因此爲了有效地推進現代教育的發展, 政 府當局公布了有限數量的“漢字”和標准漢字字體, 以供教育和公眾使用, 同時可以反映時代的要 求和風俗, 並持續努力到今天。 因此可以說日本對漢字和漢字字體的修訂以及由此產生的資料已 經具有了語言史上的意義。

    數字化之前的資料是日本近代的漢文政策和漢文文化的產物。 其頂峰是始於1917年, 在1943 年發行1卷, 2000年完成補充版的≪大漢和辭典≫。 該詞典目前被用於處理日本漢字字體數據庫 的屬性信息。 2000年以後日本的漢字數據庫相關情況如下。

    1. “漢字信息數據庫”和“通用電子信息交換環境整備項目”, 經濟產業性委托課題

    日本在2002年以成立電子政府爲目標, 發表了“e·Japan重點計劃一2002”。 該計劃包含文字信息 及代碼整理等相關內容, 旨在解決現有的文字代碼規格(JIS X0208, JIS X0212)難以處理的人名, 地名, 法人名等問題。 政府爲了解決這一問題啟動了“通用電子信息交換環境整備項目”, 其針對對 象是總務省的居民基本賬簿網絡統一文字21,000字, 法務省的戶籍統一文字55,000字, 法務省的登 記統一文字67,000字, 在判定同字和別字的基礎上, 建立了添加JIS X O213(國內規格)和ISOAEC  10646(國際規格)的文字編碼信息, ≪大漢和辭典≫字符號碼等屬性信息的“IPA文字情報基盤整 備事業(https://mojikiban.ipa.go.jp/)”。

    2. 漢字字體規範史數據庫(漢字字体規範史 データベース, Hanzi Normative Glyphs(簡稱HNG), http://www.hng-data.org/)

    石塚春通以查明各時代, 各地區漢字字體的標准及其標准在各時代, 各地區的變遷爲目的, 曆 經20多年, 以79種文獻爲基礎, 整理了50萬個用例, 做≪漢字字體資料≫。 漢字字體規範史數據 庫是根據≪漢字字體資料≫建立的數據庫。

    2000年前後, 在北海道大學語言信息學講座的共同努力下, 石塚的≪漢字字體資料≫被建成數 據庫並通過網絡公開。 該數據庫使用紙片卡影像和文本處理的方式, 還在文本化工作中使用了JIS 漢字, UCS漢字, 大字典番號, 大漢和辭典番號。

    此後, 2004年東京外國語大學將其更名爲“漢字字體規範數據庫”, 該數據庫根據“每個時代和 地區存在的漢字字體標准”, “每個時代和地區存在的漢字字體標准變化”, “漢字字體的標准與文 獻的性質, 屬性相關”的原則, 將焦點放在了展示檢索結果上。

    從[圖4]中可以看出, 第一行是中國寫本, 第二行是中國版本, 第三行是日本寫本和版本, 第四 行是韓國寫本和版本, 第五行是中國周邊寫本和版本, 分別按年代順序排列, 第六行則是字書的 用例。 爲了體現“漢字字體的標准與文獻的性質, 屬性相關”, 將異體率高的非標准文獻和異體率 低的標准文獻按左右位置排列以表現出其差異3)

    之後又重新更名爲“漢字字體規範史數據庫”並延續至今。 該數據庫將包括敦煌文獻在內的唐 代以前的中國古寫本和奈良, 平安時代日本的古寫本進行比較研究。 初唐的標准字體被引進爲日 本的標准字體, 並可以細致地提供被記載的定型信息。 開城石經的字體通過宋版被采納, 由此對 揭示與初唐的標准字體不同的字體被確立爲新的規範字體做出了巨大貢獻。

    “漢字字體規範史數據庫”是將“漢字字體規範史數據信息”中公開的漢字字形從原本中剪出再 和元數據相加而組成的。 由於難以持續公開數據信息, 在確定開放數據庫本身對安全公開數據是 有效的情況下, 於2018年開放了該數據庫。

    3. 拓本文字數據庫(http://kanji.zinbun.kyoto-u.ac.jp/db-machine/imgsrv/takuhon/)

    “拓本文字數據庫”是2004年京都大學人文科學研究所以漢代至民國初期的拓本資料爲對象建 立的龐大的文字畫像數據庫。 數據庫的構成條件是“拓本畫像數據庫”, “專門的釋文數據庫”, “漢 代至清代的文字數據庫”, 特爲此開發了名爲ttext-kanbun的文字摘錄工具。 該數據庫以搜索爲基 本目的, 搜索結果按時代順序逐字通過圖像展現出來。

    4. 木簡庫(http://mokkanko.nabunken.go.jp/ja/) 

    木簡庫是以研究所有出土文字資料的研究據點——奈良文化遺產研究所進行調查和整理的木簡 資料(共25萬個, 約占日本總數的70%)爲基礎建立的數據庫。 因爲要橫著寫木簡的釋文, 因此很難掌 握木簡資料和文字之間的有機關系。 爲解決這個問題, 特此開發了木簡釋讀支持系統“Mokkanshop”, 還接著編制了木簡文字圖片數據庫“木簡字典”並於2007年開放。

    此外, 還在2011年編制發布了“木簡人名數據庫”。 該數據庫注明了出土地點信息, 並與木簡字 典進行了鏈接, 還與“日本古代研究文獻目錄數據庫”建立了連接搜索系統。 它著重於與外部數據 庫的連接, 實現了奈良文化遺產研究所與東京大學史料編輯中心之間的鏈接搜索4)。 “木簡庫”是 將以上木簡數據庫和木簡文字圖像數據庫, 木簡字典整合後將檢索窗口設爲一體的數據庫。

    5. 電子崩字(庫茲西吉)字典數據庫(電子くずし字字典データベース, http://clioapi.hi.u-tokyo.ac. jp/ships/ZClient/W34/z_srch.php)

    東京大學史料編纂所從1984年開始建立“歷史信息處理系統”(Siryohensansho Historical Information Processing System 簡稱 SHIPS)。 以編纂歷史史料爲目的而設立的SHIPS, 編制了史料目錄DB, 史 料全文本DB, 索引DB, 編年DB等多種DB, 並設計爲可通過通用字體進行綜合維護和運用。

    崩字(庫茲西吉)字典數據庫是通過現有系統積累數據的方式, 將歷史史料圖像設置爲數字檔案, 並參考了各DB模塊。 在收藏史料目錄DB或Union Carlog DB中檢索收集的史料後將以圖像形式 呈現, 並可以啟動專用登錄系統。 這時可在登錄頁面上指定想要登錄的字形, 並可依次輸入和字形 相對應的文字和語句信息。 如果是輸入單字的情況, 則可通過文字代碼自動添加音讀, 訓讀, 附注 等信息。 同時還可以在收藏史料目錄DB或Union CatalogDB上自動登錄和史料有關的元信息如史 料名, 史料集名, 收藏處, 出處, 和曆等。 此外, 可以根據需要輸入特定史料的專有信息和指定開放 權限的安全代碼等。 如此隨著輸入環境的變化, 文字代碼也從SHIFT-JIS變更爲了UTF85)

    在這項工作的基礎上, 2000年開始進行電子版庫崩字字典數據庫的開發, 並於2006年正式發布。 該 數據以日本史史料中從奈良時代到江戶時代初期的102種史料集爲對象, 旨在收集字形圖像數據信息。 除單字外也將詞彙作爲采錄對象, 並明確標示了字形圖像的出處, 且具備可參考相似字形的功能。

    此外, 在2019年還開放了收藏在國文學研究資料館中的日本古代典籍崩字數據庫(http://codh.rois.ac.jp)。 該數據庫包含4328種字形數據及1,086,326個字, 同時還致力於手寫文字識別(OCR)的研究開發。 該 數據分爲原本修正圖像數據, 文字坐標數據, 字形圖像數據。 原本修正圖像數據是便於對除日本古 代典籍數據外而開放的圖像進行翻刻處理, 文字坐標數據是爲記錄在原本修正圖像數據上圍繞文字 的長方形坐標, 文字的Unicode, 文字ID等。 字形圖像數據是在原本修正圖像數據上適用文字坐標數 據後提取出圖像, 由此爲閱覽每個文字種類的字形提供方便。 此外, 還將難以辨別的字形數據原 封不動地記錄下來, 編制爲“難以辨別的文本數據”後, 在添加附帶信息文本數據及難以辨別的文 本數據中, 建立了相當於翻刻原本圖像版面的電子版“翻刻文本數據庫”6)

    6. 木簡·崩字解讀系統(MOJIZO:Image matching search for mokkan or cursive characters, https:// mojizo.nabunken.go.jp/)

    MOJIZO是由東京大學史料編纂所和奈良文化遺產研究所共同開發的數據庫。 該數據庫連接了 木簡庫和電子版崩字字典數據庫。 該數據庫可以對需檢索的圖像進行解析, 並能在國家文化遺產研究 所收藏的木簡中的字體, 字形以及東京大學史料編纂所收集的古文書籍, 古代記錄, 典籍類中的字形, 字體中找出相似的文字圖像。 對於無法讀取的文字, 該系統則可以通過鏈接尋找出相似的文字。

    總而言之, 從日本的漢字數據庫可以看出, 從企劃階段開始, 日本就特別留意建立成能夠實現 數據間的互換和連接的數據庫, 甚至對數據資源都進行了細致的整理。 此外還可以看出日本在利 用AI進行自動文字讀取, 將≪大漢和辭典≫等詞典數據和推測難讀字的搜索相連接等實用性較高的 功能方面都傾注了不少努力。

    HERC-3-1-59_P2.gif

    HERC-3-1-59_P3.gif

    Unicode網站提供的漢字綜合信息Unihan DB中, 將這些屬性信息如表6所示進行了分類。

    該數據庫中不僅包括各國提交的字形信息, 還包括檢索信息和代碼信息, 部首和筆畫信息, 讀 音和字義信息, 異體字信息等所有項目, 今後可以作爲組成韓國漢字數據庫標准方案的參考。

    目前檀國大學東洋學研究院通過學校項目資金支持, 正以多種形式收集, 整理在Unicode未注冊 的漢字中的韓國固有漢字(除了韓國漢字以外, 還包括部分韓國音, 韓國義漢字)。 但是由於難以確 認已建成的數據庫的數據資源, 且難以追查已變化的數據來歷, 因此從數據的收集到建立過程需要 多次進行反複的工作。

    另外, 漢文教育研究所還開發了利用Mask-RCNN算法自動識別漢字的系統, 並通過該系統正 在建立把韓國歷代文獻中的3億以上的漢字按字形, 字體分類整理的數據庫。 雖然與更早地開發漢 字識別技術並進入高階化階段的中國和日本相比, 韓國已經晚了很多。 不過韓國正在減少試錯過 程, 快速追趕。 但在韓國國內對分類整理中所必需的代表字, 字音, 構件標示方式等幾乎沒有研 究, 因此目前我們正處於制定各項規範的過程。

    爲解決這些困難, 應盡快建立優質的漢字數據庫。 優質的漢字數據庫不僅可以用於韓國學及東 洋學領域的研究, 還可以提高古籍資料DB的質量, 提高機器翻譯的使用價值。 另外, 基於文字識別 技術的漢字字體圖像數據自動生成技術及通過該技術制作的多種漢字字體, 通過使用擴展現實(XR) 技術的漢字學習, 開發手機漢字搜索應用程序等, 都需要高質量的數據庫才能完全實現。

    Figures

    HERC-3-1-59_F1.gif

    韓國古典綜合DB異體字信息檢索結果的頁面

    HERC-3-1-59_F2.gif

    異體字信息 “典故檢索”提供的出處資料頁面

    HERC-3-1-59_F3.gif

    石塚紙片卡:開成石経論語按照≪大字典≫(1920)的字體, 石塚制作了紙片卡進行整理和安排, 把資料的字剪下並添加在卡片上, 並記錄了部首號碼, 用例數等。

    HERC-3-1-59_F4.gif

    把“所”字在HNG上進行檢索的結果 (https://search.hng-data.org/search/%E6%89%80)

    HERC-3-1-59_F5.gif

    “漢字字體規範史數據庫”中統計異體字比率結果截圖

    Tables

    對unicode漢字搜索系統提供的漢字按照領域別分類

    新出漢字DB字段內容

    References

    1. Bae Eunhan 裴銀漢, Kim Woojeong 金愚政, Cho Sungduk 趙成德, Heo Chul 許喆, Joo Soung-il 朱星一. 韓國漢字音標准化方案研究. 韓國古典翻譯院企劃研究課題最終報告書, 2016.
    2. Heo Chul 許喆. 漢文資料加工現狀和指向探索. 第一屆INDI學術大會發表資料集. 檀國大學漢文教育 研究所, 2020.
    3. Inoue Satoshi 井上聡. 東京大學史料編纂所「電子くずし字字典データベース」の概要と展望. 情報の 科學と技術 65 (2015): 176-177.
    4. Takada Tomokazu 高田智和. 漢字字體と典籍の性格との関係―「漢字字體規範データベース」が主張 するもの―. 研究報告人文科學とコンピュータ, 2013.
    5. Watanabe Akihiro 渡辺晃宏. 出土文字資料の畫像データベースの構築. 奈良文化財研究所年報 (2012): 54-55.
    6. https://www.nijl.ac.jp/pages/cijproject/images/kuzush iji-specification.pdf(「くずし字データセット」デー タ作成(基本仕様)).
    7. https://mojizo.nabunken.go.jp/(木簡 ·くずし字解讀系統).
    8. http://mokkanko.nabunken.go.jp/ja/(木簡庫).
    9. http://clioapi.hi.u-tokyo.ac.jp/ships/ZClient/W34/z_srch.php(電子くずし字字典データベース).
    10. http://kanji.zinbun.kyoto-u.ac.jp/db-machine/imgsrv/takuhon/(拓本文字數據庫).
    11. http://db.itkc.or.kr/dch/(韓國古典綜合DB異體字信息).
    12. http://www.koreanhistory.or.kr/newchar/(韓國歷史信息綜合系統 Unicode 漢字檢索系統).
    13. http://yoksa.aks.ac.kr/jsp/hh/Directory.jsp?gb=1(韓國學數字檔案漢字字形典據).
    14. http://kostma.aks.ac.kr/dic/dicMain.aspx?mT=A(韓國學資料中心吏讀用例詞典).
    15. http://www.hng-data.org/(漢字字體規範史數據庫).
    1. SEARCH
    2. 온라인 투고 시스템

      (Online Submission)

    3. 한문교육연구소

      (Institute for Han-Character
      Education Research)

    4. 편집부
      (Editorial Office Contact)

      - Tel: +82-31-8005-2661
      - E-mail: iher_dku@outlook.com