Frequency : yearly Doi Prefix : 10.36523/HERC ISSN : 2982-4737(Print) / 2982-4745(Online) Year of Launching : 2022 Publisher : Han-character Education Research Center, Dankook University Indexed/Tracked/Covered By :
An Attempt at Integrating Historical Sinographic Data into CHISE
MORIOKA Tomohiko
National Institute of Japanese Literature
;
;
Abstract
CHISE (CHaracter Information Service Environment) is an environment designed for character processing that does not rely on general-purpose character encodings. It does so by using a character ontology (the CHISE Character Ontology) that is based on labeled Directed Acyclic Graphs (DAGs) and describes a wide range of knowledge about characters in a machine-readable format. It can be said to function as a meta-system with respect to general-purpose character encodings such as Unicode, making it possible, for example, to locate the code point corresponding to a given Sinographic character glyph, or to describe the properties of characters that have not yet been encoded and enable them to be searched using those properties. In the CHISE Character Ontology, data curation for Sinographic characters has so far focused primarily on information related to characters themselves and to character encodings. However, in order to apprehend and describe Han characters appropriately, it is important to pay attention to changes that occurred over time in the conventional practices of the interpretive communities of people who read and wrote Sinographic characters. To this end, it is essential to collect examples of character forms used in different periods and regions and to link them to the character ontology. Moreover, while CHISE enables information on variant characters and related characters of a given Sinographic character to be described in a form that allows domain information and source references to be attached, providing concrete source evidence for the description of relationships among variant characters within this framework requires collecting usage examples from ancient character dictionaries and texts belonging to an array of genres, converting them into data, and representing them in a machine-readable form. This paper provides an overview of CHISE and, at the same time, describes an attempt to integrate into CHISE a range of related resources: (1) historical usage data of Sinographic character forms from the Hanzi Normative Glyphs (HNG) database; (2) data from displayed characters forms and annotations in ancient character dictionaries contained in the Integrated Database of Hanzi Dictionaries in Early Japan (HDIC); data on phonetic pronunciation of Sinographic characters and Chinese phonetics appearing in Japanese textual sources from the Heian and Kamakura periods onward, as recorded in the Database of Historical Sino-Japanese Readings (DHSJR); as well as data about characters from oracle bone script and the Sŏlmun haech’a | Setsumon kaiji | Shuowen jiezi 説文解字 held by the Institute for Research in Humanities, Kyoto University.
CHISE(문자 정보 서비스 환경, CHaracter Information Service Environment)는 라벨이 부여된 유향 비순환 그래프(Directed Acyclic Graphs: DAGs)에 기반한 기계 판독 가능 형식을 통해 문자에 관한 다양한 지식을 기술한 문자 온톨로지(CHISE 문자 온톨로지)를 활용함으로써, 범용 문자인코딩에 의존하지 않고 문자 처리를 수행하기 위한 환경이다. 이는 Unicode와 같은 범용 문자인코딩에 대해 메타시스템의 역할을 한다고 할 수 있으며, 특정 한자 자형에 대응하는 부호 위치를 탐색하거나, 아직 부호화되지 않은 문자의 성질을 미리 기술해 두고 그 성질을 활용하여 검색 가능하게 하는 등의 작업이 가능하다. CHISE 문자 온톨로지에서는 한자에 대해 주로 문자 자체와 문자인코딩에 관련된 정보를 중심으로 데이터 정비를 진행해 왔다. 그러나 한자를 적절하게 파악하고 기술하기 위해서는, 한자를 읽고 쓰는 사람들로 이루어진 해석 공동체의 양상과 그 규범 의식의 변천에 주목하는 것이 중요하다고 할 수 있다. 이를 위해서는 각 시대와 지역에서의 자형 용례를 수집하여 문자 온톨로지에 연계하는 작업이 중요하다. 또한 CHISE에서는 한자의 이체자 정보와 관련자 정보를, 그것이 놓인 도메인과 전거 정보를 부여할 수 있는 형태로 기술할 수 있도록 하고 있다. 그러나 이러한 틀을 활용하여 이체자 관계의 기술에 구체적인 전거 정보를 부여하기 위해서는, 고자서와 각종 텍스트에 나타나는 용례를 수집하여 데이터화하고 이를 기계 판독 가능한 형태로 기술할 필요가 있다고 할 수 있다. 본고에서는 CHISE에 대해 개설하는 한편, 「한자 자형 규범사 데이터세트」(Hanzi Normative Glyphs: HNG)의 역사적 한자 자형 용례 데이터, 「헤이안(平安) 시대 한자 자서 종합 데이터베이스」(Integrated Database of Hanzi Dictionaries in Early Japan: HDIC)의 게시 자형 데이터 및 고자서 주문(注文) 데이터, 「자료 횡단적 한자음·한어음 데이터베이스」(Database of Historical Sino-Japanese Readings: DHSJR)에 수록된 헤이안(平安) ·가마쿠라(鎌倉) 시대 이후 일본 문헌 자료에 나타나는 한자음 ·한어음 데이터, 그리고 교토대학교 인문과학연구소 소장 갑골문자와 설문해자(説文解字)의 데이터 등을 CHISE에 통합하려는 시도에 대해 서술한다.