Ⅰ. 서론
우리나라의 문헌을 대상으로 한 이체자 자형에 대한 대표 연구 성과로는 1913년 日本人 坪井九 馬三 敎授가 『三國史記』를 校訂하고 附錄으로 첨부한 「三國史記異體字類」가 단일 서종으로 이체 자를 연구한 시작이라 할 수 있다.1) 이후 1930년 실록편찬실에서 『고순종실록』을 편찬하면서 작성한 『正字俗字對照表』,2) 1945년 敬庵 金魯洙의 『字學考』,3) 1986년 中國文化大學의 金榮華 『韓國 俗字譜』,4) 1989년 유탁일의 『한국 문헌학 연구』5) 1993년 국립국어연구원의 『漢字 略體 調査硏究』,6) 1995년 이규갑의 「『三國史記』의 異體字 硏究」7) 등이 있다.
그러나 이러한 한국 문헌에서 사용된 이체자를 어떠한 방식을 통해 체계적으로 정리하여 유형화할 지에 대한 논의는 2006년 한국고전번역원에서 <이체자정보>시스템을 구축하면서부터이다. 그러나 이 과제는 한국고전번역원에서 생성된 자형만을 대상으로 한 것이고 1년의 단기과제로 종료되었으며, 이 후로 보완이나 추가 작업은 진행되지 못한 상태이다. 이후 2012년 KIRG(한국한자특별위원회)8)에서 <한국역사정보통합시스템>에 추출한 자형을 수록한 <유니코드한자 검색시스템>의 新出漢字를 대상 으로 IRG(Ideographic Research Group:국제한자특별위원회)9)에 제출하면서부터 본격적으로 방법을 제안하게 되었다.
Ⅱ. 연구배경
한국은 IRG에 신출한자를 제출할 때마다 한자의 폰트와 원문 이미지가 다르다는 이유로 어려움을 겪었다. 그 중 가장 큰 이유는 한국이 EXT_F 영역에 수록하기 위해 제출한 원시자료가 바로 <한국역 사정보통합시스템>을 구축하면서 새로 발견된 한자를 正字 형태의 폰트로 만든 <유니코드한자 검색 시스템>에 수록된 자형이기 때문이다. <유니코드한자 검색시스템>의 Glyph Image는 처음부터 정자 를 염두에 두고 폰트가 제작되었기 때문에 IDS(Ideographic Description Sequence) 역시 정자 형태로 구성되어 있다. 이러한 이유로 submission과 전거 이미지가 서로 다른 자형이 대부분을 차지하고 있어 국내 KIRG의 검토단계에서부터 아예 제출을 보류한 자형도 상당수 있었다.
그럼에도 불구하고 IRG에 제출하여 각국의 검토를 거치면 submission에 있는 자형과 전거이미지 간에 차이가 있기 때문에 제출된 자형 중 상당수가 철회 또는 보류되는 문제가 발생하였고, 그렇게 만든 이유를 계속해서 설명해야 했다. 상황에 따라 각국의 참석자가 모두 동의하면 통과가 되지만 소 수라도 이의를 제시하면 보류되거나 제출할 수 없는 상황이 발생하였고 그러한 과정이 반복되었다.
특히 IRG에 참여하는 각국의 위원들은 폰트 전공자, 한자 전공자 등 다양한 분야의 인원으로 구성 되어 있기 때문에 제출한자의 점 1개나 획 1개, 그리고 획의 방향과 길이에 대해서도 서로 다른 자형 으로 인식하는 사람들이 있었다.
이런 상황이 발생하면 IRG 의장은 기존에 제출한 폰트와 유사한 자형이 나타난 다른 전거를 찾아 서 제출하라고 요청하거나 폰트를 전거이미지와 동일하게 수정해서 다시 제출하라고 요청하였다. 이 러한 일이 해당 영역의 신출자를 제출할 때마다 반복되다 보니 한국은 신출자를 제출하는 과정이 순조 롭지 않았다. 특히 한국에서 제출한 문서가 필사본이어서 획의 명확하지 않거나, 목판본이지만 1회만 나와서 다른 글자와 비교할 수 없는 경우는 더욱 난항을 겪었다. 이러한 문제는 비단 한국만의 문제는 아니었지만 다른 나라들은 가능하면 전거이미지와 동일하게 폰트를 제작하였기 때문에 큰 문제가 되 지 않았다.
기존에도 이러한 문제를 해결하기 위해 자형의 통합과 분리에 관련된 한자통합규칙과 실제 사례를 정리한 UCV(Unifiable Component Variations List)가 이미 존재하였다.10) 2019년 문서에서는 한자의 유형을 다음과 같이 분류하였다.
-
a. 회전된 획/점의 차이
-
b. 두 획 또는 점의 교차 및 확장의 차이
-
c. 획의 접촉의 차이
-
d. 획의 접힌 모서리에서 돌출부의 차이
-
e. 구부러진 획의 차이
-
f. 획 끝에서 뒤로 접는 차이
-
g. 획 시작에서 악센트 차이
-
h. ‘지붕’ 수정의 차이
-
i. 추가 또는 축소된 획 또는 점의 차이
-
j. 기타
-
j-1. 단일 획 또는 분리된 두 획의 차이
-
j-2. 획의 상대적 길이의 차이
-
j-3. 유사한 모양의 통합
-
j-4. 서예 단순화의 차이11)
-
위의 문서에는 대항목 10개, 소항목 16개의 유형으로 나누어 각각 항목에 해당하는 408개의 사례 를 정리하고 그 아래에 해당 용례를 유니코드에서 찾아서 수록하였다.12) 2017년 문서13)의 S.1.6 Source separation rule에 나오는 예외조항에 해당하는 내용은 다음과 같다.
G-source: GB2312-80, GB12345-90, GB7589-87*, GB7590-87*, GB8565-88*, General Purpose Hanzi List for
Modern Chinese Language*
T-source: TCA-CNS 11643-1986/1st plane, TCA-CNS 11643-1986/2nd plane,
TCA-CNS 11643-1986/14th plane*
J-source: JIS X 0208-1990, JIS X 0212-1990
K-source: KS X 1001:2004 (previously KS C 5601-1989), KS X 1002:2001 (previously KS C 5657-1991)
위에서 언급한 소스는 한자를 CJK 유니코드로 통합할 때 각국이 기준으로 사용하던 한자이다. 이 소스에 대해서는 통합규칙에 적용시키지 않았다.14) 따라서 “CJK Unified Ideographs”에는 각국에서 사용하는 자형을 서로 다른 코드로 할당하였다. 또 ISO/IEC JTC1/SC2/IRG/(IWDS)에는 동일한 유형 으로 보이지만 어떤 자형은 “Disunified List Unified Examples”에 포함되어 있고, 어떤 자형은 “Disunified List”에 포함되어 있다. 따라서 이 자료는 새로운 자형을 기존의 자형과 비교하여 제출하 면서 기존 자형과 통합할 수 있는지 없는지를 참고하여 신출한자를 제출한다. 즉, 동일한 자형이지만 시기와 국가에 따라 다소 차이가 있고, 나라마다 정자의 기준이 다르기 때문에 만약 기존의 룰을 적용 하여 한국이 제출하는 신출한자의 유형화에 그대로 적용하는 데는 어려움이 있다.
이에 필자는 기존 UCV에서 동일한 자형이면서도 서로 다른 형태로 적용되어 혼란이 있는 유형과 통합하지 않는다고 되어 있는 유형 중에서 통합으로 볼 수 있는 항목들을 검토하였다.
2016년 IRG #46 베이징 회의에서 한국의 경우 제출 한자에 대해 <Normalization rule report form>을 작성해서 내면 그 룰에 따라 자형을 인정해주겠다고 제안하였다. 한국에서는 이후 몇 번의 국내 회의를 걸쳐 원칙을 정리하여 2017년 ROK Normalization Rules(V.1.0)의 목록 207종의 구건 유형의 목록을 작성하였고, 2018년 IRG #50 베이징 회의 때 “IRG N2303 KR Normalization Rules V1.2 (2018.5.21)를 통해 436종 1,948개 유형의 목록을 발표하였다.15) 이 작업을 계기로 한국에서는 유형화 규칙을 만들고 사례를 정리하여 異體字가 아닌 정자 형태로 자형을 유형화해서 제출할 수 있 게 되었다. 이후 지속적으로 작업을 진행하여 2023년에는 548종 2,507개의 유형으로 목록을 확대하였 다. 이것을 토대로 ‘한국이체자유형화’ 목록을 작성할 계획이다.
Ⅲ. 이체자 유형화 검토
유형화의 사전적 정의는 ‘공통되는 성질이나 특징에 따라 몇 개의 전형적인 틀로 분류됨’ 또는 ‘어 떤 성질이나 특징 따위가 공통적인 것끼리 묶여 하나의 틀에 속하게 되다, 또는 그렇게 하다.’이다. 다시 말해 한자의 유형화는 하나의 한자의 구조를 분석해서 유사하거나 공통적인 부분을 하나의 대표 형태로 통합하는 작업이라고 할 수 있다.
하나의 한자는 적게는 2개의 유형에서 많게는 50여 개의 유형으로 분류할 수도 있다. 그렇기 때문 에 이렇게 다양한 유형을 공통적 특징으로 묶어 통합하는 방식을 통해서 유형화를 진행한 것이다. 비 록 유형을 도식화해서 정리하는 것에 대해서는 회의적일 수 있으나, 이 또한 우리나라 이체자 연구의 심화를 위해 반드시 필요하다고 생각한다. 필자는 이와 관련하여 2019년부터 “한국문헌 소재 이체자 유형화 방안”이라는 주제로 연구를 진행하고 있다.
아래에서는 “Working Set 2015”에 제출한 한국한자에 대한 IRG의 코멘트에 대한 답변을 중심으 로 살펴볼 것이다.16)
1. 유형화의 사례
한국은 2015년 한국 고문헌에서 사용된 한자를 유니코드에 등록되지 않은 한자를 EXT_F에 등록 하기 위해 한자를 제출하였다. Working Set 2015에 제출한 의 자형에 대해서 IRG 검토결과 이 자형은 (
)와 통합하라는 의견이 제시되어 연기되었다.[postpone].
여기에 대해 KIRG는 “위의 내용은 한국이 KR NormRule을 작성 이전의 자료이기 때문에 원래 자형대로 폰트를 작성하였다. 이와 유사한 형태인 ‘窮-’가 KR NormRule_V.1.1b NO286-3에 수록 되어 있기 때문에 Comment의 내용을 수용하여
와 통합하기로 하였다.”라고 답변하였다.
IRG 검토항목 <6. Normalization>의 의 오른쪽을 鬲으로 유형화할 수 있지 않느냐는 질문에 대해서는 “이 유형은 KR NormRule_V.1.1b NO86-6에 의거하여 글립을 수정할 것이며,
의 오른 쪽의 䖍을 虔으로 유형화하여
의 형태로 수정할 것이다.”라고 답변하였다.
이 내용은 현재 <k2427_161_TMP09_KR_Norm_Rules_V1.6_20230819>의 “086(鬲)086-6”과 “292(虔)292-3”에 각각 수록되어 있다.
IRG 검토항목 <7. Comment>의 “오른쪽 憲에 점이 없는지 확인하세요. 점이 있는 출처가 있나 요?(Confirm right hand side 憲 does not have dot? Any sources with the dot?_”라는 질문에 대해서 는, “Does not have dot(점이 없다)”라고 답변하고, 추가로 “ 은 위의
와 유사한 형태이므로 유형화하여 의 형태로 수정하고 KR NormRule에 추가할 것이다.”라고 답변하였다.
이 내용은 현재 <k2427_161_TMP09_KR_Norm_Rules_V1.6_20230819>의 “291(憲)291-2”에 수 록되어 있다.
IRG 검토항목 <9. Other>의 “Original Glyph (with 歃) is OK.(원본 Glyph(歃 포함)는 괜찮습니 다.)”에 대한 질문에 대해서는, “ 역시 한국이 KR NormRule을 작성하기 이전의 자료이므로 원 래 자형대로 글립을 만들었으나 KR NormRule에 새로 추가하여 제안한 挿을 유형화에 의거하여 원래 자형인 揷으로 환원할 것이다. 한국의 古典DB에 이 룰을 적용하여 插-
, 鍤-
등은 각각 揷과 鍤으로 환원하여 한국의 古典DB에 반영되어 있다.”라고 답변하였다.
2018년 <CJK Working Set 2017 V2.0 KR Review comments>에서 “”를 “𣎒(U+23392)”로 Unifiable 하는 문제에 대해서도, 由와 田이 단독적인 자형을 다르지만 Normalization rule. N189-1에 의해서 유형화하였다.
2. 유형화의 문제점
위에서 이체자 유형화방안 당위성에 대한 언급했다면 여기서는 유형화를 하지 않았을 때 발생할 수 있는 문제점을 간략하게 살펴보겠다. 아래의 내용은 稟‧亶‧鬲 3종의 한자를 통해 이체자를 유형화하지 않고 문헌에 나타나는 자형을 모두 폰트로 제작했을 때를 만들어질 수 있는 글자를 추측한 것이다.
현재 유니코드에 稟이 포함된 자형은 39자이고, 禀이 포함된 자형은 18자이다. 2016년에 작성된 UCV 317에 근거하여 稟과 禀가 포함된 자형을 별도의 폰트로 제작한다면 적어도 39자 중 21개의 폰트가 새롭게 만들어질 수 있다. 물론 이 자형들이 고문헌에서 발견되었을 경우를 가정한 것이다. 그러나 고문헌에는 稟의 이체자 중에는 稟과 禀처럼 유형화된 자형 이외에 또 다른 형태의 이체자가 존재한다. 예를 들면 稟의 변화는 등으로 크게는 3종으로 분류할 수 있고, 자세 하게는 6종으로 분류할 수 있다. 亠의 異體는
변한
과
로 변한
2종, 가운데 回의 이체는
로 변한
1종, 아래 禾의 이체는 示로 변한
, 으로 변한
, 로 변한
종이 다. 현재 유니코드에 稟이 포함된 39개 한자에 위의 변화된 형태가 나타났을 경우 대략 663종의 이체 자가 추출될 가능성이 있다.
稟과 자형의 구조가 유사한 亶의 경우도 위의 亠, 가운데 回, 아래의 旦에서 변화가 일어나는데, 그 변화는 등으로 크게는 4종으로 분류할 수 있고 자세하게는 10 종으로 분류할 수도 있다. 만약 현재 유니코드에 亶이 다른 構件과 결합된 자형 79종의 한자가 모두 위의 형태로 고문헌에서 나타났을 경우 稟의 이체보다 훨씬 많은 790건의 이체자가 추출될 가능성이 있다.
鬲의 변화는 등 크게는 3종으로, 자세하게는 13종 으로 분류할 수 있다. 현재 鬲이 포함된 유니코드는 234종이므로 위의 분류를 기준으로 했을 때 고문 헌에서는 약 3,042종의 이체자가 추출될 가능성이 있다.
위에서 언급한 稟, 亶, 鬲 3종보다 이체의 유형이 더 많은 자형이 존재한다는 것을 감안할 때 한자 의 유형화는 불가피한 선택이라고도 할 수 있을 것이다. 물론 고문헌에 나타난 자형을 있는 그대로 폰트로 만들고 코드를 부여하는 것도 여러 가지 측면에서 의미가 있다고 하겠다. 특히 해당 국가의 시기별·문헌별 이체 자형을 연구하기 위해서는 매우 중요한 기초 작업이라고 할 수 있다. 그러나 세계 여러 나라 사람이 컴퓨터와 인터넷에 사용하는 유니코드에 포함되는 한자를 만들기 위한 작업이라면 문제가 달라진다고 생각한다. 그렇기 때문에 이렇게 문헌에 나타난 모든 자형을 폰트로 만드는 작업이 필요한지에 대해서는 회의적이다.
만약 유형화를 거치지 않은 상태에서 위에 언급한 유형에 해당하는 이체자가 모두 고문헌에 존재 한다고 한다면 새로운 폰트를 만들고 코드를 부여해야 한다. 이 과정에서 유사한 필획의 모양을 어떻 게 폰트로 제작할 것인지를 확정하기 위해서는 결국 그 속에서 또 다른 유형화가 필요할 수도 있다고 생각한다. 이 때문에 고문헌에 있는 원래 자형대로 폰트를 제작할 때 역시 세심한 검토가 필요하다.
Ⅳ. 결론
이상에서 검토한 한자 유형화 규칙이 한국의 국가표준이 되고 안 되고는 차치하고, 고문헌에 있는 자형을 생긴 그대로 폰트를 제작한다고 가정했을 때 어떤 자형은 새로 폰트를 만들고 어떤 자형은 폰트를 만들지 말아야 할지에 대한 가이드라인의 기초자료로 활용된다면 그것만으로도 의의가 있을 것이다. 이 연구는 유형화 대상의 자형을 일목요연하게 정리하여 신출자를 제출하는 과정에서 부딪치 는 어려움을 줄이는 데 효과적인 방법이라고 생각한다. 그러나 궁극적으로는 자형을 정리하여 폰트를 제작하는 데 있어서 최선의 방법은 아닐 것이다.
아울러 이 연구가 한국문헌에 나타난 자형의 역사를 부분적으로 확인하는 계기가 될 수 있다는 점과 동시에 차후 한국의 한자자형의 표준화를 진행할 때 한국에서 사용한 자형으로 대표자를 정하는 하나의 근거로 사용될 수 있을 것이다. 특히 조선시대 문인의 학문이 축적된 문집을 통해 자형의 변화 와 자형 및 구건을 정리하는 것은 역사적 의미가 있다고 생각한다.
지금도 한쪽에서는 전통적인 인문학 분야에서 AI를 통한 데이터 가공 연구가 활발하게 진행되고 있다. 하지만 그러한 연구도 텍스트로 입력할 수 없는 영역에 대해서는 아직까지도 결국 인간의 노동 력을 요하는 작업으로 남아 있다. AI가 고도로 발전한 시대가 오더라도 기본적인 데이터는 인간에 의 해서 가공되어 제공되고 검토가 필요한 만큼 이 분야의 기초연구로의 의미가 있다고 하겠다. 추후에 이에 대해서는 한자학, 언어학 전공자와 유관 학회 및 기관 등이 건설적인 논의를 통해 체계적으로 정리하는 시기가 오기를 바란다.