학술지 검색

권/호 :

연도 : to

검색 :

제목 :

저자 :

주제어 :

초록 :

그림 :

표 :

참고문헌 :

검색 상세 검색

Adode Reader(link)

Download PDF Export Citation Korean Bibliography PMC Previewer

ISSN : 2982-4737(Print)
ISSN : 2982-4745(Online)

Journal of Applied Studies on Sinograph and Literary Sinitic Vol.2 No.1 pp.101-129
DOI : https://doi.org/10.36523/HERC.2023.2.101

Directions for Improving the Vocabulary Matching Tool and Data of the Institute for Han-Character Education Research for Tokenizing Classical Chinese Texts

Shin Yunsoo^*, Kim Dami^**, Choi Solip^***

^*First Author, Researcher, Institute for Han-Character Education Research / E-mail: ddolbe13@gmail.com
^**Co-author, Researcher, Institute for Han-Character Education Research / E-mail: ekalshsans@naver.com
^**Co-author, Researcher, Institute for Han-Character Education Research / E-mail: csi9137@naver.com

Received 20231129 ; Review 20231215 ; Accepted 20231222

Abstract

This paper was written to discuss the problems and directions for improvement of the vocabulary data by operating a specialized vocabulary matching tool currently under development at the Institute for Han-Character Education Research, affiliated with Dankook University. The vocabulary matching tool developed by the Institute for Han-Character Education Research is ultimately intended for tokenizing classical Chinese texts, and the matching of special vocabulary can be considered the first step in tokenizing the entire text. By comparing the results of running this vocabulary matching tool with the automatic markup of MARKUS, the strengths and weaknesses of the matching tool and its data were analyzed, and directions for addressing the problems identified in this process were proposed. The vocabulary matching tool of the Institute for Han-Character Education Research, being specialized for classical Chinese texts, is expected to play an important role and contribute to the tokenizing of classical Chinese texts in the future. However, it currently requires several enhancements. Firstly, there is a need to add data on Korean-specific place names and personal names. The current data is mainly focused on Chinese vocabulary, resulting in a shortage of Korean-specific vocabulary. This issue could be resolved by constructing additional vocabulary data. Furthermore, it is necessary to solve issues such as the matching of aliases.

Key Words : Vocabulary data , Tagging , Matching , Markup , Digital humanities

한문 고전 토크나이징을 위한 한문교육연구소 어휘 매칭 툴과 데이터 개선 방향

신윤수^*, 김다미^**, 최솔잎^***

^*단국대학교 한문교육연구소 연구원 / E-mail: ddolbe13@gmail.com
^**단국대학교 한문교육연구소 연구원 / E-mail: ekalshsans@naver.com
^***단국대학교 한문교육연구소 연구원 / E-mail: csi9137@naver.com

초록

본고는 단국대학교 부설 한문교육연구소에서 개발 중인 특수 어휘 매칭 툴을 구동시켜 어휘 데이터의 문제점과 개선 방향을 논의하기 위해 작성되었다. 한문교육연구소 개발 어휘 매칭 툴은 최종적으로 한문 고전 텍스트를 토크나이징(Tokenizing) 하기 위한 것이며, 특수 어휘의 매칭은 전체 텍스트를 토크나이징을 하기 위한 첫 단계라고 할 수 있다. 이 어휘 매칭 툴 실행 결과를 MARKUS 자동 마크업과 비교함으로써 매칭 툴과 그 데이터의 장단점을 분석하고, 이 과정에 발견된 문제점에 대해 보완할 수 있는 방향을 제시하였다. 한문교육연구소 어휘 매칭 툴은 한문고전에 특화된 도구로서 중요한 역할을 할 수 있으며, 앞으로 한문 고전의 토크나이징 에도 기여할 것으로 기대된다. 하지만 현재 상태에서는 여러 가지 보완이 필요하다. 우선, 한국 고유의 지명과 인명 데이터를 추가할 필요가 있다. 현재 데이터는 주로 중국의 어휘에 집중되어 있어 한국 고유 어휘가 부족한 상황이다. 추가 어휘데이터를 구축함으로써 해결할 수 있을 것으 로 보인다. 또 별칭의 매칭 문제 등을 해결할 필요가 있다.

키워드 : 어휘데이터 , 태깅 , 매칭 , 마크업 , 디지털인문학

This article has been cited by 0 article in crossref

Cited-By

Funding:

Ⅰ. 서론

본고는 단국대학교 부설 한문교육연구소(이하 한문교육연구소)에서 개발 중인 특수 어휘 매칭 툴 을 구동시켜 어휘 데이터의 문제점과 개선 방향을 논의하기 위해 작성되었다. 한문교육연구소는 2021 년부터 한국연구재단의 지원을 받아 “인공지능 기반 데이터 처리기술을 활용한 한문고전 지식 구조화 연구”라는 이름의 프로젝트를 수행하고 있다. 프로젝트의 일환으로 개발된 어휘 매칭 툴은 최종적으로 한문 고전 텍스트를 토크나이징(Tokenizing) 하기 위한 것이며, 특수 어휘의 매칭은 전체 텍스트를 토크나이징을 하기 위한 첫 단계라고 할 수 있다.1)

토크나이징은 자연어처리에서 문장을 의미 있는 토큰 단위로 분할하는 과정이다. 이는 텍스트를 컴퓨터가 처리할 수 있도록 하는 필수적인 전처리 단계이다. 일반적인 자연어처리에서 토크나이징은 가장 먼저 수행되어야 할 기초적이고 중요한 작업이지만, 한문 고전은 그 언어가 가진 특수성으로 인 해 토크나이징을 수행하는 데 어려움이 있다. 이에 새로운 방법론을 제안한다.

한문 고전은 형태소(morpheme)의 대부분이 한 음절로 구성된 단음절어(monosyllabic language)일 뿐만 아니라 性･數･格에 따른 굴절 현상도 없고 통사적･의미적 관계가 주로 어순이나 조사로 표시되 며, 더 이상 사용되지 않는 死語라는 특수성을 가진 文言文이다. 그럼에도 BERT, RoBERTa, DeBERTa 등을 기반으로 한 사전 학습 모델이 개발되어 사용되고 있지만, 오랜 시간 동안 축적되고 다양한 문체를 지닌 한문 고전 텍스트를 분석하는 데에는 한계가 있다.

본고는 일반적인 자연어처리 순서와 달리, 문장 내에서 특수 어휘를 특정하여 매칭하는 방식을 가 장 먼저 수행하고자 한다. 이에 사전 데이터에서 추출한 어휘에 인명, 지명, 건축 등의 분류값을 부여 하여 인덱스 데이터로 삼고, 그 어휘를 문장 내에서 특정할 수 있는 툴을 개발하였다. 이러한 매칭 툴을 활용하여 각종 장르의 문장에 특수 어휘를 태깅하고, 그 결과를 MARKUS 자동 마크업과 비교함 으로써, 특수 어휘 매칭 툴과 그 데이터의 장단점을 분석하고자 한다. 이 과정에 발견된 문제점에 대해 보완할 수 있는 방향을 제시하고자 한다.

Ⅱ. 한문교육연구소 어휘 매칭 툴과 어휘 데이터

1. 어휘 매칭 툴

한문교육연구소 어휘 매칭 툴을 구동하기 위해서는 두 가지 파일이 필요하다. 첫 번째는 분석 대상 이 되는 파일인 ‘Analysis File’이며, 두 번째는 텍스트 내의 특수 어휘를 식별하는 데 사용되는 ‘Index File’이다. 이 파일은 사용자의 로컬 컴퓨터에 저장되어 있어야 하며, 툴에서 직접 import 하면 된다. 파일의 형식은 xlsx를 지원한다.

인덱스 파일은 한문교육연구소에서 수정･분류 작업을 통해 구축한 어휘 데이터가 기본으로 사용되 었다. 사용자가 구축한 어휘 데이터 또한 형식에 맞게 재가공하면 툴에 활용 가능하다는 점이 장점이 다. 따라서 인덱스 파일은 사용 목적에 따라 증감이 가능하며, 계속해서 데이터를 추가할 수 있다. 분 석 파일은 사용자가 태깅하고 싶은 텍스트를 sample_data 형식에 맞게 정보를 재구성해야 한다. sample_data 형식은 다음과 같다.

각 칼럼명은 고정값으로 임의대로 변경하면 툴이 구동되지 않는다. 그러나 각 칼럼에 들어가는 내 용은 정해진 형식 없이 자유롭게 입력할 수 있다. ID는 사용자가 정의한 고유값을 매겨주면 되며, TITLE 역시 텍스트의 제목 등을 기입한다. 여기서 중요한 것은 TEXT로, 실제 사용자가 매칭하고 싶 은 텍스트가 들어가야 한다. 행을 추가하여 필요한 만큼의 데이터를 넣을 수 있다. RESULT와 WORD 칼럼은 모든 매칭을 완료하고 얻은 파일에 채워질 것이다.

이렇게 데이터 세팅이 완료되면 분석 탭을 클릭하여 툴을 구동시킨다. 툴이 정상적으로 작동하면 아래와 같은 ‘dialog’ 창이 활성화된다.

예시의 문장은 고리점으로 문장이 구분되어 있는데, 매칭하는 데에 문제되진 않으나 고리점으로 구분하지 않으면 하나의 문장으로 인식한다. 인덱스 파일 내의 데이터가 분석 파일의 단어와 매칭되 면, 사용자가 필요한 어휘를 드래그하면 매칭이 된다. 필요한 모든 어휘를 매칭했다면 [최종 확인] 탭 을 누른다. 매칭이 필요한 만큼 이 과정을 반복한다.

매칭을 완료하고 [최종 확인] 탭을 누르면 아래와 같이 특수 어휘가 매칭된 파일을 얻을 수 있다. 앞서 sample_data에서 공란이었던 RESULT와 WORD 칼럼이 채워진 것을 확인할 수 있다. RESULT 에는 사용자가 선택한 어휘들에 ‘[단어]{설명}’식으로 주석이 달린 텍스트가 출력된다. WORD는 사용 자가 태깅한 단어들의 목록이다. 결과 파일 또한 xlsx 파일로 저장되기 때문에 엑셀에서 필요한 데이 터 형태로 가공하기 용이하다.

2. 한문교육연구소 어휘 데이터

한문교육연구소 어휘 매칭 툴의 어휘 데이터(2023년 12월 기준)는 ‘漢韓大辭典’2)에 수록된 표제 어휘를 대상으로 하였다. 본래 한한대사전은 일러두기에서 밝히고 있는 바와 같이 자전과 사전을 겸한 책으로, 표제자와 함께 첫 글자가 되는 표제 어휘들을 아래에 수록하고 있다. 그러나 한문고전 토크나 이징을 위한 특수 어휘의 매칭이라는 목적 아래 표제자 즉, 단음절의 어휘는 우선 제외하였다. 상술한 바와 같이 한문고전의 특수성을 고려한 것이다. 그리고 인력을 투입하여 표제 어휘와 내용을 일일이 확인하고 명사에 한정하여 분류값을 매겼다. 명사 가운데서도 물질/비물질, 구상/추상 개념을 아우르는 ‘물명’에 한정하였으며, 보통명사를 제외한 고유명사를 위주로 종류를 특정할 수 있는 명사도 포함하 였다. 어휘 분류 기준표는 아래와 같다.

16개의 대분류 아래 31개의 세부 분류(인명, 단체, 연호, 지명, 국명, 종족, 건축, 관청, 기관, 서명, 편명, 작품명, 음악, 그림, 금석, 문서, 관직, 동물, 식물, 광물, 기물, 복식, 음식, 약제, 병증, 천문, 법제, 의례, 풍속, 춤, 화폐)를 두었다. 그밖에 특정 분류값을 부여할 수 없는 일반명사 등을 제외하는 작업 역시 진행하여 총 149,152개의 어휘를 확정하였다. 이 분류된 어휘를 활용하여 달성하고자 하는 목표 는 문장 내 특수 어휘를 매칭하여 문장의 성격을 파악하는 데 있다. 이를 통해 문장 간의 비교를 수행 할 수도 있다. 이를테면 인명이 많이 등장하는 문장의 특징을 발견하거나, 매칭 어휘가 전혀 없는 문장 과 많이 등장하는 문장의 비교도 가능할 것이다.

Ⅲ. 매칭 툴 실행과 MARKUS 자동 마크업과의 비교

이 장에서는 실제 텍스트 데이터를 가지고 한문교육연구소 어휘 매칭 툴과 MARKUS3) 자동 마크 업을 실험함으로써 각각의 실행 결과와 툴의 장단점을 확인하고자 한다. 분석 대상으로는 일반 산문, 역사 문헌, 관각문을 선정하였다. 이러한 다양한 성격의 텍스트를 분석한다면 여러 분야와 문장에 대 한 키워드 추출에 기여할 것이며, 나아가 이 과정을 통해 어휘 데이터의 부족한 점을 파악하고, 이를 보완하는 데 필요한 방향을 제시할 수 있을 것이다.

MARKUS는 자동 태깅 플랫폼으로, 중문 사료에 초점을 맞추어 설계한 도구이다. De Weerdt, Hilde와 何浩洋이 공동 개발하였고, 정식 명칭은 ‘古籍半自動標記平’이다. 아래는 MARKUS의 메 인화면이며, 영어, 중국어, 한국어를 지원한다. MARKUS 플랫폼의 설명에 따르면 ‘중국 및 한국 텍스 트에 출현하는 개체(entities: 姓名, 別名, 年號, 地名, 官名 등)을 자동적으로 태깅할 수 있다.’라고 하였다.

MARKUS 자동 태깅을 위해서는 일반 텍스 파일을 업로드 하거나, 태깅하고 싶은 텍스트를 직접 붙여넣으면 된다. UTF-8로 인코딩 되어 있어야 한다. 태깅 옵션에는 자동 태깅/수동 태깅/키워드 태깅 이 있으며, 원하는 작업을 선택할 수 있다.

‘자동 태깅’에서는 성명, 지명, 연호, 관명 등이 자동 태깅된다. 중국과 한국 고전 텍스트를 태깅할 수 있는데, 중국의 인명과 관명, 지명의 태깅에 필요한 인덱스 파일은 중국 역대 인물전기 데이터베이스 (中國歷代人物傳記資料庫)(CBDB)와 중국 역사 지리정보시스템(中國歷史地理信息系統)(CHGIS) 및 대만 역사지명(臺灣歷史地名)(TWGIS)를 바탕으로 한다. 한국 텍스트 태깅에 필요한 인덱스는 다양 한 DB를 활용하였다. 먼저 한국 역사 인물의 인명(성명, 자, 호 및 별칭)을 태깅하기 위한 인덱스 파일은 한국역대인물 종합정보시스템4), 한국민족문화대백과사전5)을 기반으로 한다. 한국 지명을 태깅하기 위 한 인덱스 파일은 한국민족문화대백과사전과 東輿圖6)이다. 관직명의 태깅은 조선왕조실록7) 및 조선왕 조실록 사전8)에 근거하였다. 마지막으로 서명은 한국민족문화대백과사전, 한국문집총간9), 그리고 조선 왕조실록 사전을 토대로 하였다.

중국 및 대만 인덱스 데이터에 대한 분류값은 인명은 姓名(fullName), 別名(partialName)으로, 지 명･국명･건축은 地名(placeName)으로, 관직 내지 관청명은 官名(officialTitle)으로 설정하였다. 연호 는 時間(timePeriod)에 포함되어 있는데, ‘OO年OO月OO日’과 같이 날짜를 표시하는 구절을 추출하 는 기능을 포함하고 있다. 한국 인명은 KPerson, 지명･국명･건축은 KoreaPlace, 관직 내지 관청명은 KOfficialtitle, 서명은 KBook으로 설정하였다. 수동 태깅은 사용자가 직접 텍스트에 태깅하는 것이다. 파일을 업로드한 후 처음부터 직접 태깅을 하거나 자동 태깅을 실행한 뒤에 결과물을 수정할 수 있다. 자동 태깅과 수동 태깅 모두 명칭이 같아 중복으로 태깅될 경우 원하는 키워드의 직접 선택이 가능하 다. 키워드 태깅은 사용자가 태깅하고 싶은 키워드 리스트를 업로드하거나 플랫폼에 직접 입력하여 텍스트 파일에서 관련된 정보를 탐색, 추출할 수 있다.

MARKUS에서는 위와 같은 방식으로 태깅을 시행하고, 이를 다양한 형식으로 ‘내보내기’ 할 수 있다. HTML 형식이나 태그값을 TEI 규정에 맞게 XML 형식으로 내보내기가 가능하고, 또 태깅된 어휘들만 따로 EXCEL, CSV, TSV 등으로 산출이 가능하다.

다음 부분에서는 각기 다른 문체의 텍스트를 대상으로 MARKUS의 자동 마크업과 한문교육 연구 소의 개체명 매칭 툴을 사용하여 분석한 결과를 순서대로 검토하겠다.

1. 일반 산문

김정희의 일반 산문 實事求是說, 與趙雲石, 雜誌의 일부, 金孝子旌閭頌, 論小學書 총 5편 2,007자를 대상으로 분석을 진행하였다.

1) MARKUS 자동 마크업

MARKUS 자동 태깅을 수행한 결과이다. 총 1,452개의 태깅값을 얻었다. 실제 유효한 어휘는 이보 다 훨씬 적다고 할 수 있다. 한 어휘에 여러 개의 분류값을 매긴 경우(智元, 闕文 등)나 불필요한 어휘 (文字 등)에 태깅된 경우, 심지어 잘못 태깅된 경우(王時, 北二 등)도 존재한다. 따라서 유효한 태그 결과를 얻기 위해서는 후처리가 필수적이다.

2) 한문교육연구소 어휘 매칭 툴

%인명: 陸王, 堯舜, 禹湯, 鄭王, 程朱, 眞平王(2), 眞智王(2), 居漆夫(4), 法藏, 子澄(3), 趙師淵, 東萊(3), 魯齋.

%관직: 大等(8), 馮相
%천문: 二十, 星張, 翼軫, 箕昴, 六星, 建罰, 狼弧, 八宿, 金星
%지명: 醴泉, 咸興, 北漢山(3)
%서명: 藝文志, 爾雅, 孝經
%편명: 時訓解, 弟子職
%국명: 兩宋

이 과정에서 연구자가 매칭되길 기대한 어휘는 총 132개이다. 분류값별 통계와 매칭되길 기대한 어휘를 나열하면 아래와 같다.

%인명: 老莊, 陸王, 堯舜, 禹湯, 文武, 周孔, 孔子, 鄭王, 程朱, 朱陸, 薛王, 眞興太王, 眞興王, 眞興, 眞平王, 眞智王, 居漆夫, 法藏, 子澄, 趙師淵, 東萊, 魯齋.
%관직: 大等, 伊飡, 馮相
%천문: 翼軫, 鬼張, 狼弧, 八宿, 井鬼, 金星
%지명: 醴泉, 咸興, 北漢山, 草芳院, 南川, 比列忽
%서명: 史記, 淮南子, 小學, 藝文志, 爾雅, 孝經, 漢書
%편명: 河間獻王傳, 爾疋, 時訓解, 弟子職, 曆書, 爾雅, 幼儀, 少儀
%작품명: 釋天
%국명: 晉宋, 兩宋, 新

한문교육연구소 어휘 매칭 툴은 직접 원하는 어휘를 선택하여 매칭하기 때문에 시간과 공력의 소 모가 크지만 매칭 어휘의 정확도가 높다는 장점이 있다. 또 일견 매칭 어휘의 개수가 적어 성능이 떨어 져 보일 수 있으나, MARKUS 자동 마크업에 비해 매칭 기대 어휘의 정확도가 높다. 여기에서도 고증 이나 논증하는 글에서 자주 등장하는 %인명, %지명, %관직을 MARKUS 자동 마크업에 비해 정확하 게 매칭할 수 있었다. 다만 편지글에서 쓰이는 %인명의 다양한 표기는 매칭하는 데 어려움이 있었다. 또 일반적인 %서명을 매칭하지 못하는 점을 미루어 볼 때 데이터의 양이 부족하다고 추측할 수 있다.

2. 역사문헌

역사 문헌 분석의 대상으로는 조선 정조대(正祖代)에 지방의 인재들을 대상으로 시행된 특수 과거 인 ‘빈흥과(賓興科)’의 책문(策問) 5종을 선정했다. 정조는 빈흥과에서 시험 과목으로 책문을 출제하 였는데, 이는 일반적인 정치 담론이나 현안이 아니라 해당 지역과 관련된 주제에 초점을 맞췄다. 빈흥 과 책문은 그 대상이 각 지방이니만큼 각 지역과 관련된 인물과 지명(명승지) 등이 텍스트에 포함되어 있다. 또한 정조는 책문을 작성할 때, 모범적인 인물과 고사 등을 자주 인용하였기 때문에, 이는 특수 어휘 태깅에 있어 적합한 사료라고 판단하였다. 책문에 해당하는 지역은 강원도(2건), 제주도, 함경도, 전라도이다.

이 사료에서 연구자가 매칭되길 기대한 어휘는 총 256개이다. 분류값별 통계와 매칭되길 기대한 어휘를 나열하면 아래와 같다.

%인명: 博望侯, 箕子, 眞平王, 翼成公, 柳琳, 堯, 舜, 禹, 伊尹, 成湯, 郭隗, 毛遂, 平原, 東方朔, 漢武, 祁奚, 謝安, 韋貫之, 解狐, 荊伯柳, 舅犯, 虞子羔, 曹參, 蕭何, 趙文子, 淳于髡, 齊宣王, 公叔, 僎, 子桑, 孟明視, 灌夫, 韓安國, 孔光, 張安世, 山簡, 孫抃, 沂公, 伯淳, 昌黎, 太上老君, 文昌佑, 芮悉弗, 文林, 辛雄, 晁生, 管子, 元凱, 叔子, 權近, 張保臯, 劉仁軌, 楊元, 朱子
%종족: 濊貊, 女眞
%지명: 關東, 江原, 嶺湖, 沿海, 朔方, 畿邑, 湖縣, 蒼海, 扶桑, 暘谷, 未老里, 觀音窟, 花川, 義館, 天寶, 雙成, 大浦, 萬瀑, 鐵嶺, 白頭, 靑鶴, 金剛, 永郞, 原州, 蔚珍, 酒泉石, 天糧穴, 淸平, 孝悌鄕, 柏田, 悉直, 西湖, 鄧城, 崑山, 濟水, 濟州, 東瀛洲, 耽羅, 大靜, 旌義, 耽津, 乇羅, 耽牟羅, 浮羅嶽, 首山坪, 三姓之穴, 三神, 寒門, 塞澤, 積冰, 委羽, 玄岳, 渤澥, 長白, 立巖, 鴨綠, 混同, 伊板, 豆乙, 朔方, 溟州, 雙介, 黃草, 白雲, 鐵關, 雲田, 黑石, 赤島, 斡東, 王樂, 李盛, 三水, 先春, 訓戎, 眞珠池, 風流山, 豆滿江, 烏曷巖, 德灘, 福州, 漆沮, 赤池, 豐沛, 有邰, 平林, 西岐, 湖南, 豐, 羅里舖, 七山, 蝟島, 咸悅, 沃溝, 龍安浦, 礪山, 羅州, 淸海, 帶方, 光陽, 河東, 潭陽, 金城山, 長城, 笠巖山, 碧骨, 金馬, 赤裳, 蛟龍, 八良峙, 邊山, 莞島
%관직: 星主, 王子, 左右都知管, 牧使, 節制使, 判官, 監牧都尉, 塔羅赤
%관청: 達魯花赤府, 軍民安撫府, 哈蘭府, 濟民倉, 得成, 聖堂倉, 羅巖倉, 榮山倉, 常平倉
%천문: 老人星, 南極, 玄枵, 箕尾
%서명: 職方, 地藏, 周禮, 齊諧, 經國, 續典, 湖南漕轉, 欽恤典則
%국명: 三韓, 泰封, 蘂國, 九韓, 新羅, 流求, 扶南, 耽浮羅, 夫餘, 涉羅, 百濟, 胡元, 句驪, 周
%법제: 辟召, 貢擧, 薦剡, 擧擬, 大同法
%건축: 寒松, 烏竹, 火串, 蒙羅, 沛宮, 萬歲, 靈公, 童巾
%금석: 文殊
%기물: 狐白
%그림: 王會
%광물: 瑪瑙

이를 MARKUS 자동 마크업과 한문교육연구소 어휘 매칭 툴 구동 결과와 비교해보면, MARKUS 자동 마크업은 약 47.88%, 한문교육연구소 어휘 매칭 툴은 대략 35.16%의 정확도를 보였다. 이어서 각각의 어휘 매칭 결과를 살펴보겠다.

1) MARKUS 자동 마크업

MARKUS 자동 마크업 실행 결과, 모두 653개의 태깅값을 얻었다. 이 값은 중복된 태깅값을 포함 하며 중복 데이터를 제거하면 560개의 유일한 값으로 정리된다. 그러나 이는 자동 태깅된 결과값이므 로 자동 태깅의 오류를 수정해야 더 정확한 결과를 얻을 수 있다는 것을 인지해야 한다. 실제 문장 내에서 쓰인 어휘들만 뽑아보면 유효한 결괏값은 총 118개로 정리된다. 빈흥과의 책문을 돌려봤을 때 의 MARKUS 자체적인 정확도는 약 18% 정도로 낮다.

구체적인 내용을 살펴보면 5종의 책문 텍스트에서는 중국과 한국의 어휘 데이터들이 모두 태깅되 었다. 중국측 데이터로는 인명(별명), 지명, 관명, 시간 등이 태깅되었으며, 한국측 데이터로는 인명, 지명, 관직명, 서명 등이 태깅되었다. 이 가운데 한국 인명보다 중국 인명이 더 많이 태깅되었다는 점 은 주목할 만하다. 반면 지명의 경우에는 중국 지명보다 한국 지명이 더 많이 태깅되었다는 점을 확인 할 수 있다. 한문교육연구소 어휘 데이터의 분류 기준을 따랐을 때, 인명은 23개, 지명은 65개, 서명은 5개, 관직은 9개, 국명은 6개, 건축은 4개, 법제 2개, 그림, 천문, 관청, 종족은 각각 1개가 매칭되었다. 매칭된 어휘 리스트는 다음과 같다.

%인명: 柳琳, 伊尹, 郭隗, 謝安, 韋貫之, 蕭何, 宣王, 安國, 孔光, 張安世, 孫抃, 太宗, 昌黎, 太上老君, 芮悉弗, 文林, 靈公, 辛雄, 管子, 元凱, 叔子, 權近, 劉仁軌, 楊元,
%지명: 江原, 滄溟, 朔方, 蒼海, 扶桑, 觀音窟, 花川, 天寶, 大浦, 鐵嶺, 白頭, 金剛, 江南, 原州, 酒泉, 蔚珍, 桃源, 柏田, 關東, 東海, 平原, 方朔, 西湖, 鄧城, 崑山, 濟水, 濟州, 瀛洲, 大靜, 旌義, 耽羅, 耽津, 天池, 長白, 混同, 溟州, 白雲, 鐵關, 雲田, 赤島, 斡東, 王樂, 李盛, 三水, 眞珠池, 風流山, 豆滿江, 烏曷巖, 蛟龍, 赤池, 湖南, 七山, 蝟島, 礪山, 羅州, 榮山, 光陽, 河東, 潭陽, 赤裳, 八良峙, 邊山, 莞島
%서명: 地藏, 欽恤典則, 齊諧, 周禮, 職方
%관직: 王子, 牧使, 判官, 監牧, 都尉, 審藥, 譯學, 達魯花赤, 星主
%국명: 三韓, 燕, 新羅, 夫餘, 百濟, 胡元
%건축: 寒松, 烏竹, 萬歲, 童巾
%법제: 薦擧, 蔭補
%그림: 王會
%천문: 老人星
%관청: 哈蘭
%종족: 女眞

2) 한문교육연구소 어휘 매칭 툴

한문교육연구소 어휘 매칭 툴에 책문 5종을 넣어 분석한 결과 이상과 같은 통계값을 얻을 수 있었 다. 인명, 종족, 지명, 관직, 관청, 천문, 서명, 국명, 동물, 법제, 단체 등 11개의 분류값이 산출되었으 며, 총 90개의 어휘가 매칭이 되었다.

%인명: 博望侯, 翼成, 伊尹, 東方朔, 韋貫之, 舅犯, 子羔, 趙文子, 齊宣王, 子桑, 孟明, 張安世, 孫抃, 伯淳, 昌黎, 辛雄, 管子, 元凱, 叔子, 權近, 劉仁軌, 猗頓, 朱子
%종족: 濊貊
%지명: 朔方(2), 蒼海, 關東, 濟州, 瀛洲, 耽羅(5), 大靜, 旌義, 耽津, 流求, 九州, 天池, 鴨綠, 混同, 斡東, 三水, 豆滿江, 北關(2), 湖南(3), 西岐, 蝟島, 咸悅(2), 沃溝, 龍安, 礪山, 帶方(2), 光陽, 潭陽, 金馬, 冀北
%관직: 貢擧, 星主(2), 右都知管, 審藥, 譯學
%관청: 濟民倉, 榮山倉
%천문: 玄枵
%서명: 雲笈(2), 欽恤典則
%국명: 濊貊, 扶桑, 九韓, 扶南, 夫餘, 百濟, 三代(2)
%동물: 驊騮
%법제: 大同法, 糶糴, 網稅
%단체: 三神

앞서 설명한 대로, 책문의 내용은 해당 지역과 관련된 내용을 주로 담고 있으므로 지명에서 가장 많은 특수 어휘가 매칭되었다. 예컨대 지명, 행정 구역 명칭, 산천의 이름, 명승지 등과 관련된 특수 어휘가 두드러진다. 이외에도 정조는 책문을 작성할 때 다양한 고사를 많이 활용하였으므로 역사적인 인물들이 많이 등장한다. 매칭된 인물들은 伊尹, 東方朔, 韋貫之, 舅犯, 子羔, 趙文子, 齊宣王 등 중국 인물들이 대부분이다. 이상과 같이 매칭된 특수 어휘들을 통해서 문장의 성격을 어느정도 가늠할 수 있다.

3. 관각문

조선 전기부터 정조 초까지 관각의 문장을 모아 엮은 ^『문원보불_』 소재 작품을 대상으로 살펴보고 자 한다. ^『문원보불_』에 수록된 작품은 크게 奏議類나 詔令類, 哀祭類 및 기타로 나눌 수 있다. 이에 따라 주의류에서는 箋, 表를, 조령류에서는 玉冊文, 頒敎文, 敎命文, 竹冊文, 敎書를 기타에서는 上樑文까지 총 44개의 작품(총 10,088자)을 대상으로 하였다. 애제류는 대부분 운문으로 되어 있어 함축 적 의미를 담은 어휘가 많을 것으로 예상되어 분석 대상에서 제외하였다. 관각문은 수신자에 대한 칭 송이나 평가가 주를 이루므로, 인명은 물론이고 그 대상을 상징하거나 비유하기 위한 어휘가 매칭될 것이라 예상된다. 또 상량문과 같은 문체에서는 건축이나 지명에 관한 어휘들이 매칭될 것이다. 이러 한 이유로 관각문을 분석 대상으로 삼았다. 실제 예시로 든 문장에서 매칭되길 기대한 결괏값은 총 206개의 어휘이며, 분류값별 통계와 매칭되길 기대한 어휘를 나열하면 아래와 같다.

%건축 : 考亭, 文廟, 東西廡, 七廟, 五廟, 淸廟, 閟宮, 茂陵, 太廟
%관직 : 府院君, 中樞院使, 簽書中樞院事, 右侍郞, 右議政, 司空, 司徒, 左史
%관청 : 都評議使司, 禮部, 議政府, 耆社
%국명 : 商, 周, 高麗, 朝鮮, 三代, 漢, 唐, 宋, 三朝
%기물 : 俎豆, 爼豆, 方澤, 籩豆, 龍輴
%단체 : 五臣, 五賢, 黃巾
%법제 : 付處, 代加
%병증 : 瘡痍
%복식 : 章甫
%식물 : 大椿, 烏號
%연호 : 洪武, 正德, 貞觀, 景泰
%의례 : 祈報
%인명 : 堯, 舜, 簡狄, 太任, 穆王, 孝妃, 翼王, 貞妃, 度王, 敬妃, 桓王, 懿妃, 至仁啓運聖文神武, 太祖, 貞嬪, 敬嬪, 恭愍王, 辛禑, 昌, 定昌, 世祖, 懿敬, 月山, 者山, 晉城, 趙琳, 韓尙質, 張智, 康獻, 圃隱, 滉, 文敬, 金宏弼, 文獻, 鄭汝昌, 領議政, 文正, 趙光祖, 文元, 李彦迪, 文純, 李滉, 靖康, 楊羅, 李黃, 文成, 文簡, 公伯寮, 荀況, 賈逵, 馬融, 王肅, 杜預, 何休, 王弼, 吳澄, 申棖, 申黨, 建寧, 胡安國, 張栻, 眞德秀, 蔡沈, 楊時, 文質, 羅從彦, 文靖, 李侗, 文肅, 黃幹, 李珥, 成渾, 宣廟, 李文成, 成文簡, 呂原明, 朱考亭, 皇甫仁, 安平, 瑢, 首陽, 李塏, 成三問, 朴彭年, 河緯地, 柳誠源, 朴仲林, 金文起, 信陵君, 文祖, 重黎, 后土, 后稷, 玄冥, 穆祖, 張老, 奚斯, 湯, 顯義光倫睿聖英烈, 至行純德英謨毅烈章義弘倫光仁敦禧體天建極聖功神化
%작품명 : 樛木, 鷄鳴, 麟趾, 閟宮
%지명 : 三韓, 喬桐, 東夷, 東土, 壽域, 東國, 海東, 河南, 河洛, 洙泗, 壽長, 蘭陵, 岐陽, 扶風, 任城, 偃師, 臨川, 文登, 淄川, 華陽, 蒲城, 崇安, 將樂, 靑丘, 中華, 龍灣, 浿水, 關右, 伊川, 谷山, 松壤, 三都, 蜀中, 駱山, 渭北, 蒙古, 濂洛關閩, 洙泗洛閩
%천문 : 宸極, 紫極, 辰北, 北辰
%편명 : 家人, 大誥, 多方, 周雅, 豳風

이를 MARKUS 자동 마크업과 한문교육연구소 어휘 매칭 툴 구동 결과와 비교해보면, MARKUS 자동 마크업은 50%, 한문교육연구소 어휘 매칭 툴은 59%의 정확도를 보였다. 차례대로 각각의 어휘 매칭 결과를 살펴보겠다.

1) MARKUS 자동 마크업

다음은 MARKUS 자동 마크업을 거친 후 매칭된 어휘들의 목록을 Excel 파일로 다운받아 간단한 통계를 작성하였다.

MARKUS 자동 마크업 실행 결과 총 1,142개의 결괏값을 얻었다. 중복으로 매칭된 값을 제거하면 785개의 어휘가 매칭되었다. 그러나 이는 ‘자동’ 마크업 작업 결과이므로 실제 문장 내에서 쓰인 어휘 들만 뽑아보면 유효한 결괏값은 총 103개에 불과하다. 한문교육연구소 어휘 데이터의 분류 기준을 따 랐을 때, 인명은 48개, 연호는 6개, 지명 및 국명은 25개, 관직 및 관청은 24개가 매칭되었다. 매칭된 어휘 리스트는 다음과 같다.

%인명 : 恭愍王, 金宏弼, 金文起, 度王, 杜預, 呂原明, 柳誠源, 李塏, 李文成, 李珥, 李滉, 馬融, 穆王, 穆祖, 文簡, 文敬, 文成, 文純, 文正, 文獻, 朴仲林, 朴彭年, 成文簡, 成三問, 成渾, 世祖, 世宗, 楊時, 吳澄, 王肅, 懿妃, 翼王, 者山, 張智, 貞妃, 鄭汝昌, 趙光祖, 趙琳, 眞德秀, 蔡沈, 太祖, 河緯地, 韓尙質, 胡安國, 桓王, 黃幹, 皇甫仁
%연호 : 景泰, 寶曆, 靖康, 貞觀, 正德, 洪武
%지명･%국명 : 蜀, 淄川, 高麗, 谷山, 喬桐, 岐陽, 東國, 駱山, 蘭陵, 臨川, 蒙古, 茂陵, 文登, 扶風, 三都, 三韓, 伊川, 任城, 朝鮮, 中國, 浿水, 河南, 海東, 華陽, 會稽
%관직･%관청 : 禁林, 大君, 大夫, 大臣, 大王, 領議政, 文廟, 府院君, 司空, 祠官, 世子, 侍郞, 右議政, 有司, 將帥, 儲副, 儲貳, 殿下, 左史, 中樞, 中樞院事, 簽書, 簽書中樞院事, 皇帝

중국의 인명, 지명 및 국명, 관직 및 관청, 연호를 산출하는 데에 있어서 한문교육연구소 어휘 매칭 툴을 통해 산출된 어휘보다 정확도가 높았다. 특히, 인명에 있어서는 한문교육연구소 어휘 매칭 툴에 서는 매칭되지 않았던 조선 역대 왕과 왕비의 廟號나 諡號도 매칭이 가능하고, 姓과 別名(字나 號)이 결합된 인명이나 姓과 지명 또는 건축명이 결합된 인명도 매칭이 가능하였다.

2) 한문교육연구소 어휘 매칭 툴

다음은 한문교육연구소 어휘 매칭 툴을 이용하여 어휘를 산출한 뒤의 모습과 어휘 통계 및 목록이다.

총 122개의 어휘를 산출하였는데, MARKUS 자동 마크업에 비해 매칭된 어휘 자체도 많을 뿐만 아니라 다양한 분류의 어휘를 매칭하였음을 확인할 수 있다. 매칭된 어휘 리스트는 다음과 같다.

%건축 : 七廟, 茂陵, 考亭, 文廟, 西廡
%관직 : 國本, 大君, 中樞院, 簽書中樞院事, 府院君, 祠官, 右議政, 領議政, 大夫
%관청 : 都評議使司, 禁林, 議政府
%국명 : 三韓, 中國, 朝鮮, 三代, 中朝, 高麗
%기물 : 方澤, 龍輴, 俎豆
%단체 : 黃巾, 濂洛, 洛閩
%법제 : 付處, 代加, 虎拜, 祈報, 佾舞
%병증 : 瘡痍
%복식 : 章甫
%서명 : 寶籙
%식물 : 大椿, 烏號
%연호 : 貞觀, 靖康, 景泰
%인명 : 湯武, 懿敬, 宣廟, 皇甫仁, 柳誠源, 顯義, 簡狄, 桓王, 恭愍王, 趙琳, 康獻, 圃隱, 文成, 金文起, 重黎, 穆祖, 懿妃, 辛禑, 文簡, 張老, 后土, 奚斯, 信陵君, 后稷, 原明, 玄冥, 文敬, 金宏弼, 荀況, 賈逵, 文獻, 馬融, 鄭汝昌, 杜預, 何休, 文正, 趙光祖, 申棖, 胡安國, 文元, 張栻, 文純, 眞德秀, 蔡沈, 文質, 文靖, 文肅
%작품명 : 樛木, 麟趾, 閟宮
%지명 : 東土, 東國, 大東, 壽域, 咸池, 蒙古, 喬桐, 浿水, 高城, 呼山, 伊川, 洙泗, 谷山, 蜀中, 會稽, 蘭陵, 扶風, 任城, 偃師, 文登, 華陽, 蒲城, 崇安, 將樂
%천문 : 宸極, 紫極, 辰極
%편명 : 周雅, 多方, 豳風

상술한 바와 같이 관각문은 수신자에 대한 칭송이나 평가가 주를 이루므로, 인명은 물론이고 그 대상을 상징하거나 비유하기 위한 어휘가 매칭될 것이라 예상하였다. 실제 매칭된 어휘를 살펴보면, 작품명, 편명, 천문, 식물에 해당하는 어휘들이 그렇다. 周文王의 왕비인 后妃의 덕을 찬양한 작품명 ^｢樛木_｣, ^｢麟趾_｣가 매칭되었는데, 작품명 자체로도 왕비의 덕을 상징하기 때문이다. 이외에도 왕의 자 리를 뜻하는 북극성과 여기에 속한 별 이름 宸極, 紫極, 辰極, 왕의 장수를 뜻하는 식물 大椿, 왕의 죽음을 뜻하는 식물 烏號와 같은 어휘가 매칭되었다.

Ⅳ. 결론 : 문제점 및 보완방향

이상으로, MARKUS 자동 마크업과 한문교육연구소 어휘 매칭 툴의 구동 결과를 비교해 보았다. 분석 대상으로는 일반 산문, 역사 문헌, 관각문 등 다양한 문체에서 특징적인 작품을 선정하여 작업을 진행하였다. 이 과정에서 몇 가지 문제점을 발견할 수 있었다.

먼저, 툴 실행에 있어서의 문제점이다. 첫째, 작업자의 편리를 위해 중간 저장 기능을 추가해야 한다. 둘째, 최종 결과물을 xml, csv, tsv 등과 같이 다양한 형식으로 출력할 수 있는 기능이 필요하다. 연구의 목적에 따라 다양한 형식의 데이터가 필요한데, 특히 xml의 경우 태그값을 보여주는 데 유용하 다. 마지막으로, 결괏값을 간결하게 확인하기 위해 디스크립션(설명) 없이 분류값만을 보여주는 형식 의 출력도 필요해 보인다.

다음은 인덱스 데이터의 문제점이다. MARKUS 자동 마크업이나 한문교육연구소 어휘 매칭 툴은 인덱스 데이터를 바탕으로 어휘를 매칭하므로 데이터의 양과 질에 따라 결과의 정확도가 영향을 받는 다는 한계가 있다. 따라서 각 툴의 구동 결과를 비교 분석함으로써 한문교육연구소 어휘 데이터의 개 선 방향을 논할 수 있을 것이라 예상하였다.

먼저, MARKUS 자동 마크업에서의 어휘 태깅은 각종 역사 자료에 근거한 데이터를 바탕으로 하 고 있어, 카테고리 자체가 많지 않아 다양한 어휘를 태깅하기에는 무리가 있다. 그러나 중국의 인명, 지명･국명･건축, 관직 내지 관청명, 연호, 서명을 산출하는 데에 있어서 한문교육연구소 매칭 툴을 통 해 산출된 어휘보다 정확도가 높다. 특히, 인명에 있어서는 한문교육연구소 어휘 매칭 툴에서는 매칭 되지 않았던 조선 역대 왕들의 묘호도 매칭이 가능하고, 姓과 別名(字나 號)이 결합된 인명이나 姓과 지명 또는 건축명이 결합된 인명도 매칭이 가능하였다. 이는 각 데이터들 간에 연결 관계가 설정되어 있다고 추측할 수 있다.

이에 반해, 한문교육연구소 어휘 데이터의 바탕은 ‘한한대사전’이다. ‘한한대사전’은 19세기 이전까 지의 동아시아 주요 문헌에 나타난 어휘를 통시적으로 망라하여 어휘에 대한 포괄성이 높다. 그렇기 때문에 16개의 대분류 아래 31개의 소분류(인명, 단체, 연호, 지명, 국명, 종족, 건축, 관청, 기관, 서명, 편명, 작품명, 음악, 그림, 금석, 문서, 관직, 동물, 식물, 광물, 기물, 복식, 음식, 약제, 병증, 천문, 법제, 의례, 풍속, 춤, 화폐)에 이르는 다양한 분류의 어휘 매칭이 가능하다. 그러나 ‘한한대사전’은 어휘 빈도를 고려하지 않고 사전 편찬자의 직관에 의존하여 제작된 것이므로, 실제 사용된 어휘와 표제 어휘의 간극이 존재한다. ‘한한대사전’을 데이터로 하여 어휘 태깅을 실시했을 때, 여러 가지 문제가 발생한다.

첫째, 표제 어휘가 절대적으로 부족하다. 예를 들면, 일반 산문에서는 金福奎, 眞興王 등의 한국 인명이 잡히지 않고, ^『小學_』, ^『漢書_』, ^『周禮_』 등의 서명도 잡지 못했다. 역사 문헌에서는 雙成, 大浦, 未老里, 靑鶴, 萬瀑 등의 한국 지명, 天糧穴, 烏竹軒, 寒松 등의 한국 건축물을 잡지 못하였다. 뿐만 아니라 耽牟羅, 乇羅와 같은 제주도의 옛 지명도 잡지 못하였다. 또 成湯, 燕王, 平原, 漢武, 謝安, 郭隗, 解狐, 荊伯柳, 舅犯, 虞子羔, 蕭何, 淳于髡, 韓安國, 孔光, 山簡, 沂公와 같은 중국 인명도 마찬가지이다. 관각문에서는 인명에 해당하는 조선 역대 왕들의 廟號, 尊號, 諡號를 제대로 잡아내지 못하였다. 둘째, 표제 어휘가 존재하더라도 텍스트에서 사용된 의미와 어휘가 가진 의미(Description) 가 다른 경우이다. 일반 산문에서는 신라 진흥왕이라는 의미를 가진 ‘진흥’이 ‘北魏 사람의 자’라는 의미만 존재하는 경우도 있고, 역사 문헌에서는 ‘江原’이 ‘漢代의 지명’이라는 의미만 존재하거나 때 에 따라서 ‘영남과 호남’을 뜻하거나 ‘영남과 호서’를 뜻하는 ‘嶺湖’에 하나의 의미만 존재하는 경우도 있다. 셋째, 표기 방식의 차이로 어휘가 매칭되지 않는 경우이다. ‘孔子’ 사이에 ‘夫’가 하나만 들어가 더라도 인명으로 매칭되지 않거나 인덱스 데이터의 표제 어휘는 ‘俎豆’인데 분석 텍스트에는 ‘爼豆’ 라고 적혀있어 매칭되지 않는 것이다.

이상의 문제점을 보완하기 위한 해결 방법은 두 가지이다. 첫째, 문장의 특징을 규명하기 위해 필 수적인 어휘인 한국 인명과 지명, 서명, 관직 등의 데이터를 추가･보완해야 한다. 이를 위해 ‘한문교육 연구소 통합데이터 구축’이 필요하다. 한문교육연구소 데이터 이외에 공공데이터로 제공되는 어휘데 이터를 확보하고 재구성하여 통합데이터의 형태로 구축하는 것이다. 추가 가능한 데이터와 그 재구성 방법을 하나씩 살펴보겠다.

1. 한국고전번역원, <고전용어시소러스>

한국고전번역원에서 제공하는 고전용어시소러스 데이터는 고유번호, 표제어의 한자표기, 한글표 기, 인물의 경우 생몰년, 시대, 활동 지역, 왕실/관인 분류 등이 세부 항목으로 제시되어 있고, 유의어, 반의어, 상위어, 하위어 등의 개념에 해당하는 어휘도 제공한다. 데이터의 총 개수는 14,946개다. 이를 한문교육연구소 어휘 데이터의 형식에 맞게 재구성하였다. 그 결과를 표로 정리하면 다음과 같다.

기존 카테고리가 인명과 지명인 어휘는 전체를 %인명과 %지명으로, 문헌은 기존 카데고리에 맞추 어 %서명, %편명, %작품명으로 재구성하였다. 유적의 건물은 %건축으로, 법제는 %관직과 %관청으 로 나누어 다시 분류하였다. 이를 활용하면 총 14,004개의 데이터를 추가할 수 있다.

2. 고려대학교, <유서 어휘 목록>

고려대학교에서 구축한 유서 어휘 목록은 어휘에 대한 설명 없이 표제어만 존재하는 형태의 데이 터이다. 한글 표기도 존재하지 않는다. 인명과 서명 시트가 따로 존재하여 이를 %인명, %지명으로 나누어 분류하였다. 기존 데이터는 인명 24,290개, 서명 13,567개이다. 1글자 어휘가 포함되어 있고, ‘《, 》’ 등의 부호가 일부 포함되어 있다. 중복 데이터도 있다. 이러한 사항을 고려하고 이를 정제하여 재구성하면 다음과 같은 데이터를 얻을 수 있다.

3. 한국학중앙연구원, <조선조 관직 정보>

한국학중앙연구원에서 제공하는 조선조 관직 정보는 xml 파일 형태로 되어 있다. 이를 xls 형태로 재구성하여 확인한 결과 수록된 어휘의 개수는 1,022개이며 표제어의 한자표기, 한글표기, 이칭, 시대, 문/무 구분, 동/서반 구분 등 상세한 내용을 포함한다. 그중 단음절 어휘 11개를 제외하면 %관직에 해당하는 어휘 1,011개를 확보하여 추가 가능하다.

4. 한국학중앙연구원, <장서각 소장 의궤 수록 복식 사전>

장서각 소장 의궤 수록 복식 사전은 xlsx 형태로, 117개의 %복식에 해당하는 데이터를 추가할 수 있다.

위의 데이터 이외에 향후 추가 가능한 데이터로는 한국고전번역원의 인물관계정보(인명, 지명, 관 직명 등), 한국학중앙연구원의 조선왕조실록 전문사전(인명, 지명, 관직명, 복식 등)이 있다. 추후 재구 성 과정을 거쳐 추가할 수 있을 것으로 보인다.

둘째, ‘동의어, 유의어 리스트’를 구축하는 것이 필요하다. 인명의 경우, 자, 호, 시호 등으로 다양하 게 쓰이고, 서명과 지명은 줄임말 등으로 종종 나타나 인덱스 데이터에 대표 어휘만 있는 경우 어휘가 매칭되지 않는 문제가 있기 때문이다. 리스트를 구축하는 방법에 대해서는 별도의 논의가 필요하다.

정리하자면, 한문교육연구소 어휘 매칭 툴은 한문고전에 특화된 도구로서 중요한 역할을 할 수 있 으며, 앞으로 한문 고전의 토크나이징에도 기여할 것으로 기대된다. 하지만 현재 상태에서는 여러 가 지 보완이 필요해 보인다. 우선, 한국 고유의 지명과 인명 데이터를 추가할 필요가 있다. 현재 데이터 는 주로 중국의 어휘에 집중되어 있어 한국 고유 어휘가 부족한 상황이다. 이를 위해 한국고전번역원, 한국학중앙연구원에서 제공하는 어휘를 포함시킬 수 있다. 또한, 다양한 표기가 존재하는 인명이나 별 칭에 따른 불일치 문제를 해결하기 위해서는 유의어 및 동의어 리스트 구축이 필요하다. 본고에서 제 안한 개선 방향을 따른다면 완성도 있는 특수 어휘 매칭 툴이 개발될 수 있을 것이다.

Figures

그림 1.단국대학교 한문교육연구소 개발 어휘 매칭 툴 실행 화면

그림 2.단국대학교 한문교육연구소 개발 어휘 매칭 툴 실행 화면 (2)

그림 3.단국대학교 한문교육연구소 개발 어휘 매칭 툴 실행 화면 (3)

그림 4.MARKUS 실행 화면

Tables

표 1.분석용 파일 형식

ID	TlTLE	TEXT	RESULT	WORD
고유값	텍스트 제목	텍스트 본문	태깅 결과	태깅 단어 목록
⁝	⁝	⁝	⁝	⁝

표 2.어휘 데이터 분류 기준표

	Level 1	Level 2
1	인명	인명
2	단체
3	연호
4	지명	지명
5	국명
6	종족
7	건축	건축
8	관청
9	기관
10	서명	서명
11	편명
12	작품명	작품명
13	음악
14	그림
15	금석
16	문서
17	관직
18	동물
19	식물
20	광물
21	기물	기물
22	복식
23	음식	음식
24	약제
25	병증
26	천문
27	법제
28	의례
29	풍속
30	춤
31	화폐

표 3.김정희 산문의 MARKUS 자동 마크업 실행 결과

Type	Unique	Total
fullName	32	240
huckerOfficial	13	156
dilaGlossaries	36	360
dilaPerson	24	222
koreanPlace	12	108
placeName	4	24
koreanOfficialTitle	3	108
officialTitle	8	78
partialName	6	36
koreanPerson	5	30
koreanBook	6	90
Total	149	1,452

표 4.김정희 산문의 어휘 매칭 툴 실행 결과

분류값	개수
%인명	24개
%관직	9개
%천문	8개
%지명	5개
%서명	3개
%편명	2개
%국명	1개
총계	52개

표 5.김정희 산문의 매칭 기대 어휘 분류표

분류값	개수
%인명	60개
%관직	6개
%천문	5개
%지명	17개
%서명	17개
%편명	13개
%작품명	1개
%국명	3개
총계	122

표 6.역사 문헌 매칭 기대어휘 분류표

분류값	개수
%인명	67
%종족	2
%지명	135
%관직	8
%관청	9
%천문	4
%서명	8
%국명	15
%법제	5
%건축	8
%금석	1
%기물	1
%그림	1
총계	256

표 7.역사 문헌 MARKUS 자동 마크업 실행 결과

Type	Unique	Total
fullName	124	139
dilaPerson	118	135
koreanPerson	25	29
partialName	35	39
placeName	44	52
officialTitle	37	42
huckerOfficial	52	78
koreanPlace	101	112
koreanOfficialTitle	15	16
timePeriod	3	4
koreanBook	3	4
kinship	3	3
Total	560	653

표 8.역사 문헌 어휘 매칭 툴 실행 결과

분류값	개수
%인명	23
%종족	1
%종족	41
%지명	6
%관청	2
%천문	1
%서명	3
%국명	8
%동물	1
%법제	3
%단체	1
총계	90

표 9.관각문 매칭 기대 어휘 분류표

분류값	개수
%건축	9
%관직	8
%관청	4
%국명	9
%기물	6
%단체	3
%법제	2
%병증	1
%식물	2
%연호	4
%의례	1
%인명	106
%작품명	4
%지명	38
%천문	4
%편명	5
총계	206

표 10.관각문 MARKUS 자동 마크업 실행 결과

Type	Unique	Total
partialName	41	51
kinship	12	19
dilaPerson	186	246
placeName	59	77
dilaPlace	104	218
koreanPlace	59	75
dilaGlossaries	109	148
timePeriod	46	55
huckerOfficial	53	85
officialTitle	44	76
koreanPerson	52	64
koreanOfficialTitle	17	25
koreanBook	3	3
Total	785	1,142

표 11.관각문 어휘 매칭 툴 실행 결과

분류값	개수
%건축	5
%관직	9
%관청	3
%국명	6
%기물	3
%단체	3
%법제	5
%병증	1
%복식	1
%서명	1
%식물	2
%연호	3
%인명	47
%작품명	3
%지명	24
%천문	3
%편명	3
총계	122

표 12.고전용어시소러스 재구성 결과

OG_cate	하위 카테고리	VH_cate	VH_count
인명	전체	%인명	10728
지명	전체	%지명	725
문헌	서명	%서명	1705
편명	%편명	12
작품명	%작품명	213
유적	건물	%건축	590
법제	관직	%관직	12
관청	%관청	19
			총계
			14004

표 13.유서 어휘 목록 재구성 결과

OG_cate	하위 카데고리	VH_cate	VH_count
인명	전체	%인명	23,272
서명	서명	%편명	12,577
서명	%작품명
서명	%서명
			총계
			35,849

References

『漢韓大辭典』 권1~16, 단국대학교 동양학연구원.
정조, 『홍재전서』
『관동빈흥록』
『탐라빈흥록』
『관북빈흥록』
김정희, 『완당선생전집』
배숙희 (2019), ｢디지털 인문학과 송대사 연구- 1163년의 科擧와 樓鑰을 중심으로 본 사회적 네트워크｣, 『동양사학연구』 146, 동양사학회.
MARKUS https://dh.chinese-empires.eu/MARKUS/beta/
한국고전종합DB https://db.itkc.or.kr/

SEARCH
온라인 투고 시스템

(Online Submission)
한문교육연구소

(Institute for Han-Character
Education Research)
편집부
(Editorial Office Contact)

- Tel: +82-31-8005-2661
- E-mail: iher_dku@outlook.com

Directions for Improving the Vocabulary Matching Tool and Data of the Institute for Han-Character Education Research for Tokenizing Classical Chinese Texts

Abstract

한문 고전 토크나이징을 위한 한문교육연구소 어휘 매칭 툴과 데이터 개선 방향

초록

Ⅰ. 서론

Ⅱ. 한문교육연구소 어휘 매칭 툴과 어휘 데이터

1. 어휘 매칭 툴

2. 한문교육연구소 어휘 데이터

Ⅲ. 매칭 툴 실행과 MARKUS 자동 마크업과의 비교

1. 일반 산문

1) MARKUS 자동 마크업

2) 한문교육연구소 어휘 매칭 툴

2. 역사문헌

1) MARKUS 자동 마크업

2) 한문교육연구소 어휘 매칭 툴

3. 관각문

1) MARKUS 자동 마크업

2) 한문교육연구소 어휘 매칭 툴

Ⅳ. 결론 : 문제점 및 보완방향

1. 한국고전번역원, <고전용어시소러스>

2. 고려대학교, <유서 어휘 목록>

3. 한국학중앙연구원, <조선조 관직 정보>

4. 한국학중앙연구원, <장서각 소장 의궤 수록 복식 사전>

Figures

Tables

References

온라인 투고 시스템

한문교육연구소

편집부(Editorial Office Contact)

편집부
(Editorial Office Contact)