기계학습 모형을 이용한 목조문화재 흰개미 피해 예측 방법

A Method for Predicting Termite Damage in Wooden Cultural Properties Using a Machine Learning Model

Article information

J. Conserv. Sci. 2023;39(3):257-268
Publication date (electronic) : 2023 September 20
doi : https://doi.org/10.12654/JCS.2023.39.3.08
1Restoration Technology Science Division, National Research Institute of Cultural Heritage, Daejeon 34122, Korea
2Data Science Center, Insilicogen Incorporated, Yongin-si, Gyeonggi-do 16954, Korea
김영희1,, 김형용2, 박지희1, 김수지1, 조창욱1, 이정민1
1국립문화재연구원 복원기술연구실
2㈜인실리코젠
*Corresponding author E-mail: kimyh93@korea.kr Phone: +82-42-860-9359
Received 2023 July 5; Revised 2023 July 21; Accepted 2023 July 28.

Abstract

본 연구는 목조문화재 흰개미 피해와 기상데이터를 이용하여 기계학습 모형을 수립하고 예측 성능을 평가하였다. 데이터는 흰개미 피해 데이터, 목조문화재 위치, 기상데이터로 구분하였으며, 목조문화재 위치를 기준으로 가까운 3개의 관측지점을 탐색하고, 2010년부터 2018년까지 약 8년의 기상데이터를 종합하여 총 491개의 데이터 셋을 만들었다. 정제된 데이터 셋을 이용하여 기계학습 모형을 만들어 평가한 결과, 흰개미 피해에 직접적인 영향을 미치는 기상요인으로 소형증발량이 모형을 가장 잘 설명해주는 시계열 독립변수라는 것을 확인하였으며, Linear SVM 알고리즘 모형을 이용하였을 때 72.8%의 정확도를 나타내었다. 소형증발량은 기상청 종관기상 데이터로 모든 관측소에서 관측되는 기상요인이 아니라 특정 관측소에서만 수집되고 있어 예측 모형을 만들기에 충분한 데이터 확보가 어렵다. 기계학습 모형은 데이터수가 충분할 때 정확도를 높일 수 있기 때문에 흰개미 피해 데이터와 소형증발량 데이터가 더 확보된다면 예측 성능을 높일 수 있을 것이다.

Trans Abstract

In this study, a machine learning model was established using termite damage and meteorological data on wooden cultural properties, and the prediction performance was evaluated. The data were divided into termite damage data, the location of wooden cultural properties, and meteorological data. Three observatories were searched based on the location of the wooden cultural properties, and meteorological data for about 8 years from 2010 to 2018 were combined to make a total of 491 data sets. As a result, it was confirmed that the value of small evaporation as a meteorological factor that directly affects termite damage is the time series independent variable that best explains the model, and showed an accuracy of 72.8% when the Linear SVM algorithm model was used. The value of small evaporation is the synoptic meteorological data of the Korea Meteorological Administration, and it is collected only at specific stations, not meteorological factors observed at all stations. Therefore, It is difficult to obtain enough data to make a predictive model. Since machine learning models can improve accuracy when the number of data is sufficient, prediction performance can be improved if more termite damage data and the value of small evaporation are obtained.

1. 서 론

국내 건축문화재 810건 중 국보와 보물로 지정된 목조건축문화재는 236건으로 약 29.1%이고, 국가민속 문화재로 지정된 전통가옥이 144건이다. 그리고 오래된 전통가옥들이 잘 보존되어 마을 단위로 지정된 곳이 8곳으로 전국에 분포되어 있다(Cultural Heritage Administration, 2022). 이들 중 사찰 건축문화재는 대부분 산 중턱에 위치해 있고 지형에 맞추어 건축물을 설계하고 축조하였기 때문에 건축물이 주변 산림과 연계되어 접해 있는 경우가 많다. 이러한 목조건축물의 경우는 외부 환경에 그대로 노출되어 있어 다양한 환경적 요인에 의해 손상되기 쉬우며, 특히 목재의 재료적 특성으로 인해 곤충과 미생물에 의한 생물학적 손상도 무시할 수 없다. 목조문화재의 생물학적 피해는 다양한 생물종에 의해 피해가 발생하고 있고, 기후변화에 따라 증가하는 추세이다. 미생물이나 곤충 등과 같은 생물종에 의한 피해 및 손상은 건축물의 형태 변화와 구조적 문제를 야기할 수 있다. 미생물 보다 곤충에 의한 직접적인 피해로 손상되기 쉬우며, 피해를 유발하는 곤충으로 대표적인 것이 흰개미, 빗살수염벌레, 넓적나무좀 그리고 벌 등이 있다. 특히 흰개미는 국내 목조 건물에서 가장 위험한 곤충으로 짧은 시간 내 건물에 심각한 피해를 가할 수 있다. 국내에서 관찰되는 흰개미는 지중 흰개미로 섭식, 이동 및 번식과 같은 모든 활동이 목재 내부에 한정되어 있기 때문에 시각적으로 관찰하기가 어렵다(Scheffrahn et al., 1997). 흰개미 피해를 조사하는 방법으로 피해흔을 관찰하는 육안 검사나 활동을 탐지하는 터마트랙을 이용하는 것은 기본적인 조사방법이지만 이러한 방법에만 의존한 흰개미 활동 탐지는 신뢰수준이 낮다(French and Ahmed, 2010). 이러한 이유로 심각한 손상이 발생하기 전에 흰개미 피해를 확인하기 위하여 훈련된 탐지견을 이용하여 보이지 않는 손상을 탐지하기 시작하였다(Scheffrahn et al., 1993). 생물학적 냄새와 비생물학적 냄새를 탐지하게 훈련된 탐지견은 위험한 뱀이나 곤충을 탐지하거나 폭발물 및 마약 등을 탐지하는 데 이용되고 있다(Lewis et al., 1997; Lin et al., 2011; Richards et al., 2008; Suma et al., 2013). 잘 훈련된 탐지견의 경우 약 90% 이상의 신뢰 수준으로 탐지한다고 보고되어 있다(Sandia National Laboratories, 1999). 다만 탐지견의 오류는 환경적 영향을 받는 데 온도와 풍속 같은 기상인자에 따라 탐지 능력이 저하될 수 있어 극한 온도와 풍속 조건에서는 작업을 수행하지 않는 것이 바람직하다고 하였다(Johnston et al., 1994).

탐지견을 이용한 목조문화재 흰개미 피해 조사는 삼성 에스원탐지견센터와 업무 협약으로 2007년부터 문화재청과 문화재 지킴이 활동의 일환으로 시작하였다. 2007년부터 2010년까지 주요 목조문화재 및 긴급 조사 대상 목조문화재를 조사하였고, 본격적인 탐지견 활동은 2011년부터 2015년까지 5년 계획으로 진행된 전국 국가 지정 목조문화재 대상 “목조문화재 생물피해 전수 조사”를 시작으로, 2016년부터 2018년까지 3년 계획으로 2단계까지 수행하였다(Kim et al., 2019a). 1단계와 2단계 조사에서 탐지견 반응은 제주 지역이 가장 높은 피해율을 나타내었으며, 그 다음으로 전북과 전남 지역에서 높게 나타났다(Kim et al., 2019b). 이들 지역은 다른 지역에 비해 상대적으로 기온이 높고 강수량이 많은 지역이다. 기후변화로 인하여 기온이 상승하여 남부지역뿐만 아니라 북부지역까지 분포면적이 증가하고 있다. 기온은 곤충의 활동기간, 분포범위, 생장과 대사속도 및 섭식 등에 영향을 주기 때문에 평균 기온 상승은 흰개미의 활동기간과 분포범위를 확장시킬 수 있어 피해가 가속화될 수 있다(Lee and Jung, 2004). 기후 및 환경 변화에 대한 해충 발생 및 변화를 예측하기 위하여 해충의 계절발생, 분포, 월동 특성 및 유전적 구조 변화에 대한 연구로 기온이나 강수량과 같은 기상인자들과 나방류의 종류 및 개체수 변화에 대한 관련성을 입증하기도 하였다(Choi, 2008). 그리고 과거의 발생분포 자료를 분석하여 온도 상승으로 남방계 나비류의 북방한계 이상으로 진입 가능성을 제시하였고, 광릉숲 내 개미류 발생자료를 이용하여 미래 기후 조건하에서의 발생 증감을 예측하기도 하였다(Kwon, 2014). 최근 중국과 일본에 존재하지만 아직 한국에서 발견되지 않은 포모산 지중흰개미(Coptotermes formosanus Shiraki)가 한국의 겨울철 평균 기온 상승과 교역량 증가로 유입될 수 있다는 연구 결과가 보고되었다(Lee et. al., 2022).

본 연구에서는 목조문화재 생물피해 전수조사를 통하여 확보된 흰개미 피해 데이터를 이용하여 예측 모델을 만들고자 하였다. 지금까지는 전국의 국가지정 목조문화재를 대상으로 흰개미 탐지견 조사 데이터를 확보하지 못해 일부 모니터링 자료로만 환경인자와 상관관계를 분석하는 수준이었으나, 1단계와 2단계 조사로 확보된 흰개미 탐지견 반응 자료를 이용하여 피해 예측을 위한 시뮬레이션 모델을 적용할 수 있게 되었다. 따라서 본 연구는 기후와 환경 변화에 따라 목조문화재의 흰개미 피해가 확산되고 증가하는 것을 사전에 예측하는 방법으로 기계학습 모형을 활용하고자 하였다.

2. 연구방법

2.1. 흰개미 피해 및 기상데이터 수집

본 연구에 사용된 데이터는 목조문화재 생물피해 전수조사에서 확보된 흰개미 피해 데이터와 기상청 기상자료 개방포털로부터 확보한 전국단위의 기상 데이터를 이용하였다. 흰개미 피해 조사 데이터는 2013년부터 2018년까지 조사한 결과이고(National Research Institute of Cultural Heritage, 2013, 2014, 2015, 2016, 2017, 2018), 기상데이터는 2010년 1월 1일부터 2018년 12월 31일까지로 설정하여 수집하였다(Korea Meteorological Administration, 2019). 기상청 데이터는 종관기상과 방재기상 관측 데이터로 구분되는데 종관기상 관측 데이터는 날씨를 파악하기 위한 데이터로 전국 100여개의 관측소에서 60여 가지의 다양한 기상데이터를 관측하고, 방재기상 관측 데이터는 자연재해를 예방하기 위한 데이터로 전국 500여개의 관측소에서 중요 기상데이터(기온, 강수, 바람, 습도, 기압 등)를 관측한다.

종관 및 방재기상 관측 데이터는 문화재 기준으로 정리하였다. 종관기상 데이터는 목조문화재 위치를 기준으로 가장 가까운 3개의 관측지점을 거리 계산 공식을 이용하여 탐색하였으며, 이렇게 탐색한 3개 관측소의 기상데이터를 통합하여 정리하였다. 방재기상 데이터는 같은 관측지점임에도 불구하고 위치가 변경되어 기간이 나뉘는 문제가 있어 위치 변동이 2 km 미만인 경우 최근 위치를 기준으로 통합하였다. 종관 및 방재기상 데이터는 결측치를 최대한 줄이고 기간 내 많은 기상정보를 수집하고자 하였으며, 문화재와 관측소의 거리는 방재기상은 대부분 20 km미만, 종관기상은 30 km 미만에 해당된다.

2.2. 흰개미 피해 및 기상데이터 정제 및 분석

전체 데이터는 전국의 흰개미 피해 데이터, 문화재 위치, 그리고 기상청 데이터로 구분하였고, 데이터 처리는 Anaconda3(Open source) 프로그램의 Jupyter Notebook을 이용하여 Python3로 데이터 분석을 수행하였으며, 대용량 데이터 처리를 위해 Pandas 모듈을 사용하였다(www.anaconda.com). Table 1에 데이터 처리 후 분석요건에 맞게 정리한 파일을 제시하였다. 기상청에서 수집한 문화재 근처 관측소의 종관기상 데이터와 방재기상 데이터가 적절히 수집되고 정제되었는지 확인 작업으로 임의의 문화재와 임의의 날짜 정보를 직접 수동으로 추출한 후 자동 정제한 자료와 비교하는 작업을 수행하여 검증하였다.

List of files after mining collected data

2.3. 시계열 분석과 기계학습

시계열(time series)은 일정 시간 간격으로 배치된 데이터들의 수열을 의미한다. 시계열 분석(time series analysis)은 이런 시계열을 해석하고 이해하는 여러 가지 방법에 대한 연구를 의미한다. 이러한 시계열이 어떤 패턴과 법칙으로 생성되는지 해석하는 것이고, 시계열 예측(time series prediction)은 주어진 시계열을 이용하여 수학적인 모형을 만들어서 발생 가능성을 예측하는 것을 의미한다. 기상 데이터는 매일, 매시의 시계열 데이터이기 때문에 분석하는데 문제가 없지만 종속변수인 흰개미 피해율은 연 1회만 측정한 데이터이므로, 시계열화 하여 비교하는 데 한계가 있다. 이러한 경우 기계학습으로 분석 목적에 따라 분류(classification), 군집화(clustering), 회귀(regression) 분석을 이용한 학습데이터 셋의 모형을 만들어 새로운 데이터 셋을 이용한 예측이 가능하다. 기계학습은 다차원 공간에 있는 데이터의 특성을 가장 잘 구분하는 방법을 찾아 이를 근거로 분류하거나 연속변수를 잘 설명하는 모델을 만들어 예측한다. 본 연구에서 연속형 변수는 흰개미 피해율로 전체기둥 수에서 탐지견이 반응한 기둥 수에 대한 비율이다. 흰개미 피해율에 대한 분류 기준은 탐지견 피해율을 히스토그램으로 분포를 구한 후 중앙값을 피해 기준으로 하였다. 이때 중앙값 이상이면 피해율이 크고 그 이하면 피해가 작은 것으로 규정하여 분류 모형을 이용하여 기계학습을 수행하였다. 흰개미 피해율을 연속형 실수(범위 0∼1)로 회귀선을 구한 후 예측값을 계산하는 회귀 분석 방법으로 기계학습을 수행하였다. 분류 학습에는 9가지 분류 모형을 사용하였고, 회귀분석에는 4가지 회귀 모형을 사용하였다(Table 2).

Types of classification and regression models

2.4. 기계학습 모형 평가 및 예측

시계열 데이터의 평균과 분산이 일정할 때 정상성(stationary)을 갖는다고 할 수 있다. 일반적으로 시계열 데이터가 정상성을 가지지 않으면 분석 및 해석에 어려움이 있기 때문에 정상성을 갖는지 가설검정으로 확인하고 정상성이 아니라면 전처리를 통하여 데이터를 가공한다. 보통 평균이 일정하지 않으면 차이 값으로 보정하고 분산이 일정하지 않으면 변환하는 방식으로 전처리 작업을 진행한다. 본 연구에서는 기상 관련 시계열 데이터는 정상성을 확인하는 테스트인 Augmented Dickey-Fuller(ADF)와 Kwiatkowski–Phillips–Schmidt–Shin(KPSS) test를 이용하여 분석한 결과 모두 정상성이 있다고 판단되므로 일정한 패턴과 주기가 있다고 할 수 있다. 단, 기상인자 시계열 데이터에 비해 흰개미 피해율의 관측 빈도가 매우 낮아 흰개미 피해율을 시계열화 하여 다른 기상 특성과 시계열 분석하기에는 어려움이 있어 피해율 예측에는 기계학습방법을 이용하였다.

3. 결과 및 고찰

3.1. 데이터 정제 및 분석

데이터를 흰개미 피해 데이터, 문화재 위치, 기상청 데이터 3가지로 구분하였다. 우선, 목조문화재 위치를 기준으로 가장 가까운 3개의 관측지점을 탐색하고(총 308개), 목조문화재와 관측지점에 각각 번호를 부여한 후, 관측기간(2010.01.01.∼ 2018.12.31.)을 설정하여 관측지점들의 관측기간 종합 파일을 만들었다. Figure 1은 이렇게 만들어진 파일의 지역별 목조문화재 분포를 나타낸 것이다.

Figure 1.

Distribution of cultural assets by region (308 in total).

그리고 목조문화재 번호를 파일명으로 하는 csv 파일을 생성하고, 총 308개의 목조문화재에 해당하는 기상데이터를 포함하는 “목조문화재 기상데이터 종합” 파일(CH-result.csv)을 만들었다. Jupyter Notebook을 이용하여 열어본 파일의 일부를 Figure 2에 제시하였다. 수집 자료의 검증을 위해 종합된 데이터와 랜덤으로 추출한 데이터를 비교해 보았다. 각 두 데이터에서 랜덤으로 10개의 문화재와 10개의 일자를 추출해서 비교한 결과 모든 데이터가 동일함을 확인하였다(Figure 3).

Figure 2.

Part of the comprehensive file with meteorological data for wooden cultural properties.

Figure 3.

Validation of aggregated data and randomized data.

전국 목조문화재 흰개미 피해 데이터(national-damage.csv)와 기상청 데이터(national-weather.csv and national-weather-jg.csv)를 목조문화재 위치 기반으로 통합한 파일로 재정리하였다. 흰개미 피해 데이터에서 탐지견 피해율을 히스토그램으로 나타내었다(Figure 4). 탐지견 피해율은 목조건물 전체 기둥에서 탐지견 반응이 확인된 기둥의 수로 산출하였다. 목조문화재 위치에 따른 흰개미 피해 현황을 python의 folium library를 이용하여 가시화하였다. 전국적으로 퍼져있는 목조문화재 위치별로 피해율을 확인하기 위한 것으로 탐지견 피해율로 가시화하였으며 피해율이 높을수록 빨간색이고 낮을수록 파란색으로 표시하였다(Figure 5a). 그리고 전국 지도를 행정구역으로 나누어 2013년부터 2018년까지 지역의 평균 기온과 탐지견 피해율을 함께 가시화하였다(Figure 5b).

Figure 4.

The distribution of termite damage rates.

Figure 5.

Visualization map with the damage rate of detection dogs at the location of wooden cultural properties(a) and the addition of average temperature(b).

데이터는 목조문화재 위치에 따른 흰개미 피해율 및 기상데이터(종관기상 및 방재기상)를 활용하여 알고리즘 모형에 적합한 데이터로 정제하였으며, 총 491개의 충분한 데이터 셋을 확보하였다.

3.2. 기계학습 모형 평가 및 예측 성능

기상데이터는 매일, 매시의 시계열 데이터이기 때문에 분석하는데 문제가 없지만 종속변수인 흰개미 피해율은 연 1회만 측정한 데이터이므로, 시계열화 하여 비교하는데 한계가 있다.

그래서 독립변수인 기상데이터와 종속변수인 흰개미 피해율을 기계학습으로 분석하고 비교하였다. 흰개미 피해율과 기상데이터(종관기상 및 방재기상)의 시계열 데이터를 다각도로 활용하여 흰개미 피해율 예측을 위한 분류 및 회귀 기계학습 모델을 만들었다.

분류 모형은 9개의 모델을 사용하였고, 문화재별 기상데이터는 임의 선택으로 75%는 학습데이터로 25%는 시험 데이터로 나눠서 10회 반복학습으로 모델을 만들고 평가하였다. 독립변수인 기상데이터는 365일 데이터, 30일 이동평균 데이터로 나누어 수행하였다(Figure 6, 7). 여기서 이동평균(Moving average)이란 최근 n개의 관측치를 이용하여 평균을 구하고 이를 이용해 예측하는 방법으로 30일 이동평균 데이터는 최근 30일간의 관측치를 이용하여 분석하였다는 것이다.

Figure 6.

365-day synoptic meteorological data at the location of wooden cultural properties.

Figure 7.

30-day rolling average of 365-day synoptic meteorological data at the location of wooden cultural properties.

기상데이터를 365일 데이터, 30일 이동평균 데이터로 나누어 분석한 결과 대체로 유사한 추세를 보이고 있으며, 지중온도에 관련된 정보들은 비교적 큰 편차를 보이는 반면 다른 기상 변수들은 비교적 안정된 예측 값을 나타내었다. 분석 결과에서 소형증발량이 흰개미 피해율을 가장 잘 설명해주는 시계열 독립변수라는 것을 확인하였다. 종관기상과 방재기상 데이터에서 모든 기상인자를 이용하여 분류 모형을 수립하였다. 9가지 분류 모형의 정확도를 비교 분석한 결과 유형별, 모형별로 정확도는 유사하게 60∼65% 정도로 나타났다(Figure 8). 기상데이터 중 주요 기상인자로 최고기온, 평균 상대습도, 일강수량 및 소형증발량을 통합하여 비교한 결과도 유사한 정확도를 나타내었다(Figure 9).

Figure 8.

Comparison of classification model accuracy for synoptic(left) and disaster prevention(right) weather types.

Figure 9.

Comparison of classification model accuracy with maximum temperature and small evaporation value.

회귀 모형도 분류 모형과 마찬가지로 문화재별 기상데이터는 임의 선택으로 75%는 학습데이터로 25%는 시험데이터로 나눠서 10회 반복학습으로 모델을 만들고 평가하였다. 독립변수인 기상데이터는 365일 데이터, 30일 이동평균 데이터로 나누어 각각 수행하였다. 회귀 모형 분석 결과 유형별로 상이한 추세를 보였으나, 365일 데이터에서 최고온도, 평균 상대습도 및 평균 지면온도가 다른 기상변수 보다 상대적으로 높은 상관도를 나타내었다(Figure 10). 그러나 대체적으로 모든 기상변수가 10% 미만으로 흰개미 피해율을 예측하기에 적합한 기상변수는 확인할 수 없었다. 30일 이동평균 데이터는 모든 기상변수에 대하여 365일 데이터 보다 상관도가 낮게 나타나 그래프는 생략하였다.

Figure 10.

365-day synoptic meteorological data at the location of wooden cultural properties.

회귀 모형은 4개의 회귀 모델을 사용하였고 독립변수와 상관성을 분석하여 비교하였다. 흰개미 피해율과 상관도를 비교한 결과 대체로 낮은 상관도를 보였으며 두드러지게 높은 상관도를 나타내는 기상변수는 확인할 수 없었다. 회귀 알고리즘 4개 모형 중 Lasso regressor 모형이 10회 학습 및 평가에서 가장 적은 편차로 안정된 상관도를 나타내었으며, Elastic Net 모형이 가장 높은 상관도를 보였지만 12% 정도로 낮은 수준이었다. 또한 기상데이터 유형, 종관기상과 방재기상 데이터에 의한 차이도 크지 않았다(Figure 11).

Figure 11.

Comparison of regression model accuracy for synoptic(left) and disaster prevention(right) weather types.

흰개미 피해율을 기계학습 모형 중 분류와 회귀 알고리즘 모형을 적용한 결과, 흰개미 피해율 예측에 적합한 기계학습 모형은 분류 모형이 정확도가 더 높았으며, 9가지 분류 모형 중 Linear SVM 알고리즘 모형을 이용하여 30일 이동평균 데이터를 사용했을 경우 최대 72.8%의 정확도로 예측이 가능하였다(흰개미 피해율 기준 0.2).

1년 365일을 1월부터 12월까지(절대연도)와 4월부터 다음해 3월까지(상대연도)로 나누어 두 가지 유형으로 분석하였다. 분류 모형 중 다른 모형보다 정확도가 높은 Linear SVM 모형으로 분석한 결과, 첫 번째 유형은 32일 이동평균 데이터에서 0.726으로 가장 높게 나타났으며, 두 번째 유형은 56일 이동평균 데이터에서 0.731로 높게 나타났다. 그러나 두 번째 유형의 경우는 전후 2달 정도의 소형증발량 경향(trend)을 이용하는 것으로 유의미한 예측을 도출하기 어렵다(Figure 12).

Figure 12.

Accuracy change according to rolling type with Linear SVM model.

2019년 흰개미 피해 조사 결과를 이용하여 예측 모델을 검증하였다. 2019년 흰개미 피해 조사는 총 28곳이었으며, 이들 가운데 소형증발량 데이터가 있는 목조문화재는 14곳이었다. 조사한 목조문화재 14곳의 흰개미 피해율은 모두 0.2 이하였기 때문에 만든 예측 모델에 적용할 경우 모두 0.2 보다 낮음으로 예측해야 한다.

분석 결과는 이동평균 없이 1년의 소형증발량 데이터를 이용하였을 때, 절대연도와 상대연도에 상관없이 100%의 정확도를 나타내었고, 30일 이동평균 시 85%로 정확도가 낮아졌다(Figure 13). 현 상태의 예측 모델이 비교적 높은 정확도를 나타내지만 충분한 데이터 셋으로 평가한 것이 아니기 때문에 이동평균 적용 시에는 현저하게 낮아지는 현상이 나타났다.

Figure 13.

Comparison of test result accuracy according to absolute year application and rolling days

결과적으로 흰개미 피해와 상관성이 높은 기상변수는 소형증발량으로 모든 관측소에서 측정하는 것이 아니라 특정 관측소에서만 측정하는 기상변수이다. 정제된 데이터 셋 총 491개 중 소형증발량 값이 있는 사이트는 총 160개로 기계학습 모형을 학습하기에 충분하지 않고, 목조문화재 전체를 나타내기에는 한계가 있다. 그러므로 기계학습 모형의 정확도를 높이고 전체 목조문화재에 적합한 예측 모델을 만들기 위해서는 더 많은 데이터 확보가 필요하다.

4. 결 론

본 연구에서는 목조문화재 흰개미 피해와 기상데이터를 수집하여 데이터의 이상치는 삭제하고, 결측치를 보완하여 목조문화재를 기준으로 데이터를 통합 정리하여 분석 가능한 총 491개의 데이터 셋을 만들었다. 기상데이터는 시계열 데이터이기 때문에 분석하는 데 문제가 없지만, 흰개미 피해율은 연 1회만 측정한 데이터로 시계열 분석에는 어려움이 있어 기계학습으로 분석하여 비교하였다. 기계학습 분류 모형 중 Linear SVM 알고리즘 모형이 흰개미 피해를 가장 잘 예측하는 것으로 확인되었으며, 기상인자 중에서 흰개미 피해율 예측에 가장 영향력 있는 핵심 시계열 변수는 소형증발량임을 확인하였다. 그러나 기상청 기상자료개방포털 사이트 공지사항에 따르면, 증발량을 직접 관측하기가 어렵고 겨울철에는 동결현상 등으로 여러 오차 요인들이 많아 제한된 관측소에서 수집하고 있으며, 2016년 7월 1일부터 증발량 직접 관측에서 Penman-Monteith 증발산량 산출식(Allen et al., 1998)을 통한 간접 측정으로 관측 방법을 개선하였다고 공지하였다(Korea Meteorological Administration, 2016). 소형증발량 데이터는 종관기상 관측소 75개 중 단 17개 지점에서만 관측하고 있다. 그러나 2016년부터 증발량 계산식을 이용하여 산출한 값을 관측 데이터로 제시하는 지점은 춘천, 서울, 인천, 수원, 서산, 청주, 대전, 안동, 포항, 전주, 부산, 목포, 제주, 북강릉 등 14개 지점으로, 소형증발량값을 제시하는 관측소 대부분이 해당된다. 그렇다면 증발량 계산식에 이용되는 주요 기상인자들을 수집하고 있는 관측소 데이터로 소형증발량을 산출할 수 있다는 것으로, 전국의 종관기상과 방재기상 데이터를 활용하여 목조문화재 위치와 가까운 관측소의 소형증발량 값을 산출할 수 있을 것이다. 본 연구내용에는 제시하지 않았지만 75개 관측소의 8년 치 관측정보를 이용하여 소형증발량과 상관성이 높은 28개의 기상인자로 소형증발량을 예측하기 위한 기계학습 모형을 생성하였다. 최적의 예측 알고리즘을 선발하기 위해 총 5개의 회귀 알고리즘을 이용하여 비교한 결과 kNN 알고리즘이 98%의 정확도로 소형증발량을 예측하였다. 예측된 소형증발량을 이용하여 Linear SVM 알고리즘 모형으로 흰개미 피해를 예측한 결과 기존 72.8% 보다 낮은 64.3%의 정확도를 나타내었다. 정확도의 감소는 실측값이 아닌 예측값을 사용하게 되면서 흰개미 피해 유무의 소형증발량 특징을 정확히 학습하지 못하기 때문이다. 결과적으로 예측 모형의 정확도를 위해서는 충분한 데이터가 필요한 만큼, 현재 확보된 실측 데이터와 증발량 계산식을 이용한 산출 데이터를 추가로 확보하여 기계학습을 통한 예측 오류를 줄이고 신뢰 수준을 향상시킬 수 있도록 해야 한다. 본 연구는 목조문화재 생물피해 전수조사에서 확보된 흰개미 피해 데이터와 기상청 기상자료 개방포털로부터 확보한 전국단위 기상 데이터를 활용한 새로운 방법으로 활용가치가 클 것으로 판단된다.

Acknowledgements

본 연구는 문화재청 국립문화재연구원 문화유산 조사연구(R&D) 사업의 지원을 받아 수행되었으며, 기계학습모형 설계 및 수립은 ㈜인실리코젠 데이터 사이언스 센터에서 수행되었다. 본 논문은 과제 목조문화재 생물피해 통계 모형 수립 내용을 보완하여 재정리한 것이다.

References

Allen R. G., Periera L. S., Raes D., Smith M.. 1998. Crop evapotranspiration: guidelines for computing crop requirements, Irrigation and Drainage Paper No. 56 Food and Agriculture Organization of the United Nations. Rome, Italy:
Choi S.W.. 2008;Effects of weather factors on the abundance and diversity of moths in a temperature deciduous mixed forest of Korea. Zoological Science 25(1):53–58. (in Korean with English abstract).
Cultural Heritage Administration. 2022. Administrative portal, https://portal.e-heritage.go.kr/poli/selectPoliCpmsBildngList.do (June 20, 2022).
French J.R.J., Ahmed B.M.. 2010;The challenge of biomimetic design for carbon-neutral buildings using termite engineering. Insect Science 17(2):154–162.
Johnston J.M., Meyers L.J., Waggoner L.P., Williams M.. 1994. Determination of canine olfactory thresholds using operant laboratory methods. In : Proceedings of the SPIE; 2092. p. 238–243.
Kim Y.H., Jo C.W., Kim S.J., Park J.H.. 2019a. Comparison of biological damage status and regional characteristics of domestic wooden cultural assets. In : 49 th Conference of the Korean Society of Conservation Science for Cultural Heritage. p. 117–118.
Kim Y.H., Lim B.A., Lee J.M., Jo C.W., Kim S.J., Park J.H.. 2019b;A study on the inspection of termite-damaged wooden buildings through the use of detection dogs and an analysis of environmental factors. Journal of Conservation Science 35(6):641–651. (in Korean with English abstract).
Korea Meteorological Administration. 2016. Open MET Data Portal. https://data.kma.go.kr/cmmn/main.do (October 28, 2016).
Korea Meteorological Administration. 2019. Open MET Data Portal. https://data.kma.go.kr/cmmn/main.do (May 25, 2019).
Kwon T.S.. 2014;Change of ant fauna in the Gwangneung forest: Test on influence of climatic warming. Journal of Asia-Pacific Biodiversity 7:219–224.
Lee K.S., Jung S.Y.. 2004;Ecological characteristics of termite(Reticulitermes speratus kyushuensis) for preservation of wooden cultural heritage. Munhwajae 37:327–348. (in Korean with English abstract).
Lee S.B., Tong R.L., Kim S.H., Im I.G., Su N.Y.. 2020;Potential pest status of the Formosan subterranean termite, Coptotermes formosanus Shiraki(Blattodea: Isoptera: Rhinotermitidae), in response to climate change in the Korean Peninsula. Florida Entomologist 103(4):431–437.
Lewis V.R., Fouche C.F., Lemaster R.L.. 1997;Evaluation of dog-assisted searches and electronic odor devices for detecting western subterranean termite. Forest Products Journal 47:79–84.
Lin H.M., Chi W.L., Lin C.C., Tseng Y.C., Chen W.T., Kung Y.L.. 2011;Fire ant-detecting canines: A complementary method in detecting red imported fire ants. Journal of Economic Entomology 104(1):225–231.
National Research Institute of Cultural Heritage. 2013. Investigation on biological species harmful to wooden cultural heritage National research institute of cultural heritage.
National Research Institute of Cultural Heritage. 2014. Investigation on biological species harmful to wooden cultural heritage National research institute of cultural heritage.
National Research Institute of Cultural Heritage. 2015. Investigation on biological species harmful to wooden cultural heritage National research institute of cultural heritage.
National Research Institute of Cultural Heritage. 2016. Investigation on biological species harmful to wooden cultural heritage National research institute of cultural heritage.
National Research Institute of Cultural Heritage. 2017. Investigation on biological species harmful to wooden cultural heritage National research institute of cultural heritage.
National Research Institute of Cultural Heritage. 2018. Investigation on biological species harmful to wooden cultural heritage National research institute of cultural heritage.
Richards K.M., Cotton S.J., Sandeman R.M.. 2008;The use of detector dogs in the diagnosis of nematode infections in sheep faces. Journal of Veterinary Behavior 3(1):25–31.
Sandia National Laboratories. 1999. Explosives detection equipment Sandia National Laboratories, Albuquerque; New Mexico:
Scheffrahn R.H., Robbins W.P., Busey P., Su N.Y., Mueller R.K.. 1993;Evaluation of a novel, hand-held, acoustic emissions detector to monitor termites(Isoptera: Kalotermitidae, Rhinotermitidae) in wood. Journal of Economic Entomology 86:1720–1729.
Scheffrahn R.H., Su N.Y., Busey P.. 1997;Laboratory and field evaluations of selected chemical treatments for control of drywood termites (Isoptera: Kalotermitidae). Journal of Economic Entomology 90:492–502.
Suma p., Pergola A.L., Longo S., Soroker V.. 2013;The use of sniffing dogs for the detection of Rhynchophorus ferrugineus. Phytoparasitica 42:269–274.

Article information Continued

Figure 1.

Distribution of cultural assets by region (308 in total).

Figure 2.

Part of the comprehensive file with meteorological data for wooden cultural properties.

Figure 3.

Validation of aggregated data and randomized data.

Figure 4.

The distribution of termite damage rates.

Figure 5.

Visualization map with the damage rate of detection dogs at the location of wooden cultural properties(a) and the addition of average temperature(b).

Figure 6.

365-day synoptic meteorological data at the location of wooden cultural properties.

Figure 7.

30-day rolling average of 365-day synoptic meteorological data at the location of wooden cultural properties.

Figure 8.

Comparison of classification model accuracy for synoptic(left) and disaster prevention(right) weather types.

Figure 9.

Comparison of classification model accuracy with maximum temperature and small evaporation value.

Figure 10.

365-day synoptic meteorological data at the location of wooden cultural properties.

Figure 11.

Comparison of regression model accuracy for synoptic(left) and disaster prevention(right) weather types.

Figure 12.

Accuracy change according to rolling type with Linear SVM model.

Figure 13.

Comparison of test result accuracy according to absolute year application and rolling days

Table 1.

List of files after mining collected data

Data list Filename
Termite damage Data national-damage.csv
Cultural property location data location.xlsx
Disaster prevention weather data national-weather.csv
Synoptic observing weather data national-weather-jg.csv

Table 2.

Types of classification and regression models

Classification model Regression model
1 Nearest neighbors Ridge regressor
2 Linear SVM (support vector machine) Lasso regressor
3 RBF (Radial basis function) SVM Elastic Net
4 Gaussian process classifier (GPC) based on Laplace approximation k-nearest neighbors (kNN)
5 Decision tree
6 Random forest
7 AdaBoost classifier
8 Gaussian Naive Bayes (GaussianNB)
9 Quadratic discriminant analysis (QDA)