데이터 노가다 일지

기계 학습을 이용한 공동주택 가격 추정 : 서울 강남구를 사례로 본문

[논문리뷰]

기계 학습을 이용한 공동주택 가격 추정 : 서울 강남구를 사례로

hoho0311 2025. 4. 23. 22:58

논문을 게시하기 위해 정한 학술지? 학회는 부동산학연구로 정했다.

Perplexity 추천이긴하지만.. 그래도 처음 게시하기도 하고 아직 학부생 수준에서는 도전해볼만한 수준이라고 하더라.. 너만 믿는다..

매년 3, 7, 11월 달 논문을 게시한다고 한다. 

그러므로 앞으로 여기서 출간한 학회를 중점으로 리뷰해볼 생각이다. 화이팅~!

 

https://www.ejrea.org/#

 

부동산분석(Journal of Real Estate Analysis)

The Journal of Real Estate Analysis (JREA) is dedicated to promote the research based information related with real estate anlaysis. The official title of the journal is ‘Journal of Real Estate Analysis’ and the abbreviated title is ‘J. Real Estate A

www.ejrea.org

여기를 목표로 하고있는데 정말 유명한지는 잘 모르겠다. 일단 좀 더 찾아봐야 알거같다.

 

바로 리뷰 시작하겠다.

 

2. 이론적 배경 및 선행연구 검토

공동 주택 공시가격이란?

여기선 공동주택 공시가격이라는 개념을 사용했다. 간략하게 알아보겠다. 먼저 사전적 정의를 알아보자. 공동주택 공시가격은 공동주택(아파트, 연립주택, 다세대주택)에 대해 국토교통부장관이 매년 1월1일을 기준으로 조사, 산정하여 공시하는 가격을 의미한다. 이 가격은 [부동산 가격공시 및 감정평가에 관한 법률]에 따라, 해당 주택이 정상적인 시장에서 거래될 때 성립될 가능성이 가장 높은 '적정가격'을 기준으로 산정된다.

선정하는 과정은 너무 깊게 들어가므로 생략하겠다. 그래서 이걸 어디다 사용하냐? 아래와 같은 공적 기준으로 활용된다.

  • 재산세, 종합부동산세 등 각종 세금의 과세 기준
  • 건강보험료, 기초연금 등 사회복지 수급 자격 및 금액 산정
  • 공공주택 입주 자격, 국민주택채권 매입액 등 각종 행정 기준

실거래가와의 차이?

물론 실거래가와 공동 주택 공시가격은 다르다. 

공시가격은 정부가 정한 '현실화율'을 적용해 시세의 70 ~ 80% 수준으로 책정되는 경우가 많으며, 이 현실화율은 매년 정부의 방침에 따라 조정된다. 최근에는 실거래가와의 격차를 줄이기 위해 공시가격 현실화 정책을 주진하는 중이다.

선행연구 검토

바로 보기 쉽게 표로 정리하겠다.

이름 연구과정 결과
이창로, 박기호(2016) 비모수 모형인 일반화 가법 모형, RF, MARS, SVM을 이용하여 강남구 단독주택 가격 추정 MARS와 SVM의 예측력이 상대적으로 뛰어남
김경민(2016) 분당권역 아파트를 분석대상으로 16개 독립변수들의 가치의 합계를 변수의 수로 나누어 투자가치가 높은 것과 낮은 것으로 구분 RF, DT, 로지스틱 회귀등 사용 RF의 분류 정확성이 가장 우수, 투자가치 결정요인은 용적률, 지하철역까지의 거리
연규필(2015) 로지스틱 회귀, DT, 배깅, 그래디언트 부스팅 모형을 이용하여 쵸준주택 가격 선별 그래디언트 부스팅 모형의 성능이 가장 우수
유하연(2015) 회귀분석 모형과 RF를 이용하여 서울시 아파트 매매가격 예측, 다양한 설명변수 적용. RF의 예측력이 회귀분석 모형보다 우수
홍한국(2009) 회귀분석 모형과 인공신경망 모형을 이용하여 송파구 및 도봉구 아파트 매매가격 추정 인공신경망 모형의 예측력이 우수하나 차이는 작음
이준용 외(2007) 회귀분석, DT, ANN 모형을 이용하여 강남구 및 서초구 아파트 가격 예측 인공신경망 > 의사결정나무 > 회귀분석 순으로 예측력이 높음 ( 내가 리뷰한거!! )
남영우, 이정민 (2006) 회귀분석 모형과 ANN 모형을 이용하여 아파트 분양 가격 예측, 다양한 설명변수 적용 ANN 모형의 예측력이 우수
정화미 외 (2001) ANN 모형을 이용하여 부산광역시 표쥰지공시지가 산정 인공신경망 모형의 설명력이 더 높음
Antipov and Pokryshevskaya (2012) CHAID, CART, KNN, 다중회귀분석, 인공신경망, Boosted tree, RF를 이요하여 상트페테르부르크 아파트 가격 추정 RF의 예측력이 가장 우수
Tay and hp (1992), Nguyen and Cripps (2001) 인공신경망과 다중회귀분석 모형을 이용하여 주택가격 예측력 비교 인공신경망이 다중회귀분석보다 우수
Fan et al. (2006) 의사결정트리 모델을 이용하여 싱가포르 주택가격과 주택특성 간의 관계 분석 주택가격 예측 시 의사결정트리 모형 사용
Drucker er al. (1996) SVR과 배깅을 이용하여 보스턴 주택가격 예측력 비교. SVR의 예측력이 더 우수

선행연구와 차별성

  • 아파트 가격 예측과 관련된 선행연구들은 인공신경망 모형, 의사결정나무, RF을 적용, 반면 이 연구는 좀 더 발전된 DNN을 적용, 추가적으로 SVM과 GBRT를 적용
  • 선행연구는 예측모델간 예측력만 비교, 본 연구는 기계 학습 방법에 의해 산출된 실거래가반영률에 대한 COD분석 및 PRD(가격관련격차)분석을 통해 공동주택 공시가격 산정업무에 대한 기계 학습 방법의 활용 가능성을 검토함

이 두가지 정도의 차별성이 있다. COD, PRD 등은 논문 뒤에 나오는가보다. 아니면 추가로 공부하고 게시글 올리겠다.

3. 사용 모델들

2025.04.23 - [알고리즘] - [SVM]서포트 벡터 머신 알고리즘

 

[SVM]서포트 벡터 머신 알고리즘

1. 서포트 벡터 머신 (SVM, Support Vector Machine) 알고리즘 개요SVM알고리즘은 머신러닝에서 잘 사용되지만 요즘 딥러닝에 밀리는 추세라고 한다. 하지만 보통 대학 수업 과정에서 잘 나오므로 공부해

hoho0311.tistory.com

2025.04.23 - [알고리즘] - [Random Forest] RF

 

[Random Forest] RF

랜덤 포레스트란 무엇인가?랜덤 포래스트(이라 RF)는 앙상블(ensemble) 학습 기법 중 하나로, 여러 개의 결정 트리(decision tree)를 생성하고 이들의 예측을 결합하여 최종 예측을 도출하는 방법이다.

hoho0311.tistory.com

Gradient Boosting

그래디언트 부스팅은 기계 학습에서 사용되는 강력한 앙상블 기법으로, 여러 약한 예측 모델들(주로 결정 트리)을 순차적으로 결합하여 최종적인 강한 예측 모델을 만드는 방법이다. (랜덤 포레스트랑 비슷) 이 기법은 예측 오류를 점진적으로 줄이면서 모델의 예측 성능을 향상시키는 것을 목표로 한다.

 

그래디언트 부스팅의 과정은 기본 모델부터 시작하여, 이 모델이 데이터 세트에 대한 예측을 수행하고 발생한 오류를 측정하는 손실 함수를 계산한다. 그 다음, 손실 함수의 그래디언트를 기준으로 새로운 모델을 학습시켜 기존 모델에 부족한 부분을 보안한다. 이러한 과정을 모델 수가 최대에 도달하거나 오류 감소가 만족스러울 때까지 반복한다.

 

이 알고리즘은 다양한 손실 함수에 적용될 수 있으며, 손실 함수가 미분 가능해야 한다는 특징이 있다. 회귀문제에서는 MSE, 분류 문제에서는 로그 손실 등이 흔히 사용된다.

https://wikidocs.net/225548

 

Gradient Boosting (그래디언트 부스팅)

그래디언트 부스팅(Gradient Boosting)은 기계 학습에서 사용되는 강력한 [앙상블](120277) 기법으로, 여러 약한 예측 모델들(주로 [결정 트리](120144))…

wikidocs.net

심층 신경망(deep neural network, DNN)

추가 예정 ^^

4. EDA

< 표1 > 연속형 변수 기초 통계량
< 표 2 > 범주형 변수 기초통계량

종속 변수는 2016년 1월 1일부터 2016년 12월 31일까지의 강남구 아파트 거래사례 중에서 이상치, 100세대 미만 아파트의 거래사례, 상업지역 내 아파트 거래사례를 제외한 4,791건의 거래가격이다.

주요 변수(SP, AV, SR)만 설명하겠다.

  • SP : sale price
  • AV : assessment value (과세가격, 공동주택공시가격)
  • SR : sales ratio
거래단가(=거래금액/전용면적)가 하한(Q(1) - 1.5 x IQR)과 상한(Q(3) + 1.5 x IQR)을 벗어난 거래사례는 이상치로 제외
경과년수 제곱(age2)은 재건축특성변수로서 경과년수(age)를 제곱한 것이다.
실거래가반영률(SR)은 과세가격(AV)/거래가격(SP)이다. 

 

추가적으로 과적합을 막기위해 k-교차검증을 하였다. 이 연구에서는 10겹 교차 검증을 하였고 변수들을 0~1사이 값으로 정규화 하였다.

모델 학습 및 예측 결과

모형별 주요 초모수는 하이퍼파라미터를 말한다.

이정도로 어떻게 튜닝을했는지까지 설명하는 논문은 처음이다. 쩌는거같다. 나도 이래야겠다.

 

기계 학습 방법 중 GBRT(트리수 400개)의 MAE 및 RMSE가 가장 낮아 예측력이 가장 우수한 것으로 나타났다. 기 존 모수 모형인 MRA는 MAE 및 RMSE가 가장 높아 예측력이 가장 낮은 것으로 나타났다. SVM, RF, DNN은 GBRT보다 MAE 및 RMSE가 다소 높지만 유사한 수준인바, GBRT, SVM, RF, DNN의 예측력은 대체로 비슷한 수준인 것으로 판단된다. 기계 학습 방법은 검 증 데이터와 시험 데이터의 MAE 및 RMSE가 다소 차 이를 보이고 있어 과적합이 발생하고 있는 것으로 판 단된다. 과적합의 정도는 검증 데이터와 시험 데이터 간의 MAE 및 RMSE가 가장 큰 차이를 보이는 RF와 GBRT가 높은 수준이며, 상대적으로 SVM과 DNN은 과적합의 정도가 낮은 수준인 것으로 판단된다. 이하 에서는 최종 모형별로 산출된 과세가격을 이용하여 추 가적인 분석을 시도하였다.

 

모형별 실거래가반영률 분석

실거래가반영률이란?

집값을 정할 떄 기준이 되는 공시가격이 실제 거래가격을 얼마나 잘 반영하고 있는지 보는 지표이다.

예를들어 실거래가가 10억이고 공시가격이 8억이면, 실거래가반영률은 80%입니다.

 

이 연구에서는 기계학습 모델로 추정한 공시가격을 가지고, 실제 집값과 얼마나 비슷한지 비교하여 실거래가반영률을 계산했다.

물론 형평성도 분석하였다. COD 및 PRD산식과 미국 과세평가사협회(International Assessor Association Organization, IAAO)에서 제시한 형평성 판단기준은 아래와 같다.

결과적으로 모든 모델이 기준 내에 있어서 형평성은 괜찮았다.

쉽게 아래 정리해보겠다.

  • 기계학습으로 계산한 공시가격은 기존보다 더 정확하게 실거래가를 반영함
  • 특히 GBRT 모델이 실거래 반영률과 형평성 면에서 가장 우수했다.
  • 기계학습을 활용하면 공정하고 효율적인 부동산 과세 기준 마련이 가능하다

라고 정리할 수 있겠다.

검토

서울 강남구 아파트 실거래 데이터를 바탕으로 다양한 기계학습 기법을 활용해 공시가격을 추정한 결과, 기존의 다중회귀분석(MRA)보다 기계학습 모델들이 훨씬 뛰어난 예측력을 보이는 것으로 나타났습니다. 이는 부동산 가격 데이터가 선형적이지 않고 복잡한 특성을 지니기 때문에, 비선형 관계를 잘 반영하는 기계학습이 더 적합하다는 것을 의미합니다.

 

그중에서도 GBRT(Gradient Boosting Regression Tree) 모델이 가장 우수한 성능을 보였지만, SVM, 랜덤포레스트(RF), 딥러닝(DNN) 모델들도 예측력에서 큰 차이를 보이지 않았습니다.

 

또한, 공시가격이 실제 거래가를 얼마나 잘 반영하는지를 보여주는 실거래가반영률 측면에서도 기계학습 모델이 더 나은 결과를 보여주었습니다. 실제 데이터에서는 실거래가반영률이 70% 미만인 경우가 약 35%에 달했지만, 기계학습 모델의 경우 70% 미만 비율이 3~7% 수준으로 줄어들어 과소평가 문제를 크게 개선한 것으로 나타났습니다.

 

다만, 반대로 실거래가 대비 과세가격이 90%를 넘는 과대평가 사례도 늘어나는 경향이 있었습니다. 이런 부분은 민원 발생이나 조세 형평성 문제로 이어질 수 있기 때문에, 실제 적용 시에는 상한선 초과 사례에 대한 보정이나 재검토가 필요합니다.

 

결론적으로, 기계학습을 통해 산출된 과세가격은 기존 방식보다 더 현실적인 가격을 반영하며, 예측력과 형평성 측면에서도 기준을 충족하고 있어 공시가격 산정에 기계학습 도입 가능성이 매우 높다고 할 수 있습니다.

[출처] 지피티...

결론 요약

서울 강남구의 공동주택 실거래 데이터를 기반으로 여러 기계학습 모델(SVM, RF, GBRT, DNN)을 활용해 주택 가격을 추정한 결과 MRA보다 기계학습 모델들이 전반적으로 더 높은 예측력을 보였다.

특히, GBRT모델이 가장 낮은 MAE, RMSE값을 보였다.

기계학습 모델을 통해 추정된 과세가격은 실제 실거래가와 더 근접한 실거래가반영률을 보였으며 과세의 형평성 지표(COD, PRD)도 IAAO 권장 기준을 만족함

결론적으로, 기계학습 방법은 공동주택 공시가격 산정에 효율성과 정확성을 높일 수 있는 대안으로 실질적 적용 가능성이 높다고 본다.

시사점 요약

1. 기계 학습의 부동산 가치평가 적용 가능성 확인

기존의 전문가 기반 평가나 회귀모형보다 정확도가 높고 자동화 가능한 기계학습 기법들이 대규모 부동산 사격 산정 업무에 적용 가능함을 보여줌

2. 정책적 활요 가능성

기계학습을 통해 세금 부과의 공정성과 형평성(실거래반영률, COD, PRD)을 높일 수 있으며, 조세 형평성문제 개선에도 기여 가능

3. 시간 및 비용 절감

현재 수개월의 조사 기간과 수백 명의 인력이 투입되는 공시가격 산정 업무에서, 기계학습을 도입하면 시간과 예산을 크게 절감 가능

4. 데이터 기반 행정의 토대 마련

기계학습 기반의 가격 예측 시스템은 객관적이고 투명한 기준 마련이 가능하며, 데이터 기반 정책결정으로의 전환을 촉진함.

 

느낀점

실제로 논문 투고를 목표로 정하고 부동산분석이라는 저널에 투고를 목표로 삼았다. 그러다 보니 해당 저널에서 출판한 논문을 주로 읽어볼 예정이다.

이 논문도 바로 해당 저널에서 출판한 논문이다. 처음에 부동산분석이라는 저널명을 들었을때 작은 크기의 학회라 생각했다. 하지만 학회 설명에 나와있듯이 최초(?)의 학회라고 나와있었다. 그에 맞게 게시하는 논문도 좋았다.

특히 이 논문은 지금까지 여러 논문을 읽어오면서(대략 20개정도...) 이걸 왜 안적어놓지..? 하는 부분을 빠짐없이 적어놨다. 정말 좋은 논문이라고 생각한다. 학교 수업에도 이 논문을 발표해볼까 생각중이다.

나도 논문을 작성할때 이렇게 작성하고싶다. 누군가 내 논문을 읽을때 그대로 따라온다면 충분히 구현가능한 마치 설명서와 같은 논문을 적고싶다. 이상이다~