데이터 노가다 일지

데이터 마이닝 적용을 통한 아파트 가격 예측에 관한 연구 본문

[논문리뷰]

데이터 마이닝 적용을 통한 아파트 가격 예측에 관한 연구

hoho0311 2025. 4. 22. 21:35

https://www.kci.go.kr/kciportal/ci/sereArticleSearch/ciSereArtiView.kci?sereArticleSearchBean.artiId=ART001074941

 

데이터 마이닝 적용을 통한 아파트 가격예측에 관한 연구

이준용최미화이상엽 136를 건설함으로써 주택 보급률을 높이고 있으나, 특정지역은 실제로 거주하고자 하는 사람들보다는 재산의 증식이나 투자를 목적으로 하는 사람들에 의해서 아파트 가격

www.kci.go.kr

졸업 논문을 위해 읽어본 논문이다.

대한국토. 도시계획학회에 출간된 논문이다.

학회소개
대한민국 국토 및 도시계획분야 연구의 가장 오랜 역사를 가진 학회인 대한국토‧도시계획학회는 지속가능한 국토의 계획 및 관리에 이바지할 국토‧지역‧도시계획의 연구 및 교육 그리고 기술 발전을 도모하고 계획가의 지위향상 및 국가발전에 공헌하기 위하여 1959년 계획 분야의 선각자들에 의하여 설립되었습니다.

[출처] https://kpa1959.or.kr/?menuno=263

 

Perplexity를 통해 한국 부동산 가격 예측에 관한 논문을 찾아보다 데이터 마이닝 기법을 적용한 초기 대표 논문이라는 설명이 있어 리뷰해 보았다.

 

서론

1. 연구 배경과 목적

과거와 달리 현재 부동산은 단순한 거주용이 아닌 부의 축적 수단과 투자의 목적이 뚜렷하다. 특정지역은 실제로 거주하고자 하는 사람 들보다는 재산의 증식이나 투자를 목적으로 하는 사람들에 이해서 아파트 가격이 상승하고 시장가격이 결정되고 있다. 그러므로 도시 전체 지역으로 분석 대상을 확대하여 연구하기에 앞서 특정지여에 한해 연구하는 것이 선행되어야 한다.

또한, 현대 통계학에서는 기존의 통계기법 보다 다양하고 복잡한 사회 속에서, 수많은 변수들 사이에 의미 있는 정보를 얻어내는 데이터 마니닝 기법이 새롭게 자리매김하고 있으며, 이는 아파트 특성의 다양화와 개별적인 특성이 증가되는 현시점에 있어 적절한 분석 방법으로 인식되고 있다. 따라서 서울 아파트 가격의 상승을 주도하고 있는 강남구와 서초구를 연구대상으로 선정하여, 이 지역의 아파트 가격상승 요인을 분석하고, 아파트 가격산정 모형을 위한 기존의 분석방법을 데이터 마이닝까지 분석방법의 영역을 넓히고, 각 분석의 예측력을 비교하여, 아파트 가격을 가장 잘 예측하는 모형을 구축하는데 본 연구의 목적이 있다.

(2025년 4월 22일 기준에도 서울의 아파트 상승을 주도하는 지역은 강남 3구이다.)

[출처] https://seo.goover.ai/report/202503/go-public-report-ko-3 fb7 c69 f-6 a6 c-4524-a967-fd2 aa94336e5-0-0.html

 

2025년 서울 아파트 가격 상승의 원인과 전망

 

goover.ai

2. 연구의 범위와 방법

본 연구는 크게 두 가지 부분으로 진행하였다.

1. 문헌 고찰을 통하여 아파트 가격의 개념과 결정요인들을 고찰하고 동향을 살펴 연구의 토대로 삼았다. 또한, 데이터 마이닝의 여러 기법을 분석하여 아파트 가격 결정모형 구축의 가능성을 검토하였다.


내가 직접 분석해 본 아파트 가격의 개념과 결정 요인

아파트 가격이란, 아파트가 실제로 거래되는 시점에서 금전적 가치, 즉 실거래가격을 의미한다. 이 가격은 단순히 집 자체의 가치뿐 아니라 다양한 요인에 의해서 결정된다. ( 아파트 면적, 층수, 건축연도, 인프라, 지역적 특성, 거시경제 요인 등등..) 이러한 요소들이 서로 복합적으로 작용하여 아파트 가격이 결정된다.

 

데이터 마이닝기법은 대표적으로 의사결정나무, 다중회귀분석, 신경망분석이 있으며 이 논문결과로는 신경망 분석이 가장 결과가 좋았다. 추가로 여러 기법을 병행해서 사용할 때 예측 모형의 성능이 더 향상됨을 확인하였다.


2. 강남구와 서초구를 중심으로 아파트 가격의 결정요인을 지역의 특생에 맞게 설정하고, (사)한국부동산정보협회의 협조를 받아 제공받은 위 지역의 아파트 가격 및 여러 변수들의 데이터를 통하여 데이터 마이닝 툴인 SAS E-MINER(시각화, 군집분석등을 손쉽게 해주는 툴)를 도구로 분석하였다. 이 세 가지 방법을 통해 모형을 구축, 가격 결정 요인 분석, RMSE를 이용하여 가장 좋은 모델을 결정, 각 모델의 상호 보안점을 도출하고 앞으로의 향후 과제로 남겨두었다.

2. 선행연구에 대한 고찰

1990년대 이후 아파트 가격 결정에 영향을 미치는 연구가 활발해짐에 따라 많은 발전을 이루었다.

논문에 참고된 선행 연구를 아래 표에 정리했다.

제목 및 저자 내용
정홍주(1996)
" 아파트 가격결정모형에 관한 연구 "
서울지역 156개 단지 한강 주변아파트의 결정 모형 구축, 가격 결정 요인과 한강 조망가치 분석
구인완(1999)
" 신경망을 이용한 상업건물의 공사비 산정 "
신경망 분석을 이용하여 공사비를 예측
배수진(2000)
"주택가격에 내재한 녹지의 가격 층적에 관한 연구 "
분당, 일산 신도시 아파트 가격에 내재된 녹지의 가격을 측정
허준(2000)
" 데이터 마이닝에서 신경망분석과 의사결정 나무 분석의 비교 "
신경망분석, 의사결정나무 분석으로 좀 더 정교한 예측 전력을 수립
양진우(2000)
"해도닉기법을 이용한 환경소음 개선효과의 평가에 관한 연구"
같은 규모 아파트라도 조건들 중 아파트 가격결정에 가장 큰 영향을 미치는 것은 경관 및 개방감
구본창, 송현영(2001)
" 아파트 특성에 따른 가격결정 모형 연구 : 분단신도시를 대상으로 "
분당 신도시 아파트 특성이 가격에 미치는 영향 분석에 따르면, 주변 인프라가 주택 가격에 영향을 줌을 확인
김태윤, 이창무(2005)
" 임차인의 임대계약 선택에 있어서 데이터 마이닝 기법들을 이용한 비교 분석"
임대계약형태에 영향을 주는 변수를 분석하기위해 다양한 데이터마이닝 기법 사용
Nguyen & Gripps(2001)
" Predicting Housing Valus : A Comparison of Multiple Regression Analysis and Artiicial Neural Networks"
신경망 모형을 통해 특정 지역에 대한 판매가격을, 다양한 특성을 이용해 예측
Buja and Lee(2001)
" Data Mining Criteria for Tree-based Regression and Classfication "
보스턴 지역의 주택가격과 그 개별적 요인을 통하여 주택가격결정 모형을 신경만 분석을 이용

3. 데이터 마이닝 (data mining)

쉽게 말해 대용량의 데이터로부터 그들 사이에 숨겨진 패턴이나 관계를 찾아내어 정보로 환원시키는 일련의 과정이다.

1. 의사결정나무

2025.04.22 - [알고리즘] - 결정트리

 

결정트리

의사결정 나무란?주어진 입력값들의 조합에 대한 의사결정 규칙(rule)에 따라 출력값을 예측하는 모형으로 트리구조의 그래프로 표현하는 알고리즘이다.의사결정나무모형의 예측력은 다른 지도

hoho0311.tistory.com

이미 작성한 글이 있어 설명은 대체하겠다.

 

2. 다중선형회귀 모형

정리 안 함.

3. 신경망 분석

추후 정리 예정

4. 예측모델 개발

1. 변수 선정

본 논문에서는 다양한 선행연구를 거론하며 각 특성적 변수에 따라 물리적 요소, 환경적 요소, 편리성에 의해서 아파트의 가격이 변화한다고 하였다.

본 연구에서는 이들을 바탕으로 표 2와 같이 종속변수를 아파트가격으로 선정하고 물리적 요소로 방 수, 욕실 수, 건설회사 브랜드, 입주 연도, 주차대수로 선정하였으며, 환경적 요소로는 공원까지의 거리, 한강 입점 유무, 역까지의 거리로 변수를 선정하였다.

표 2

2. 조사자료 선정

1) 강남구, 서초구 지역 현황

강남구와 서초구가 어떤 방식으로 주거지가 건설되었는지 나와있다. 정리하자면 1970년대 서울 도시개발계획에 의해 주택지로 건설되었으며 계획적으로 개발된 새로운 도시 경관을 보여주었다.

2) 재건축 대상 아파트 현황

강남구에는 20~30년이 경과한 아파트들이 집중된 곳으로 재개발이 우선적으로 시행될 지역이다. 서초구도 마찬가지였다. 표 3을 참고

표 3

3) 데이터 탐색

분석을 위한 데이터는 사단법인 한국 부동산 정보 협회의 협조를 받아 강남구와 서초구의 아파트 가격, 평형, 방의 개수, 화장실 개수, 총 세대수, 입주 연도, 주차대수의 데이터를 제공받았으며, 연구자가 추가로 가까운 공원까지의 거리, 지하철역까지의 거리, 한강인접 유무, 아파트브랜드 선호도 변수를 추가하였다.

추가로 아파트 브랜드 선호도를 조사하여 변수로 넣었다.

왼 : 표 4 오 : 표 5

 

1위부터 15위까지 1위부터 15점으로 시작해 순위권 밖의 브랜드는 0점으로 처리하였다.

표 5의 경우 변수의 구성을 나타내며 2006년 3월부터 2007년 2월까지의 매매 상한가와 매매 하한가의 평균을 낸 값이다. 이는 단지 내의 개별적인 특성을 고려하여 아파트 한 채의 특성을 중심으로 연구 목적을 선정하기보다는 아파트 단지의 특성을 연구하기 위함이다.

아파트 가격의 표시는 천만 원 단위에서 억 단위로 수정하였고, 아파트의 수명은 입주일자를 입주일부터 현재(2007년 2월)까지의 기간으로 변환하였다.

결측치는 총 34개이므로 삭제하였다.

5. 모델 분석

모델 결과 (RMSE) 특징
의사결정나무 2.24 아파트 수명 19.2년 이하의 평균 가격 6.20억원이고 19.2년 이상의 평균 가격은 9.25억원이므로 재건축에 대한 기대심리가 반연된 증거로 보임
다중회귀분석 3.54 통상 아파트의 수명이 증가하면 아파트의 가격은 감소하지만 이 모델은 아파트의 가격이 상승하고, 공원까지의 거리가 멀면 아파트 가격이 증가하는 점이다. 이는 강남권 지역의 재건축아파트에 대한 투기성이 내포, 공원과 가까운 아파트는 소음에 의해 가격하락으로 분석
신경망 분석 2.18  

 

마지막으로 데이터 마이닝 기법의 각 분석방법들에 대한 장단점 비교포를 보여준다.

 

6. 결과

  • 신경망분석이 기존 통계기법보다 아파트 가격 예측에 더 효과적임이 실증적으로 확인됨
  • 의사결정나무 분석을 통해 강남권 아파트 시장의 재건축 기대심리 등 특수 요인을 파악할 수 있었음
  • 회귀분석은 기존 연구와 일관된 결과를 보이며, 해석력에서 강점을 가짐.
  • 여러 기법을 상호보완적으로 활용하는 것이 아파트 가격 예측 모델의 성능을 높이는데 효과적임을 제않마

모델별로 해석력, 지역 특성 반영, 예측령 등에서 차이가 있으므로, 단일 기법보다는 다양한 기법의 조합이 바람직함

 

내 의견

요즘 학위 논문을 가지고 실제 논문 투고를 하고 싶다고 생각이 들었다. 그러기 위해선 일단 많은 논문들을 읽어야 한다고 생각한다. 하지만 정말 좋은 논문을 고르는 법을 잘 모르겠다. 이 논문도 마찬가지다 데이터 길이가 1000여 개  정도인데 신경망을 사용한다? 말도 안 된다. 분명 과적합이 올 것이 뻔하다고 생각한다. 연구자고 이런 결과를 알기에 수집한 데이터가 정확히 월별인지 일별인지 설명을 안 한 거 같기도 하다. 하긴 2007년도 논문이니깐 그럴 수도 있는 거 같다. 여기서 얻은 점은 신경망에 관한 얕은 지식 그리고 건설사를 인코딩한 방법, 추가 변수로 인접한 간선도로 및 고속화 도로 등을 추가해 보는 아이디어를 얻었다.