데이터 노가다 일지
연구 계획서 본문
본 문서는 2025년도 졸업 프로젝트를 위한 연구 계획서입니다.
새로운 아이디어나 변경 사항이 생길 경우, 본 계획서에 지속적으로 추가 및 업데이트할 예정입니다.
1. 연구 제목
멀티모달 학습 기반 위성 이미지 및 감성 데이터를 활용한 부동산 시세 예측 모델 개발
2. 연구 배경 및 필요성
최근 부동산 시장은 다양한 변수에 따라 복잡하게 움직이며, 정확한 시세 예측의 중요성이 커지고 있다.
특히 단순한 정형 데이터(면적, 층수 등)만으로는 가격 변동을 설명하는 데 한계가 있으며, 비정형 데이터(이미지, 텍스트)와의 융합이 요구된다.
본 연구는 위성 이미지와 뉴스 기반 감석 분석 데이터를 결합하여 부동산 시세 예측의 정밀도를 높이고자 한다.
기존 연구들이 개별 데이터 유형에 한정되는 반면, 본 연구는 정형 데이터 + 이미지 피처 + 감성 점수를 통합한 멀티모달 학습 모델을 통해 더 나은 예측 성능을 달성하는 것을 목표로 한다.
3. 연구 목적 및 연무 문제
- 목적 :
위성 이미지와 감성 분석 데이터를 아파트 실거래 정보와 결합하여, 서울시 아파트의 거래 시세를 정밀하게 예측할 수 있는 통합 모델을 개발한다. - 만약 세가지 데이터의 조합의 성능이 좋지 못하더라도, 논리적인 사고방식을 목표로 한다.
- 연구 문제 :
- CNN 기반 위성 이미지 특징과 정형 데이터를 함꼐 사용할 때 예측 정확도가 향상되는가?(O)
- 부동산 관련 뉴스의 감정 점수를 활용할때 예측 정확도가 향상되는가?
- 1,2번의 데이터를 결합하였을떄 MLP 모델의 예측 정확도가 향상되는가?
4. 데이터 구성 및 처리 방법
4.1 아파트 실거래 데이터
- 구성 : 위도, 경도, 전영면적..., 거래금액, 건축년도
4.2 위성 이미지
- 방법 : 위경도 기반 이미지를 추출한후 ResNet등 CNN으로 이미지 피처 추출
- 이미지 증강 기법 정용 (RandomRotation, Colorjitter 등)
- 특히 이미지 증강 기법중 GAN 기반 추가 증강도 고려해본다.(25.06.08)
4.3 감성 점수 데이터
- 수집 : 다양한 기사 사이트를 통해서 데이터 추출, 행정구 별로 감성 수치 변환 예정
- 장기간의 뉴스 데이터를 수집해야하는데 그러면 행정구 단위로 기사를 나누기가 애매해진다. 그냥 월별 단위로 감성 수치를 나눠야 할거같다.(25.06.10)
- 이 연구는 서울시를 목표로 아파트 시세를 예측하지만 뉴스기사는 보통 전국을 단위로 나온다.
- 예시 : 경주에 관한 부동산 뉴스의 감성 수치를 서울시 아파트 매매 예측에 사용해도 괜찮은가?
- 서울시의 아파트 시세를 전국의 아파트 매매 가격의 대푯값으로 주장(?) (25.06.10)
- 예시 : 경주에 관한 부동산 뉴스의 감성 수치를 서울시 아파트 매매 예측에 사용해도 괜찮은가?
- 처리 : 형태소 분석, 불용어 제거 후 감성 점수 산출
- 라벨링 : LDA 토픽모델링 + 수작업 문장 라벨링 기반 감성사전 구축
- 집계 : 행정구 단위로 평균 감성 점수
5. 데이터 병합 및 최종 구조
- 병합 기준 :
- 실거래 + 이미지 피처 -> 위도/경도 기준
- 시럭래 + 감성 점수 -> 행정구 + 월 기준
6. 모델 설계 및 실험
- 입력 : 정형 데이터 + CNN 이미지 피처 + 감정 점수
- 모델 구조 : 기본 MLP 모델
멀티 모달 구조
실험 자동화를 위한 wandB연동
- 예측 지표 : MAE, RMSE, R²등 회귀 성능 지표 사용