데이터 노가다 일지

연구 계획서 본문

프로젝트

연구 계획서

hoho0311 2025. 6. 8. 14:05

본 문서는 2025년도 졸업 프로젝트를 위한 연구 계획서입니다.
새로운 아이디어나 변경 사항이 생길 경우, 본 계획서에 지속적으로 추가 및 업데이트할 예정입니다.

1. 연구 제목

멀티모달 학습 기반 위성 이미지 및 감성 데이터를 활용한 부동산 시세 예측 모델 개발

2. 연구 배경 및 필요성

최근 부동산 시장은 다양한 변수에 따라 복잡하게 움직이며, 정확한 시세 예측의 중요성이 커지고 있다.
특히 단순한 정형 데이터(면적, 층수 등)만으로는 가격 변동을 설명하는 데 한계가 있으며, 비정형 데이터(이미지, 텍스트)와의 융합이 요구된다.

본 연구는 위성 이미지와 뉴스 기반 감석 분석 데이터를 결합하여 부동산 시세 예측의 정밀도를 높이고자 한다.
기존 연구들이 개별 데이터 유형에 한정되는 반면, 본 연구는 정형 데이터 + 이미지 피처 + 감성 점수를 통합한 멀티모달 학습 모델을 통해 더 나은 예측 성능을 달성하는 것을 목표로 한다.

3. 연구 목적 및 연무 문제

  • 목적 :
    위성 이미지와 감성 분석 데이터를 아파트 실거래 정보와 결합하여, 서울시 아파트의 거래 시세를 정밀하게 예측할 수 있는 통합 모델을 개발한다.
  • 만약 세가지 데이터의 조합의 성능이 좋지 못하더라도, 논리적인 사고방식을 목표로 한다.
  • 연구 문제 :
    1. CNN 기반 위성 이미지 특징과 정형 데이터를 함꼐 사용할 때 예측 정확도가 향상되는가?(O)
    2. 부동산 관련 뉴스의 감정 점수를 활용할때 예측 정확도가 향상되는가?
    3. 1,2번의 데이터를 결합하였을떄 MLP 모델의 예측 정확도가 향상되는가?

4. 데이터 구성 및 처리 방법

4.1 아파트 실거래 데이터

  • 구성 : 위도, 경도, 전영면적..., 거래금액, 건축년도

4.2 위성 이미지

  • 방법 : 위경도 기반 이미지를 추출한후 ResNet등 CNN으로 이미지 피처 추출
  • 이미지 증강 기법 정용 (RandomRotation, Colorjitter 등)
  • 특히 이미지 증강 기법중 GAN 기반 추가 증강도 고려해본다.(25.06.08)

4.3 감성 점수 데이터

  • 수집 : 다양한 기사 사이트를 통해서 데이터 추출, 행정구 별로 감성 수치 변환 예정
    • 장기간의 뉴스 데이터를 수집해야하는데 그러면 행정구 단위로 기사를 나누기가 애매해진다. 그냥 월별 단위로 감성 수치를 나눠야 할거같다.(25.06.10)
    • 이 연구는 서울시를 목표로 아파트 시세를 예측하지만 뉴스기사는 보통 전국을 단위로 나온다. 
      • 예시 : 경주에 관한 부동산 뉴스의 감성 수치를 서울시 아파트 매매 예측에 사용해도 괜찮은가?
        • 서울시의 아파트 시세를 전국의 아파트 매매 가격의 대푯값으로 주장(?) (25.06.10)
  • 처리 : 형태소 분석, 불용어 제거 후 감성 점수 산출
  • 라벨링 : LDA 토픽모델링 + 수작업 문장 라벨링 기반 감성사전 구축
  • 집계 : 행정구 단위로 평균 감성 점수

5. 데이터 병합 및 최종 구조

  • 병합 기준 :
    • 실거래 + 이미지 피처 -> 위도/경도 기준
    • 시럭래 + 감성 점수 -> 행정구 + 월 기준

6. 모델 설계 및 실험

- 입력 : 정형 데이터 + CNN 이미지 피처 + 감정 점수
- 모델 구조 : 기본 MLP 모델
            멀티 모달 구조
            실험 자동화를 위한 wandB연동
  - 예측 지표 : MAE, RMSE, R²등 회귀 성능 지표 사용

'프로젝트' 카테고리의 다른 글

제안서 작성  (1) 2025.06.09