딥러닝을 활용한 크라우드 펀딩 성공 예측 모델 연구
https://kma.re.kr/homepage/custom/greeting
한국마케팅학회
한국마케팅학회
kma.re.kr
한국마케팅학회이다.
About KMA
(사) 한국마케팅학회는 국내 최대의 마케팅 관련 학술조직으로 1985년에 창립되었습니다. 본 학회는 마케팅과 이와 관련된 학문의 연구와 발표를 통하여 한국 마케팅 발전에 기여하며 회원 상호간의 친목을 도모하는 것을 목적으로 합니다.
그렇다고 한다..
바로 시작
1. 요약
크라우드 펀딩 플랫폼은 스타트업의 초기 자금을 충당하기위한 방법중 하나 이다. 그 외에도 상품의 시장성을 사전 판단하거나 하는 다른 방법으로도 사용할 수 있기도 하다.
크라우드 펀딩 관련 기존 연구들은 동영상 수, 이미지 수, 기간 등의 수치 데이터를 주 변수로 사용했다. 그러나 일부 연구에서는 비정형 데이터인 텍스트 변수를 활용하여 품사의 수, 문장의 길이 등을 사용하거나 토픽분석을 통한 추출한 토픽을 변수로 활용하고 있다. 하지만 이러한 변수들은 텍스트의 의미를 포함하지 않거나 제한적으로 반영하고 있는 실정이다.
따라서 이 연구에서는 텍스트의 활용을 더 확장하고 문맥적 의미를 반영하기 위한 언어모델을 사용했다.
그러기 위해 사전 학습된 BERT 모델과 직접 텍스트 자료를 입력하여 학습한 트랜스포머의 인코더 모델을 활용 또한 기존 모델과 달리 종속변수를 펀딩 서포터 수로 설정, 벡터와 수치 데이터를 활용하여 딥러닝 모델을 구축하였다.
2. 선행 연구 요약
연구자 | 연구 내용 | 주요 방법 또는 시사점 |
Mollick (2014) | 크라우드 펀딩의 성공에 영향을 미치는 요소를 분석 | 캠페인의 질, 프로젝트 업데이트 빈도, 소셜 네트워크 연결성 등이 중요함을 제시 |
Greenberg et al (2013) | 캠페인 창작의 소셜 미디어 활용이 성과에 미치는 영향 | 트위처 사용이 긍정적인 효과를 미침 |
Mitra and Gilbert (2014) | 프로젝트 설명의 언어적 특성과 성공 간의 관계 분석 | 언어적 표현이 성공 가능성에 영향을 줌 |
Etter et al (2013) | 크라우드 펀딩 데이터의 조기 동향이 성공 예측에 미치는 영향 | 초기 후원자 수 등의 시계열 패던 활용 |
Tuan et al (2016) | 기계 학습 기반의 크라우드 펀딩 성공 예측 연구 | 의사 결정트리, 랜덤포레스트 등의 기법 사용 |
Kumar et al (2022) | 다양한 특성 조합을 통한 예측 성능 향상 | 기본 정보, 소셜 정보, 서술형 텍스트 등 다중 정보 결합 |
3. 크라우드 펀딩
크라우드 펀딩은 플랫폼을 통해 회사 또는 개인 사업가 등이 일반 대중들로부터 자금을 지원받는 형태로 판매자와 일반 군중 간의 상호 작용이 특징이다.
제품이나 서비스 개발 과정에서 대중으로부터 아이디어와 피드백을 수집하는 크라우드 소싱의 한 형태로 시작되었으며, 펀딩에 참여한 서포터와 이익을 공유한다. 일종의 투자 개념같다.
딥러닝
(귀찮으니깐 넘버링 포기)
멀티모달
먼저 여기서 멀티모달이라는 개념이 나온다. 사전적인 정의로는
멀티모달 딥러닝은 여러 종류(모달리티, modality)의 데이터를 동시에 학습하고 처리하여 하나의 과제를 해결하는 딥러닝 방식이다.
"모달리티"란?
모달리티는 데이터의 종류나 표현 방식을 의미한다. 예를들어
- 텍스트 : 기사, SNS 글
- 이미지 : 사진, 그림
- 음성 : 사람의 말소리
- 비디오 : 동영상
- 숫자형 데이터 : 가격, 수량 등 정량적 정보
실제 문제들은 여러 종류의 데이터가 동시에 존재한다.
예를 들어 크라우드 펀딩 성공 예측 문제에서는 정량 데이터 , 정성 데이터 가 존재한다.
이러한 서로 다른 모델 데이터를 따로따로 보는 것이 아니라, 통합적으로 학습시켜 더 정확한 예측을 하게 하는 것이 멀티모달 딥러닝이다.
또 여러가지 데이터를 언제 합치는지에 따라 초기 융합, 중기 융합, 후기 융합으로 나뉜다.
구분 | 융합 시점 | 방식 설명 | 장점 | 단점 |
초기 융합 | 입럭 전에 | 전처리 후 바로 결합 -> 하나의 입력으로 학습 | 상호작용 학습 가능 | 차원 증가, 노이즈 영향 |
중기 융합 | 특징 추출 후 | 각 모달에서 feature 추출 -> 벡터 결합 후 예측 | 표현력과 유연성의 균형 | 모델 구조 복잡 |
후기 융합 | 예측 결과 후 | 각 모달 별로 예측 -> 결과 결합 | 안정적, 독립 처리 가능 | 상호작용 반영 어려움 |
트랜스포머 모델
트렌스포머 모델은 2017년 몬문 "Attention is All You Need"에서 제안된 딥러닝 모델로, 주로 자연어 처리(NLP) 분야에서 사용된다.
이 모델의 핵심 아이디어는 전체 입력 문장에서 각 단어가 다른 단어와 어떤 관련이 있는지를 파악하는 "어텐션(Attention)" 메커니즘이다.
트렌스포머 모델에선 Attention 또는 self-Attention 메커니즘이 핵심이므로 따로 정리글을 게시하겠다.
2025.05.07 - [알고리즘] - self-Attention mechanism of Transformer model
self-Attention mechanism of Transformer model
이 글에서는 트렌스포머 모델의 핵심 메커니즘인 self-Attention 메커니즘에 대해 설명하겠다.https://arxiv.org/abs/1706.03762 Attention Is All You NeedThe dominant sequence transduction models are based on complex recurrent or co
hoho0311.tistory.com
크라우드 펀딩 성공 예측 모델
와디즈 에서 데이터를 수집했다.
프로젝트가 종료된 2021년 1월 ~ 2023년 1월 총 2년의 데이터를 수집했다.
카테고리는 아래와 같다.
1. 테크, 가전
2. 패션, 잡화
3. 홈, 리빙
4. 푸드
5. 뷰티
금액 달성률 100%를 성공 100% 미안을 실패로 설정하였다.
서포터 수
-> 평균과 표준편차의 차이가 큼
-> 캠페인마다 서포터 수 차이가 크다.
-> 프로젝트 결과를 가장 잘 반영한다고 생각
-> 종속변수로 설정
추가로 초기 서포터 수를 고려한 예측 모델링을 추가적으로 실행했다.
<- 초기 서포터의 수가 성공에 가장 큰 영향을 준다고 생각함
초기 2주동안 서포터수를 일별로 수집하고 분석한 결과 모두 통계적으로 유의미하여 초기에 서포터를 모으는 것이 가장 중요하다고 한다.
전처리
1. Interaction term 생성
- 변수의 상관 관계를 확인하기 위해 생성했다.
왜 correlation heatmap 사용 안했는지?
interaction term은 비선형적이고 복잡한 데이터의 관계를 확인하는데 유용하다.
correlation heatmap은 선형적 데이터의 상관관계를 분석하는데 사용!
interaction term에서 변수를 만들기 위해서는 상황별로 다르게 판단해야한다.
추가로 여기서는 분류모델도 만들었다.
그러기 위해 서포터 수를 범주화하여 만들어주고 활성 함수는 $$ softmax $$ 손실 함수는 Croos entropy를 사용했다.
크라우드 펀딩 성공 예측 모델
여기서는 총 5단계로 실행하였다.
- 딥러닝 회귀모델 vs 분류모델
- 회귀모델: 서포터 수 예측 (활성화 함수: 선형 / 손실 함수: MSE)
- 분류모델: 로그 변환된 서포터 수를 기준으로 5개 구간으로 나누어 예측 (활성화 함수: softmax / 손실 함수: Cross Entropy)
- 공통적으로 Dense, BatchNormalization, Dropout 레이어를 포함한 Sequential 구조 사용
- 입력 특성(feature) 조합에 따른 성능 비교
- 세 가지 입력 특성:
- 숫자 변수
- 숫자 변수들의 곱(interaction term)
- 텍스트 변수
- 입력 조합:
- 숫자+곱
- 숫자+텍스트
- 숫자+곱+텍스트
- 세 가지 입력 특성:
- 입력 방식에 따른 모델 구조 비교
- 직렬 구조: 모든 입력 데이터를 하나의 흐름으로 처리
- 병렬 구조: 수치, 범주, 텍스트 데이터를 각각 별도 처리 후 병합
- 초기 서포터 수 변수 추가 실험
- 펀딩 시작 직후의 서포터 수(1~3일 차)를 추가 변수로 활용하여 모델 성능 변화 확인
- 텍스트 처리 방식 비교
- 기존 방식: BERT 임베딩 → Dense 입력
- 대안 방식: OKT 형태소 분석기 + 트랜스포머 인코더 직접 학습 방식 사용
모델 구조 시각 요약
- 직렬 모델: 모든 feature를 하나의 흐름으로 넣음
- 병렬 모델: 숫자, 범주, 텍스트를 각각 별도 네트워크에서 처리 후 결합
결과
다양한 데이터 처리 방식과 모델 구조를 적용해가며 어떤 조건에서 예측력이 높아지는지를 분석함
병렬 구조로 숫자와 텍스트 데이터를 각각 처리한 모델이 가장 성능이 좋았음. 직렬 구조보다 병렬 구조가 전반적으로 더 나은 결과를 보였고, 특히 텍스트 데이터를 잘 처리한 모델이 효과적
초기 서포터 수를 변수로 추가하니 모델 정확도가 더 높아졌고, 특히 분류 모델에서 정확도가 2배 가까지 상승함. 초기 관심도를 반영하는 것이 펀딩 성공 예측에 중요한 요소임을 보여줌
텍스트 데이터 처리에는 기존 BERT보다 직접 학습한 트랜스포머 인코더 기반 모델이 의미를 더 잘 반영했음. 하지만 숫자 데이터와 함께 사용할 경우에는 오히려 BERT 기반이 더 좋은 성능을 보이기도 했음.
결론적으로, 크라우드 펀딩 성공 예측에는 다양한 데이터 타입을 병렬로 처리하는 구조와 초기 서포터 수 반영이 핵심이며, 텍스트 처리 방식에 따라 예측력이 크게 달라질 수 있음
한계점으로는 데이터셋 범위가 제한적이고, 다른 머신러닝 알고리즘과 비교하지 않았다는 점이 있음, 향수에는 XAI 기법이나 이미지, 영상 등 다양한 멀티모달 데이터를 포함한 예측모델이 필요함