선거여론조사 데이터의 지지율 분석을 위한 동적 베이지안 모형

메타J (Meta J)

강현철 호서대 빅데이터AI학부 교수, 이성건 성신여대 수리통계데이터사이언스학부 교수

메타 분석이란?

학술연구에서 흔히 사용되는 메타분석은 연구들에 대한 연구라고 간단히 말할 수 있습니다. <메타J>는 기존에 공표되어있는 서로 다른 개별 여론조사들을 한 번에 모아서 다시 분석을 하게되는데, 바로 여론조사에 대한 메타분석 시스템이라고 할 수 있습니다.

메타라는 말은 흔히 메타버스. 메타인지 등을 통해서 친숙한 단어입니다. 한 단계 위에서 조망하며 전체를 바라보고 상황을 이해하려는 시도로 이해하면 됩니다. 숲의 모습을 알기 위해 나무 아래에서 개별 나무의 상황을 이해하는 것도 중요하지만, 숲의 윗쪽에서 숲을 조망해야 할 필요도 있는 것입니다.

비슷하게, 정치상황을 이해하기 위해 개별 여론조사들을 자세히 살펴보는 것도 중요합니다만, 전체적인 판세, 흐름 등은 메타적인 시각에서 분석할 필요가 있게 됩니다.

어떻게 분석했나?

<메타J>의 분석시스템에서는 기존 여론조사심의위원회에 공표된 최신의 여론조사 결과들을 모두 모았습니다. 모인 조사결과들은 시간에 따른 흐름을 가지며 정치적인 상황에 따라 변화하게 됩니다. 이러한 시간적 변화를 분석하고 모델링하는 다양한 방법중에 선거여론조사에 적합하다고 알려진 동적베이지안모형이 사용되었습니다.

또한 기존의 양자구도 중심의 방법론을 다자구도에도 적용할 수 있도록 확장한 것이 이번 방법론의 특징이라고 할 수 있습니다.

1. 배경

여론조사는 우리 사회의 정치적 사회적 여론을 알아보고자 하는 조사를 말한다. 특히 선거여론조사는 선거의 결과에 영향을 미칠 수 있어 조사 품질을 관리하는 것은 선거환경에 매우 중요하다. 이를 위해 우리나라는 중앙선거관리위원회 산하에 중앙선거여론조사심의위원회를 운영하고 있으며, 공직선거법 제8조의8에 따라 중앙 및 시·도선거관리위원회 산하에 각각 설치된 독립기구인 선거여론조사심의위원회에서 선거여론조사를 심의하고 있다. 또한 선거여론조사기준에 따라 선거여론조사 결과를 중앙선거여론조사심의위원회 홈페이지에 등록하도록 하고 있다.

중앙선거여론조사심의위원회 홈페이지에 등록된 선거여론조사는 국민 누구나 확인할 수 있으며, 원시데이터는 아니지만 조사의 전반적 과정을 포함한 최종 결과를 활용할 수 있다. 메타J에서는 중앙선거여론조사심의위원회에 등록되어 있는 다양한 선거여론조사를 이용하여 국민들의 선거여론에 대한 흐름을 분석한다.

2. 동적 베이지안 모형

동적 베이지안 모형(dynamic Bayesian model)은 복잡한 시계열 데이터를 분석하고 예측하는 방법론이다. 상태공간모형(state space model)로 표현되기도 하며, 시간에 따라 변화하는 상태변수를 이용하여 시계열 데이터를 설명할 수 있다.

국민의 선거에 대한 여론은 시간에 따라 변화하며, 조사대상, 조사방법, 조사회사, 의뢰기관 등의 다양한 요인에 따라 다르게 나타날 수 있으므로, 동적 베이지안 모형을 이용하여 선거여론조사 데이터를 분석할 수 있다.

3. 모형 및 분석 알고리즘

특정한 개별 후보자나 정당에 대한 지지율 또는 당선여부를 예측하고자 할 때 흔히 가정되는 분포는 베르누이분포(Berrnoulli distribution) 및 이항분포(binomial distribution)이다. 후보자 또는 정당에 대해 독립적으로 각각의 모형을 적용하게 되며 그 결과 또한 개별적으로 해석하게 된다. 이러한 모형은 다른 정당의 상황과는 무관한 개별 정당의 지지 추이를 분석하거나, 정당이나 후보자가 양자(兩者)만 있는 정치상황에서는 사용될 수 있으나 세 개 이상의 다자(多者)가 있는 상황에서는 적절하지 않다.

메타J에서는 특정 선거여론조사에서 복수의 정당과 복수의 후보에 대한 지지자 수가 다항분포(multinomial distribution)를 따르는 확률변수임을 가정하였다. 기존의 이항분포를 이용한 양자구도뿐만 아니라 여러 후보, 정당이 있는 다자구도에도 적용하도록 방법론을 개선한 것이다.

선거여론조사에서 관측되는 k-개의 후보(정당)별 지지자 수는 다항분포를 따르며, 지지자 수는 조사기관, 조사방법, 피조사자 선정방법, 이전 시점의 지지율에 영향을 받는다고 가정하였다. 모형 및 분석 알고리즘에 대한 표기는 다음과 같다.

<Data>

y t i Multinomial ( n t i , softmax ( Z t + A h + B m + C p ) ) ,

여기에서,

n t i : 시점 t i 번째 여론조사의 표본크기,

Z t : 시점 t 의 후보별 지지성향 점수,

A h : 조사기관 h 의 효과,

B m : 조사 방법 m 의 효과,

C p : 피조사자 선정방법 p 의 효과,

softmax : 소프트맥스 함수.

<State>

Z 1 N ( 0 , σ z 1 2 I k ) ,

Z t N ( Z t 1 , σ z 2 2 I k ) , t = 2 , . . . , T (총 조사시점의 수),

A h N ( 0 , σ h 2 ) , h = 1 , . . . , H (총 조사회사의 수),

B m N ( 0 , σ m 2 ) , m = 1 , . . . , M (총 조사방법론의 수),

C p N ( 0 , σ p 2 ) , p = 1 , . . . , P (총 피조사자 선정방법의 수),

σ z 1 2 halfNormal ( σ 2 ) , σ z 2 2 halfNormal ( σ 2 ) , σ h 2 halfNormal ( σ 2 ) ,

σ m 2 halfNormal ( σ 2 ) , σ p 2 halfNormal ( σ 2 ) .