오래 못 할 짓 하지 않기

[ 이산 수학 ] 12. 조건부 확률 2 본문

2학년 2학기/이산수학

[ 이산 수학 ] 12. 조건부 확률 2

쫑알bot 2023. 10. 30. 20:32
728x90

Bayes’ Theorem

 

p(E) ≠ 0 and p(F) ≠ 0 일때,

 

위 식이 성립한다. 

 

이 식은 사실 

 

= p( E and F ) / p( E and F ) + p( E and ~F )                                   // p( E and F ) + p( E and ~F )  = p( E )

이와 같다. 

 

 

예제 )

박스 A = 초록공 2개 + 빨간공 7개

박스 B = 초록공 4개 + 빨간공 3개

 

이 때 하나를 뽑아서 빨간공이 나올 확률을 구하는 것이다.

 

E = 빨간공 선택

F = A박스 선택

 

우리는 p( F | E ) 를 구할 것이다. 

 

우선 빨간공이 나오는 경우의 수는 

 

1) 박스 A   →  빨간공 (7/9)

2) 박스 B   →  빨간공 (3/7)

 

이 있다.  

 

따라서 p( 빨간 공인데 | 첫 번째 박스를 골랐을 때 ) = p( 박스 A 빨간공 ) / p( 박스 A 빨간공)  + p(박스 B 빨간 공) 

= ( 7/9 ) * ( 1/2 ) / (  ( 7/9 ) * ( 1/2 ) + ( 3/7 ) * ( 1/2 )  )

=  49 / 76

 

 

우선 정규 식은 위와 같고

 

 

주로 활용할 때 ( p(F) or p(E)를 알고 있고, p( E and F)를 구할 때  )  

이런 식을 많이 사용한다. 

 

 

더 어렵게 활용하면 이러기도 함

 

 


p( E | F ) * p( F ) = p ( E and F )           << 위 식에서는 변한 거 없음

 

 

p(E) =  p ( E | F ) * p(F) +  p( E |~F ) * p(~F)

        = p ( E and F ) + p ( E and ~F ) 
따라서 위 사진에서 오른쪽과 같은 식이 나올 수 있음.

 


예제)

- 10만명 중에 한 명이 특정 질병을 가진다.

- 이 질병을 가지고 있으면 99% 양성이 나온다.

- 질병을 가지고 있지 않으면 99.5% 음성이 나온다.

 

a) 양성이 나왔는데, 질병이 있을 확률

b) 음성이 나왔고, 질병이 없을 확률

 

아래 주어진 힌트를 가지고 풀어보자.

 

 

p(D) = 질병을 갖고 있는 경우

p(E) = 양성이 나온 경우

 

우선 p( D and E ) 를 구해보자.

p(E|D) * p(D)

= 0.99 * 0.00001 = p( D and E )

 

 

p ( D | E )  = p( D and E ) / P (E) ( = (E and D) + (E and ~D) ) 

                 = p ( E | D ) * p( D )  / p ( E | D ) * p( D ) + p ( E | ~D ) * p( ~D )

                 =  (0.99*0.00001) / (0.99 * 0.00001) + (0.005 * 0.99999)

 

b) 음성이 나왔는데 병이 없을 경우는?

    [ 음성 + 병 O ] + [ 음성 + 병 X ] 인 경우에서

    [ 음성 + 병 O ]인 경우

 

 

 


 

 

E는 그냥 이벤트 중에 하나, F는 각각의 고유한 (공집합이 없는) 이벤트이다.

 

 

p( Fj | E ) : E가 일어났을 때, Fj가 일어날 확률은
 
p(E | Fj) * p( Fj) = p( E and F j ) = E와 F j 둘 다 일어날 확률에서
p(E and F1) + p(E and F2) + p(E and F3) ... + p(E and Fn) 를 나눈다.
 

(...교수님한테 컨펌받는 중...)

 

 


스팸 메일 필터 확률

 

지금까지 했던 걸 이용해서 생각해보면 아래와 같다.

S = 메시지가 스팸일 경우

E = 메시지에 w가 있을 경우

r = 이게 스팸일 확률은..이란 뜻

p(w) = w로 시작하는데 스팸

q(w) = w로 시작하는데 스팸 X

 

 

Rolex라는 단어가 250/2000 꼴로 스팸 메시지.

                               5 / 1000 꼴로 스팸X 메시지로 나타난다.

 

Rolex라는 단어가 포함되어 있는데 스팸일 확률은?

 

--> p(Rolex) = 250/2000 = 125/1000 = 0.125

      q(Rolex) = 5/ 1000 = 0.005  

 

r( Rolex ) = p(Rolex) / p(Rolex) + q(Rolex) = 0.125 / 0.125 + 0.005 

 

 


단어가 더 많으면?

 

E1 = w1이 들어가는 경우

E2 = w2가 들어가는 경우

 

w1과 w2는 독립적이라고 가정하자. 

 

이 두 개가 모두 들어가는 경우를 생각해보면

 

 

이와 같은 식이 나온다.

 

 

예제) 

 

spam 메시지 총 2000개

아닌 거 총 1000개

 

p ( stock ) spam 에서 stock 이란 단어 400번  →  400 / 2000 = 0.2

q ( stock ) non spam에서 stock 이란 단어 60번 →  60 / 1000 = 0.06

 

p ( undervalued ) spam 에서 undervalued 이란 단어 200번  →  200 / 2000 = 0.1

q ( undervalued ) = non spam에서 undervalued 이란 단어 25번 →  25 / 1000 = 0.25

 

 

r ( stock, undervalued ) =  p(stock) p(undervalued) / p(stock) p(undervalued)  + q(stock) q(undervalued) 

                                      = ( 0.2 * 0.1 ) / ( 0.2 * 0.1 ) + ( 0.06 * 0.025 ) = 근 0.930

 

 

 

(참고)
https://www.youtube.com/watch?v=euH9C61ywEM

베이즈 정리

 

https://jesus-never-fail.tistory.com/19

위에 있는 내용 그대로 정리한 사람

나보다 잘함

+ PDF 똑같은데 그냥 

 

 

(출처)

 

한동대학교 최희열 교수님 - 이산수학

'2학년 2학기 > 이산수학' 카테고리의 다른 글

[ 이산 수학 ] 14. 관계  (0) 2023.11.10
[ 이산 수학 ] 13. 확률 분포  (0) 2023.11.06
[ 이산 수학 ] 11. 확률  (0) 2023.10.26
[ 이산 수학 ] 10. 경우의 수  (0) 2023.10.13
[ 이산 수학 ] 9. 재귀함수 / tree  (0) 2023.10.05