※ 본 포스팅에 등장하는 모든 가상(허구)의 인물이며 현실의 사건, 단체, 인물과는 관련이 없습니다.
※ 이미지는 이해를 돕기위한 참고용사진으로 등장인물과는 아무런 관련이 없습니다.
안녕하십니까 앞으로 제대로. AI를 위해, 리재명 입니다
1편에 이어 2편도 봐주셔서 감사합니다.
봄이오면 AI의 삶이 피어납니다.
환동훈입니다.
오늘은 저번 시간에 이어서 Generative Adversal Nets의 2부를 작성해보도록 하겠습니다.
5장 실험입니다.
연구진은 MNIST, TFD, CIFAR-10 세가지 핵심 데이터셋으로 학습을 진행하였다고 합니다.
생성기(Generator)에는 ReLU와 sigmoid 조합을 택했고, 판별기(Discriminator)에는 Maxout을 적용했습니다. 이건 모델의 안정성과 성능을 동시에 잡기 위한 핵심 선택입니다.
또한 드롭아웃 알고리즘 (학습중 일부 뉴런을 비활성화 하는것)을 사용하였고 기타노이즈를 최하계층에만 입력하였다고 합니다.
결과차트는 저와 함께 보실까요?
이 수치 보이십니까? 파르젠 윈도우 로그 우도 추정값이라는 걸로 측정한겁니다. 쉽게 말해 AI가 얼마나 똑똑한지 측정하는 척도입니다
Adversal Net이 MNIST와 TFD에서 매우 경쟁적인 수치를 기록했죠?
이게 무슨 뜻이냐? Adversal Nets이 세계적 표준을 박살냈다는 증거입니다! 기존 방식들은 이제 레퍼런스용으로만 쓰라 이말입니다.
하지만 이것이 전부는 아닙니다. 여기서 사용한 가우시안 파르젠 윈도우는 차원이 높아질수록 측정 성능이 안좋아지는 단점이 있습니다. 이를 해결하기 위해서라도 밤낮없이 일하시는 연구자 분들이 힘내셔야 한다! 이 리재명과 함께 AI혁신 국가를 만들기 위해 새로운 샘플링 기반 생성형 모델 평가방법을 만들어야한다! 이런 말씀을 하십니다.
교육의 장에서 본인의 선전을 하는 행위는 적합하지 않다고 생각되는데요
진정 하시고 장단점에 대해서 알아봅시다.
우선 차트로 정리해보겠습니다.
단점
1. 생성기의 분포를 정의하거나 직접 계산하기 힘들다.
2. 판별기와 생성기가 잘 동기화되어야 한다.
3. D가 업데이트 되지 않은 상태에서 계속 훈련되면 다양성이 없어진다.
장점
1. 마르코프 체인이 필요하지 않다.
2. 기울기를 구할때 역전파만 계산하면 된다.
3. 학습 중 추론이 필요하지 않다.
4. 모델에 다양한 함수를 통합 가능하다.
5. 날카롭거나 퇴화된 분포도 표현 가능하다.
이렇다고 볼 수 있습니다.
직접 샘플링을 하는 만큼 계산적으로 많은 이득이 있다는걸 알 수 있습니다.
역시 서울대 검찰학과 다운 말 솜씨입니다.
서울대에는 검찰학과가 없습니다.
말이 그렇다는 이야기지 그걸 곧이 곧대로 받으시면 어떡하라는건지 잘 모르겠네요 허허
마지막 결론은 재명씨가 진행하시죠
하하 친구가 참.. 마지막 챕터는 잼파파가 진행하니 넘어가겠습니다 셰셰
이 프레임워크는 간단하게 확장을 할 수 있다고 합니다. 5개 핵심을 같이 알아봅시다~
첫째, 조건부 생성 모델
c라는 조건(변수)을 생성기와 판별기에 넣으면 원하는 카테고리 데이터를 마음대로 뽑을 수 있습니다
둘째, 추론 네트워크 강화
기존 알고리즘보다 빠르고 정확하게 z값 예측이 가능하기에 학습이 끝나면 추론망을 따로 돌려도 됩니다.
셋째, 부분 조건 모델링
데이터의 일부만으로 나머지를 예측하는 기술입니다
넷째, 준지도 학습
레이블이 적을 때 판별기의 특징을 추출하는 것이 분류기 성능을 상승시킵니다. 데이터 부족시대의 종말을 고한다 라고 할 수 있습니다
다섯째, 효율성 개선
G랑 D의 조율을 개선하고 샘플링 분포만 최적해도 속도가 많이 빨라집니다.
이러한 기술들이 인프라에 적용된다면 어떻겠습니까? 정말 기대가 되지요?
확실히 기대되고 재밌는 논문이었네요 재명씨도 그렇게 생각하시지요?
저도 확실히 그렇게 생각합니다.
읽으신 모든분들이 쉽게 이해하셨다면 하네요~
여러분도 사이좋은 저희처럼 행복한 하루 보내세요~
'이 멋진 논문에 축복을!' 카테고리의 다른 글
리재명과 환동훈의 논문 핥아보기 - Generative Adversal Nets - 1 (4) | 2025.02.21 |
---|