획기적인 언어 모델을 채택한 챗GPT 챗GPT가 채택한 최신 언어 모델은 대화 상호작용을 염두에 두고 설계되었으며, 구어 또는 문어를 분석하고 이해한 후 입력에 따라 응답을 생성한다. 연구진은 강화 학습 보상 모델을 개발하기 위해 인간 AI 트레이너를 투입, 사용자 및 인공지능 보조자라는 두 가지 역할의 대화를 했다. 즉, 두 개 이상의 모델 답안을 포함한 비교 데이터를 수집하기 위해 챗봇 상호작용을 이용한 것이다. 연구원들은 모형으로 작성된 문장을 무작위로 선택하고, 몇 가지 가능한 결론을 표본으로 추출한 후 AI 트레이터에게 순위를 매겨달라고 요청했다. 이후 심층 강화 학습 모델의 하나인 PPO(Proximal Policy Optimization) 기술을 사용하여 보상 모델을 수정 및 조정했다. 그리..