OpenAI의 Moonshot: AI 정렬 문제 해결 | 감지기 부품 유한 회사

지난 7월 OpenAI는 '초정렬'에 관한 새로운 연구 프로그램을 발표했습니다. 이 프로그램은 2027년까지 AI 정렬로 알려진 분야에서 가장 어려운 문제를 해결하려는 야심찬 목표를 가지고 있으며, OpenAI는 전체 컴퓨팅 성능의 20%를 전념하고 있습니다.

AI 정렬 문제란 무엇입니까? AI 시스템의 목표가 인간의 목표와 일치하지 않을 수 있다는 생각이며, 초지능 AI 시스템이 개발되면 문제가 더욱 커질 수 있습니다. 사람들이 인류에 대한 멸종 위험에 대해 이야기하기 시작하는 곳이 바로 여기입니다. OpenAI의 슈퍼정렬 프로젝트는 인공 초지능 시스템을 정렬하는 더 큰 문제에 초점을 맞추고 있습니다. OpenAI는 블로그 소개 게시물에서 다음과 같이 밝혔습니다. "AI 시스템을 우리보다 훨씬 더 스마트하게 조종하고 제어하려면 과학적이고 기술적인 혁신이 필요합니다."

이 노력은 OpenAI의 정렬 연구 책임자인 Jan Leike와 OpenAI의 공동 창립자이자 수석 과학자인 Ilya Sutskever가 공동으로 주도하고 있습니다. Leike는 정렬 문제를 해결하는 데 도움이 되는 정렬된 AI 연구 도구를 구축하는 하위 목표를 가진 노력에 대해 IEEE Spectrum과 이야기했습니다.

얀 레이케는:

IEEE 스펙트럼: 정렬 정의부터 시작하겠습니다. 정렬 모델이란 무엇입니까?

OpenAI의 정렬 연구 책임자인 Jan Leike는 인공 초지능이 만들어지기 전에 앞서 나가기 위한 회사의 노력을 주도하고 있습니다.OpenAI

얀 레이케: 정렬을 통해 우리가 원하는 것은 인간의 의도를 따르고 인간이 원하는 것을 수행하는 모델을 만드는 방법을 알아내는 것입니다. 특히 인간이 자신이 원하는 것이 무엇인지 정확히 알 수 없는 상황에서 더욱 그렇습니다. 나는 이것이 꽤 좋은 작업 정의라고 생각합니다. “예를 들어 개인 대화 도우미가 정렬된다는 것은 무엇을 의미합니까?”라고 말할 수 있기 때문입니다. 글쎄요, 도움이 되어야 합니다. 나에게 거짓말을 해서는 안 됩니다. 내가 말하고 싶지 않은 말을 해서는 안 된다.”

ChatGPT가 정렬되었다고 말할 수 있나요?

좋다: ChatGPT가 정렬되어 있다고는 말할 수 없습니다. 나는 정렬이 이분법적인 것이 아니라고 생각합니다. 마치 무언가가 정렬되었는지 아닌지처럼 말이죠. 나는 그것을 매우 잘못 정렬된 시스템과 완전히 정렬된 시스템 사이의 스펙트럼이라고 생각합니다. 그리고 [ChatGPT를 사용하면] 우리는 확실히 많은 시간에 도움이 되는 중간쯤에 있습니다. 그러나 그것은 또한 몇 가지 중요한 면에서 여전히 잘못 정렬되어 있습니다. 탈옥하면 환각을 느낄 수 있습니다. 때로는 우리가 좋아하지 않는 방식으로 편향되기도 합니다. 등등. 아직 할 일이 많습니다.

“아직 초기 단계입니다. 특히 매우 큰 모델의 경우 중요하지 않은 작업을 수행하기가 정말 어렵습니다.”—Jan Leike, OpenAI

정렬 불량 수준에 대해 이야기해 보겠습니다. 말씀하신 것처럼 ChatGPT는 환각을 일으키고 편향된 반응을 보일 수 있습니다. 이것이 바로 정렬 불량의 한 수준입니다. 또 다른 레벨은 생물 무기를 만드는 방법을 알려주는 것입니다. 그리고 세 번째 레벨은 인류를 멸망시키기로 결정한 초지능 AI입니다. 이러한 피해 범위 중 귀하의 팀이 실제로 영향을 미칠 수 있는 부분은 어디입니까?

좋다: 바라건대, 그들 모두에게. 새로운 초정렬 팀은 오늘날 우리가 겪고 있는 정렬 문제에 그다지 초점을 맞추지 않습니다. 환각 및 탈옥 개선과 관련하여 OpenAI의 다른 부분에서도 많은 훌륭한 작업이 진행되고 있습니다. 우리 팀이 가장 집중하는 것은 마지막 것입니다. 인류를 무력화시킬 만큼 똑똑한 미래 시스템이 그렇게 하는 것을 어떻게 방지할 수 있을까요? 또는 자동 정렬 연구를 수행하는 데 도움이 될 만큼 충분히 정렬하여 이러한 다른 모든 정렬 문제를 해결하는 방법을 알아낼 수 있습니다.

팟캐스트 인터뷰에서 GPT-4가 정렬에 실제로 도움이 되지 않는다고 말하는 것을 들었고, 시도해 보셨기 때문에 알고 계십니다. 그것에 대해 더 자세히 말씀해주실 수 있나요?

좋다: 어쩌면 좀 더 미묘한 표현을 했어야 했을지도 모르겠습니다. 우리는 이를 연구 작업 흐름에 사용해 보았습니다. 전혀 도움이 되지 않는 것은 아니지만 평균적으로 우리 연구에 사용할 만큼 충분히 도움이 되지는 않습니다. 새로운 정렬 프로젝트에 대한 프로젝트 제안을 작성하는 데 도움을 주기 위해 이를 사용하고 싶다면 모델이 우리를 도울 만큼 정렬을 잘 이해하지 못한 것입니다. 그리고 그 중 일부는 정렬을 위한 사전 훈련 데이터가 그렇게 많지 않다는 것입니다. 때로는 좋은 아이디어가 나올 수도 있지만 대부분의 경우 유용한 정보가 전혀 나오지 않습니다. 우리는 계속 노력할 것입니다.