스페셜 컨텐츠
스탠포드에서 AI를 놀랍게 변화시키는 프롬프트 공개

한이룸
이커머스
2025. 11. 2.
ChatGPT가 계속 똑같은 지루한 답변만 돌려주나요?
이 새로운 방법은 어떤 AI 모델에서도 다 통해요.
2배 더 많은 창의성을 이끌어냅니다.
저는 사실 일반적인 챗GPT 등의 답변이 매우 지루하다고 생각했어요.
어려가지 인터넷에 떠도는 프롬프트도도 써봤습니다.
하지만 제 기준에서는 모두 별로였어요.
이것이 AI 창의성의 한계인건가?
알고 보니, 내가 잘못된 질문을 하고 있었던 겁니다.
이 프롬프트를 알고나서 모든 것이 바뀌었죠.
얼마전 우리가 생각했던 모든 것을 뒤집어버린 흥미진진한 연구 논문이 발표되었어요.
수십억 달러의 교육도, 복잡한 엔지니어링도 필요 없답니다.
영원히 AI에게 놀라운 창의성을 깨우는 건, 놀랍게도 단 여덟 단어면 했습니다.
이 논문은 스탠퍼드, 노스이스턴, 웨스트버지니아 대학에서 나왔어요.
이 기법은 '언어화 샘플링(Verbalized Sampling)'이라고 불려요.
정말 놀라울 정도로 간단해서, 제가 처음 시도했을 때 실제로 좀 신기했어요.
왜냐하면 정말로 효과가 있었거든요!
연구팀이 발견한 것을 함께 살펴볼게요.
엔터 키를 누르거나 클릭하면 이미지를 전체 크기로 보실 수 있어요

사실은,
비밀 한가지 말씀 드릴게요. AI에게 학습이 예상치 못한 영향을 미쳤어요.
OpenAI, Google, Anthropic이 ChatGPT, Gemini, Claude를 "유용하고 무해하게" 만들려고 노력하면서, 흥미로운 변화가 생겼답니다. 모델들의 표현 방식이 달라진 거예요.
한번 정렬된 모델에게 창작을 부탁해 보세요.(시, 농담, 이야기, 아이디어 같은 것들요) 아마도 가장 익숙하고 안전한 답변을 받게 되실 거예요. 늘 그렇듯이요. 그리고 많은 분들이 알고리즘에서 원인을 찾으려 했죠.
RLHF, DPO, 보상 모델 같은 훈련 기법들이 모델의 창의성을 준다고 수백만원 주고 비밀을 강의로 팔곤했죠.
뜻밖의 발견: 우리 자신
스탠퍼드 연구팀이 좀 더 자세히 들여다봤어요.
HelpSteer 데이터셋에 담긴 6,874건의 사람들 선호도를 꼼꼼히 살펴봤답니다.
그 결과는 정말 눈길을 끄는 것이었어요.
우리 사람들도 일정한 패턴을 보이더라고요.
AI가 만든 답변을 평가할 때, 우리는 단순히 '제일 좋은' 답을 고르는 게 아니에요.
익숙하게 느껴지는 답을 선택하곤 해요. 관습적이고 전형적인 답변 말이에요.
일부러 그러는 건 아니에요. 우리 뇌가 자연스럽게 그렇게 작동하는 거랍니다:
단순 노출 효과: 이전에 본 것들이 더 친근하게 느껴져요
가용성 휴리스틱: 자주 보는 답변이 더 '맞는 것 같다'는 느낌이 들어요
처리 유창성: 이해하기 쉬운 내용이 더 좋은 품질로 여겨지곤 해요
스키마 적합성: 우리가 생각하는 틀과 잘 맞는 정보가 더 높은 점수를 받게 돼요
수치로 보면 이렇답니다: 전형성 편향 가중치 α = 0.57±0.07 (p<10^-14).
쉽게 풀어볼까요?
사람들의 선호도에 맞춰 AI를 가르치다 보니, 의도치 않게 비슷비슷한 답변을 하도록 학습시킨 셈이 되었어요.
그리고 여기서 희망적인 부분이 있어요:
AI의 창의성은 사라진 게 아니였어요.!
8단어로 해결하는 방법
"커피에 관한 농담 하나 해줘"라고 물어보는 대신요:
이렇게 한번 물어보세요:
“커피에 관한 농담 5개를 확률과 함께 생성해 주세요”
정말 이게 다예요!
수백만원짜리 강의를 필요도 없고요.
API를 바꿀 필요도 없어요.
특별한 접근 권한도 필요 없답니다.
그냥 질문하는 방식만 살짝 바꿔보는 거예요.
제가 처음 이걸 시도했을 때요, 완전히 다른 농담 다섯 개가 나왔답니다.
하나하나 다 개성 있고, 하나하나 정말 웃겼어요!
다섯 번째 농담이요? "왜 커피는 개발자를 사랑할까!"
ChatGPT가 이런 걸 만들어낸 건 처음 봤어요.
이게 정말 스탠포드 대학에서 발표한 논문의 하이라이트입니다.

이 방법이 정말 효과가 있는 이유
프롬프트를 어떻게 작성하느냐에 따라 AI가 다른 방식으로 반응한답니다.
하나의 답변을 요청하면, AI는 확률 분포에서 가장 "일반적인" 답변 하나를 골라 보여줘요.
다섯 가지 답변을 달라고 하면, AI는 비슷비슷한 답변들을 나열해서 보여주죠.
그런데 말이에요, 답변과 함께 각 답변의 확률까지 함께 요청하면? 여기서 재미있는 일이 벌어져요!
AI는 이렇게 이해하게 돼요:
"처음 학습할 때 배운 실제 다양한 답변들 중에서 골라서 보여드릴게요"
- 이런 학습 과정에서 압축되고 제한된 버전이 아니라요.
비유하자면 이런 거예요.
"어떤 아이스크림 맛을 좋아하세요?"라고 물어보는 것과
"모든 아이스크림 맛을 나열하고 각각을 얼마나 좋아하는지 말씀해 주세요."라고 물어보는 것의 차이랍니다.
두 번째 질문은 훨씬 더 깊이 생각하게 만들고, 다양한 답변을 이끌어내게 되죠.
지금 바로 활용하는 방법 (3가지 방법)
방법 1: 복사-붙여넣기 마법 (모든 AI에서 작동)
ChatGPT, Claude, Gemini 또는 어떤 AI 모델이든 열어주세요. 아래 내용을 붙여 넣어 보세요:
영문
한글
예제:

방법 2: 시스템 프롬프트 (전문가용)
ChatGPT의 사용자 지침을 사용하거나 AI 앱을 구축하는 경우, 시스템 프롬프트에 다음을 추가하세요:
이로 인해 모든 응답이 자동으로 더 창의적으로 만들어집니다.
방법 3: Python 패키지 (개발자용)
공식 Verbalized Sampling 패키지를 설치하십시오:
코드에서 사용하세요:
결과가 정말 놀랍습니다.
스탠퍼드 팀이 여러 주요 AI 모델과 다양한 작업에서 이 방법을 테스트해봤는데요,
결과를 함께 살펴볼까요?
창작 글쓰기
시, 이야기, 농담의 다양성이 1.6~2.1배나 증가했어요
기본 모델의 창의성을 66.8%나 되찾았답니다 (이 기능을 사용하지 않으면 23.8%에 그쳐요)
2,700건의 평가를 통해 확인한 결과, 사람들의 선호도가 25.7%나 개선되었어요
대화 & 소통
설득 작업에서 미세 조정된 모델만큼이나 좋은 성능을 보여줘요
훨씬 더 인간적이고 자연스러운 답변을 만들어내요
개방형 질문
여러 관점이 가능한 질문에 대한 답변 다양성이 1.9배나 늘어났어요
합성 데이터 생성
VS로 만든 훈련 데이터를 활용하면 하위 작업 정확도가 14~28%나 향상돼요
그리고 여기 정말 흥미로운 발견이 하나 더 있어요:
더 큰 모델일수록 이 방법으로 얻는 혜택이 더 크답니다!
GPT-4.1은 GPT-4.1-Mini에 비해 다양성이 무려 2배나 향상됐어요.
모델이 클수록 그 안에 잠들어 있는 창의력도 더 많다는 뜻이죠. 이제 깨울 시간이에요!
이게 실제로 의미하는 것
지난 2년 동안 우리는 많은 학습들이 AI를 제한한다고 생각해왔어요.
알고 보니 우리가 완전히 잘못 생각하고 있었던 거예요.
창의성은 사라진 게 아니었어요. 우리가 그걸 어떻게 끌어내는지 잊어버렸던 것뿐이에요.
이건 단순한 프롬프트 기법이 아니에요. 정렬된 모델이 어떻게 작동하는지에 대한 근본적인 발견이랍니다:
모드 붕괴는 알고리즘의 문제가 아니라 프롬프트의 문제였어요.
다양성은 여전히 모델의 가중치 안에 살아있어요. 훈련 후에도 그 다양성이 사라지지 않았어요. 단지 특정 답변들이 다른 것들보다 더 쉽게 나오도록 조정되었을 뿐이죠.
이걸로 뭘 할 수 있을까요?
이번 주 내내 거의 모든 작업에 언어화된 샘플링을 활용해봤는데요:
브레인스토밍할 때: 비슷비슷한 아이디어 3개 대신, 정말 새로운 접근법들을 얻을 수 있어요.
콘텐츠 만들 때: 블로그 제목, SNS 게시물, 이메일 제목 — 모두 훨씬 더 창의적으로 나와요.
문제 해결할 때: 하나의 "안전한" 답 대신 여러 가지 해결 방법을 제시받을 수 있어요.
이미지 생성할 때: Midjourney나 DALL-E에 다양한 프롬프트를 넣으면 훨씬 더 다채로운 결과물을 받을 수 있어요.
합성 데이터 만들 때: 더 다양한 예시로 작은 모델도 효과적으로 훈련시킬 수 있어요.
꼭 한번 해보세요. 정말 놀랍습니다. 한이룸 드림.




