블로그
스탠포드에서 AI를 놀랍게 변화시키는 프롬프트를 공개 했습니다

한이룸
이커머스
2025. 11. 6.

AI 답변. 지루하지 않으세요?
이 새로운 방법은 마음에 드실거에요. 어떤 AI 모델에서도 다 통하거든요.
2배 더 많은 높은 창의적 결과를 만들어줍니다.
저는 예전부터 챗GPT 등의 답변이 지루하다고 생각했어요.
어러가지 인터넷에 떠도는 프롬프트도도 많이 써봤습니다.
하지만 제 기준에서는 모두 별로였어요.
이것이 AI 창의성의 한계인건가. 라고 늘 생각했죠.
알고 보니, 뭐랄까요. 제가 잘못된 질문을 하고 있었던 겁니다.
이 프롬프트를 알고나서 모든 것이 바뀌었습니다
얼마전 우리가 생각했던 모든 것을 뒤집어버린 흥미진진한 연구 논문이 발표되었어요.
수백만원 교육도, 복잡한 엔지니어링도 필요 없는 놀랍도록 심플한 프롬프트에 관한 거에요.
AI에게 놀라운 창의성을 만들어내는 건, 놀랍게도 단 8 단어면 충분하더라구요.
이 논문은 스탠포드, 노스이스턴, 웨스트버지니아 대학에서 나왔어요.
이 기법은 '언어화 샘플링(Verbalized Sampling)'이라고 불려요.
놀라울 정도로 간단해서, 제가 처음 시도했을 때 실제로 좀 신기했어요.
왜냐하면 정말로 효과가 있었거든요!
연구팀이 발견한 것을 함께 살펴볼게요.

사실,
비밀 말씀 드릴게요. AI에게 학습을 시키면서 우리는 예상치 못한 영향을 받았습니다.
OpenAI, Google, Anthropic이 ChatGPT, Gemini, Claude를 "아주 답변은 잘하지만, 사회적 문제를 일으키지 않게" 만들려고 노력하면서, 변화가 생겼습니다.
모델들의 표현 방식이 달라진 거예요.
한번 정렬된 모델에게 창작을 부탁해 보세요.(시, 농담, 이야기, 아이디어 같은 것들요) 아마도 가장 익숙한 답변을 받게 되실 거예요. 늘 그렇듯 그리고 많은 사람들이 알고리즘에서 원인을 찾으려 했죠.
RLHF, DPO, 보상 모델 같은 훈련 기법들이 모델의 창의성을 준다고 수백만원 주고 비밀을 강의로 팔곤했죠.
뜻밖의 발견: 우리 자신
스탠포드 연구팀이 좀 더 자세히 들여다봤어요.
HelpSteer 데이터셋에 담긴 6,874건의 사람들 선호도를 꼼꼼히 살펴봤답니다.
그 결과는 놀라웠어요.
AI가 만든 답변을 평가할 때, 우리는 단순히 '제일 좋은' 답을 고르는 게 아니였어요!
우리는 늘 익숙하게 느껴지는 답을 선택하곤 해요. 관습적이고 전형적인 답변 말이에요.
일부러 그러는 건 아니에요. 우리 뇌가 자연스럽게 그렇게 원하기 때문이에요.
단순 노출 효과: 이전에 본 것들이 더 친근하게 느껴져요
가용성 휴리스틱: 자주 보는 답변이 더 '맞는 것 같다'는 느낌이 들어요
처리 유창성: 이해하기 쉬운 내용이 더 좋은 품질로 여겨지곤 해요
스키마 적합성: 우리가 생각하는 틀과 잘 맞는 정보가 더 높은 점수를 받게 돼요
수치로 보면 이렇답니다:
전형성 편향 가중치 α = 0.57±0.07 (p<10^-14).
쉽게 풀어볼게요.
사람들의 선호도에 맞춰 AI를 학습시키다 보니,
의도치 않게 비슷비슷한 답변을 하도록 학습시킨 셈이 되었어요.
하지만 그 때 희망이 보이기 시작했어요.
AI의 창의성은 사라진 게 아니더군요.!
이 한 문장으로 해결하기
"커피에 관한 농담 하나 해줘"라고 물어보는 대신에,
이렇게 한번 물어보세요:
“커피에 관한 농담 5개를 확률과 함께 만들어 주세요”
정말 이게 다예요!
수백만원짜리 강의를 필요도 없고요.
API를 바꿀 필요도 없어요.
그냥 질문하는 방식만 살짝 바꿔보는 거예요.
제가 처음 이걸 시도했을 때요, 다른 농담 다섯 개가 나왔답니다.
하나하나 다 개성 있고, 웃겼어요!
다섯 번째 농담이요? "왜 커피는 개발자를 사랑할까!"
ChatGPT가 이런 걸 만들어낸 건 처음 봤어요.
이게 정말 스탠포드 대학에서 발표한 논문의 하이라이트입니다.

이 방법이 효과 있는 이유
AI는 프롬프트를 어떻게 작성하느냐에 따라 전혀 다른 형태로 답변을 만들어 내죠.
하나의 답변을 요청하면, AI는 확률 적으로 가장 "일반적인" 답변 하나를 골라 보여줘요.
다섯 가지 답변을 달라고 하면, AI는 비슷한 답변들을 나열해서 보여주죠.
그런데, 답변과 함께 각 답변의 확률까지 함께 요청하면?
정말 놀라운 결과를 만들어내죠.
AI는 이렇게 이해하게 돼요:
"처음 학습할 때 배운 실제 다양한 답변들 중에서 골라서 보여드릴게요"
비유하자면 이런 거예요.
*"어떤 아이스크림 맛을 좋아하세요?"*라고 물어보는 것과
*"모든 아이스크림 맛을 나열하고 각각을 얼마나 좋아하는지 말해 주세요."*라고 물어보는 것의 차이랍니다.
두 번째 질문은 훨씬 더 깊이 생각하게 만들고, 다양한 답변을 이끌어내게 되죠.
지금 바로 활용하는 방법 (3가지 방법)
방법 1: 복사-붙여넣기 마법 (모든 AI에서 작동)
ChatGPT, Claude, Gemini 또는 어떤 AI 모델이든 열어주세요. 아래 내용을 붙여 넣어 보세요:
영문
한글
예제:
방법 2: 시스템 프롬프트 (전문가용)
ChatGPT의 사용자 지침을 사용하거나 AI 앱을 구축하는 경우, 시스템 프롬프트에 다음을 추가하세요:
한글
이로 인해 모든 응답이 자동으로 더 창의적으로 만들어집니다.
방법 3: Python 패키지 (개발자용)
공식 Verbalized Sampling 패키지를 설치하십시오:
코드에서 아래와 같이 사용하세요:
정말 놀라운 결과들
스탠포드 대학에서 여러 주요 AI 모델과 다양한 작업에서 이 방법을 테스트해봤는데요,
실제 사용한 결과가 어떨까요?
창작 글쓰기
시, 이야기, 농담의 다양성이 1.6~2.1배나 증가했어요
기본 모델의 창의성이 66.8%나 올라갔습니다. (이 기능을 사용하지 않으면 23.8%에 그쳐요)
2,700건의 평가를 통해 확인한 결과, 사람들의 선호도가 25.7%나 개선되었어요
대화 & 소통
설득 작업에서 미세 조정된 모델만큼이나 좋은 성능을 보여줘요
훨씬 더 인간적이고 자연스러운 답변을 만들어내요
개방형 질문
여러 관점이 가능한 질문에 대한 답변 다양성이 1.9배나 늘어났어요
합성 데이터 생성
VS로 만든 훈련 데이터를 활용하면 하위 작업 정확도가 14~28%나 향상돼요
그리고 여기 정말 흥미로운 발견이 하나 더 있어요:
더 큰 모델일수록 이 방법으로 얻는 혜택이 더 크답니다!
GPT-4.1은 GPT-4.1-Mini에 비해 다양성이 무려 2배나 향상됐어요.
모델이 클수록 그 안에 잠들어 있는 창의력도 더 많다는 뜻이죠. 이제 깨울 시간이에요!
잘 생각해보자구요
지난 2년 동안 우리는 AI의 답변은 그저그렇다고 생각 했어요.
알고 보니 우리가 완전히 잘못 생각하고 있었던 거죠.
창의성은 사라진 게 아니었어요.
우리가 그걸 어떻게 끌어내는지 잊어버렸던 것뿐이에요.
이건 단순한 프롬프트 기법이 아닙니다.
AI 모델이 어떻게 작동하는지에 대한 근본적인 발견이랍니다:
다양성은 여전히 모델의 가중치 안에 살아있어요.
훈련 후에도 그 다양성이 사라지지 않았어요.
단지 특정 답변들이 다른 것들보다 더 쉽게 나오도록 조정되었을 뿐이죠.
이걸로 뭘 할 수 있을까요?
이번 주 내내 거의 모든 작업에 활용해봤는데요:
브레인스토밍할 때: 비슷비슷한 아이디어 3개 대신, 정말 새로운 답을 얻을 수 있었어요.
콘텐츠 만들 때: 블로그 제목, SNS 게시물, 이메일 제목 — 모두 훨씬 더 창의적으로 나와요.
문제 해결할 때: 하나의 "안전한" 답 대신 여러 가지 해결 방법을 제시받을 수 있어요.
이미지 생성할 때: Midjourney나 나노바나나에 다양한 프롬프트를 넣으면 훨씬 더 다채로운 결과물을 받을 수 있어요.
합성 데이터 만들 때: 더 다양한 예시로 작은 모델도 효과적으로 훈련시킬 수 있어요.
꼭 한번 해보세요.
정말 놀랍습니다.
AI를 좋아하는 한이룸 드림.




