Available for work

블로그

응급실도, AI가 가장 정확했습니다

한이룸

이커머스

2026. 5. 7.

응급실은 AI를 시험하기에 가장 어려운 환경이죠.

환자는 말을 제대로 못하고, 기록은 엉망이고, 시간은 촉박합니다.

그런데 하버드 연구팀이 딱 그 조건에서 실험을 했고, AI가 이겼습니다.


실험을 어떻게 했을까

이번 연구는 하버드 의대와 베스 이스라엘 디코니스 메디컬 센터, 스탠퍼드 연구팀이 공동으로 진행했어요.
결과는 2026년 4월 30일, 학술지 Science에 실렸습니다.

방법은 단순했습니다.

실제 응급실에 온 환자 76명의 전자 의무기록(EMR)을 뽑았습니다.
별도로 필터링 하지 않았습니다.

그 병원 기록 시스템에 있는 그대로 — 활력징후, 인구통계 정보, 간호사가 짧게 쓴 내원 이유 메모 — 를 그냥 넘겼어요.
의사 두 명도 같은 기록을 받았고, 그리고 각자 진단을 내렸습니다..

AI는 OpenAI의 o1 모델이었어요.

평가는 제3자인 내과 전문의 두 명이 맡았습니다.
누구의 진단인지 알 수 없는 상태로.

결과: o1은 67%의 케이스에서 "정확하거나 매우 근접한" 진단을 냈습니다.
의사 A는 55%, 의사 B는 50%였구요.

숫자만 보면 그냥 더 나은 정도인데요.

그런데 흥미로운 건 따로 있습니다.
정보가 가장 적은 순간, 즉 환자가 막 도착했을 때 초기 트리아지 단계에서 격차가 가장 컸어요.
의사는 경험과 직관을 동원하지만 o1은 그 얇은 텍스트에서만 판단했는데, AI가 더 잘하게 된거죠.

'AI 잘한다'는 뉴스가 아니예요

이전 AI 의료 연구 대부분은 통제된 환경에서 이루어졌습니다.
깔끔하게 정리된 데이터, 명확한 질병 분류, 교과서 케이스.
하지만 실제 응급실은 다릅니다.
환자는 애매하게 아프고, 기록은 의사마다 다른 방식으로 쓰고, 정보가 반쪽짜리인 경우가 흔하죠.

연구팀이 "데이터를 전혀 전처리하지 않았다"고 강조한 건 바로 이 때문입니다.
이번 실험은 실제 환경에 가장 가까운 조건에서 AI와 의사를 비교한 첫 동료심사(peer-reviewed) 연구라는게 눈겨여볼 점입니다.

게다가 진단 평가를 AI가 한 게 아니예요.
다른 의사들이 블라인드 방식으로 판단 했습니다.

조심해서 봐야 할 지점

연구자들 스스로도 "AI로 의사를 대체하자"는 결론을 내리지는 않았다고 해요.
이유가 몇 가지가 있습니다.

첫째, 텍스트만 봤다.
o1은 문자 기록만 입력받았어요.
실제 응급실에서는 청진기 소리, 피부 색깔, 환자의 표정, X-ray, 혈액검사 결과가 실시간으로 쏟아집니다.
텍스트 진단은 그 중 아주 작은 조각에 불과하죠.

둘째, 76명은 작은 표본이다.
통계적으로 유의미하긴 하지만, 76케이스로 "AI가 의사보다 낫다"고 단정하기엔 이릅니다.
희귀 질환, 복합 증상, 불명확한 케이스에서 AI가 어떻게 작동하는지는 훨씬 더 많은 데이터가 필요합니다.

셋째, 책임 소재가 없다.
AI가 틀렸을 때 누가 책임질까요.
이 문제는 아직 아무도 답을 내놓지 못했습니다.
의사가 AI 추천을 따랐다가 오진이 나면 의사 책임일까요, 병원 책임일까요, OpenAI 책임일까요.
연구 자체도 이 부분을 심각하게 건드리진 않았어요.

연구팀은 "임상 현장에 실제로 투입하기 전에 전향적 시험(prospective trial)이 반드시 필요하다"고 못을 박았습니다.
Fortune 인터뷰에서 한 연구자는 이렇게 말했어요: "We're already at the ceiling."
이제 성능 자체는 충분해졌다는 뜻이에요. 남은 건 어떻게 쓸 것인가의 문제입니다.

어쩌면요. AI가 의사보다 잘하는 게 아니라,
의사가 가장 힘든 순간에 AI가 버텨준다는 게 더 정확한 표현일지도 모르겠어요.
응급실에서 가장 중요한 건 첫 판단이고, 그 판단을 도와줄 조용한 도우미가 생긴 셈이죠.