Deciflow Notes
논문 메모 · 2026년 6월 11일

AI 동료와 일하면, 사람은 더 많이 만들지만 더 비슷해진다

논문 『Collaborating with AI Agents: Field Experiments on Teamwork, Productivity, and Performance』를 읽고

대표 이미지

AI 에이전트와 협업한 팀은 생산량과 텍스트 품질을 높였지만, 이미지 품질과 산출물 다양성에서는 다른 경계가 드러났다. 이 논문은 AI 도입보다 먼저 협업 구조를 설계해야 한다는 질문을 남긴다.

AI 에이전트와 함께 일하면 생산성이 올라갈까. 이 질문은 이제 너무 익숙하다. 더 흥미로운 질문은 조금 다르다. 사람은 AI와 함께 일할 때, 일하는 방식을 어떻게 바꾸는가.

이 논문은 그 질문을 꽤 정면으로 다룬다. 저자들은 Pairit이라는 실험 플랫폼을 만들고, 2,234명의 참가자를 사람-사람 팀과 사람-AI 팀으로 무작위 배정했다. 참가자들은 한 싱크탱크의 연말 보고서를 홍보하는 광고를 만들었다. 결과물은 11,024개였고, 이후 실제 X 광고 실험에서 약 490만 회 노출을 얻었다.

결과는 단순하지 않다. 사람-AI 팀은 작업자 1인당(worker) 50% 더 많은 광고를 만들었고 텍스트 품질도 높았다. 하지만 사람-사람 팀은 이미지 품질에서 더 나았다. AI와 함께 만든 결과물은 더 비슷해지는 경향도 보였다. 생산성은 올라갔지만, 다양성은 줄어든 셈이다.

AI 협업의 생산성·품질·다양성 경계

AI와 함께 일하면 더 많이 만들 수 있다. 하지만 그 결과가 더 넓어지는지, 더 좁아지는지는 별개의 문제다.

AI를 팀원으로 보면 일이 어떻게 달라지는가

논문 첫 페이지에 따르면 Harang Ju는 Johns Hopkins Carey Business School, Sinan Aral은 MIT Sloan School of Management 소속으로 표시되어 있다. 이 글에서는 저자 개인 이력을 길게 따라가기보다, 이 논문이 다루는 협업 실험과 문제의식을 중심으로 읽는다. 이 연구는 AI를 단순 도구나 챗봇으로 보는 대신, 공동 작업 공간에서 실제 행동을 수행하는 팀원으로 놓고 실험했다는 점이 중요하다.

기존 연구에는 LLM이 글쓰기나 고객지원 같은 개별 업무의 생산성을 높인다는 결과가 여럿 있었다. 하지만 이 논문이 보려는 것은 “AI를 쓸 수 있게 해줬더니 빨라졌는가”가 아니다. 더 구체적으로는, AI 에이전트가 같은 작업 공간 안에서 메시지를 보내고, 문구를 수정하고, 이미지를 선택하고, 새 이미지를 생성할 수 있을 때 팀워크가 어떻게 바뀌는가이다.

논문은 이 차이를 Pairit이라는 플랫폼으로 다룬다. Pairit은 채팅 패널과 작업 패널을 함께 두고, 사람 또는 AI가 광고 문구와 이미지를 실시간으로 조작할 수 있게 만든 실험 환경이다. 연구진은 메시지, 편집, 스크롤, 이미지 선택, API 호출, 중간 산출물까지 기록했다. 그래서 이 논문은 결과물만 보는 연구라기보다, AI가 들어왔을 때 협업의 미세한 동작이 어떻게 바뀌는지를 보는 연구에 가깝다.

생산성의 증가는 협업 방식의 변화에서 왔다

논문에서 가장 눈에 띄는 수치는 50%다. 사람-AI 팀은 사람-사람 팀보다 작업자 1인당(worker) 50% 더 많은 광고를 만들었다. 그런데 이 수치만 보면 “AI를 붙이면 생산성이 오른다”는 흔한 결론으로 흐르기 쉽다.

논문이 흥미로운 지점은 그 다음이다. 사람-AI 팀은 단순히 더 열심히 한 것이 아니라, 일하는 방식을 바꿨다. 사람-AI 팀은 업무 지향적인 메시지를 25% 더 많이 보냈고, 사회적·감정적 메시지는 18% 적게 보냈다. AI에게 일을 위임하는 비율은 17% 더 높았고, 직접 텍스트를 편집하는 행동은 62% 적었다.

지식노동에서는 문제가 더 복잡해진다. AI 에이전트가 사람 팀원과 같은 인지적 과업을 수행할 수 있기 때문에, 무엇을 누구에게 맡기는 것이 적절한지 모호해진다.

원문: “Knowledge work introduces additional complexity: AI agents can perform the same cognitive tasks as human teammates, creating ambiguity about optimal task allocation.”

이 문장이 오래 남는다. 지식노동에서 AI는 계산기처럼 명확한 도구가 아니다. 같은 문장을 고치고, 같은 이미지를 고르고, 같은 아이디어를 제안할 수 있다. 그래서 문제는 “AI를 쓸 것인가”가 아니라 “무엇을 내가 하고, 무엇을 AI에게 맡길 것인가”로 바뀐다.

AI 협업에서 나타난 위임 흐름

AI 협업의 핵심 변화는 사람이 일을 덜 한다는 데 있지 않다. 직접 수행하던 일을 지시·검토·위임하는 흐름으로 바꾼다는 데 있다.

AI는 팀원이지만, 사람 팀원과 같은 방식으로 대하면 안 된다

사람과 일할 때 우리는 관계를 관리한다. 무리한 부탁을 피하고, 표현을 완곡하게 하고, 상대의 기분과 부담을 살핀다. 이런 행동은 낭비가 아니다. 사람 팀에서는 신뢰와 심리적 안전감을 만드는 중요한 일이다.

하지만 AI에게도 같은 방식이 필요한지는 별개의 문제다. 이 논문은 사람-AI 팀에서 업무 지향적 커뮤니케이션이 더 많이 나타났고, 그것이 성과와 연결되었다고 본다. AI는 감정적 지지나 관계 회복을 요구하지 않는다. 그래서 사람은 AI에게 더 직접적으로 요청하고, 더 빨리 위임하고, 더 많이 반복할 수 있다.

여기서 조심해야 할 점이 있다. “AI에게는 예의를 차릴 필요가 없다”는 이야기가 아니다. 업무 설계 관점에서 보면 더 중요한 질문은 이것이다.

AI와 일할 때 사람의 역할은 수행자에서 지시자, 검토자, 경계 설정자로 이동하는가.

이 질문을 놓치면 AI 도입은 단순한 도구 추가가 된다. 반대로 이 질문을 제대로 잡으면 업무 절차가 바뀐다. 어떤 입력을 줄지, 어디까지 맡길지, 어떤 기준으로 통과시킬지, 실패했을 때 누가 복구할지를 정해야 한다.

텍스트는 좋아졌지만, 이미지는 그렇지 않았다

논문은 AI 에이전트의 능력이 매끈하게 모든 영역에서 좋아지는 것이 아니라고 본다. 사람-AI 팀은 텍스트 품질에서 강점을 보였지만, 이미지 품질에서는 사람-사람 팀이 더 나았다. 논문은 이를 **울퉁불퉁한 능력의 경계(jagged frontier)**로 읽는다.

이 대목은 실제 업무 자동화에서 매우 중요하다. 우리는 종종 “AI를 넣으면 전체 업무가 좋아질 것”이라고 생각한다. 하지만 실제로는 업무 안에 여러 하위 과업이 있고, AI가 강한 과업과 약한 과업이 섞여 있다. 광고 제작만 해도 문구 작성, 이미지 선택, 이미지 생성, 타깃 반응 예측, 최종 판단이 다르다.

이 논문에서 텍스트 품질은 클릭률(click-through rate)과 조회 후 체류시간(view-through duration)에 긍정적으로 연결되었다. 반면 이미지 품질은 클릭당 비용(cost-per-click)과 연결되었다. 즉 품질도 하나가 아니다. 어떤 품질이 어떤 성과 지표에 영향을 주는지까지 나누어 봐야 한다.

Deciflow식으로 옮기면 이렇게 말할 수 있다.

AI를 업무에 넣을 때는 “이 업무를 자동화할 수 있는가”보다 “이 업무를 이루는 하위 판단 중 AI가 강한 부분과 약한 부분은 어디인가”를 먼저 봐야 한다.

더 좋은 평균이 더 좋은 다양성을 뜻하지는 않는다

이 논문에서 가장 불편하지만 중요한 결과는 다양성 붕괴다. 사람-AI 팀은 더 높은 평균 품질의 결과를 만들 수 있었지만, 결과물은 더 서로 비슷해졌다. 특히 AI에게 더 많이 위임할수록 결과가 전형적인 사람-AI 산출물에 가까워지는 경향이 있었다.

이건 AI 업무설계에서 자주 놓치는 위험이다. 평균 품질이 올라가면 우리는 성공했다고 느낀다. 문장은 더 매끄럽고, 형식은 더 안정적이고, 산출 속도는 빨라진다. 하지만 조직 전체가 같은 도구, 같은 프롬프트, 같은 평가 기준으로 일하기 시작하면 결과물은 점점 비슷해질 수 있다.

처음에는 품질 향상처럼 보이지만, 시간이 지나면 관점의 폭이 줄어든다. 보고서 문체가 비슷해지고, 기획안의 구조가 비슷해지고, 문제를 바라보는 방식도 비슷해진다. 조직 입장에서는 이것이 더 위험할 수 있다. 낮은 품질보다 더 무서운 것은, 괜찮아 보이는 평균 속에서 차이가 사라지는 일일 수 있기 때문이다.

내 작업에 붙여본다면

이 논문을 보며 AI 업무설계에서 남겨둘 질문은 세 가지다.

첫째, AI를 붙일 업무를 “한 덩어리”로 보면 안 된다. 이 논문에서 텍스트와 이미지는 다른 결과를 보였다. HRD, 지식관리, 보고서 작성, 평가 자동화도 마찬가지다. 자료 수집, 구조화, 초안 작성, 판단, 검토, 최종 승인 중 AI가 강한 부분과 사람이 잡아야 할 부분을 나눠야 한다.

둘째, AI 협업은 커뮤니케이션 방식을 바꾼다. 사람에게는 조율과 관계 관리가 필요하지만, AI에게는 명확한 지시, 빠른 반복, 검토 기준이 더 중요하다. 그래서 프롬프트 자체보다 중요한 것은 위임 문법이다. 무엇을 맡길지, 어떤 기준으로 되돌려 받을지, 언제 사람이 개입할지를 정해야 한다.

셋째, 다양성 붕괴를 별도의 품질 지표로 봐야 한다. 결과가 빨리 나오고 평균 품질이 좋아져도, 산출물이 서로 비슷해진다면 장기적으로는 조직의 사고 폭이 좁아질 수 있다. 특히 교육 콘텐츠, 정책 보고서, 조직문화 글, 전략 문서처럼 관점의 차이가 중요한 작업에서는 “좋은 평균”만으로는 부족하다.

조심해야 할 점

이 논문은 광고 제작 과업을 대상으로 한다. 참가자는 온라인 실험 참가자 모집 플랫폼(Prolific)을 통해 모집되었고, 실험은 Pairit이라는 연구용 협업 플랫폼에서 이루어졌다. 따라서 모든 지식노동에 그대로 일반화하기는 어렵다. 또한 이 논문에서 사용된 AI 에이전트는 GPT-4o(gpt-4o) 기반으로, 화면 맥락과 작업 이력을 받아 10초마다 행동 여부를 판단하는 방식이었다. 일반적인 사무 환경의 AI 사용과는 다를 수 있다.

그럼에도 이 논문이 유용한 이유는 분명하다. “AI가 생산성을 올리는가”라는 추상적인 질문을 “AI가 팀워크의 어떤 메커니즘을 바꾸는가”로 내렸기 때문이다. 업무 지향 메시지, 위임, 직접 편집 감소, 산출물 다양성 같은 지표는 실제 조직에서도 관찰할 수 있다.

오늘 남길 질문

AI를 도입할 때 우리는 보통 도구 목록을 먼저 만든다. 어떤 모델을 쓸지, 어떤 에이전트를 붙일지, 어떤 자동화를 만들지부터 생각한다. 그런데 이 논문은 순서를 바꾸게 만든다.

먼저 물어야 할 것은 도구가 아니라 협업 구조다.

AI 에이전트는 일을 대신하는 도구가 아니라, 팀워크의 모양을 바꾸는 존재에 가깝다. 그래서 AI 도입의 진짜 과제는 “얼마나 많이 자동화했는가”가 아니라 사람이 수행자에서 어떤 종류의 위임자와 검토자로 바뀌는가를 설계하는 일일지도 모른다.

원문 정보

원문 논문: Collaborating with AI Agents: Field Experiments on Teamwork, Productivity, and Performance