블로그로 돌아가기
AI 에이전트
에이전트 스택
에이전트 하니스
런타임
AI 워크스페이스
MCPlato

2026년 상반기 에이전트 스택: 모델, 하니스, 런타임, AI 워크스페이스

AI 에이전트, 코딩 에이전트, 하니스, 런타임, 브라우저와 샌드박스 인프라, 관측성, 거버넌스, AI 워크스페이스를 다루는 2026년 상반기 간결한 지형도이며, MCPlato를 워크스페이스 계층의 일부로 위치시킨다.

게시일 2026-05-29

2026년 상반기의 에이전트 경쟁은 더 이상 단순한 모델 순위표처럼 보이지 않는다.

더 나은 모델은 여전히 중요하다. Claude 4, Claude Sonnet 4.5, Claude Opus 4.8, Gemini 2.5 Pro, DeepSeek R1/V3.1, Qwen3-Coder, Mistral Magistral은 모두 추론, 코딩, 컨텍스트, 도구 사용에서 기반 계층을 앞으로 밀어 올렸다.12345678 하지만 경쟁의 질문은 바뀌었다.

누가 이 모델들을 신뢰할 수 있는 작업으로 투입할 수 있는가?

이는 하니스, 런타임, 브라우저, 샌드박스, 평가, 관측성, 거버넌스, 권한, 그리고 사용자-facing 워크스페이스를 의미한다. 모델은 엔진이다. 에이전트 제품은 차량이다. 하니스와 워크스페이스는 그 차량이 실제 회사 안에서 상태, 권한, 신뢰를 잃지 않고 달릴 수 있는지를 결정한다.

계층화된 2026년 상반기 에이전트 스택

시장을 읽는 유용한 방식은 로고 목록이 아니라 스택으로 보는 것이다.

기반 모델에서 AI 워크스페이스까지 이어지는 2026년 상반기의 계층형 에이전트 스택기반 모델에서 AI 워크스페이스까지 이어지는 2026년 상반기의 계층형 에이전트 스택

그림 1: 2026년 상반기 에이전트 스택은 모델 역량에서 실행, 관측성, 거버넌스, 워크스페이스 연속성으로 위쪽으로 이동하고 있다.

계층기여하는 것대표 예시
기반 모델추론, 코딩, 긴 컨텍스트, 컴퓨터/도구 사용, 계획Claude 4 / Sonnet 4.5 / Opus 4.8, Gemini 2.5 Pro, DeepSeek R1/V3.1, Qwen3-Coder, Mistral Magistral
에이전트 제품코딩, 리서치, 앱 빌딩, 운영, 기업 프로세스를 위한 패키지형 워크플로Claude Code, OpenAI Codex, GitHub Copilot coding agent, Cursor, Devin, Jules, Replit Agent, Lovable, Bolt.new, Manus, Perplexity Labs
하니스 / 런타임상태, 재시도, human-in-the-loop, 오케스트레이션, 메모리, 구조화된 도구 호출LangGraph/LangChain, LlamaIndex, AutoGen, CrewAI, OpenAI Agents SDK, Vercel AI SDK, Mastra, PydanticAI, Agno, Letta
브라우저와 샌드박스 인프라안전한 실행 환경, 브라우저 자동화, 코드 샌드박스, 작업 격리Browserbase, Stagehand, Playwright MCP, E2B, Daytona, Temporal, Arcade, Composio
관측성과 평가트레이스, 비용, 지연 시간, 회귀 테스트, 프롬프트/도구 디버깅, 프로덕션 리뷰LangSmith, Langfuse, Helicone, 모델 및 에이전트 벤치마크
엔터프라이즈 거버넌스가시성, 접근 제어, 정책, 에이전트 인벤토리, 감사 가능성, 컴플라이언스 워크플로Microsoft Copilot Studio, Salesforce Agentforce, ServiceNow AI Control Tower, MCP 기반 통합 패턴
AI 워크스페이스다단계 작업, 파일, 세션, 아티팩트, 결정이 지속되는 사용자-facing 장소MCPlato, Dust, Hebbia, 워크스페이스형 에이전트 플랫폼

중요한 점은 모든 제품이 모든 계층을 덮어야 한다는 것이 아니다. 중요한 것은 진지한 에이전트 작업에는 이제 시스템 어딘가에 이 모든 계층이 필요하다는 점이다.

원시 디렉터리가 아니라 제품 클러스터

1. 코딩 에이전트는 첫 번째 대중 시장 에이전트 범주가 되었다

코딩 에이전트는 에이전트가 채팅을 넘어설 수 있음을 가장 명확하게 보여준다. Claude Code는 Claude 4와 함께 정식 제공되었고, 터미널 및 개발 워크플로를 위한 agentic coding tool로 문서화되어 있다.19 OpenAI Codex, GitHub Copilot coding agent, Cursor, Devin, Google Jules, Replit Agent는 모두 같은 방향을 가리킨다. 개발자는 저장소를 검사하고, 파일을 편집하고, 명령을 실행하고, pull request를 열고, 로컬과 클라우드 컨텍스트를 넘나들며 작업을 계속할 수 있는 에이전트를 원한다.101112131415

이 클러스터가 앞서 있는 이유는 소프트웨어 작업에 이미 유용한 가드레일이 있기 때문이다. 파일, diff, 테스트, 로그, 브랜치, CI, 리뷰가 그것이다. 나머지 시장에 주는 교훈은 “모든 것이 코딩이어야 한다”가 아니다. 에이전트에는 검토 가능한 아티팩트검증 루프가 필요하다는 것이다.

2. 앱 빌더와 범용 에이전트는 프롬프트를 워크플로로 바꾸었다

Lovable, Bolt.new, Replit Agent, Manus는 앱, 웹사이트, 실행 가능한 작업을 생산하는 데 초점을 둔 제품의 예다. Perplexity는 Labs를 보고서, 대시보드, 경량 앱 같은 프로젝트를 위한 생성 기능으로 설명한다.16171819 OpenAI의 개발자 문서는 시각적 브라우저 도구 표면을 포함한 computer-use와 에이전트 구축 기본 요소를 설명한다. 따라서 OpenAI의 에이전트 방향은 단순한 채팅 기능이라기보다 같은 워크플로 전환의 일부로 보는 것이 더 적절하다.2021

이 제품들은 의도와 아티팩트 사이의 거리를 압축한다. 이들의 과제는 더 넓은 에이전트 시장이 직면한 과제와 같다. 작업이 장시간, 다단계, 외부에 보이는 형태가 되면 제품에는 상태, 권한, 롤백, 생성된 초안에서 프로덕션 자산으로의 명확한 인계가 필요하다.

3. 엔터프라이즈 에이전트는 도입에서 통제로 이동하고 있다

Salesforce Agentforce, ServiceNow AI Control Tower, Microsoft Copilot Studio는 모두 이 엔터프라이즈 현실을 반영한다.22232425 에이전트 도입은 이제 프롬프트 품질뿐 아니라 가시성, 정책, 권한, 운영 소유권에 달려 있다.

Zapier Agents, Lindy, Gumloop, Dust, Hebbia는 비즈니스 팀의 워크플로 자동화와 지식 작업에 더 가깝다.2627282930 이들이 중요한 이유는 에이전트 도입이 엔지니어링 문제만은 아니기 때문이다. 영업, 재무, 법무, 운영, 채용, 리서치, 지원 팀도 정책을 조용히 우회하지 않으면서 도구를 사용할 수 있는 에이전트 시스템이 필요하다.

4. 프레임워크와 런타임은 에이전트 중간 계층이 되었다

LangGraph/LangChain, LangSmith, LlamaIndex, AutoGen, CrewAI, OpenAI Agents SDK, Vercel AI SDK, Mastra, PydanticAI, Agno, Letta는 패키지형 제품 아래의 빌드 계층을 대표한다.313233343536373839404142

이 계층에서 지속 상태, 메모리, 도구 라우팅, 인간 승인, 구조화 출력, 멀티 에이전트 오케스트레이션은 재사용 가능한 기본 요소가 된다. 또한 많은 팀이 “에이전트”가 하나의 추상화가 아님을 발견하는 곳도 이 계층이다. 검색 어시스턴트, 코딩 worker, 브라우저 오퍼레이터, 재무 분석가, 고객 서비스 에이전트는 서로 다른 런타임 계약을 필요로 한다.

5. 인프라와 관측성은 프로덕션 요구사항이 되었다

Browserbase, Stagehand, Playwright MCP, E2B, Daytona, Temporal, Arcade, Composio는 주변 도구가 아니다. 이들은 에이전트 제어 평면의 일부다.4344454647484950

작업용 웹의 상당 부분에는 아직 깔끔한 API가 없기 때문에 에이전트에는 브라우저가 필요하다. 코드와 도구는 격리 환경에서 실행되어야 하므로 샌드박스가 필요하다. 긴 작업은 실패하고 재개되므로 지속 워크플로 엔진이 필요하다. 자격 증명, 권한, 액션 범위는 프롬프트 안에서 즉흥적으로 처리해서는 안 되므로 통합 게이트웨이가 필요하다.

LangSmith, Langfuse, Helicone은 관측성 측면에서 같은 성숙을 보여준다.325152 에이전트가 고객 데이터, 프로덕션 시스템, 비싼 모델 호출을 다룬다면 팀은 트레이스, 평가, 비용 가시성, 지연 시간 가시성, 회귀 검사가 필요하다.

주목해야 할 다섯 가지 트렌드

1. 모델만으로 하는 차별화는 런타임 차별화로 희미해지고 있다

최고의 모델들은 강한 코딩, 도구 사용, 긴 컨텍스트, 계획 능력으로 수렴하고 있다. Anthropic은 Claude 4 코딩 결과와 Claude Code 제공을 보고했고, Gemini 2.5 Pro는 코딩과 긴 컨텍스트 역량을 강조하며, DeepSeek V3.1은 자신을 에이전트 시대를 향한 한 걸음으로 설명하고, Qwen3-Coder는 대규모 code-agent 훈련 환경을 강조한다.1467

이는 런타임을 덜 중요하게 만드는 것이 아니라 더 중요하게 만든다. 여러 기반 모델이 충분히 잘 추론할 수 있게 되면, 팀은 상태를 보존하고, 도구를 안전하게 호출하고, 결과를 평가하며, 인간을 통제 위치에 둘 수 있는 스택을 선택한다.

2. 관측성은 프로덕션 게이트가 되고 있다

“모델이 답했는가?”라는 질문은 에이전트에게 너무 약하다. 프로덕션 팀은 다음을 알아야 한다.

  • 어떤 도구가 호출되었는가?
  • 어떤 상태가 바뀌었는가?
  • 완료를 뒷받침하는 증거는 무엇인가?
  • 실행 비용은 얼마였는가?
  • 지연 시간은 어디에서 발생했는가?
  • 어떤 프롬프트, 모델, 도구, 환경 변경이 회귀를 일으켰는가?

이것이 LangSmith, Langfuse, Helicone, 벤치마크 스위트, 엔터프라이즈 command center가 구매 논의의 일부가 되는 이유다. 회사는 볼 수 없는 것을 거버넌스할 수 없다.

3. 브라우저와 코드 샌드박스는 1급 인프라가 되고 있다

컴퓨터 사용 에이전트와 코딩 에이전트에는 안전한 운영 표면이 필요하다. Browserbase와 Stagehand는 AI 에이전트를 위한 브라우저 자동화에 집중하고, Playwright MCP는 MCP를 통해 브라우저 제어를 노출하며, E2B와 Daytona는 격리 실행 환경에 집중하고, Temporal은 agentic AI 워크플로를 위한 지속 실행을 제시한다.434445464753

이것은 2026년 상반기의 가장 중요한 변화 중 하나다. “에이전트 환경”이 제품 범주가 되고 있다. 환경은 자율성이 유용해지거나 위험해지는 장소다.

4. 거버넌스와 프로토콜은 기본 기대가 되고 있다

MCP가 중요한 이유는 모델을 도구와 컨텍스트에 연결하기 위한 공통 언어를 시장에 제공하기 때문이다.5455 하지만 프로토콜은 거버넌스 요구사항을 없애지 않는다. 오히려 더 긴급하게 만든다. 도구를 더 쉽게 연결할 수 있게 되면, 누가 연결할 수 있는지, 어떤 액션이 허용되는지, 자격 증명의 범위를 어떻게 정할지, 활동을 어떻게 감사할지에 대해 더 명확한 정책이 필요하다.

Salesforce Agentforce, ServiceNow AI Control Tower, Microsoft Copilot Studio는 모두 이 엔터프라이즈 현실을 반영한다. 에이전트 도입은 이제 프롬프트 품질뿐 아니라 가시성, 정책, 권한, 운영 소유권에 달려 있다.

5. 비동기 멀티 세션 워크스페이스가 빠진 사용자 계층이다

단일 채팅 스레드는 긴 작업을 담기에는 좋지 않은 컨테이너다. 실제 에이전트 작업은 자주 분기된다. 한 세션은 리서치하고, 다른 세션은 초안을 작성하고, 다른 세션은 테스트하고, 다른 세션은 리뷰하고, 또 다른 세션은 예정된 후속 조치를 기다린다. 사용자는 이런 작업 흐름, 파일, 결정, 아티팩트가 계속 검사 가능한 상태로 남는 장소가 필요하다.

바로 여기에서 MCPlato가 자연스럽게 맞아 들어간다. MCPlato는 AI 워크스페이스 계층으로 이해하는 것이 가장 적절하다. 로컬 자료, 여러 세션, 백그라운드 또는 예약 작업, 아티팩트, 권한이 부여되고 관측 가능한 실행을 위한 환경이다.56 이는 코딩 에이전트, 엔터프라이즈 control tower, 브라우저 인프라의 보편적 대체물로 취급되어서는 안 된다. 역할은 다르다. 사용자가 문서, 리서치, 브라우저 컨텍스트, 오피스 출력, 비동기 후속 조치를 가로지르는 AI 작업을 조직하고 감독하도록 돕는 것이다.

다시 말해, MCPlato는 에이전트 스택의 워크스페이스 계층에 속한다. 사용자와 가깝고, 자료와 가깝고, 실행을 가능하게 하는 하위 런타임 및 인프라 컴포넌트 위에 있다.

실용적인 의사결정 프레임워크

자율성의 시간 범위와 거버넌스 요구에 따라 에이전트 제품을 선택하기 위한 의사결정 매트릭스자율성의 시간 범위와 거버넌스 요구에 따라 에이전트 제품을 선택하기 위한 의사결정 매트릭스

그림 2: 에이전트 스택 선택은 단일한 보편 순위가 아니라 자율성의 시간 범위와 거버넌스 압력에 기반해야 한다.

에이전트 스택을 선택하기 전에 다섯 가지 질문을 사용하라.

질문답이 “예”라면 우선할 것
에이전트가 코드, 데이터, 기록, 외부 시스템을 수정할 것인가?샌드박스, 권한, 감사 로그, 리뷰 게이트, 롤백 경로
작업이 하나의 프롬프트나 하나의 세션보다 오래 실행될 것인가?지속 상태, 체크포인트, 백그라운드 실행, 워크스페이스 연속성
에이전트가 브라우저를 사용하거나 코드를 실행할 것인가?브라우저 자동화 인프라, 격리 샌드박스, 자격 증명 경계
여러 팀이 출력에 의존할 것인가?관측성, 평가, 비용 추적, 정책, 소유권
사용자가 많은 병렬 작업 흐름을 감독해야 하는가?AI 워크스페이스, 멀티 세션 오케스트레이션, 아티팩트, 요약, 인계 규율

간단한 매핑이 도움이 된다.

  • 짧은 코딩 작업: Claude Code, Codex, Cursor, Jules, Devin, Replit Agent, GitHub Copilot coding agent 같은 코딩 네이티브 에이전트에서 시작한다.
  • 앱 프로토타입: Lovable, Bolt.new, Replit Agent 또는 유사한 빌더 표면을 검토하고, 프로덕션 사용 전 리뷰를 추가한다.
  • 비즈니스 워크플로 자동화: 데이터, 거버넌스, 도메인 적합성에 따라 Copilot Studio, Agentforce, ServiceNow, Zapier Agents, Lindy, Gumloop, Dust, Hebbia를 살펴본다.
  • 커스텀 에이전트 제품: LangGraph, LlamaIndex, CrewAI, OpenAI Agents SDK, Vercel AI SDK, MCP, Browserbase, E2B, Temporal, Composio, Langfuse, Helicone, LangSmith 같은 런타임 및 인프라 요소를 조합한다.
  • 자료 간 지식 작업: AI 워크스페이스 패턴을 사용한다. MCPlato는 관련 있는 예시이며, 특히 작업이 로컬 자료, 리서치, 아티팩트, 여러 세션, 권한 있는 실행을 가로지를 때 적합하다.

결론

2026년 상반기 에이전트 지형은 “모델”과 “제품”의 전쟁이 아니다. 완전한 스택의 등장이다.

모델은 추론 기반을 제공한다. 에이전트 제품은 일반적인 작업을 패키징한다. 하니스와 런타임은 작업을 상태 있게 유지한다. 브라우저와 샌드박스 인프라는 도구 사용을 더 안전하게 만든다. 관측성과 평가는 실행을 검사 가능하게 만든다. 거버넌스는 조직 안에서 자율성을 받아들일 수 있게 만든다. AI 워크스페이스는 사용자가 장시간 작업을 조율할 장소를 제공한다.

승자는 단순히 가장 큰 모델 벤치마크 숫자를 가진 팀이 아닐 것이다. 모델 지능을 신뢰할 수 있고, 검토 가능하며, 권한이 부여된 워크플로로 바꿀 수 있는 팀이 될 것이다.

참고 자료

Footnotes

  1. Anthropic, “Introducing Claude 4,” https://www.anthropic.com/news/claude-4 2 3

  2. Anthropic, “Claude Sonnet 4.5,” https://www.anthropic.com/news/claude-sonnet-4-5

  3. Anthropic, “Claude Opus 4.8,” https://www.anthropic.com/news/claude-opus-4-8

  4. Google, “Gemini 2.5 Pro coding performance,” https://developers.googleblog.com/en/gemini-2-5-pro-io-improved-coding-performance/ 2

  5. DeepSeek, “DeepSeek-R1 release,” https://api-docs.deepseek.com/news/news250120

  6. DeepSeek, “DeepSeek-V3.1 release,” https://api-docs.deepseek.com/news/news250821 2

  7. Qwen, “Qwen3-Coder,” https://qwenlm.github.io/blog/qwen3-coder/ 2

  8. Mistral AI, “Magistral,” https://mistral.ai/news/magistral

  9. Anthropic, “Claude Code overview,” https://code.claude.com/docs/en/overview

  10. OpenAI Codex developer documentation, https://developers.openai.com/codex

  11. GitHub, “GitHub Copilot coding agent in public preview,” https://github.blog/changelog/2025-05-19-github-copilot-coding-agent-in-public-preview/

  12. Cursor changelog, https://cursor.com/changelog

  13. Cognition, “Devin 2,” https://cognition.ai/blog/devin-2

  14. Google, “Jules now available,” https://blog.google/innovation-and-ai/models-and-research/google-labs/jules-now-available/

  15. Replit, “Introducing Agent 3,” https://replit.com/blog/introducing-agent-3-our-most-autonomous-agent-yet

  16. Lovable, https://lovable.dev/

  17. Bolt.new, https://bolt.new/

  18. Manus, https://manus.im/

  19. Perplexity, “Getting started with Labs,” https://www.perplexity.ai/hub/getting-started

  20. OpenAI developer documentation, “Computer use,” https://developers.openai.com/api/docs/guides/tools-computer-use

  21. OpenAI developer documentation, “Agents,” https://developers.openai.com/api/docs/guides/agents

  22. Salesforce, “Salesforce launches Agentforce 3,” https://www.salesforce.com/ap/news/press-releases/2025/06/24/salesforce-launches-agentforce-3-to-solve-the-biggest-blockers-to-scaling-ai-agents-visibility-and-control/

  23. ServiceNow, “AI Control Tower,” https://www.servicenow.com/products/ai-control-tower.html

  24. Microsoft Copilot Studio release plan, https://learn.microsoft.com/en-us/power-platform/release-plan/2025wave2/microsoft-copilot-studio/

  25. Microsoft, “6 core capabilities to scale agent adoption in 2026,” https://www.microsoft.com/en-us/microsoft-copilot/blog/copilot-studio/6-core-capabilities-to-scale-agent-adoption-in-2026/

  26. Zapier, “AI agents survey,” https://zapier.com/blog/ai-agents-survey/

  27. Lindy Agents, https://www.lindy.ai/agents

  28. Gumloop, https://www.gumloop.com/

  29. Dust documentation, “Welcome to Dust,” https://docs.dust.tt/docs/welcome-to-dust

  30. Hebbia product, https://www.hebbia.com/product

  31. LangChain, “LangChain and LangGraph 1.0,” https://www.langchain.com/blog/langchain-langgraph-1dot0

  32. LangSmith platform, https://www.langchain.com/langsmith-platform 2

  33. LlamaIndex, “Introducing LlamaIndex 0.11,” https://www.llamaindex.ai/blog/introducing-llamaindex-0-11

  34. Microsoft Research, AutoGen, https://www.microsoft.com/en-us/research/project/autogen/

  35. CrewAI, “CrewAI OSS 1.0,” https://blog.crewai.com/crewai-oss-1-0-we-are-going-ga/

  36. OpenAI Agents SDK, https://openai.github.io/openai-agents-python/

  37. Vercel AI SDK documentation, https://ai-sdk.dev/docs/introduction

  38. Vercel, “Agentic infrastructure,” https://vercel.com/blog/agentic-infrastructure

  39. Mastra, https://mastra.ai/

  40. PydanticAI documentation, https://pydantic.dev/docs/ai/

  41. Agno documentation, https://docs.agno.com/introduction

  42. Letta, “Letta v1 agent,” https://www.letta.com/blog/letta-v1-agent

  43. Browserbase for AI, https://www.browserbase.com/industry/ai 2

  44. Browserbase Stagehand, https://www.browserbase.com/stagehand 2

  45. Microsoft Playwright MCP, https://github.com/microsoft/playwright-mcp 2

  46. E2B Enterprise, https://e2b.dev/enterprise 2

  47. Daytona sandboxes, https://www.daytona.io/docs/en/sandboxes/ 2

  48. Temporal AI solutions, https://temporal.io/solutions/ai

  49. Arcade, https://www.arcade.dev/

  50. Composio, https://composio.dev/

  51. Langfuse documentation, https://langfuse.com/docs

  52. Helicone, https://www.helicone.ai/

  53. Temporal, Agentic AI, https://temporal.io/ai/agentic-ai

  54. Anthropic, “Model Context Protocol,” https://www.anthropic.com/news/model-context-protocol

  55. Model Context Protocol, “2026 MCP Roadmap,” https://blog.modelcontextprotocol.io/posts/2026-mcp-roadmap/

  56. MCPlato, https://mcplato.com/en/