최근 인공지능 시장에서 가장 주목 받는 두 모델은 엔트로픽(Antropic)의 클로드 3(Claude3)와 오픈AI(Open AI)의 GPT-4 입니다. 두 모델 모두 엄청난 성능을 자랑하며 다양한 분야에서 많이 사용되고 있습니다. 그런데 같은 인공지능 모델이지만, 이 두 모델은 각각의 특징을 가지고 있다는 사실 알고 계셨나요? 이번 글에서는 이 두 모델의 특징을 알아보고 비교해 보겠습니다.
개발 배경 알아보기
이 두 모델은 탄생 배경과 개발 철학부터 다릅니다. 엔트로픽은 클로드 3를 개발하면서 ‘인간에게 해가 되지 않는 안전한 AI’를 만드는 데 주력했습니다. 이를 위해 클로드 3는 인간의 행복과 번영을 증진시키고, 인간의 자율성을 존중하며, 해를 입히지 않는 다는 원칙 아래 설계되었습니다. 클로트 3는 대화할 때마다 이러한 원칙들을 잘 지키고 있는지 스스로 점검하게 됩니다. 엔트로픽은 이런 방식으로 사람들이 AI를 더욱 신뢰하고 안심할 수 있게 만들고자 했습니다.
반면 오픈 AI는 GPT-4 개발 과정에서 인공지능의 성능과 활용성의 향상에 좀 더 주력했습니다. 방대한 양의 데이터를 활용하여 언어 이해, 추론, 문제 해결 등 다방면에서 뛰어난 능력을 발휘할 수 있는 인공지능을 만드는게 목표였죠. GPT-4는 다른 어떤 GPT 모델 보다 훨씬 더 많은 데이터를 학습하였으며, 다방면에서 뛰어난 성능을 발휘 할 수 있는 기능을 가지게 되었습니다.
벤치 마크 성능 비교
두 모델의 실제 성능은 어떨까요? 엔트로픽이 자체적으로 실시한 벤치 마크 테스트 결과를 살펴보니 의외의 결과를 확인할 수 있었습니다. 이 두 모델은 각기 다른 분야에서 서로의 성능을 앞서고 있다는 사실이었습니다.
구체적으로 살펴보면, 클로드 3는 대학 수준의 전문 지식, 대학원 수준의 전문가 추론 능력, 코딩 역량 등에서 GPT-4보다 높은 점수를 받았습니다. 특히 대학 수준 지식 평가에서는 86.8%의 놀라운 점수로 1위에 올랐습니다.
하지만 수학 문제 해결 능력에서는 GPT-4가 클로드 3를 눌렀습니다. 중학교 수준 수학에서는 클로드 3가 앞섰지만, 고등학교 수준의 수학 문제를 푸는 데서는 GPT-4가 52.9%의 높은 점수로 1위를 차지했습니다.
전반적인 IQ 테스트 점수에서는 클로드 3가 101점, GPT-4가 85점을 받아 클로드 3가 우위를 보였습니다. 클로드 3는 35개의 평가 문제중 18.5개를 맞힌 반면 GPT-4는 13개만 맞혔기 때문입니다. 이 결과가 더 특별한 이유는 이제 AI기술이 인간의 평균 IQ 점수와 근접했다는 것에 있습니다. 이제 AI가 인간의 평균 IQ를 뛰어 넘을 날이 얼마 남지 않은것 같네요.
클로드 3 실제 사용 후기
벤치마크 성능 비교만으로는 두 모델의 실제 활용도를 가능하기 어렵습니다. 저는 GPT-4 를 구독하고 있었으며, 이번에 새로 나온 클로드 3를 새로 구독하여 두 모델을 직접 비교해 보았습니다. 실제로 두 모델을 사용해본 결과 체감할 수 있는 특징과 차이점을 발견할 수 있었습니다.
1. 한국어 답변의 자연스러움
클로드 3의 한국어 답변이 정말 사람이 직접 쓴 것과 구분할 수 없을 정도로 자연스러웠습니다. 상황과 맥락에 맞는 적절한 표현을 구사하였으며, MZ세대의 언어와 같이 특정 나이에 맞는 언어도 자연스럽게 구사가 가능했습니다. GPT-4에서 생성되는 한국어 답변과는 전혀 다른 자연스러움이 가장 크게 느껴진 차이점 이었습니다.
2. 긴 글을 처리하는 능력
클로드 3는 최대 20만 단어(영어 기준)까지도 한 번에 처리 할 수 있다고 합니다. 긴 글을 한 번에 붙여넣기 해도 우리가 원하는 정보를 찾아주고, 답변을 해주는 능력이 뛰어 났습니다.
3. 요구 사항에 맞게 센스 있는 답변
간혹 GPT-4에서는 내가 원하지 않는 답변을 해주는 경우가 많았는데 클로드3에서는 제가 원하는 바를 더 잘 캐치해낸다 라는 생각이 들 정도로 이에 맞는 답변을 잘 해주는 느낌을 받았습니다. 질문이나 글의 내용을 좀 더 섬세하게 이해하고 답변해 주었으며 요구 사항에 대해서도 즉각 적인 반응을 보여주었습니다.
두 모델은 확실한 성향 차이가 있었습니다. 클로드 3는 좀 더 감성적이며 사용자 중심적인 모습을 보였다면, GPT-4는 이성적이고 논리 중심적인 모습을 보였습니다. 예를 들면 ‘토닥토닥’을 입력했을 때 GPT-4는 ‘토닥토닥’의 정의를 설명한 반면, 클로드 3는 위로의 말을 전해 줍니다.
두 모델의 장단점과 특징 비교
결론적으로 클로드 3와 GPT-4는 각기 다른 장단점이 있습니다. 클로드 3는 한국어 답변의 자연스러움, 긴 글 처리 능력, 사용자 요구사항에 맞는 센스 있는 답변 등의 장점이 있었습니다. 또한 감성적이고 사용자 중심적인 성향을 볼 수 있었습니다.
반면 GPT-4는 문제 해결력이 뛰어났고, 이성적이고 논리 중심적인 면모를 보였습니다. 두 모델의 장단점을 상황과 목적에 맞게 잘 활용한다면 분명 시너지를 낼 수 있을 것이라 생각합니다.
Claude 3 | GPT-4 | |
개발사 | 엔트로픽 | 오픈 AI |
이용 요금 | $20 / 월 | $20 / 월 |
확장성 | API 사용가능 | GPTs 플러그인 및 API |
이미지 인식 | X | O |
이미지 생성 | X | DALL-E3 |
파일 | 일부 파일 읽기 가능 | 거의 모든 파일 읽기 가능 |
마치며
이번 글은 두 모델 중 한쪽이 다른 한쪽보다 전반적으로 우수하다는 것이 아닙니다. 두 모델 모두 AI 언어 모델로서 정말 놀라운 수준의 성능을 발휘하고 있습니다. 지금도 계속 발전하고 있는 모델들인 만큼, 어떤 방향으로 진화해 나갈지 주목할 필요가 있다고 생각합니다.
한 가지 분명한 건 앞으로 이런 AI 언어 모델이 우리의 삶과 일터에서 점점 더 중요한 역할을 해내 갈 것이라는 점입니다. 이미 AI에 관심이 많은 사람들은 AI 언어 모델을 다양한 환경에서 사용하고 있습니다. 또한 기술력은 나날이 진화하고 있기 때문에 우리는 계속 주목할 필요가 있어 보입니다.