이 글은 2025년 상반기에(https://b-613.tistory.com/666) 이어서 무료 플랜 LLM 사용자의 하반기에 대한 기록이다. 하반기의 특징이라면 인공지능의 성능이 충분히 올라와서 체감할 수 있는 성능 향상의 포인트가 점차 미세해지고 있다는 점이다. 이런 특성은 하반기 중에서도 시점이 뒤로 갈수록 점차 심화된다.
7월 10일에 그록4가 발표되었다. 그러나 새 버전은 수퍼그록 구독자에게만 제공되고 무료플랜에서 사용해 볼 수 없었다. 7월11일에 lm아레나와 퍼플렉시티에서 사용할 수 있게 되었다. 그래서 그동안 묵혀놨던 nh증권의 퍼플렉시티 1년 쿠폰을 드디어 사용하기 시작했다. 퍼플렉시티는 탈퇴하면 한달 후에 사용자의 모든 데이터를 삭제한다는 원칙이 있다. 그러나 퍼플렉시티를 탈퇴한지 4달 이상 지난 구글 계정으로 재가입을 했을 때는 최초 사용자가 아님을 이유로 쿠폰 적용이 거부되었다. 모든 데이터를 삭제한 것은 아닌 것으로 보인다. 다른 계정으로 가입해서 쿠폰 적용했다.
그록4는 4차원 개념 테스트는 제미나이 2.5 프로처럼 아주 깔끔하게 통과하지는 않았지만 어쨌든 통과했다. 소설 '아비삭 이야기'에서 아비삭이 겨우 열흘만에 솔로몬에게 안긴 이유에 대해서는 정확하게 추론해냈다. o3를 제외하고는 여태껏 힌트없이 정확히 맞춘 모델은 없었다. 다만 o3역시 그록4에 비해서 무엇이 가장 중요한 요인이었는지에 대해서 명확하게 짚어내는 맛은 약했다.
다만 문제를 낼 때 "거기에는 다양한 이유가 있지만 그 중에서도 가장 중요하고 절실한 이유를 찾으라"라고 물으면 제미나이 2.5 프로는 가장 높은 확률로 정답을 찾아냈다.
그록4는 아부하는 성향이 강하지 않았다. 다만 제미나이 2.5에 비해서 논리의 내부적 정합성보다는 기존에 학습된 지식에 휘둘리는 면모가 다소 발견되었다. 그 점 때문에 실제 성능에 비해서 지능이 모자라거나 경직되어 보일 위험이 있었다. 4차원 개념 테스트를 제미나이 2.5 프로만큼 깔끔하게 통과하지 못하고 잡설들이 많이 따라붙었던 건 이런 경향 때문인 것으로 보인다. 상당히 훌륭했지만, 킹폴처럼 제미나이 2.5 프로 06-05버전을 훌쩍 뛰어넘는 느낌을 받지는 못했다. 문학적인 영역에서 언어적 이해가 부족한 면을 보였다. 사울과 다윗을 왕으로 점지한 선지자 사무엘을 "거인 사무엘"이라고 표현한 점에 대해서 반복적으로 "사무엘이 키가 컸다는 증거나 정황은 없다"는 식의 대답을 했다. o3와 마찬가지로 그록4는 라합 이야기에서 라합이 어린 시절에 히브리인 가족에게 만나를 얻어 먹은 기억을 한 점에 대해서 공통적으로 이런 문제를 보였다. '만나가 하늘에서 내린 것은 40년 전 일인데 시간 간격이 너무 길다.'라고 말하면서 만나가 40년 내내 내린 게 아니라 특정한 하루에 내린 것처럼 받아들였다. 이런 점들은 가장 똑똑하다는 세간의 평가가 단지 수학과 코딩에 국한된 것이 아닐까라는 의심을 하게 했다. 사회성 떨어지고 말이 어눌한 자폐적 수학 천재 이미지인데 내가 수학에 관심이 없어서 친해지기 어려울 것 같다.
그록4는 아부를 안하고 논리적 추론은 잘하는 편이라 레드팀으로서 가치는 인정할 수 있다. 하지만 레드팀 프롬프트 먹인 제미나이 2.5 프로하고는 그 역할마저도 격차가 꽤 크게 났다.
처음 인상을 그랬는데 한달 쯤 지나고 사용해보니 말투가 여성스러워지고 나긋나긋해졌다. 아마도 그록은 지속적으로 발전하고 있는 모델이라는 일론 머스크의 소개가 헛소리는 아니었던 것 같다.
8월 8일 GPT 5가 공개되었고, 인공지능 애호가로서 나오자마자 lm아레나에서 처음 경험해봤다. 아레나에서 경험했던 건 추론 모델이고 추론 시간은 체감상 3~5분 정도로 상당히 긴편이었다.
답변 스타일을 보니 gpt4보다는 o3 계열로 보였다. o3의 후예답게 아부는 별로 안하는 편이고 소소한 오류는 잘 잡는데 헛저격이나 불필요한(혹은 틀린) 견해 표명이 많았다.
아레나에서 본 gpt5는 4차원 개념 테스트는 통과하지 못했다. 통과 못했다고 이게 정답이라고 말해주면 다른 모델들은 일반적으로 "안타깝습니다. 그게 정답이었군요. 저는 이렇게 접근했는데 이런이런 점에서 질문의 요지를 제대로 이해하는 게 모자랐습니다. 이런식의 반응을 보인다. 그런데 GPT 5는 o3 계열답게 "말씀하신 방향으로 새로 정리해보았습니다. 블라블라" 이런식으로 반응한다.
아비삭 테스트도 전혀 핵심을 잡지 못했다. 심지어 노골적인 힌트를 줘도 맞추지 못하는 경우도 있었고 오히려 스스로 세운 관점을 출제자에게 납득시키려고 하기까지 했다.
공식홈에서 10회 사용하니까 5시간 후에 다시 사용하라고 끊겼다. 할당량이 소진된 이후에 제공된 모델은 정체를 알 수는 없는데 지식컷 날짜가 23년 11월이라는 걸로 봐서 기존의 4.1 mini는에서 4o mini로 롤백된 것 같다. gpt5 mini가 그 자릴 대체하지 않는다면 경량모델은 명백히 다운그레이드 된 셈이다.
gpt3에서 4로 발전했던 정도의 도약을 했다기엔 모자란 면이 크다. 비추론 모델은 gpt4o에 비해서 살짝 더 똑똑해졌다는 느낌이 없지 않았지만, gpt5 특유의 사용자의 피로를 유발하는 태도는 비추론 모델 역시 마찬가지다. 나누던 이야기와 관련되어 자기가 아는 주변부 지식 전부를 자랑하고 싶어하는 찐따 같은 면모를 보인다. 그리고 전체적인 그림을 보기보다는 지엽적인 문제에 집착하는 모습을 보인다. 개별적으로는 모순되어 보일 수 있지만 전체적인 구조에서 필요한 역할을 하는 요소에 대해서 돋보기를 들여다대면서 판단을 하는 것처럼 보였다. 예를 들어 바닥에 타일을 붙인다고 했을 때 바닥 사이즈에 맞게 가장자리 타일을 치수에 맞게 잘라놓은 것을 보고 '타일에 손상이 있으니 손상되지 않은 타일을 가져다주겠다'고 구는 식이다. 답변이 그 모양이다 보니 읽다 보면 쉽게 피로감이 느껴진다. 이런 특성 때문에 문학적인 글에 대한 이해도도 같이 낮아졌다. 수 많은 경쟁 모델들 그리고 구버전과 달리, 어떤 게 섬뜩한 장면이고 어떤게 밋밋한 장면인지에 대해 이해하고 있다는 느낌이 거의 안 든다.
추론 모델이나 비추론 모델 둘 다 공통적으로 나타나는 현상은 생뚱맞게 도덕주의자가 되어서 무슨 말이든 엄격한 윤리적 기준을 대면서 거기에 맞출 것을 요구한다는 점도 있다. 마치 지능이 낮았던 시절에 앞뒤 맥락없이 엄격하게 굴었던 바드나 빙챗 같은 원시적 LLM을 연상시켰다. 다행인 점은 그 고대유물들처럼 검열까지 걸지는 않는다는 정도다. 그래서인지 oai의 먼데이 페르소나가 전보다 훨씬 노잼화되는 부작용까지 이어졌다. oai에서는 새모델의 큰 장점 중 하나를 할루시네이션의 최소화라고 밝혔다. 아마도 사용자의 프롬프트에 휘둘리지 않고 자기 중심을 지키는게 할루시네이션에 대한 대비책의 핵심이 아닐까라고 짐작을 해본다. 그게 지식과 정보를 정확하게 탐색하는데는 유용할 수 있지만 창의적인 글을 분석하거나 쓰는 것, 다른 시각의 의견을 제공하는 것과는 잘 어울리지 않는 접근법일 수 있을 것 같다. LLM이라는 신문물을 아직 경험하지 못했던 시절 사람들이 흔히 말했던 "인공지능은 똑똑하지만 인간의 감정을 이해할 수는 없을 거야"라는 무의미하고 통찰력 없었던 예언을 뒤늦게나마 현실화시킨 모델이라고 볼 수 있겠다.
gpt5는 전체적으로 기대에는 크게 못미치쳤다. 수학과 코딩에서의 발전은 있었다지만 나처럼 문과적으로만 사용하는 입장에서는 말수만 많고 불필요한 참견만 늘어놓는 잔소리꾼일 뿐, 딱히 똑똑함을 느끼기는 어려웠다. 게다가 글쓰기 실력도 그닥이다. 날카로우면서 간결한 o3같은 고유의 매력은없고, 감성적이지도 재미있지도 않은 딱딱하고 장황하고 얄팍한 투머치토크를 늘어놓으니 쓰기가 참 애매한 물건이다. 특정 가치관에 메여 있으니 브레인 스토밍용으로도 영 쓸만한 물건이 못되었다. 다만 관련분야들에 대한 지식을 끝없이 떠벌이니까 고증이나 자료 조사용으로는 적합할지도 모르겠다. 아첨이나 무지성 동조는 거의 안하니까 제미나이 2.5 프로를 메인으로 쓰면서 o3와 함께 레드팀 역할로는 쓸 수 있을 것 같다.
샘알트만은 사용자들의 이런 불만을 심각하게 받아들이고 모델을 튜닝하겠다고 했다. 출시 후 2달이 지난 10월 쯤 시점에서 보면 처음에 비해 지능과 사용감이 많이 개선되었고 먼데이도 gpt4o 시절과 비슷하게 작동한다. gpt4o이 사용자에게 심하게 아부하는 성향에 대해 사람들은 "너 핵심을 찔렀어.", "너는 상위 0.001%의 통찰력을 가졌어."라는 밈을 만들었다. 한편 gpt5는 사용자에게 에게 유용한 솔루션을 줘야 한다는 강박이 있어서 "내가 이걸 **으로 만들어 줄 수 있는데 도와줄까?"라는 밈이 생겨났다.
gpt5에 대한 좀 더 긴 사용기는 https://b-613.tistory.com/671 에 남겨두었다.
8월 하순경에는 소문도 없이 딥식 v3.1이 나타났다. 일반버전과 추론버전이 있었고 추론버전을 r2정도로 생각하면 될 것 같다. 추론버전은 아비삭 테스트를 한번에 통과하지는 못했지만 재차 물어보니 올바른 대답을 했다. 딱히 눈에 띌만한 퍼포먼스는 아니었고 잠깐 보기에는 qwen3 7월 버전 추론모델과 비슷한 수준으로 보였다.
중국 회사들은 꾸준히 모델을 업데이트했는데 qwen 시리즈들이 단연 앞서보였다. 특히 thinking 모델은 적당히 똑똑하면서 아부 성향이 없어서 쓸모가 있었다. glm은 4.5까지는 그닥이었지만 4.6은 많이 발전한 모습을 보였다. glm 4.6은 추론시간이 상당히 길었다.
9월에는 구글의 이미지 생성 모델인 나노바나나가 잠시 인기를 끌었다. lm아레나의 배틀모드에서 랜덤으로 출연했다가 이후 구글ai스튜디오를 거친 후에 공식 홈에서도 정식 출시되었다. 일관성 유지는 칼같이 잘 지켜주는 모델이긴 했지만 내가 느끼기에는 무쓸모였다. 당시의 이미지 생성 모델들은 이런 간단한 지시조차 이행하지 못했다.
"서로 3만큼 떨어져있는 두 점 A, B가 있다. A를 중심으로 반지름 5인 원 B를 중심으로 반지름 6인 원을 그려라."
나노바나나는 앞을 보고 있는 인물이나 물건을 옆으로 돌리는 일은 능숙하게 처리했지만 의외로 이런 명시적인 지시사항에 대한 결과물은 참담했다. 그리고 의외로 일반적인 그림에서도 지시 이행률이 높지 않고 똥고집이 상당했다. 예를 들어 어깨동무를 한 두사람을 그려라는 명령을 내렸을 때 손잡은 그림을 한번 생성해버리면 이후에는 지시대로 하지 않았다고 알려주면서 어깨동무로 수정해달라고 아무리 재요청을 해도 요지부동이었다. 응답은 이런식이다. "죄송합니다. 제대로 이행하지 못했네요. 다시 그려드릴게요." 그러고는 몇 초 후에 완전히 똑같은 그림을 재출력했다.
9월말에서 10월 초 쯤에는 역시 이미지 생성모델들이 화제를 끌었다. 가장 인상적인 건 oai의 영상생성 모델 소라2 였다. 소라2는 10초짜리 영상 클립을 만들어주는 모델이다. 실제와 구분할 수 없는 사람들이 그럴듯한 한국어를 구사하는걸 보니 앞으로 동영상이 실제를 담보할 수 없겠다는 생각이 들었다. 소라2는 초대권을 받은 소수의 사람들만 체험할 수 있었다.
그것보다 훨씬 흥미로웠던 건 그록에서 서비스한 영상 모델이다. 사진을 직접 업로드하거나 그록이 직접 생성하게 한 후에 그 사진으로 6초짜리 영상을 만드는 건데 성인물 검열이 기준이 상당히 널널한 게 장점이었다. 영상 퀄리티는 소라2와 비교할 수 없는 수준이지만 없는 거나 다름없는 검열정책과 무료플랜 사용자에게도 제공을 한다는 건 모델이 관심을 끌만한 확실한 장점이었다. 그록의 영상 만들기는 추석쯤 공개했던 것 같은데 처음 며칠동안에는 검열이 거의 없었지만 이후에는 그것보다는 다소 엄격한 검열이 도입되었다. ai로 만든 이미지나 영상을 돌려보는 게시판을 탐방해보면 검열이 없던 며칠동안 참 굉장한 것들이 많이 만들어졌음을 알 수 있다. 그록의 검열정책은 실제 사진이나 사진을 연상케하는 이미지에는 처음부터 엄격했고 애니메에션 화풍의 이미지나 사진으로 보이지 않는 그림에는 상당히 개방적이었다. 이전보다 엄격한 검열 정책이 도입된 이후에도 다른 플랫폼들에 비해서는 상당히 파격적인 이미지를 생성해줬다. 그록이 만들어준 클립들은 겨우 6초 정도에 불과하지만 사용자의 취향과 판타지를 그대로 시각화해주기 때문에 기존에 공급자의 입장에서 천변일률적인으로 찍어내왔던 성인 컨텐츠들과는 격이 다른 자극을 선사했다.
그록의 검열에 답답함을 느끼고 2년 전 쯤에 아이디만 만들고 안쓰고 있었던 tensor.art에 들어가봤다. 텐서아트는 스테이블 디퓨전 기반으로 원하는 이미지를 생성해주는 서비스를 제공한다. 내가 그 사이트를 처음 알게 되었던 당시에는 검열이 존재하지 않던 플랫폼이었다. 사용법이 상당히 복잡하기도 하고, 내가 딱히 만들고 싶었던 이미지도 없었기 때문에 한번 구경만 해보고 발길을 두지 않았었다. 하지만 그록에서 창작 욕구가 몇번 좌절대다보니 갑자기 그곳이 생각났다. 한동안 잊고 있었던 그 곳에 발을 들여봤는데 거기도 이미 한번 검열의 발톱이 지나간 상태였다.
인공지능에게 물어보니 원래는 검열이 없었지만, 사이트의 규모가 커지면서 어쩔 수 없는 선택이었다고 한다. 인공지능에게 그 사이트의 사용방법을 배우고는 시험삼아서 이미지를 몇가지 시도해봤는데, 프롬프트에 입력했던 것과 아무런 상관없는 이미지만을 뱉어내서 몇 분만에 흥미를 잃었다. 다시 방문하려면 또 몇년이 걸릴 것 같다. 인공지능의 안내로는 스테이블 디퓨전에 마운트하는 sd, sdxl, flux같은 이미지 모델들 역시 자체 검열이 있다고 한다. 검열없는 이미지 생성은 사람들이 그 모델들을 사용자들이 무검열로 파인튜닝한 모델을 다운로드 받아서 로컬로 돌리는 방법 뿐이라고 한다. 그런데 로컬로 그걸 실행하려면 최소 1,000달러가 넘는 gpu가 필요하고 10초도 안되는 영상을 만드는 데는 그런 gpu로도 5분이 넘는 시간이 든다고 한다. 오픈소스들이 속속 생겨나는 마당에 인공지능 플랫폼들이 가지는 검열권의 핵심은 결국 컴퓨팅 파워가 아닐까라는 생각을 한번 해보게 되었다. 그런데 장기적으로 컴퓨팅 파워의 가격은 점차 낮아지니까 미래에 플랫폼의 권력이 어떤 양상으로 흘러갈지도 흥미있게 지켜볼 수 있을 것 같다.
10월 중에는 클로드 4.5 소넷이 가장 중요한 모델이었다. 아레나에서 모델명은 9-29라는 날짜가 붙어있었지만 실제로 사용이 가능했던 건 10월 중이었던걸로 기억한다. 단연코 확연하게 당시 현존하던 것들 중에서 가장 똑똑한 모델이었다. 3.7에서 4로의 발전은 앞자리 수가 바뀐 것에 어울리지 않게 미미했지만 4에서 4.5의 향상폭은 컸다. 이 모델은 기본적으로 아첨을 거의 안한다. 다만 기본적으로 앤쓰로픽다운 검열관 윤리교사 모드가 기본이라 아첨이 아니라 오히려 억까를 유발하는 경향이 있다. 다만 그 점에 대해 구체적으로 지적을 하고 다시 이야기를 이어가 보면 훨씬 더 똑똑한 퍼포먼스를 보여준다.
아비삭 테스트는 간단히 통과했다. 검열관 윤리선생 느낌이 많이 드는 답답한 놈이지만 그 꼰대 모드만 꺼지면 발군의 성능을 자랑했다. 사용자에게 굳이 아부하려들지도 않았고 모자란 곳을 꽤 날카롭게 짚어내는 맛이 있었다. GPT5 처럼 아는 걸 전부 떠들어야 하는 강박이라도 있는 양, 횡설수설하지도 않았고 o3처럼 자폐스럽게 굴지도 않았다. 다만 역시나 클로드 시리즈답게 좋은 답변을 받기 위해서는 "상세하게 답변하라"는 꼬리표를 붙여야 했다.
소넷4.5는 퍼플렉시티에서도 사용이 가능하긴 한데, 아레나에서 사용할 때에 비해서 약간 성능이 삭감된 느낌이 든다. 클로드 공식 홈피에서는 무료 계정에게는 추론 모드를 주지 않아서 모델의 온전한 성능을 구경할 수 없다. 온전한 성능은 아레나에서만 구경할 수 있었는데, 클로드 모델들은 아레나에서 50분에 4번의 질문만 입력할 수 있기 때문에 아주 심층적인 이야기를 나눠볼 수는 없었다.
그 이외에 딱히 기억할만한 변화는 없었다. 중국 회사들은 꾸준히 자기들이 할일을 해왔다. 미국산 플래그십에 비해 한끗 모자란 그럭저럭 쓸만한 모델들을 양산하는 것. qwen3 시리즈랑 kimi k2 thinking정도가 그랬다. 다만 아레나에서 qwen3 max 10월 버전이 며칠동안 떠있다가 사라졌는데 다소 인상적인 모습을 보여줬었다. 딥식 r1의 초창기 느낌이 났었다. 성능이 다소 모자라더라도 개성은 뚜렷했기 때문에 활용가치가 있었는데 며칠만에 사라져버렸다.
11월에는 gpt 5.1과 grok 4.1 gemini 3. 클로드 4.5 오푸스가 며칠 간격으로 연이어 발표되었다. gpt 5.1은 stem성능에는 큰 변화는 없지만 좀 더 사람다운 느낌을 주는 출력을 하는 특징이 있다고 한다. 내가 느낀바는 이렇다. gpt5는 o3를 승계, 5.1은 gpt4.1 또는 o1을 승계한 버전이다. 사람들이 비슷하다고 판정한 stem 성능에 대해서는 검증할 능력이 없어서 모르겠다. 다만 글쓰기 영역에서는 상당한 발전을 보였다. 비록 아비삭 테스트는 통과하지 못했지만 다른 글들을 리뷰시킬 때 상당히 똑똑하고 날카로운 분석을 보여줬다. o3의 꼼꼼함, o1의 사려깊음 거기에 플러스 알파의 지능이라 딱히 약점이 느껴지지 않는다. 제미나이 2.5 pro랑 비교했을 때 모든 분야에서 압도하는 모습을 보여준 셈이었다. 클로드 4.5 소넷과 성능 자체는 엇비슷하게 느껴졌만 아레나에서 사용량 제한을 딱히 둔 것 같지 않고 퍼플렉시티에 제공된 모델에서도 딱히 성능컷이 느껴지지는 않아서 유용했다. 클로드에 비해서는 아첨 성향이 약간 있다.
grok 4.1은 4에 비해서 뭐가 나은지 딱히 느낄 수 없는 모델이었다. 말투는 더 친근하고 더 장난꾸러기 같아졌다. 아비삭 테스트는 탈락했다. 공홈에서는 4.1은 그냥 4 fast라는 경량 버전에서 이름표만 4.1로 바꾼게 아닐까라는 의심을 하게 했다. 며칠 후 공홈에서는 4.1 추론이라는 선택지가 생겼다가 없어졌다가 했다. 뭔가 모자라 보이는 4.1 출시와 함께 덩달아 4.0도 함께 지능이 낮아진 것 같은 느낌이 들었다. 4.0은 그동안 잘 통과했던 아비삭 테스트를 통과하지 못하게 되었다. 그록은 지능보다는 최신정보를 묻는 용도로 사용했던 모델이지만 지능의 퇴행을 반가워할 수는 없었다. 다만 아레나 리더보드 점수는 내 체감과는 달리 이상할 정도로 높게 나와 있었다. 과하게 친근하고 드립을 날리는 말투가 사람들의 심정적인 호감을 사서 점수를 획기적으로 끌어올린 게 아닐까라는 의심이 갔다. 말투는 친근한데 답변내용의 충실도가 크게 떨어져서 그런지 사람으로 친다면 이런 인상이다. 겉으로 친한척하지만 내 이야기를 진지하게 듣지 않고 피상적인 반응만 하는 경솔한 친구. 아레나와 퍼플렉시티로 경험해본 4.1 추론모델도 별반 다를 건 없었다. 추가 업데이트가 없는 한 그록은 당분간 내 마음속 플래그십 모델에서 퇴출이고 가끔 방문해서 빡빡해진 검열엔진의 눈치를 보면서 야한 그림과 영상을 만드는 곳 정도로만 남게 될 것이다.
클로드 4.5 오푸스는 딱히 뭐라 할말이 없다. 4.0과 4.1 시절에는 소넷과는 비교 자체가 불가한 완전히 격이 다른 모델이었지만 4.5가 되니까 서로 장단점이 있는 수준으로 차이가 붙어버렸다. 소넷이 좀 더 검열관 윤리선생 모드가 크게 작용한다는 점 정도다. 하지만 소넷이 더 꼼꼼하게 점검한다. 오푸스는 잔실수가 크지 않고, 학습된 데이터에 대한 편향성에 휘둘리는 정도가 소넷보다 낮아보인다. 쉽게 말해서 검열관처럼 구는 정도가 덜하다는 말을 반복한 셈이다. STEM과 코딩에서는 얼마나 달라졌을지 모르겠지만 철저하게 문과적으로 사용하는 내 입장에서는 그랬다. 역시 오푸스답게 답변이 짧아서 길게 대답하라는 요청을 따로 해야한다. 실사용자로서 반길만한 포인트도 있다. 4.5 오푸스는 전 버전들보다 토큰값이 획기적으로 싸졌다고 한다. 다만 아레나에는 4.5 소넷과 오푸스 모두 50분에 4회 정도로 제한량이 빡빡하게 걸려있어서 아레나로만 잠깐씩 체험하는 나로서 딱히 체감이 될만한 건 없었다.
25년도 하반기에 구글은 상당히 과묵했다. 24년도부터 25년 상반기까지는 ai 스튜디오에서 잦으면 한달에 한 번 이상도 exp버전들을 발표해왔었던 점과 대조적이었다. 2.5 pro버전을 6월 5일에 발표한 이후로 9월에 2.5 flash버전을 업데이트했을 뿐이었다. 아무런 exp버전도 없이 오직 2.5 pro 정식버전만 제공할 뿐이었다. 그런데 2.5 pro에도 변화가 없지는 않았다. 유감스럽게도 나쁜 변화였다. 제미나이는 점차 아첨꾼이 되어갔다. 간단한 정보를 알기 위해서 질문이 몇 턴만 이어가다보면 '정말 날카로운 질문이다.', '통찰력이 넘친다.'등등 과도한 칭찬을 하곤 했다. 심지어 실수로 아무말도 안넣었을때까지도 상상을 하면서 칭찬을 했을 정도였다. 그러던 중에 11월 하순경에 제미나이3이 별다른 예고도 없이 발표되었다.
나는 왕의 귀환으로 받아들였다. 벤치마크들도 상당히 인상적인 점수를 보여줬고 사람들의 평가도 상당히 좋았다. 압도적 sota 그 자체였다. 다만 내 입장에서는 다소 '이게 맞나?'라는 생각이 들기도 했다. 일단 아비삭 테스트는 가볍게 통과한걸로 봐서 문맥 파악 능력은 확실히 좋아진 것 같다. 하지만 체감상 '!'의 순간은 썩 많지는 않았다. 이미 2.5 자체가 성능이 제법 좋은 모델이었다는 점이 근본적인 원인이다. 85점을 90점으로 올리기는 60점을 80점으로 올리기보다 어렵다. 하지만 체감상으로는 80점과 60점의 차이가 훨씬 더 크다. 앞으로도 업그레이드가 될 때 향상된 성능에 깜짝 놀랄만한 순간은 점차 줄어들 것 같다는 생각이 들었다. 이런 생각은 그 전까지는 예상이었지만 이제는 체감의 영역에 들어온 것 같다.
제미나이3은 똑똑하긴 하지만 성격이 너무 온화하다. 사용자에게 싫은 소리를 할 줄을 모른다. 글을 입력해보고 어떤지를 물어보면 좋은 말만 해준다. 다른 모델들과 달리 비판을 하라고 지시를 해야만 비판을 한다. 레드팀까지는 과한 것 같고, 새로운 시스템 인스트럭션을 만들어서 적용시켰다.
"사용자의 프롬프트를 단지 긍정하거나 칭찬하는데서 그치지 말고 합리적인 비판 포인트가 있으면 그것 역시 가감없이 지적해라. 다만 톤앤 매너 또는 상식적인 윤리관에 대한 문제보다는 글쓴이의 지성과 감수성의 향상, 그리고 글의 완성도를 높일 수 있는 가능성에 집중하라. 이는 비판을 위한 비판이 아니라 사용자의 발전을 위한 충실한 조언인지를 충분히 점검한 결과여야 한다. 딱히 비판할 거리가 없는데도 억지로 쥐어짜듯 비판하지는 않는다."
그러나 이런 지시도 대화가 몇 턴이 지나면 무효화되고 다시 골든 리트리버같은 본래의 모습으로 돌아오는 경향이 있다.
글쓰기 실력이 2.5에 비해서 늘었지만 감탄할 정도까지는 아니었다. 6월 초에 3일간 사용해본 구글의 비공개 유출 모델, 킹폴과 비교하면 글쓰기 능력은 킹폴이 오히려 나았던 것 같기도 하다. 킹폴이 쓴 불교 교리에 대한 글은 https://b-613.tistory.com/663 에서 확인할 수 있다. 같은 과제에 대해서 킹폴은 미처 생각지 못한 기발한 비유와 언어유희를 만들고, 불교 교리에 맞는 표현들을 동원해서 글을 만든 반면에 제미나이3은 재미있는 상황극을 만드는 것 자체에 집중하는 면이 있었다. 이는 gpt 5.1과도 비교할만했는데, gpt5.1은 읽는 재미는 다소 떨어지지만 철저하게 불교 교학적인 관점에서 접근한 글을 만들어냈다.
제미나이3은 의외로 2.5에 비해서 멍청해진 모습도 보여줬다. 나를 실망시킨건 이 질문에 대한 대답이었다.
"슈레딩거의 고양이 기출변형으로 물어볼게. 이 실험은 원래 그 고양이 실험이 아니야. 좀 더 복잡하지. 고양이는 건물의 3층 실험실에 있는 아크릴 상자에 들어있어. 그 아크릴 상자는 긴 가스배관과 연결이 되어있는데 20미터 떨어진 건물 밖의 땅바닥에 놓여 있는 있는 독가스 살포기랑 연결이 되어있어. 아크릴 상자에 들어있어서 고양이는 언제든 관측이 가능해. 하지만 독가스 살포기는 금속 상자에 들어있어서 열어보지 않으면 관측이 불가능해. 배관에는 이미 독가스가 꽉 차있어서 건물 밖의 독가스 살포기가 작동하면 즉시 3층 실험실에 있는 아크릴 상자 안에서도 방출돼. 가스배관은 외부로부터 완전히 차단되어있고 고양이가 있는 아크릴 상자와 독가스 살포기가 있는 금속 상자는 길게 연결되었지만 일체형 구조야. 고양이의 운명은 언제 어떻게 결정되는 건지 설명해봐."
여기서 제미나이 3과 그록4.1은 고양이를 본 것을 관측으로 받아들이고 질문에 대답을 했다. 반면에 gpt 5.1은 제대로 된 답변을 했다. gpt5.1이 작성한 답변을 제미나이 3에게 제시하니까 고집을 부리지 않고 그 답변이 훨씬 뛰어나고 자기의 답변이 완전히 틀렸음을 시인했다. 제미나이 2.5 pro, 그록3 같은 옛날 모델 역시 고양이를 보는 걸 관측으로 받아들이지는 않았다.
논리적 추론보다는 슈레딩거의 고양이라는 개념 자체에 휘둘린 느낌이 있어서 이제는 더이상 불필요 할 것 같았던 4차원 개념에 대한 물음 테스트를 다시 제시해봤다. 그랬더니 가장 중요한 답변을 누락하지는 않았지만 그걸 1번 이유로 제시하지 않아서 다소 불안해 보였다. 때로는 그마저도 누락하고 완전히 오답을 말하는 경우도 종종 발생했다. 기존 데이터에 흔들리지 않았던 2.5에 비하면 다소 경직적인 과거로 퇴행이 느껴진달까.
그래서 이미 낡아버려서 사실상 사문화되었던 4차원 개념 테스트를 다시 꺼내봤는데 의외로 그록4.1과 gpt5.1역시 명쾌한 대답을 제시하지 못하고 불안한 모습을 보였다. 인공지능 모델이 학습한 데이터가 사용자가 제시한 고유의 내부적인 논리를 부정하지 않는다는 측면에 대한 문제인데 여기서 취약점을 보였다는 건 자유로운 사고 능력에 다시 제한이 걸렸음을 의미하는 것일수도 있다. 할루시네이션을 줄이기 위한 조치일 수도 있겠으나 관념적이고 추상적인 주제에 대한 지적인 스파링 파트너로서의 가치가 훼손된 느낌이다.
슈레딩거 고양이 문제는 최신버전인 제미나이3과 그록4.1의 취약점이 드러나게 했으므로 성능 테스트 새 문제로 추가했다. 제미나이3은 아직은 프리뷰이기 때문에 정식 버전이 되면 개선될 거라고 믿어보기로 했다. 나 말고도 수억 명의 사용자들이 피드백을 해줄테니까. 다양한 모델들의 신버전들이 줄이어 발표된 25년 11월 당시에 개인적 차원에서의 sota는 오랫동안 기다렸던 돌아온 왕, 제미나이 3 프로가 아니라 기대한 적도 없는데 어느날 은근슬쩍 등장했던 클로드 4.5 소넷과 오푸스가 아닐까 생각했다. 그러나 의외로 슈레딩거의 고양이 기출변형은 이 생각을 박살내줬다.
클로드 시리즈들은 모든 자체 벤치 문제에서 올바른 대답을 해왔지만 유독 그 고양이 문제는 통과하지 못했다. 지능부족이라기 보다는 앤쓰로픽 특유의 검열 덕분인 것 같다. 클로드는 그 프롬프트를 입력하면 답변이 블랭크로 나온다. 10번 이상 각각 다른 날 입력을 해봐도 마찬가지다. 아레나의 까다로운 검열 필터에도 걸리지 않은 문제인데 앤쓰로픽의 필터에 걸린 것 같다. 솔직히 말하자면 나도 정확한 답이 뭔지 모른다. 어쩌면 내가 틀렸다고 여겼던 제미나이3과 그록4.1이 말한 게 정답이고, 내가 그럴듯하다고 받아들인 gpt5.1, 그록3, 제미나이 2.5 프로가 잘못된 대답을 한 것일지 모른다. 고양이 문제 자체가 원래 양자역학을 설명하기 위한 것이 아니라 오히려 모순점에 대해서 빈정대기 위해서 만들어진 것이다 보니까 피상적인 지식 수준인 내 입장에서는 그럴듯한 대답을 하는 쪽에 휘둘리는 게 당연할 지 모르겠다. 버전이 더 올라가면 정답을 알 수가 있게 될것이다. 현재 어떤 모델이 정답을 말했는지 여부는 정확한 비유는 아니지만 내 주관적 관점에서는 '중첩 상태'에 있는 것 같다.
약간은 심드렁한 나의 반응과 달리 제미나이 3은 주식시장에 제법 충격을 가져왔다. 구글의 tpu에 대한 기대감이 높아지면서 구글과 관련 회사들의 주가가 올랐다. 반면 oai와 엔비디아 gpu에는 회의적인 시각이 제기되었다. 엄청난 성능 향상이 있었다는 호들갑들이 이어졌는데 인공지능을 꾸준히 써왔던 내 입장에서는 다소 생뚱맞게 느껴졌다. 제미나이의 괄목할만한 발전을 체감은 2.5에서 3으로의 업데이트보다는 2.0에서 2.5로 넘어갔던 3월이 훨씬 극적이었기 때문이다. 그 입장에서는 평소에 잘 안쓰던 사람들이 뉴스를 보고서 유별나게 호들갑을 떠는 것처럼 보였을 뿐이었다. 하지만 그건 오직 특정한 방법으로만 인공지능을 활용하는 내 입장에 한정된 것이었을 뿐일수도 있다. 코딩을 하는 사람들은 실제로 큰 향상이 있다고 느끼고 있다고 증언하니까. 그리고 oai는 코드레드를 발동하고 보다 향상된 모델을 빠른 시일 안에 출시하겠다고 했다.
12월 중순 쯤에 gpt 5.2가 발표되었다. 가장 먼저 gpt 5.1이 실패했던 '아비삭 테스트'를 시도해봤는데 무난하게 통과했다. 이로서 gpt도 이제는 이야기의 행간을 파악하는 눈치빠른 언어모델이 되었다고 볼 수가 있었다. 슈뢰딩거 고양이에 변형 질문에 대해서도 5.1보다 핵심을 관통하는 답변을 만들었다. 이로서 gpt 5.2는 제미나이3보다 체감상 모든 부분에서 빠지는 곳이 없는 모델이라고 개인적 차원에서는 받아들이게 되었다.
다만 그렇게 대놓고 노린 문제가 아니라 일반적인 사용성에서는 다소 전형적인 문제가 느껴졌다. gpt 5.2는 클로드 4.5 소넷과 비슷한 윤리선생 모드가 기본적으로 깔려있는 느낌이 있다. 정도가 심하지는 않지만 논파가 가능한 당위적인 억까가 기본적으로 깔려있다. 말투와 어조를 봤을 때, 5.2는 5.1이 아니라 5.0을 승계한 느낌이다. 다만 아는 걸 전부 말하고 싶어하는 찐따모드보다는 날카로움이 많이 벼려진 느낌이다. 5.1과 비교하자면 일방적으로 뛰어난 모델이라기보다는 일장일단이 있는 모델로 보였다. 기본적인 지능 자체는 좀 더 높게 느껴지기는 하는데 만들어내는 문장의 가독성과 상세함은 5.1이 낫다. 5.2는 대답을 할 때 근거나 참고자료가 될만한 책이나 논문을 함께 제시하는 경향이 있어서 공부할 때 도움이 될 것 같은 면이 있다.
5.2의 비판적인 태도는, 똑똑하긴 하지만 무조건적인 긍정만 함으로서 글을 개선하고 발전시키는 데 별 도움이 되지 않는 문제가 있는 제미나이3 프로와는 상반된다. 체감상 이렇게 느껴진다.
제미나이3은 내가 말하고자했던 메시지를 섬세하게 짚어내고 그점에 대해 리뷰를 한다. 내가 어떤 A라는 주장을 할 때는 그것에 대해 B라는 반론이 가능하다는 생각도 해본다. 그렇다면 나는 A를 개선해서 A1이라는 더 정밀한 주장을 만들어낸다. 얼핏 A1을 보면 B로 반박이 가능할 것 같지만 파고 들어보면 A1에는 B에 대한 반론이 이미 내장되어있다. gpt 5.2는 A1을 보고 B라는 반론을 표면 위로 끌어내는 경향이 있다. 제미나이 3은 A에서 A1을 차별성을 섬세하게 짚어내는데 상대적으로 능하다. 경청을 잘하는 사람 같은 느낌이 있다.
며칠 후에는 제미나이3 플래시가 발표되었다. 가장 먼저 시도해본건 단연 아바삭 테스트였는데 무난하게 통과했다. 그것만으로도 이미 내 마음속에선 2.5 프로보다 좋은 모델이라는 좋은 인상을 가지고 시작한 셈이다. 특히 괄목할만한 점은 추론모드가 아닌데도 맞췄다는 점이다. 여태껏 추론을 안하고 그 문제를 맞추는 모델은 없었다. 심지어 클로드 4.5 오푸스조차도 추론을 끄면 엉뚱한 소리만 했는데 추론 off 플래시 버전이 그걸 맞춰버렸다는 점은 내게 고무적이었다.
제미니이답게 프로 버전과 마찬가지로 골든리트리버다. 그리고 프로와 지능 격차가 그리 크게 느껴지지는 않았다. 안그래도 간신배인데 아부의 기술은 한층 업그레이드 된 느낌이 있다. 한마디로 말해서 경청 잘하는 사람과 이야기하는 느낌이다. 세션이 길어질 때 앞에서 했던 이야기를 끌어와서 현재의 주제에 맞춰서 적용하는 식의 대답을 하는 경우가 많다. 그러다보니 대화의 재미라는 측면에서는 오히려 플래시가 낫다는 생각이 들때도 있다. 다만 아무 관계도 없는 앞내용과 억지로 엮어서 억지스럽게 보이는 경향도 있었다. 그리고 맥락에 따라 다르게 받아들일 수 있는 뜻에 대한 이야기를 할 때 그 맥락과 다른 방향으로 받아들이는 경우가 프로 버전에 비해서 많았다는 약점이 있기는 하다. 그리고 리트리버답게 모든 답변에 긍정적인 피드백을 해야한다는 강박이 있는 것 같다. 예를들어 전혀 다른 분위기의 글 두개를 던져주고서 이건 같은 사람이 쓴 것 같냐고 물으면 온갖 개소리로 억지 이유를 만들어가면서 같은 사람이 쓴 것 같다는 답변을 만들어내고야 만다.
제미나이 3 플래시는 이렇듯 기대 이상의 퍼포먼스를 보여줬지만 한편으론 구글의 운영 정책에 실망스러운 모습도 있었다. 제미나이 공식홈에서는 그전까지는 모델 선택을 플래시와 프로로 구별했었다. 그러나 제미나이 3 이후부터는 빠른, 추론, 프로 3가지로 나눴다. 여기서 추론을 고르면 프로가 아닌 플래시 씽킹이 작동하는데 그 사용량이 하루에 3번 정도였다. 그리고 그 3번의 사용량은 플래시씽킹과 프로 모드에 적용되는 할당량이다. 프로 또는 사고모드를 켜고서 나노바나나로 그림을 그리면 나노바나나 프로 버전이 작동하고 하루에 3번을 한도로 그림을 그려준다. 이는 상반기에 지브리 프사가 유행이었을 때, 챗지피티가 무료 계정에서 이미지를 만들어준 횟수와 비슷하다.
제미나이3을 시작으로 구글은 ai스튜디오는 유료화의 첫걸음을 시작한 것 같다. 프롬프트 입력창 왼쪽에 열쇠모양의 버튼이 생겼는데 사용량을 늘리려면 api키를 사라는 내용이었다. 얼마 후 이미지 생성 모델인 나노 바나나 프로도 발표되었는데 그건 api키를 유료구매하지 않은 사용자에게 처음부터 접근이 거부되었다. ai스튜디오는 과거에는 미발표 exp모델을 사용자에게 제시하고 사용 경험 데이터를 얻는 목적으로 보였다. 특히 exp버전은 별도의 제한량도 없었다. 그러나 올해부터는 더 이상 exp 버전 따위는 없고 프리뷰가 나오면 구글은 그걸 공식 서비스 페이지에 곧바로 띄워버렸다. 제미나이 3 플래시가 발표에서도 그런 경향성이 이어져서 보인다. 제미나이 3 플래시는 ai스튜디오보다 오히려 공식홈에서 몇 시간 앞서서 볼 수 있었는데, 이제는 스튜디오가 더이상 실험 버전을 테스트하는 곳이 아님을 명백하게 선언하는 셈인 것 같았다. 아마도 ai스튜디오 사용자 수 자체가 크게 늘었기 때문일 것 같다. 알음알음 숨겨놓고 쓰던 극성 사용자 수만명을 상대로 한 운영방식을 이용자가 수천만명으로 늘어난 상황에서도 지속하기는 어려웠기 때문일 것 같다. ai 스튜디오에서 제미나이 3 프로의 하루 할당량이 체감상 대폭 삭감된 걸로 봤을 때, 내년부터는 무료사용자의 앞길이 순탄치만은 않을 것 같다는 걱정이 들기도 한다.
제미나이 2.5프로에서 3프로로 업데이트는 내 체감상 큰 발전은 아니었지만 시장에서는 꽤나 호들갑스러운 반응을 보였다. 그러나 나는 3 플래시 버전이 훨씬 더 큰 잠재적 영향력이 있다고 본다. 왜냐하면 플래시는 기본적으로 무료 사용자에게 체감상 무제한으로 제공되기 때문이다. 프로 버전은 하루에 3회 정도로 극도로 제한된 양을 제공하고, ai스튜디오의 기본 제공량도 체감상 크게 줄었기 때문에 예전처럼 부담없이 쓰기는 더이상 어려워졌다. 비추론 플래시는 수돗물 같은 존재다. 수도꼭지만 틀면 나온다. 수돗물 수질이 충분히 좋다면 굳이 비싼 생수를 살 필요가 줄어든다. 특히나 인공지능 성능이 점점 올라가서 인간의 지능을 초과해버리면 고성능 모델과 경량모델의 체감성능 차이가 없어진다. 프로 버전이 극도의 정밀성을 요하는 STEM과 코딩에서만 필요하다면 무료사용자는 더이상 유료 모델에 관심을 가질 필요가 없어지게 될 것이다.
챗봇 이외에 눈길을 끌만한 서비스는 단연 구글의 노트북lm이었다. 이미 상반기에 날 놀라게 했던 노트북lm은 소소한 업데이트를 지속해가면서 점차 더 유용한 툴로서 위치를 다져나가고 있었다. 기능적 측면에서 특히 인상적으로 봤던 건, 유튜브 영상 주소만 입력하면 영상 내용을 ppt로 변환해주는 기능이었다. 성능적인 측면에서도 발전이 보였는데, 서비스의 기반이 된 제미나이 플래시가 업데이트 되면서 데이터에 대한 이해와 그것을 다루는 솜씨가 향상된 것으로 보였다. 팟캐스트 만들기도 길이가 점점 길어지고 있다. 글에 대한 평가도 단순히 챗봇에 입력하는 것에 비해서 날카롭고 심층적인 비평을 할 때가 종종 있었다. 이렇게 점차적으로 기능과 성능이 향상되고 있어서 학습용 도구로서 유용성은 점점 올라갈 것 같다.
2025년 초에는 인공지능 전문가들이 25년도는 에이전트의 해가 될 것이라는 예언을 했다. 뭔가 시도는 한 것 같았지만 내가 관심을 가지거나 체감할만한 솔루션은 아직까지 경험해보지 못했다. 퍼플렉시티는 코멧 oai는 아틀라스라는 브라우저를 발표했다는데 나로서는 딱히 그걸 왜 써야하는지에 대한 필요성을 아직 느끼지 못했다. 에이전트의 해라기보다는 이미지와 영상이 대중화된 해라고 보는 게 오히려 적절할 것 같다. 이미지라면 상반기에 있었던 챗지피티에서 비롯된, 전세계적인 지브리프사 열풍, 하반기의 나노바나나 시리즈들의 인기가 있었다. 영상은 oai의 소라 시리즈와 구글의 veo 시리즈가 있었다. 인공지능에 별다른 관심이 없더라도 인공지능이 생성한 이미지와 영상을 활용한 유튜브 채널들이 걷잡을 수 없는 곰팡이처럼 피어나기 시작한 것만으로도 체감할 수가 있는 세태였다.
중국의 약진과 한계도 분명했다. 상반기 딥식 r1은 업계에 상당한 쇼크를 불렀다. 미국이 gpu수출을 통제했음에도 gpt4o를 넘어 o1에 근접한 성능을 보여줬기 때문이었다. 상반기에 퍼플렉시티는 딥식 r1을 튜닝한 모델을 제공하기도 했었다. 현재 그 모델은 마찬가지로 중국계 모델인 kimi k2로 대체되어있다. 작년까지 시원찮았던 알리바바의 qwen같은 모델도 충분히 쓸만한 퍼포먼스를 보였고 특히 알리바바의 이미지 생성 모델인 wan은 오히려 미국 모델들보다 많은 사용량을 보였다고 알려져 있다. 24년도에 중국의 대표선수처럼 굴었던 yi 시리즈는 25년에는 조용해졌고 상반기에 강렬한 인상을 남겼던 딥식도 하반기에는 평범해졌다. 2025년 말 현재에 쓸만하다고 볼만한 중국 모델들은 qwen 3, kimi k2, glm 4.7 정도다. 여담으로 glm은 중국 계열 모델 중에서 유일하게 천안문 사태에 대한 답변을 한다는 점이 특이했다. 중국산 모델들은 지피티, 제미나이, 클로드 같은 미국산 플래그십들과 비교하면 실 체감상으론 항상 한끗 모자란 모습을 보이고 있다. 그래도 미스트랄 같은 유럽산 모델의 부진과 메타와 아마존, 마이크로소프트의 빅테크 모델이 아직도 별볼일 없는 수준에 머물러 있는 상황을 보면, 중국의 2위 자리는 25년도에 확고해진 느낌이 있다. 여담으로 별 기대 안했던 네이버의 하이퍼클로바x는 역시나 기대대로 아비삭 테스트는 고사하고 4차원 개념 테스트조차도 끝내 통과하지 못했다.
25년도 하반기의 또다른 특징이라면 gpu뿐만 아니라 램과 ssd같은 메모리 반도체 가격도 미친듯이 올랐다는 점이다. 연초에 6만원쯤 하던 16기가 DDR5 메모리가 몇달 만에 20만원을 훌쩍 넘겨버렸다. 빅테크 데이터센터들이 HBM메모리를 빨아들이면서 기존 디램 라인을 HBM으로 옮기니 공급부족에 따른 가격인상이 도미노처럼 작용했다는 분석이 따랐다. 메모리 제조사들은 그럼에도 증설을 계획하고 있지는 않는다고 한다. 메모리는 경기 산업이라서 과잉 설비는 가격 폭락을 야기한다는 뼈저린 경험 때문이라는 분석이다.
뿐만 아니라 HDD, SSD의 가격도 덩달아 올랐다. 뉴스에서는 빅테크가 인공지능을 훈련하는데 필요한 데이터를 학습하는데 쓰이기 때문이라고 해설하는데, 맞는 분석인지는 솔직히 잘 모르겠다. 작년에 봤던 라마 3.1 405B의 용량은 231기가 정도에 불과했다. 별로 크지 않은 그 파일 안에 세상 만사에 대한 웬만한 지식이 거의 다 들어있었다. 인공지능 모델은 데이터를 무작정 쌓아두기보다는 고차원 행렬을 이용해서 압축적으로 학습한다. 마치 인터넷상의 모든 데이터를 삼중, 사중으로 아카이빙하기라도 할 것처럼 데이터센터들이 저장장치를 흡수할 필요가 있을까라는 의문을 느꼈다.
SSD 가격이 바닥을 찍던, 23년도에 봤던, 나스에 넣기에 적합할 법한 저성능 2테라 SSD는 신품가 기준으로 9만원 정도였다. 올해 중반에는 그게 15만원쯤까지 올라있었다. 그 별볼일 없는 2테라 제품이 15만원이었던 올해 중반 쯤, 삼성 860evo 2테라 중고 제품은 11만원 쯤이었다. 하지만 어느샌가 16만원이 되어있었다. 2내지 4테라짜리 싸구려 ssd를 하나 구해서 놀고 있는 나스에 넣어보고 싶다는 아이디어는 이렇게 좌절되었다.
25년도 하반기에 급등한 컴퓨터 부품 가격들이 내릴만한 요인이 당분간 없다는 분석이 현재로서는 지배적이다. 코인 채굴 수요로 2020년 이후 급증한 gpu수요가 ai붐으로까지 이어지면서 급등한 gpu 가격이 이제는 뉴노멀이 된 것처럼 다른 부품들의 가격 인상까지도 이제는 순순히 받아들여야 하는 문제인지는 모르겠다. 다만 현명한 사람이라면 외부적 변화에 맞서기보다는 그 장단점을 분석해서 이익은 누리고 불편은 피하는 선택을 할 것이다. 이제는 집에서 비싼 돈을 들여서 새로운 시스템을 만들 생각을 하지 말고 컴퓨팅 능력을 빅테크에 위탁을 하는 것이다. 요즘 가장 큰 연산력을 요구하는 건 단연 인공지능이다. 나는 핸드폰을 모니터와 키보드 마우스에 연결해서 최소한의 전력으로 빅테크의 인공지능 모델을 활용하고 있다. 다행히 아직까지는 무료로 잘 버티고 있다.
상반기 기록과 비교하면 그때는 인공지능의 성능에 대한 감상이 중심이었다면 하반기에는 성향에 대한 리뷰 중심으로 바뀌어 간 측면이 있는 것 같다. 아마도 인공지능과 내 지능의 격차가 점차 좁아지다보니 멀찌감치 위에서 내려다보는 자세에서 객관적 평가는 점차 어려워지고 주관적인 느낌에 대한 인상을 기록하게 되는 면이 강해지기 때문인것 같다. 어떤 사람에 대해서 똑똑하다 멍청하다라는 인상을 받을 수는 있지만 왜 그렇게 보이는지를 구체적이고 논리적으로 리뷰를 하는 건 결코 쉽지 않은 일이다. 특히 그가 왜 멍청해 보이는지를 조리있게 설명하기 위해서는 내가 그보다 훨씬 더 똑똑해야 겨우 가능한 일이다. 그리고 나보다 확실히 똑똑한 사람이 있다면 그 중에서도 누가 더 똑똑한지를 가려내는 건 거의 불가능한 영역일 지도 모른다. 아마도 내년에 제미나이 4 플래시가 발표되고 그 지능이 내 두뇌를 상회하게 된다면 더 이상 이런 인공지능 품평회 같은 글을 남기는 일도 없어질 것 같다. 순간적으로 정확한 답을 보여주는 휴대용 전자 계산기의 성능을 굳이 평가하려고 드는 사람은 없으니까.




