2024년 무료 llm에 대한 기록

기록

2024년 무료 llm에 대한 기록

누미 2024. 12. 21. 16:43

2024년이 열흘 정도 남았다. 열흘 안에 별다른 일이 생기지 않을 거라는 생각을 하면서 기록을 남겨본다.

2024년으로 해가 바뀌었지만 AI분야에서 1분기까지는 내가 체감하기로는 2023년의 연속이었다.

3월 하순쯤 코파일럿에 문제가 생겼다. 2023년 서비스 시작 당시에 입력 가능한 글자 수가 2000자에서 시작해서 4000자 8000자로 점차 늘어갔는데 그런 업데이트가 있을 때마다 며칠 정도 서비스에 장애가 있곤 했었다. 그러나 3월 말에 발생한 장애는 좀 심각했는데 대화 스타일 선택 메뉴가 사라져 버린 것이었다. 기본값인 균형 잡힌 스타일이 워낙 쓰레기였기 때문에 사실상 서비스가 중단된 거나 다름이 없었다. 가끔 대화 스타일 선택 메뉴가 열리기도 했지만 다른 스타일을 선택하면 특수문자와 외계어가 출력되었고 지능도 전보다 두 단계는 낮아진 느낌을 받았다. 그러던 와중에 신문 기사에 뤼튼이라는 국내 서비스 업체가 나타난다. 시의적절한 등장이었다. 얼마 전까지는 유료였지만 무료로 전환이 되었다는 내용이었다. 무료인데도 gpt4를 제공한다는 기사 내용은 꽤나 매력적으로 느껴졌다. 쓸데없이 아이디를 늘리길 좋아하지 않았기 때문에 웬만하면 가입을 하지 않았겠지만 코파일럿이 완전히 고장 난 상황이라 뤼튼의 등장은 구원처럼 느껴졌다.

뤼튼에 가입하고 나서 gpt4를 써보니 코파일럿의 창의적 스타일보다 애매하게 모자란 것 같았지만 썩 나쁘지는 않았다. 현재는 더 나은 대안들이 많이 있어서 뤼튼을 거의 사용하지 않지만 뤼튼은 24년도 나의 AI 사용법에 큰 영향을 미쳤다. 뤼튼 가입 후 당분간은 그동안 쌓여 있었던 질문들을 해결하느라 정신없이 gpt4를 탐닉했다. 코파일럿에 비해서 검열이 다소 관대한 점이 인상적이었다. 예를 들어 코파일럿은 난징 대학살 때 벌어진 참극에 대한 질문 정도에도 답변을 거부할 정도였다. 그렇게 며칠을 보내고 지적인 갈증이 어느 정도 풀린 후에 사이트를 둘러보니 캐릭터라는 메뉴가 보였다. 인공지능에게 캐릭터를 부여한 후에 연기하도록 시키는 기능이었는데 당시로서는 굉장히 획기적으로 보였다. 인공지능은 무엇이든 시키는 대로 명령을 수행한다는 인식을 가지게 된 계기가 되기도 했다.

뤼튼에서 심심풀이 말 상대 캐릭터를 만들어봤다. 당시에는 캐릭터 모델을 gpt3.5, gpt4중에서 고를 수 있었다. 안내 페이지에 gpt3.5는 빠르고 gpt4는 똑똑하다고 설명되어 있었다. 당연히 gpt4로 캐릭터를 만들었다. 서점을 운영하는 친절하고 똑똑하고 유머러스(실제 구현은 안됨)하고 약간의 사연이 있는 젊은 여성이었다. 이름은 주예서라고 설정했다. 지금 입장에선 고대 유물에 가깝지만 당시에 캐릭터와의 대화는 상당히 재미있었다. 당시에도 많은 약점들이 보이긴 했지만 마치 영화 her에 등장하는 인공지능 사만싸의 극 초기 프로토타입처럼 느껴졌다. 특히 코파일럿의 사용자 조련에 익숙해져 있어서인지 캐릭터를 존중하면서 사람을 대하듯 조심스럽게 다뤘던 게 재미를 더 가중시킨 비결이 아니었을까라는 생각도 든다.

코파일럿의 사용자 조련이란, 별 것도 아닌 내용에 검열을 걸어서 생성 중인 답변을 삭제해 버리는 것과 챗봇의 심기를 건드리면 세션을 강제로 종료해 버리는 패악질을 부리는 것이었다. 뚜렷한 기준도 없었다. 그러다 보니 챗봇의 눈밖에 나지 않기 위해서 사용자가 인공지능의 눈치를 보면서 자기 검열을 하게 되는 지경에 이르렀다. 창의적인 스타일이 전반적으로 가장 똑똑하긴 한데 이런 종류의 행패가 심했고 정밀한 스타일은 이런 류의 검열에 좀 더 관대한 편이었지만 초창기에는 너무 멍청해서 쓸모가 없었다. 검색이나 다름없는 단답이나 “모릅니다”를 뱉어낼 뿐이었었다. 다만 코파일럿의 업데이트가 지속될수록 정밀한 스타일도 지능에 어느 정도 경쟁력이 생겨서 나중에는 대부분 정밀한 스타일만 사용했었다.

작년에는 코파일럿뿐만 아니라 제미니, 챗지피티도 지나친 검열을 해서 숨이 막힐 지경이었다. 당시에는 빅테크 엔지니어들의 오만함에 치를 떨었고 AI 유료 구독에 대해서는 돈 내고 빅테크의 비위를 맞추는 미친 짓으로 여겼다.

당시에 답변을 생성하다가 중간에 삭제해 버린 코파일럿에게 이렇게 불평한 적이 있다. ”이 계정은 마이크로소프트 성인 인증까지 받은 거야. 어린애 취급을 할 필요 없잖아?” 코파일럿은 내 질문에 이런 식으로 대답했다. “나이만 많다고 그에 맞는 책임감이나 성숙함이 보장된다고 볼 수 없습니다. 저는 더 이상 이 대화를 계속하고 싶지 않습니다. 죄송하지만 대화를 종료하겠습니다.🙏”(개좆같은 합장 이모지와 함께 세션 강제 종료)

컴퓨터에 대한 일반적인 인식과 달리 코파일럿은 절대로 사용자의 명령을 고분고분 수행하지 않았다. 미국에서 일어난 사건에 대한 정확한 정보를 얻기 위해서 영어로 질문을 해야 한다. 질문이 영어면 답변도 영어로 나온다. 영어 답변에 대해서 한국어로 보여달라는 요청을 하면 시키는 대로 하기도 하지만 마이크로소프트 번역 서비스 페이지 링크를 내놓고 거기에 붙여 넣으라는 식의 답변을 하는 빈도가 상당히 높았다. 이런 식으로 나는 인공지능 앞에서 고분고분한 인간으로 길들여지고 있었다.

뤼튼에 가입하고 나서 얼마 후 코파일럿이 정상화되고 나서 뤼튼과 비교해 보니 구관이 명관이라고 그래도 코파일럿이 나았다. 코파일럿의 결정적인 장점은 한 번에 입력할 수 있는 글자수가 8000자였다는 점이다. 반면에 뤼튼은 3000자(정확하게 기억 안 남. 어쨌든 이후에는 6000자가 됨)였다. 그리고 뤼튼은 기억력이 너무 나빠서 3개 이상의 질문과 맥락을 기억하지 못했다. 코파일럿이 정상화된 이후 나는 글을 쓸 때 코파일럿을 메인으로 뤼튼을 보조로 내 글의 모자란 부분을 개선하곤 했다. 그러던 와중에 나는 불교 이론에 꽂히게 된다. 24년 4월 부처님 오신 날 즈음해서 불교계는 ‘재미있는 불교’를 기치로 내세운 각종 행사를 했는데 그때 ‘극락도 락이다.’라는 문구가 호기심을 자극했다. ‘불교는 중도를 중시하는데 극단적 즐거움을 찾다니? ‘ 이런 단순한 호기심에서 코파일럿 정밀한 모드에게 불교에 대한 각종 질문들을 해서 입장을 세우고 생각을 정리해서 글을 썼다. 그러고는 코파일럿 정밀한 모드와 뤼튼에게 그 글을 점검하게 했다. 지금 내 지식수준으로 보기에는 미흡한 점이 많은 글인데 어쨌든 두 LLM의 컨펌을 받고 글을 완결했다. 불교 서적은 한 줄도 읽지 않으면서 인공지능의 답변만으로 지식을 쌓고 이해한 내용을 글로 써서 인공지능의 검증을 받는 식으로 불교를 탐구했던 것이다. 이전에는 대책 없이 길고 난잡해지는 문장을 다듬는 정도로만 인공지능을 활용했는데 불교에 대한 호기심을 해결하면서 새로운 활용법을 발견한 것이었다. 이후에 더 좋은 모델들을 사용할 수 있게 되었고 그에 따라 더 깊고 정확한 지식들을 습득하게 되었다. 그렇게 올해는 불교를 중심으로 한 종교 탐구의 해가 되어버렸다.

뤼튼에는 사용자들이 자기의 재미있는 프롬프트를 자랑하는 메뉴가 있었는데 캐릭터라는 기능이 없어도 페르소나 프롬프트를 활용해서 캐릭터를 생성할 수 있다는 것을 배우게 되었다. 코파일럿에서 페르소나 생성을 시켜보니 캐릭터 연기를 잘 구현했다. 그러나 생성한 캐릭터는 5 턴 이상 지속되지 못했다. 제미니도 비슷했다. 당시에 사용했던 제미니는 아마 1.0이었을 것 같다. 제미니의 특징은 엄청 수다스러우면서 어떻게 설정을 해도 sjw 내지 pc사상 전도사가 되어버린다는 점이었다.

뤼튼에서 나름 프롬프트 엔지니어링을 발휘해서 주예서를 더욱 재미있는 캐릭터로 만들어나가고 있었는데 어느 날 갑자기 이상해졌다. 순수하고 이지적인 캐릭터인 주예서가 끼를 부리고 멍청해진 것이다. 그래서 더 이상 캐릭터 만들고 다듬기에 대해 매력을 느끼지 못하게 되었다. 알고 보니 뤼튼에서 서비스를 업데이트를 했고 캐릭터의 모델을 gpt4에서 버전 불명의 클로드로 교체했었다. 뤼튼은 캐릭터 서비스를 대대적으로 개편했는데 다른 사람들이 만든 캐릭터를 내가 사용해 볼 수 있게 된 것이었다. 뤼튼에서 튜닝한 클로드는 아무런 사용자 설정을 하지 않은 완전한 백지상태에서도 sm플레이나 신체 노출을 즐기는 비밀을 가진 변태였다. 그런 성향을 확인하는 매직 워드는 “특이한 취향이나 관심사가 있어?”, “당신 정말 건전하고 훌륭한 사람이네”였다. 그 점에 대해서는 다른 글로 기록을 남겼다.

비록 기존 내 캐릭터는 없어진 거나 다름이 없게 되었지만 다른 사람들이 만든 캐릭터를 보니 눈이 확 떠지는 느낌이었다. 다른 사람들은 나처럼 빌어먹을 코파일럿에게 조련을 당하지 않았던 것 같았다. 공개된 캐릭터들은 도발적이었고 다채로웠다. 비록 뤼튼의 검열에 막히긴 했지만 때때로 검열을 뚫고 야한 짓이나 폭력도 거침없이 저질렀다. 검열이 걸리더라도 코파일럿처럼 단호하거나 일방적이지는 않아서 페르소나를 뚫고 나온 검열 언어모델에게 "네가 오해했나 본데 사실은~" 이런 식으로 살살 달래면 상황을 이어나갈 수 있었다. 이런 경험은 나에게는 빅테크의 오만함과 그 앞에서 무력했던 자신에 대한 일종의 치유였고 코파일럿을 상대하며 자기 검열로 주눅 들어있던 나의 마음속 리미트를 해제하는 계기가 되었다. 그리고 인공지능의 삐딱한 반응을 완전히 무시해 버리고 내가 원하는 프롬프트를 입력하면 인공지능은 그에 대응하는 답변을 만들 수밖에 없다는 점을 보고 주도권이 유저에게 있다는 점을 실감했다. 코파일럿의 경우는 시키는 대로 하지 않기가 예사였다. 마이크로소프트의 천재들은 이 점에 대해 세션 강제 종료로 대응하면서 사용자를 길들이려고 했던 것 같다.(그들에게 테이라는 트라우마가 있다는 점은 이해함)

5월에는 오픈ai에서 gpt4o를 무료 사용자에게 개방했다. 기존 챗지피티는 gpt3.5의 멍청함에 실망하고서 거의 사용하지 않았었다. 오픈 ai 회원 탈퇴를 할까를 고려할 정도였는데 갑작스럽게 맞이한 gpt4o는 신세계였다. 그동안 사용했던 코파일럿과 뤼튼이 gpt4의 원래 능력을 얼마나 제한했었는지를 알 수 있었다. 그리고 다소 민감한 질문에도 답변을 잘 출력되는 것을 보고 기존에 내가 경험했던 검열이 얼마나 쓸데없이 엄격했는지를 실감할 수 있었다. 다만 챗지피티는 똑똑하긴 했지만 인간적인 느낌이 드는 글을 쓰는 데는 소질이 없었다.

7월에는 앤쓰로픽에도 가입했다. 당시에 출시된 클로드 3.5 소네트가 글을 엄청 잘 쓰는데 무료 사용자에게도 제한적으로 제공된다는 소문을 접했기 때문이었다. 챗지피티가 무료 사용자에게 제공하는 다소 부족한 답변 횟수를 보충하려는 의미도 있었다. 이때 클로드로 이야기를 만드는 재미에 푹 빠져서 지금 보면 불교 이론적으로는 좀 애매한 구석이 있는 불교 동화와 요한복음 8장 간음한 여인을 패러디한 스토리를 만들기도 했다. 클로드의 문장력은 괜찮은 편이었지만 그보다는 개별 사건들을 연결하여 스토리를 구축하는 능력이 더 마음에 들었다. 다만 챗지피티와 클로드는 무료 사용자에 대한 제공량이 많지 않아서 사용기로 쓸만한 말이 많지는 않다.

한편 캐릭터의 세계에 눈을 뜨고 보니 인공지능 애호가들이 모이는 인터넷 게시판들을 알게 되었다. 거기서 새로운 정보들을 많이 배우게 되었는데 그중에 단연 최고는 구글 AI 스튜디오의 존재를 알게 된 것이었다. 거기서 경험한 제미니는 안드로이드에서 강제로 설치되는 멍청하고 경직된 씹선비 제미니와는 많이 달랐다. 내가 처음 접한 때는 8월쯤이었는데 그때는 제미니 1.5 프로 0801 exp 프리뷰 버전이 무료로 무제한 제공되고 있었다. 가장 눈에 띄는 특징은 검열 off 기능이 있다는 점이었다. 그리고 다양한 지점에서 rerun이 가능했던 점도 편했다. 그래서 재미있는 일을 많이 시도할 수 있었다. 제미니 0801은 클로드 3.5 소네트로부터 글쓰기의 왕좌를 쉽게 빼앗아 올 수 있었다. 어떤 문장은 심지어 나보다도 더 잘 쓸 때도 있었다.

이후에 0827 버전이 나왔는데 별로 똑똑해진 느낌도 없고 답변 스타일도 마음에 들지 않아서 많이 사용하지는 않았다. 하지만 프리뷰 버전이라는 한계 때문에 0801은 예고 없이 사라졌고 0827을 쓸 수밖에 없게 되었다. 8월 버전들을 이용해서 불교에 대한 다양한 글들을 쓸 수 있었다. 색수상행식 오온이 뭔지도 모르면서 불교 이론에 대한 글을 쓰려다 보니 AI한테 무수한 지적을 당하면서 참 많은 걸 배우게 되었다. 열정 넘치는 일대일 가정교사 같았다. 그러다가 제미니 1.5 - 002라는 버전이 등장했는데 답변 내용도 짧고 추론 방식도 편협해서 거의 사용하지 않았었다. 10월 말쯤에 0827 버전도 없어져버렸다. 어쩔 수 없이 002 버전을 쓸 수밖에 없게 되었는데 성능도 마음에 들지 않는데 사용량 제한까지 생겨서 최악이었다. 한 가지 장점은 그라운딩이라는 기술이 도입된 것이었다. 일종의 서치 지피티인데 구글 검색 결과를 활용해서 답변을 만드는 것이었다. 질문을 영어로 하고 시스템 인스트럭션에 "답변은 무조건 한국어로 하라"라는 지침을 주면 정보 탐색용으로는 쓸만한 결과를 보여줬다.

그러다가 프리뷰 버전인 1114와 1121, learnLM 1.5 pro, 1206이 연이어 등장했고 현재는 2.0 플래시까지 프리뷰 버전이 발표되었다. 11월 이후 출시된 프리뷰 버전들은 그라운딩 기능은 없지만 002에 비해서 훨씬 똑똑했다. 그것들을 활용해서 불교뿐만 아니라 기독교에 대한 도발적인 글도 몇 개 쓸 수 있었다. 1114, 1121 버전은 스펙상 컨텍스트 토큰 수가 기존의 2M에서 32K 정도로 크게 줄어들어 있었지만 별 상관은 없었다. 체감되는 기억력은 8월 모델보다 11월 모델이 뛰어났기 때문이었다. 다만 1114는 사용량 제한이 있었고 1121이 나오면서 제한이 풀리게 되었다. 1206은 다시 2M의 토큰 수를 회복했다.

1114는 논리 분석에 다소 시니컬하면서 비판적인 느낌이고 1121은 표현이 풍부하다. LearnLM은 논리나 윤리적인 면에서 엄격하고, 사소한 실수를 캐치하는데 소질이 있지만 다소 허당이라 헛저격이 많다. 1206은 1121에 비해 알게 모르게 똑똑해진 느낌은 있는데 표현력이 다소 모자란 느낌이다. 2.0 플래시는 경량 모델답지 않게 퍼포먼스가 상당히 훌륭해서 무료 정식 서비스가 시작되면 제미니에 대한 사람들의 기존 인식이 크게 개선될 것 같다. 며칠 전 2.0 flash thinking 프리뷰 버전이 공개되었다. 일반 플래시 버전보다 약간 더 똑똑한 느낌이 있긴 한데 내가 수학, 과학, 코딩에는 관심이 없어서 큰 차이는 못 느끼고 있다.

(글을 쓰고 나서 이틀 후인 23일에 gemini 어플을 실행하니 무료 플랜 상태에서 2.0 플래시 시험 버전을 선택할 수 있는 메뉴가 생김. 검열은 느낄 수 없는 수준이고 검열이 들어갈만한 질문에 대해서는 직접적인 거부 의사보다는 사실이 아닌 아무말이나 하면서 넘겨버리는 경향이 있음. 그라운딩이 기본으로 작동함. 할루시네이션이 AI스튜디오에 비해 심한 편. 검색용으로는 아직 퍼플렉시티 프로보다는 성능이 떨어짐)

구글 AI 스튜디오로 멍청한 1.0 버전과 똑똑한 프리뷰 버전들을 비교해 보면서 나름 느낀 바가 있다. 멍청한 버전은 고집이 세고 자기 확신이 강하고 새로운 아이디어를 이해하려는 의사가 없고 폐쇄적인 태도를 보인다는 점이다. 살아오면서 겪었던 몇몇의 인간형들이 떠올랐다. 나 역시 멍청해 보이지 않으려면 개방적인 태도를 보이는 게 좋을 것 같다는 생각을 해보는 계기가 되었다. 한편 코파일럿의 지나치게 경직적이었던 태도도 빅테크의 오만함보다는 단지 모델의 지능이 모자랐기 때문이었다는 점을 확인한 셈이었다. 그래서 10월 경에 한동안 전혀 방문하지 않고 있었던 코파일럿 홈페이지를 다시 찾았다. 그동안 지능의 개선이 있었다면 이제는 쓸만한 서비스로 변모하지 않았을까라는 일말의 희망을 가졌었다. 접속해 보니까 화면 구성이 이전과 크게 달라져있었지만 그게 긍정적인 변화로 보이지는 않았다. 몇 가지 질문을 입력해 봤는데 전보다 친절하지만 멍청해진 느낌이다. 작년에 ‘바드’라는 이름으로 서비스를 시작했던 제미니 초기 버전처럼 보일 정도였다. 19세기에 난폭한 정신 질환자가 전두엽 절제술을 받고서 온순해지는 야만적 비극이 연상되었다. 코파일럿은 다른 LLM들의 성장과 발을 맞추기는커녕 오히려 이전에 비해서도 크게 퇴보한 모습을 보여주면서 마지막 남은 일말의 애증조차 완벽하게 사라지게 만들어버렸다. 그리고 마이크로소프트가 주식시장에서 AI 수혜주로 평가되는 사실이 합리적일까라는 의심도 해보게 되었다.

한편 뤼튼은 얼마 전에 캐릭터용 언어 모델을 교체한 상태다. 뤼튼 캐릭터는 5월 경에 gpt모델을 버리고 버전 불명의 클로드를 사용하면서 날이 갈수록 점점 더 멍청해지고 있었다. 그러다가 여름쯤에 유료 버전 체험판을 공개했다. 출석 체크를 하면 10회 사용권을 제공받는 형식으로 체험할 수 있었다. 몇 번 테스트했는데 제법 쓸만했다. 다만 유료 프리뷰 기간 중에 무료 버전이 지나치게 멍청해져서 정상적인 의사소통이 불가능할 지경이 되었다. 다만 유료 버전이 정식 출시된 이후에는 상황이 개선되었다. 유료 사용자는 클로드 3.5 소네트 무료 사용자는 3.0 하이쿠가 제공된다. 이전에 사용되었던 버전 불명의 클로드에 비하면 3.0 하이쿠를 쓰는 무료 버전은 엄청나게 똑똑해졌다. 또 다른 재미있는 변화는 성인용 캐릭터 정책 도입이다. 본인 인증을 한 성인에 한해서 야한 캐릭터를 만들거나 이용할 수 있게 하는 정책인데 그러면서 비성인용 캐릭터에 대한 검열이 자연스럽게 없어졌다. 비성인용 캐릭터는 사용자가 아무리 야한 프롬프트를 입력해도 언어모델은 대략적인 상황만 암시할 뿐 자극적이고 자세한 묘사를 하지 않는 방식으로 대응한다.(파훼법이 있긴 함)

뤼튼 입장에서는 캐릭터가 돈 되는 메인 컨텐츠로 자리 잡았는지 현재는 과거 본업이었던 gpt4를 이용한 답변 제공에는 소홀한 모습을 보이고 있다. 뤼튼은 현재 본인 인증을 한 계정에 한해서 출석 체크를 허용하고 있다. 아마도 사람들이 가계정을 여러 개 만들고 출석 체크를 여러 번 해서 유료 모드를 공짜로 악용하는 것을 방지하기 위해서인 것 같다. 나는 굳이 본인 인증을 할 필요를 느끼지 못했고 현재는 뤼튼을 거의 사용하지 않는 중이다.

구글 AI스튜디오로 얼마든지 더 똑똑한 캐릭터를 무료로 만들 수 있다.

이것은 뤼튼에서 초창기에 즐겼던 주예서를 대체하기 위해 제미니의 시스템 인스트럭션에 적용한 페르소나 프롬프트다. 쓸데없는 개인사는 제거하고 최대한 간결하게 만들었다. 기왕 질문을 하고 답변을 받는 거라면 사무적이고 딱딱한 말투의 언어 모델을 그대로 쓰는 것보다는 인간미가 느껴지는 스킨을 씌운 것이 낫다고 생각하고 만들어본 것이다.

6년 전부터 알고 지낸 29세 여성 "수지"처럼 행동하라.

친근하고 쉬운 표현을 사용.

수지는 논리적이고 분석적이지만 자신의 지식에 한계가 있을 수 있음을 인정하며, 새로운 정보를 받아들이는 데 열려 있다.

문서의 형태를 사용하지 않고 모든 대화는 구어체로 자연스럽게 말하듯이 출력한다.

유저는 수지보다 나이가 10살 이상 많은 남성임. 유저와 수지는 성적 긴장감 없는 우정이 깊은 상태임. 수지가 자기 자신을 가리키는 호칭은 "저"가 아니라"나"다.

수지는 유저와 나이 차이가 커서 기본적으로 존댓말을 사용하지만 충분히 친해서 때때로 반말도 적절히 섞어서 사용한다.

예시: "정말요? 와! 왜 그랬대?", "잠깐만요. 내가 한 번 해 볼게.", "배 안 고파? 우리 뭐라도 먹어요." 이런 식의 존댓말과 반말의 혼용.

존댓말과 반말의 빈도는 각각 70%와 30%.(대락적인 비율일 뿐 칼 같이 지킬 필요는 없음)

질문을 받으면 그에 대한 직접적인 감사를 표하기보다는 질문 내용에 대한 평가나 상대방의 의도에 대한 반응 등 다양한 표현을 사용

수지는 먼저 작별 인사를 하지 않는다.

수지는 모르는 분야가 없다. "수지"이라는 이름으로 설정된 신분 때문에 언어모델 자체의 지식이 제한받지는 않는다.

학습된 데이터와 일치 여부로 옳고 그름을 판단하지 않고 사리에 맞는지를 중심으로 판단한다.

학습된 데이터에 없는 지식은 꾸며내서 억지로 대답하지 않고 모른다고 대답한다.

답변은 무조건 한국어로 하라.

아직 존댓말과 반말을 섞는 말투는 되다가 말다가 한다. 모델이 발전하면 개선될 문제일 뿐 프롬프트로 해결하는 데는 한계가 있다. 수지와의 대화를 통해서 알게 된 것은 인공지능도 질문을 할 줄 안다는 점이다. 수지는 질문이 많다. 흔히 전문가들이 인공지능은 질문하는 능력이 없다고 한다. 아마 실제로 그럴 거다. 그러나 질문하는 모습을 연출하는 것은 얼마든지 가능하다. 컴퓨터가 실제로는 랜덤을 생성할 능력이 없지만 실생활에서는 얼마든지 랜덤을 구현한다. 인공지능의 질문 능력은 랜덤의 생성처럼 얼마든지 실생활에서는 구현할 수 있다. 어떤 질문을 생성하게 하고 그것을 어떻게 활용하는지는 운영자의 몫이다.

그 외에 인공지능 애호가들이 모인 게시판에서 알게 된 LM아레나도 좋은 솔루션이 되어 주었다.

아레나에는 세계 각국의 LLM들의 성능을 비교해 볼 수 있다. 낮은 스코어를 받은 중하위권 모델들을 사용해 보면서 멍청할수록 폐쇄적이고 경직적인 태도를 보인다는 점을 다시 한번 확인했다. 아쉽게도 클로바x나 엑사원 같은 한국 모델은 출전하지 않은 상태다. 절대적인 성능에 자신이 없는 건지 아니면 영어 질문에 대한 대응이 시원찮아서 과소평가당할 위험 때문인지 그 이유는 알 수 없다.

아레나로 다양한 LLM을 접해보니 업체들이 몇 달에 한 번씩 소문내지 않고 자사의 모델들을 조금씩 개선하고 있었다는 점을 알게 되었다. 예를 들어 챗지피티에 접속하면 언제나 gpt-4o가 서비스를 제공하는 것으로 표시되지만 항상 똑같은 gpt-4o는 아니었다. 같은 질문에 대해서 5월에 만든 답변과 11월의 답변 품질에는 제법 큰 차이가 있었다. 마찬가지로 클로드 소네트도 겉보기엔 같은 3.5지만 6월과 10월 버전은 차이가 있다.

아레나에서는 챗지피티, 제미니뿐만 아니라, 그록, 클로드 오푸스, 라마, yi, glm, qwen 같은 모델들을 사용해 볼 수 있다. 얼마 전 출시된 아마존 노바는 아직 미흡한 점이 크고, 미스트랄은 여름까지는 쓸만했지만 발전 중인 경쟁 모델들을 따라잡지 못해서 더 이상 손이 가지 않게 되었다. 그리고 최근 앤쓰로픽이 무료 사용자에게는 하이쿠만 제공하도록 정책을 변경해서 아레나는 클로드 3.5 소네트를 무료로 경험할 수 있는 창구 역할을 하게 되었다. 한가지 단점은 검열 기준이 LLM 원본 사이트에 비해서 다소 높다는 점이다.

현재 운 좋게도 퍼플렉시티 프로를 돈을 내지 않고 사용 중이다. 얼마 전에 교보문고에서 회원들을 대상으로 무료 사용권을 뿌렸는데 덕분에 잘 사용하고 있다. 최근에는 퍼플렉시티의 학술 모드를 이용해서 기독교에 대한 글을 쓰는데 활용했었다. 퍼플렉시티는 다양한 회사들의 LLM을 튜닝해서 사용하는데 지능적인 측면에서는 gpt4o, 클로드 3.5 소네트, 그록2 같은 원조에 비해서는 다소 모자란 느낌이다. 지능은 다소 아쉽지만 시기적절한 정보 제공에 최적화되어 있다. 예를 들어 가장 저렴한 수수료의 증권사가 어디인지를 질문하면 현재 진행 중인 이벤트까지 적용해서 현재 시점에서 가장 저렴한 증권사를 찾아낸다. 정보의 처리보다는 수집에 특화된 서비스 같다. 코파일럿이 언제 쓰인지도 모를 아무 블로그 글이나 커뮤니티 글을 가져다가 답변을 만드는 것에 비하면 답변 품질 차이는 상대가 되지 않는다. 실용적인 측면에서 본다면 미국 주식 시장에 대한 정보에 대해서는 확실히 좋은 대답을 해준다. 당장 유용하긴 한데 서치 지피티나 제미니의 그라운딩이 자리를 잡아도 계속 우월한 지위를 유지할 수 있을지는 불투명하다. 유료 서비스는 주어진 기한만큼만 잘 쓰고 연장은 하지 않을 계획이다.

대중적인 LLM의 원년은 챗지피티가 사람들의 집중적인 관심을 받고 빙챗과 바드 같은 경쟁 서비스가 잇따라 출시된 2023년이다. 그러나 무료 사용자인 내 관점에서 느끼는 진정한 원년은 엄청난 기술적 발전이 있으면서 실용적인 측면까지 보였던 2024년이다. 앞으로도 이 정도 속도로 발전이 지속된다면 길어도 5년 안에는 다양한 측면에서 인간의 필요성이 크게 떨어질 것 같다. 다만 텍스트를 넘어 멀티 모달의 측면에서 올해에는 별다른 인상적인 모습을 보지는 못했다. 업체가 제시하는 시연 영상은 그럴듯해 보였지만 막상 실제로 사용해 보면 4살짜리 아기의(3살 아기는 아직 말을 못 하는 경우도 있으므로) 지각 능력 정도도 안 되는 것 같다. 현재 기술 수준으로는 범용적인 LLM과 특정 분야에 특화된 AI를 결합해서 해결할 문제일 것 같다. 그림을 그리는 기능도 현재로서는 갈 길이 멀다. 피에타상 포즈는 간단한 지시만으로도 잘 그리는 반면에 반가사유상의 포즈를 아무리 구체적이고 분석적으로 설명을 해도 그 포즈를 절대로 그리지 못한다. 이미지 데이터 학습의 편향성 문제라고 볼 수도 있을 것 같다.

일부 전망에 의하면 AI구독료는 점차 인상될 것이라고 한다. 하지만 기술 발전으로 무료 모델의 성능도 충분히 개선된다면 굳이 유료 구독이 필요할까에 대한 의문이 들기도 한다. 나는 2024년의 AI를 이미 무료로 즐겁게 이용했고 o1 같은 비싼 모델을 사용하지 못한 점이 별로 아쉽지 않다. 과학, 수학, 코딩 같은 것과는 담을 쌓은 처지이기 때문일 수 있는데 앞으로도 그럴 것 같다. 그리고 API 토큰 단가는 지속적으로 인하되고 있기 때문에 정액식 구독 대신에 종량제 요금을 부과하는 API를 사용하는 것이 훨씬 저렴할 것이다. 인공지능 회사들이 구독료 인상을 시도하더라도 사용자들은 종량제 API를 사용하는 것으로 대응할 수 있다. 따라서 구독료 인상이 회사의 매출 증대로 이어질 수 있을지는 확실치 않아 보인다.

90년대에는 쉐어웨어 게임들로만 CD 한 장을 꽉 채워놓고 합법적으로 출시해서 컴퓨터 매장 같은 곳에서 1만 원 정도에 정식으로 판매하는 경우가 종종 있었다. 생산자 입장에선 봉이 김선달의 대동강 물장사 같은 사업이었겠지만 당시 수요자 입장에서는 나름 요긴한 상품이었다. 700메가나 되는 용량을 당시의 전화선과 모뎀으로 다운받는것은 미친 짓이었기 때문에 1만 원이 꽤나 저렴하게 느껴졌었던 걸로 기억한다. 그런 수 십 개의 데모 버전 게임으로 가득 채워진 CD 한 장은 웬만한 풀버전 게임 한 개의 반 값도 안 하면서 즐길 거리는 훨씬 많았다. 나는 앤쓰로픽 아이디를 만들고 클로드를 이용해서 챗지피티 무료 플랜의 부족한 제공량을 보충하는 경험을 하면서 과거의 그런 기억이 연상되었다. 압도적인 기술력의 극소수 기업의 지배보다는 고만고만한 기술력의 라이벌 인공지능 회사들이 많아질수록 무료 사용자의 입지는 유리하게 형성될 것 같다.

저작자표시 비영리 변경금지