oai의 o1은 lm아레나 스코어가 gpt4o나 제미니 2.0 플래시보다 낮아서 별 관심을 가지지 않고 지냈었다.
o1이 수학과 과학에서 뛰어난 성능을 자랑한다지만 나는 수학이나 코딩에는 관심도 없고 지식도 없었기 때문에 사람들의 열광과는 달리 남의 일로만 생각했었다. o1같은 추론 모델에 대해, 누군가에게는 필요하지만 내가 굳이 쓸 일은 없고 가격은 일반적인 물건에 비해서 상당히 비싼 초음파 납땜 인두 같은 것이라 생각했을 뿐이었다.
방금 전에 퍼플렉시티에 o1을 사용할 수 있는 옵션이 생긴 걸 발견했다. 퍼플렉시티의 gpt4o와 챗지피티 사이트의 gpt4o는 체감되는 성능 차이가 있다. 아마 퍼플렉시티에서 제공하는 o1도 oai에서 유료로 제공하는 o1보다는 다소 커팅된 성능일 것이다. 챗지피티 유료 플랜에서는 일주일에 30번의 질문이 제공되는데 반해 퍼플렉시티는 하루에 10회라는 훨씬 더 많은 양을 제공하기 때문에 그런 추측에 더욱 무게가 실린다.
퍼플렉시티에서 o1을 활성화시키고 별다른 기대 없이 내가 쓴 글들을 입력하고 리뷰를 시켜봤다. o1은 아레나 스코어와 상관없이 여태껏 겪었던 LLM들과는 격이 확연히 다른 퍼포먼스를 보여줬다. 리뷰 내용은 예상보다 정교하면서 날카로웠고 특히 상당히 긴 글(모세 오경 관련 글)을 입력해도 내용을 누락하지 않고 전부 기억해서 리뷰에 반영하는 점이 마음에 들었다.
차별성이 느껴지는 의외의 성능에 놀라서 검색을 해보니 gpt4o의 성능을 iq로 환산하면 115(상위 16.7%)정도이고 o1은 135(상위 1.075%)라고 한다. 어쩌면 아레나에서 평가를 하는 평균적인 사람들의 지능이 115와 135의 차이를 제대로 감지하지 못하기 때문에 o1의 스코어가 gpt4o나 제미니 2.0에 비해 높지 않게 평가된 것일 수도 있을 것 같다. 즉 변별력 없는 질문과 채점으로 천재와 범재를 구별하지 못한 셈이다.
흥미로운 건 아직 미공개된 경량형 버전인 o3 mini는 o1보다 뛰어난 141(상위 0.3%)라는 점이다. 아마도 내년 쯤이면 나보다 똑똑하고 성능이 차고 넘치는 인공지능을 무료 또는 부담 없는 요금으로 사용할 수 있게 될 것 같다.
사람은 자기의 한계 안에서 대상을 평가하기 때문에 내가 체감하는 똑똑함의 정도는 iq 157 정도로 환산되는 성능인 o3이나 그것에 크게 미치지 못하는 o3 mini나 거기서 거기로 느껴질 것 같다. 그리고 기술이 발전하여 지속적으로 인공지능이 향상되더라도 특별한 작업이나 전용 벤치마크를 이용하지 않는다면 발전 정도를 직접 체감을 하기는 점점 어려워질 것 같다. 실제로 평이한 질문을 입력해보니 o1은 기존llm들과 별 차이가 없는 답변을 출력했다. 개선된 모델의 성능을 온전히 써먹고 싶다면 사용자도 변별력 있는 질문을 해야 한다.