LLMadness – March Madness 모델 평가
최고의 LLM들이 코딩이 아닌 에이전트 능력을 가지고 뭘 할 수 있는지 실험해보고 싶어서 March Madness 브래킷을 예측하는 모델 평가를 만들었습니다. 형식을 좀 만져본 후 다음과 같은 설정으로 진행했습니다: - 63개 단일 경기 예측 vs 전체 원샷 브래킷 - 게임당 최대 10개 툴 콜 - 시스템 프롬프트에 특별히 업셋 관련 지시사항 추가 - 라운드별 지수 점수 체계 (1, 2, 4, 8, 16, 32) 몇 가지 흥미로운 점을 발견했습니다: - 당연하게도 대부분의 브래킷은 예상대로 흘러갔습니다. 큰 이변이 예측된 경우는 거의 없었어요. - 정확히 같은 설정과 제약 조건임에도 비용과 토큰 사용량에서 엄청난 차이가 있었습니다. Claude 모델 두 개는 브래킷을 채우는 데 각각 40달러 이상을 썼지만 MiMo-V2-Flash는 0.39달러만 썼죠. 총 15개 모델 실행에 138.69달러를 썼습니다. - 속도에서도 큰 차이가 있었습니다. Claude Opus 4.6는 2개 플레이인 경기와 63개 브래킷 경기를 끝내는 데 거의 이틀이 걸렸지만, Qwen 3.5 Flash는 10분도 안 걸렸어요. - 토너먼트 연도(2026년)를 명시했는데도 여러 모델이 이전 연도 정보를 끌어오더군요. Claude가 가장 심했는데, 올해 듀크 팀에 Cooper Flagg가 있을 거라고 굳게 믿는 것 같았습니다. 제 관심사 두 가지를 결합한 정말 재미있는 방법이었고, 앞으로 몇 주 동안 모델들이 어떻게 성능을 보일지 기대됩니다. 각 브래킷 노드를 클릭하면 모델의 전체 추적 과정과 선택 근거를 확인할 수 있습니다. 기술 스택은 Typescript, Next.js, React, 그리고 raw CSS입니다. 데이터베이스는 없고 모든 것을 정적 JSON 파일에 저장했습니다. 각 경기 후 실제 결과를 업데이트하고 GitHub Pages를 통해 재배포합니다. 오늘 브래킷이 마감되기 때문에 가능한 한 빨리 작업하고 싶어서 코드 거의 전부를 AI가 생성했습니다(놀랍죠). 즐겁게 살펴보시길 바랍니다!
- AI 에이전트
- 대형 언어 모델
- 데이터 분석
✨ AI 요약
LLMadness는 다양한 LLM의 비코딩 에이전트 능력을 평가하는 프로젝트로, 3월 매드니스 대진표 예측을 통해 성능, 비용, 속도 및 정확도를 비교합니다.
추천 대상
LLM 연구자 및 평가자, 모델 비교에 관심 있는 AI 애호가, 스포츠 분석 애호가
중요한 이유
이 프로젝트는 구조화된 토너먼트 형식으로 LLM의 예측 능력, 비용 효율성 및 속도를 실제 환경에서 실용적으로 비교합니다.
주요 기능
- 3월 매드니스 대진표 예측을 통해 LLM 에이전트 능력을 평가합니다
- 비용, 속도, 예측 정확도에 걸친 모델 성능을 비교합니다
- 각 경기 선택에 대한 상세한 모델 추적 및 근거를 제공합니다
- 데이터베이스 없이 정적 사이트를 사용하며 GitHub Pages를 통해 결과를 업데이트합니다
사용 사례
- 데이터 과학 강사는 학생들이 LLM 예측 방법론을 비교하는 대화형 교실 연습을 만들고, 브래킷 예측을 사용하여 모델 선택 시 비용-성능 트레이드오프를 시연합니다.
- 스포츠 분석 컨설턴트는 플랫폼을 사용하여 토너먼트 이변 예측 능력을 기준으로 다양한 AI 모델을 벤치마킹하며, 고객에게 베팅 알고리즘을 위한 에지 케이스를 가장 잘 처리하는 모델에 대한 통찰력을 제공합니다.
- AI 스타트업의 제품 매니저는 스포츠 앱의 실시간 예측 기능을 통합하기 위해 어떤 기초 모델을 선택할지 결정할 때 속도와 비용 비교를 참조합니다.