LLMadness – March Madness 모델 평가

최고의 LLM들이 코딩이 아닌 에이전트 능력을 가지고 뭘 할 수 있는지 실험해보고 싶어서 March Madness 브래킷을 예측하는 모델 평가를 만들었습니다. 형식을 좀 만져본 후 다음과 같은 설정으로 진행했습니다: - 63개 단일 경기 예측 vs 전체 원샷 브래킷 - 게임당 최대 10개 툴 콜 - 시스템 프롬프트에 특별히 업셋 관련 지시사항 추가 - 라운드별 지수 점수 체계 (1, 2, 4, 8, 16, 32) 몇 가지 흥미로운 점을 발견했습니다: - 당연하게도 대부분의 브래킷은 예상대로 흘러갔습니다. 큰 이변이 예측된 경우는 거의 없었어요. - 정확히 같은 설정과 제약 조건임에도 비용과 토큰 사용량에서 엄청난 차이가 있었습니다. Claude 모델 두 개는 브래킷을 채우는 데 각각 40달러 이상을 썼지만 MiMo-V2-Flash는 0.39달러만 썼죠. 총 15개 모델 실행에 138.69달러를 썼습니다. - 속도에서도 큰 차이가 있었습니다. Claude Opus 4.6는 2개 플레이인 경기와 63개 브래킷 경기를 끝내는 데 거의 이틀이 걸렸지만, Qwen 3.5 Flash는 10분도 안 걸렸어요. - 토너먼트 연도(2026년)를 명시했는데도 여러 모델이 이전 연도 정보를 끌어오더군요. Claude가 가장 심했는데, 올해 듀크 팀에 Cooper Flagg가 있을 거라고 굳게 믿는 것 같았습니다. 제 관심사 두 가지를 결합한 정말 재미있는 방법이었고, 앞으로 몇 주 동안 모델들이 어떻게 성능을 보일지 기대됩니다. 각 브래킷 노드를 클릭하면 모델의 전체 추적 과정과 선택 근거를 확인할 수 있습니다. 기술 스택은 Typescript, Next.js, React, 그리고 raw CSS입니다. 데이터베이스는 없고 모든 것을 정적 JSON 파일에 저장했습니다. 각 경기 후 실제 결과를 업데이트하고 GitHub Pages를 통해 재배포합니다. 오늘 브래킷이 마감되기 때문에 가능한 한 빨리 작업하고 싶어서 코드 거의 전부를 AI가 생성했습니다(놀랍죠). 즐겁게 살펴보시길 바랍니다!

AI 에이전트
대형 언어 모델
데이터 분석

Mar 19, 2026웹사이트 방문

✨ AI 요약

LLMadness는 다양한 LLM의 비코딩 에이전트 능력을 평가하는 프로젝트로, 3월 매드니스 대진표 예측을 통해 성능, 비용, 속도 및 정확도를 비교합니다.

주요 기능

3월 매드니스 대진표 예측을 통해 LLM 에이전트 능력을 평가합니다
비용, 속도, 예측 정확도에 걸친 모델 성능을 비교합니다
각 경기 선택에 대한 상세한 모델 추적 및 근거를 제공합니다
데이터베이스 없이 정적 사이트를 사용하며 GitHub Pages를 통해 결과를 업데이트합니다

사용 사례

데이터 과학 강사는 학생들이 LLM 예측 방법론을 비교하는 대화형 교실 연습을 만들고, 브래킷 예측을 사용하여 모델 선택 시 비용-성능 트레이드오프를 시연합니다.
스포츠 분석 컨설턴트는 플랫폼을 사용하여 토너먼트 이변 예측 능력을 기준으로 다양한 AI 모델을 벤치마킹하며, 고객에게 베팅 알고리즘을 위한 에지 케이스를 가장 잘 처리하는 모델에 대한 통찰력을 제공합니다.
AI 스타트업의 제품 매니저는 스포츠 앱의 실시간 예측 기능을 통합하기 위해 어떤 기초 모델을 선택할지 결정할 때 속도와 비용 비교를 참조합니다.

원본 출처

Hacker News 토론→