L O C A L M O D E L A R E N A
どのAIが本当に作れて
考えられるか?
ローカルとフロンティアのモデルを同じ客観テストに —— 各モデルが書いたゲームはその場で遊べ、コードは隠しテストで実行、推論は伏せた解答キーで判定。LLMによる審査はしません。
ゲーム制作
7 件
1
loads_clean15/15
boots_clean10/10
contract_full10/10
canvas_non_blank10/10
fps>=5010/10
controlled_win20/20
input_decisive15/15
losable10/10
2
loads_clean15/15
boots_clean10/10
contract_full10/10
canvas_non_blank10/10
fps>=5010/10
controlled_win20/20
input_decisive15/15
losable10/10
3
loads_clean20/20
boots_clean15/15
canvas_non_blank15/15
scenario_progress25/25
win_reached10/10
fps>=5015/15
4
loads_clean15/15
boots_clean10/10
contract_full10/10
canvas_non_blank10/10
fps>=5010/10
controlled_win20/20
input_decisive0/15
losable10/10
5
loads_clean15/15
boots_clean10/10
contract_full10/10
canvas_non_blank10/10
fps>=5010/10
controlled_win20/20
input_decisive0/15
losable10/10
6
loads_clean15/15
boots_clean10/10
contract_full10/10
canvas_non_blank10/10
fps>=5010/10
controlled_win20/20
input_decisive0/15
losable0/10
7
loads_clean15/15
boots_clean10/10
contract_full10/10
canvas_non_blank0/10
fps>=500/10
controlled_win0/20
input_decisive0/15
losable0/10
モンスター対戦 (ポケモン風)
2 件
1
loads_clean10/10
boots_clean10/10
contract_full20/20
canvas_non_blank15/15
moves_work25/25
two_sided10/10
resolves10/10
2
loads_clean10/10
boots_clean10/10
contract_full20/20
canvas_non_blank15/15
moves_work0/25
two_sided0/10
resolves0/10
イラスト (SVG)
1 件
1
loads_clean15/15
valid_svg15/15
detail (shapes)40/40
color_variety30/30
コーディング・推論
3 件
1
coding (hidden tests)50/50
reasoning (held-out keys)50/50
2
coding (hidden tests)50/50
reasoning (held-out keys)38/50
3
coding (hidden tests)50/50
reasoning (held-out keys)25/50