Launch commands¶

Auto-generated by scripts/generate_launch_commands.py. Do not hand-edit.

Stage order is <first_stage> -s <stage_2> ... -s <training>. The last -s is the training config; everything before it is tokenization.

cg_cfq / 1b¶

uv run theseus submit hybrid_full_cosine_rewarm-p1 configs/data/cl100k/cfq_sparql_2048.yaml -s configs/data/cl100k/cfq_text_2048.yaml -s configs/data/cl100k/cfq_2048.yaml -s configs/continual/cg_cfq/1b/hybrid_full_cosine_rewarm.yaml --cluster bonete --chip b200 -n 4 --n_shards 1 --cpu 32 --mem 256G -p continual -g cg_cfq_1b training.per_device_batch_size=8
uv run theseus submit hybrid_full_wsd-p1 configs/data/cl100k/cfq_sparql_2048.yaml -s configs/data/cl100k/cfq_text_2048.yaml -s configs/data/cl100k/cfq_2048.yaml -s configs/continual/cg_cfq/1b/hybrid_full_wsd.yaml --cluster bonete --chip b200 -n 4 --n_shards 1 --cpu 32 --mem 256G -p continual -g cg_cfq_1b training.per_device_batch_size=8
uv run theseus submit hybrid_full_wsd_reset-p1 configs/data/cl100k/cfq_sparql_2048.yaml -s configs/data/cl100k/cfq_text_2048.yaml -s configs/data/cl100k/cfq_2048.yaml -s configs/continual/cg_cfq/1b/hybrid_full_wsd_reset.yaml --cluster bonete --chip b200 -n 4 --n_shards 1 --cpu 32 --mem 256G -p continual -g cg_cfq_1b training.per_device_batch_size=8
uv run theseus submit hybrid_lora_cosine_rewarm-p1 configs/data/cl100k/cfq_sparql_2048.yaml -s configs/data/cl100k/cfq_text_2048.yaml -s configs/data/cl100k/cfq_2048.yaml -s configs/continual/cg_cfq/1b/hybrid_lora_cosine_rewarm.yaml --cluster bonete --chip b200 -n 4 --n_shards 1 --cpu 32 --mem 256G -p continual -g cg_cfq_1b training.per_device_batch_size=8
uv run theseus submit hybrid_lora_wsd-p1 configs/data/cl100k/cfq_sparql_2048.yaml -s configs/data/cl100k/cfq_text_2048.yaml -s configs/data/cl100k/cfq_2048.yaml -s configs/continual/cg_cfq/1b/hybrid_lora_wsd.yaml --cluster bonete --chip b200 -n 4 --n_shards 1 --cpu 32 --mem 256G -p continual -g cg_cfq_1b training.per_device_batch_size=8
uv run theseus submit hybrid_lora_wsd_reset-p1 configs/data/cl100k/cfq_sparql_2048.yaml -s configs/data/cl100k/cfq_text_2048.yaml -s configs/data/cl100k/cfq_2048.yaml -s configs/continual/cg_cfq/1b/hybrid_lora_wsd_reset.yaml --cluster bonete --chip b200 -n 4 --n_shards 1 --cpu 32 --mem 256G -p continual -g cg_cfq_1b training.per_device_batch_size=8
uv run theseus submit lact_full_cosine_rewarm-p1 configs/data/cl100k/cfq_sparql_2048.yaml -s configs/data/cl100k/cfq_text_2048.yaml -s configs/data/cl100k/cfq_2048.yaml -s configs/continual/cg_cfq/1b/lact_full_cosine_rewarm.yaml --cluster bonete --chip b200 -n 4 --n_shards 1 --cpu 32 --mem 256G -p continual -g cg_cfq_1b training.per_device_batch_size=8
uv run theseus submit lact_full_wsd-p1 configs/data/cl100k/cfq_sparql_2048.yaml -s configs/data/cl100k/cfq_text_2048.yaml -s configs/data/cl100k/cfq_2048.yaml -s configs/continual/cg_cfq/1b/lact_full_wsd.yaml --cluster bonete --chip b200 -n 4 --n_shards 1 --cpu 32 --mem 256G -p continual -g cg_cfq_1b training.per_device_batch_size=8
uv run theseus submit lact_full_wsd_reset-p1 configs/data/cl100k/cfq_sparql_2048.yaml -s configs/data/cl100k/cfq_text_2048.yaml -s configs/data/cl100k/cfq_2048.yaml -s configs/continual/cg_cfq/1b/lact_full_wsd_reset.yaml --cluster bonete --chip b200 -n 4 --n_shards 1 --cpu 32 --mem 256G -p continual -g cg_cfq_1b training.per_device_batch_size=8
uv run theseus submit lact_lora_cosine_rewarm-p1 configs/data/cl100k/cfq_sparql_2048.yaml -s configs/data/cl100k/cfq_text_2048.yaml -s configs/data/cl100k/cfq_2048.yaml -s configs/continual/cg_cfq/1b/lact_lora_cosine_rewarm.yaml --cluster bonete --chip b200 -n 4 --n_shards 1 --cpu 32 --mem 256G -p continual -g cg_cfq_1b training.per_device_batch_size=8
uv run theseus submit lact_lora_wsd-p1 configs/data/cl100k/cfq_sparql_2048.yaml -s configs/data/cl100k/cfq_text_2048.yaml -s configs/data/cl100k/cfq_2048.yaml -s configs/continual/cg_cfq/1b/lact_lora_wsd.yaml --cluster bonete --chip b200 -n 4 --n_shards 1 --cpu 32 --mem 256G -p continual -g cg_cfq_1b training.per_device_batch_size=8
uv run theseus submit lact_lora_wsd_reset-p1 configs/data/cl100k/cfq_sparql_2048.yaml -s configs/data/cl100k/cfq_text_2048.yaml -s configs/data/cl100k/cfq_2048.yaml -s configs/continual/cg_cfq/1b/lact_lora_wsd_reset.yaml --cluster bonete --chip b200 -n 4 --n_shards 1 --cpu 32 --mem 256G -p continual -g cg_cfq_1b training.per_device_batch_size=8
uv run theseus submit mamba_full_cosine_rewarm-p1 configs/data/cl100k/cfq_sparql_2048.yaml -s configs/data/cl100k/cfq_text_2048.yaml -s configs/data/cl100k/cfq_2048.yaml -s configs/continual/cg_cfq/1b/mamba_full_cosine_rewarm.yaml --cluster bonete --chip b200 -n 4 --n_shards 1 --cpu 32 --mem 256G -p continual -g cg_cfq_1b training.per_device_batch_size=8
uv run theseus submit mamba_full_wsd-p1 configs/data/cl100k/cfq_sparql_2048.yaml -s configs/data/cl100k/cfq_text_2048.yaml -s configs/data/cl100k/cfq_2048.yaml -s configs/continual/cg_cfq/1b/mamba_full_wsd.yaml --cluster bonete --chip b200 -n 4 --n_shards 1 --cpu 32 --mem 256G -p continual -g cg_cfq_1b training.per_device_batch_size=8
uv run theseus submit mamba_full_wsd_reset-p1 configs/data/cl100k/cfq_sparql_2048.yaml -s configs/data/cl100k/cfq_text_2048.yaml -s configs/data/cl100k/cfq_2048.yaml -s configs/continual/cg_cfq/1b/mamba_full_wsd_reset.yaml --cluster bonete --chip b200 -n 4 --n_shards 1 --cpu 32 --mem 256G -p continual -g cg_cfq_1b training.per_device_batch_size=8
uv run theseus submit mamba_lora_cosine_rewarm-p1 configs/data/cl100k/cfq_sparql_2048.yaml -s configs/data/cl100k/cfq_text_2048.yaml -s configs/data/cl100k/cfq_2048.yaml -s configs/continual/cg_cfq/1b/mamba_lora_cosine_rewarm.yaml --cluster bonete --chip b200 -n 4 --n_shards 1 --cpu 32 --mem 256G -p continual -g cg_cfq_1b training.per_device_batch_size=8
uv run theseus submit mamba_lora_wsd-p1 configs/data/cl100k/cfq_sparql_2048.yaml -s configs/data/cl100k/cfq_text_2048.yaml -s configs/data/cl100k/cfq_2048.yaml -s configs/continual/cg_cfq/1b/mamba_lora_wsd.yaml --cluster bonete --chip b200 -n 4 --n_shards 1 --cpu 32 --mem 256G -p continual -g cg_cfq_1b training.per_device_batch_size=8
uv run theseus submit mamba_lora_wsd_reset-p1 configs/data/cl100k/cfq_sparql_2048.yaml -s configs/data/cl100k/cfq_text_2048.yaml -s configs/data/cl100k/cfq_2048.yaml -s configs/continual/cg_cfq/1b/mamba_lora_wsd_reset.yaml --cluster bonete --chip b200 -n 4 --n_shards 1 --cpu 32 --mem 256G -p continual -g cg_cfq_1b training.per_device_batch_size=8
uv run theseus submit moe_full_cosine_rewarm-p1 configs/data/cl100k/cfq_sparql_2048.yaml -s configs/data/cl100k/cfq_text_2048.yaml -s configs/data/cl100k/cfq_2048.yaml -s configs/continual/cg_cfq/1b/moe_full_cosine_rewarm.yaml --cluster bonete --chip b200 -n 4 --n_shards 1 --cpu 32 --mem 256G -p continual -g cg_cfq_1b training.per_device_batch_size=8
uv run theseus submit moe_full_wsd-p1 configs/data/cl100k/cfq_sparql_2048.yaml -s configs/data/cl100k/cfq_text_2048.yaml -s configs/data/cl100k/cfq_2048.yaml -s configs/continual/cg_cfq/1b/moe_full_wsd.yaml --cluster bonete --chip b200 -n 4 --n_shards 1 --cpu 32 --mem 256G -p continual -g cg_cfq_1b training.per_device_batch_size=8
uv run theseus submit moe_full_wsd_reset-p1 configs/data/cl100k/cfq_sparql_2048.yaml -s configs/data/cl100k/cfq_text_2048.yaml -s configs/data/cl100k/cfq_2048.yaml -s configs/continual/cg_cfq/1b/moe_full_wsd_reset.yaml --cluster bonete --chip b200 -n 4 --n_shards 1 --cpu 32 --mem 256G -p continual -g cg_cfq_1b training.per_device_batch_size=8
uv run theseus submit moe_lora_cosine_rewarm-p1 configs/data/cl100k/cfq_sparql_2048.yaml -s configs/data/cl100k/cfq_text_2048.yaml -s configs/data/cl100k/cfq_2048.yaml -s configs/continual/cg_cfq/1b/moe_lora_cosine_rewarm.yaml --cluster bonete --chip b200 -n 4 --n_shards 1 --cpu 32 --mem 256G -p continual -g cg_cfq_1b training.per_device_batch_size=8
uv run theseus submit moe_lora_wsd-p1 configs/data/cl100k/cfq_sparql_2048.yaml -s configs/data/cl100k/cfq_text_2048.yaml -s configs/data/cl100k/cfq_2048.yaml -s configs/continual/cg_cfq/1b/moe_lora_wsd.yaml --cluster bonete --chip b200 -n 4 --n_shards 1 --cpu 32 --mem 256G -p continual -g cg_cfq_1b training.per_device_batch_size=8
uv run theseus submit moe_lora_wsd_reset-p1 configs/data/cl100k/cfq_sparql_2048.yaml -s configs/data/cl100k/cfq_text_2048.yaml -s configs/data/cl100k/cfq_2048.yaml -s configs/continual/cg_cfq/1b/moe_lora_wsd_reset.yaml --cluster bonete --chip b200 -n 4 --n_shards 1 --cpu 32 --mem 256G -p continual -g cg_cfq_1b training.per_device_batch_size=8
uv run theseus submit transformer_full_cosine_rewarm-p1 configs/data/cl100k/cfq_sparql_2048.yaml -s configs/data/cl100k/cfq_text_2048.yaml -s configs/data/cl100k/cfq_2048.yaml -s configs/continual/cg_cfq/1b/transformer_full_cosine_rewarm.yaml --cluster bonete --chip b200 -n 4 --n_shards 1 --cpu 32 --mem 256G -p continual -g cg_cfq_1b training.per_device_batch_size=8
uv run theseus submit transformer_full_wsd-p1 configs/data/cl100k/cfq_sparql_2048.yaml -s configs/data/cl100k/cfq_text_2048.yaml -s configs/data/cl100k/cfq_2048.yaml -s configs/continual/cg_cfq/1b/transformer_full_wsd.yaml --cluster bonete --chip b200 -n 4 --n_shards 1 --cpu 32 --mem 256G -p continual -g cg_cfq_1b training.per_device_batch_size=8
uv run theseus submit transformer_full_wsd_reset-p1 configs/data/cl100k/cfq_sparql_2048.yaml -s configs/data/cl100k/cfq_text_2048.yaml -s configs/data/cl100k/cfq_2048.yaml -s configs/continual/cg_cfq/1b/transformer_full_wsd_reset.yaml --cluster bonete --chip b200 -n 4 --n_shards 1 --cpu 32 --mem 256G -p continual -g cg_cfq_1b training.per_device_batch_size=8
uv run theseus submit transformer_lora_cosine_rewarm-p1 configs/data/cl100k/cfq_sparql_2048.yaml -s configs/data/cl100k/cfq_text_2048.yaml -s configs/data/cl100k/cfq_2048.yaml -s configs/continual/cg_cfq/1b/transformer_lora_cosine_rewarm.yaml --cluster bonete --chip b200 -n 4 --n_shards 1 --cpu 32 --mem 256G -p continual -g cg_cfq_1b training.per_device_batch_size=8
uv run theseus submit transformer_lora_wsd-p1 configs/data/cl100k/cfq_sparql_2048.yaml -s configs/data/cl100k/cfq_text_2048.yaml -s configs/data/cl100k/cfq_2048.yaml -s configs/continual/cg_cfq/1b/transformer_lora_wsd.yaml --cluster bonete --chip b200 -n 4 --n_shards 1 --cpu 32 --mem 256G -p continual -g cg_cfq_1b training.per_device_batch_size=8
uv run theseus submit transformer_lora_wsd_reset-p1 configs/data/cl100k/cfq_sparql_2048.yaml -s configs/data/cl100k/cfq_text_2048.yaml -s configs/data/cl100k/cfq_2048.yaml -s configs/continual/cg_cfq/1b/transformer_lora_wsd_reset.yaml --cluster bonete --chip b200 -n 4 --n_shards 1 --cpu 32 --mem 256G -p continual -g cg_cfq_1b training.per_device_batch_size=8

cg_cfq / 2b¶

uv run theseus submit hybrid_full_cosine_rewarm-p1 configs/data/cl100k/cfq_sparql_2048.yaml -s configs/data/cl100k/cfq_text_2048.yaml -s configs/data/cl100k/cfq_2048.yaml -s configs/continual/cg_cfq/2b/hybrid_full_cosine_rewarm.yaml --cluster bonete --chip b200 -n 4 --n_shards 1 --cpu 32 --mem 256G -p continual -g cg_cfq_2b training.per_device_batch_size=8
uv run theseus submit hybrid_full_wsd-p1 configs/data/cl100k/cfq_sparql_2048.yaml -s configs/data/cl100k/cfq_text_2048.yaml -s configs/data/cl100k/cfq_2048.yaml -s configs/continual/cg_cfq/2b/hybrid_full_wsd.yaml --cluster bonete --chip b200 -n 4 --n_shards 1 --cpu 32 --mem 256G -p continual -g cg_cfq_2b training.per_device_batch_size=8
uv run theseus submit hybrid_full_wsd_reset-p1 configs/data/cl100k/cfq_sparql_2048.yaml -s configs/data/cl100k/cfq_text_2048.yaml -s configs/data/cl100k/cfq_2048.yaml -s configs/continual/cg_cfq/2b/hybrid_full_wsd_reset.yaml --cluster bonete --chip b200 -n 4 --n_shards 1 --cpu 32 --mem 256G -p continual -g cg_cfq_2b training.per_device_batch_size=8
uv run theseus submit hybrid_lora_cosine_rewarm-p1 configs/data/cl100k/cfq_sparql_2048.yaml -s configs/data/cl100k/cfq_text_2048.yaml -s configs/data/cl100k/cfq_2048.yaml -s configs/continual/cg_cfq/2b/hybrid_lora_cosine_rewarm.yaml --cluster bonete --chip b200 -n 4 --n_shards 1 --cpu 32 --mem 256G -p continual -g cg_cfq_2b training.per_device_batch_size=8
uv run theseus submit hybrid_lora_wsd-p1 configs/data/cl100k/cfq_sparql_2048.yaml -s configs/data/cl100k/cfq_text_2048.yaml -s configs/data/cl100k/cfq_2048.yaml -s configs/continual/cg_cfq/2b/hybrid_lora_wsd.yaml --cluster bonete --chip b200 -n 4 --n_shards 1 --cpu 32 --mem 256G -p continual -g cg_cfq_2b training.per_device_batch_size=8
uv run theseus submit hybrid_lora_wsd_reset-p1 configs/data/cl100k/cfq_sparql_2048.yaml -s configs/data/cl100k/cfq_text_2048.yaml -s configs/data/cl100k/cfq_2048.yaml -s configs/continual/cg_cfq/2b/hybrid_lora_wsd_reset.yaml --cluster bonete --chip b200 -n 4 --n_shards 1 --cpu 32 --mem 256G -p continual -g cg_cfq_2b training.per_device_batch_size=8
uv run theseus submit lact_full_cosine_rewarm-p1 configs/data/cl100k/cfq_sparql_2048.yaml -s configs/data/cl100k/cfq_text_2048.yaml -s configs/data/cl100k/cfq_2048.yaml -s configs/continual/cg_cfq/2b/lact_full_cosine_rewarm.yaml --cluster bonete --chip b200 -n 4 --n_shards 1 --cpu 32 --mem 256G -p continual -g cg_cfq_2b training.per_device_batch_size=8
uv run theseus submit lact_full_wsd-p1 configs/data/cl100k/cfq_sparql_2048.yaml -s configs/data/cl100k/cfq_text_2048.yaml -s configs/data/cl100k/cfq_2048.yaml -s configs/continual/cg_cfq/2b/lact_full_wsd.yaml --cluster bonete --chip b200 -n 4 --n_shards 1 --cpu 32 --mem 256G -p continual -g cg_cfq_2b training.per_device_batch_size=8
uv run theseus submit lact_full_wsd_reset-p1 configs/data/cl100k/cfq_sparql_2048.yaml -s configs/data/cl100k/cfq_text_2048.yaml -s configs/data/cl100k/cfq_2048.yaml -s configs/continual/cg_cfq/2b/lact_full_wsd_reset.yaml --cluster bonete --chip b200 -n 4 --n_shards 1 --cpu 32 --mem 256G -p continual -g cg_cfq_2b training.per_device_batch_size=8
uv run theseus submit lact_lora_cosine_rewarm-p1 configs/data/cl100k/cfq_sparql_2048.yaml -s configs/data/cl100k/cfq_text_2048.yaml -s configs/data/cl100k/cfq_2048.yaml -s configs/continual/cg_cfq/2b/lact_lora_cosine_rewarm.yaml --cluster bonete --chip b200 -n 4 --n_shards 1 --cpu 32 --mem 256G -p continual -g cg_cfq_2b training.per_device_batch_size=8
uv run theseus submit lact_lora_wsd-p1 configs/data/cl100k/cfq_sparql_2048.yaml -s configs/data/cl100k/cfq_text_2048.yaml -s configs/data/cl100k/cfq_2048.yaml -s configs/continual/cg_cfq/2b/lact_lora_wsd.yaml --cluster bonete --chip b200 -n 4 --n_shards 1 --cpu 32 --mem 256G -p continual -g cg_cfq_2b training.per_device_batch_size=8
uv run theseus submit lact_lora_wsd_reset-p1 configs/data/cl100k/cfq_sparql_2048.yaml -s configs/data/cl100k/cfq_text_2048.yaml -s configs/data/cl100k/cfq_2048.yaml -s configs/continual/cg_cfq/2b/lact_lora_wsd_reset.yaml --cluster bonete --chip b200 -n 4 --n_shards 1 --cpu 32 --mem 256G -p continual -g cg_cfq_2b training.per_device_batch_size=8
uv run theseus submit mamba_full_cosine_rewarm-p1 configs/data/cl100k/cfq_sparql_2048.yaml -s configs/data/cl100k/cfq_text_2048.yaml -s configs/data/cl100k/cfq_2048.yaml -s configs/continual/cg_cfq/2b/mamba_full_cosine_rewarm.yaml --cluster bonete --chip b200 -n 4 --n_shards 1 --cpu 32 --mem 256G -p continual -g cg_cfq_2b training.per_device_batch_size=8
uv run theseus submit mamba_full_wsd-p1 configs/data/cl100k/cfq_sparql_2048.yaml -s configs/data/cl100k/cfq_text_2048.yaml -s configs/data/cl100k/cfq_2048.yaml -s configs/continual/cg_cfq/2b/mamba_full_wsd.yaml --cluster bonete --chip b200 -n 4 --n_shards 1 --cpu 32 --mem 256G -p continual -g cg_cfq_2b training.per_device_batch_size=8
uv run theseus submit mamba_full_wsd_reset-p1 configs/data/cl100k/cfq_sparql_2048.yaml -s configs/data/cl100k/cfq_text_2048.yaml -s configs/data/cl100k/cfq_2048.yaml -s configs/continual/cg_cfq/2b/mamba_full_wsd_reset.yaml --cluster bonete --chip b200 -n 4 --n_shards 1 --cpu 32 --mem 256G -p continual -g cg_cfq_2b training.per_device_batch_size=8
uv run theseus submit mamba_lora_cosine_rewarm-p1 configs/data/cl100k/cfq_sparql_2048.yaml -s configs/data/cl100k/cfq_text_2048.yaml -s configs/data/cl100k/cfq_2048.yaml -s configs/continual/cg_cfq/2b/mamba_lora_cosine_rewarm.yaml --cluster bonete --chip b200 -n 4 --n_shards 1 --cpu 32 --mem 256G -p continual -g cg_cfq_2b training.per_device_batch_size=8
uv run theseus submit mamba_lora_wsd-p1 configs/data/cl100k/cfq_sparql_2048.yaml -s configs/data/cl100k/cfq_text_2048.yaml -s configs/data/cl100k/cfq_2048.yaml -s configs/continual/cg_cfq/2b/mamba_lora_wsd.yaml --cluster bonete --chip b200 -n 4 --n_shards 1 --cpu 32 --mem 256G -p continual -g cg_cfq_2b training.per_device_batch_size=8
uv run theseus submit mamba_lora_wsd_reset-p1 configs/data/cl100k/cfq_sparql_2048.yaml -s configs/data/cl100k/cfq_text_2048.yaml -s configs/data/cl100k/cfq_2048.yaml -s configs/continual/cg_cfq/2b/mamba_lora_wsd_reset.yaml --cluster bonete --chip b200 -n 4 --n_shards 1 --cpu 32 --mem 256G -p continual -g cg_cfq_2b training.per_device_batch_size=8
uv run theseus submit moe_full_cosine_rewarm-p1 configs/data/cl100k/cfq_sparql_2048.yaml -s configs/data/cl100k/cfq_text_2048.yaml -s configs/data/cl100k/cfq_2048.yaml -s configs/continual/cg_cfq/2b/moe_full_cosine_rewarm.yaml --cluster bonete --chip b200 -n 4 --n_shards 1 --cpu 32 --mem 256G -p continual -g cg_cfq_2b training.per_device_batch_size=8
uv run theseus submit moe_full_wsd-p1 configs/data/cl100k/cfq_sparql_2048.yaml -s configs/data/cl100k/cfq_text_2048.yaml -s configs/data/cl100k/cfq_2048.yaml -s configs/continual/cg_cfq/2b/moe_full_wsd.yaml --cluster bonete --chip b200 -n 4 --n_shards 1 --cpu 32 --mem 256G -p continual -g cg_cfq_2b training.per_device_batch_size=8
uv run theseus submit moe_full_wsd_reset-p1 configs/data/cl100k/cfq_sparql_2048.yaml -s configs/data/cl100k/cfq_text_2048.yaml -s configs/data/cl100k/cfq_2048.yaml -s configs/continual/cg_cfq/2b/moe_full_wsd_reset.yaml --cluster bonete --chip b200 -n 4 --n_shards 1 --cpu 32 --mem 256G -p continual -g cg_cfq_2b training.per_device_batch_size=8
uv run theseus submit moe_lora_cosine_rewarm-p1 configs/data/cl100k/cfq_sparql_2048.yaml -s configs/data/cl100k/cfq_text_2048.yaml -s configs/data/cl100k/cfq_2048.yaml -s configs/continual/cg_cfq/2b/moe_lora_cosine_rewarm.yaml --cluster bonete --chip b200 -n 4 --n_shards 1 --cpu 32 --mem 256G -p continual -g cg_cfq_2b training.per_device_batch_size=8
uv run theseus submit moe_lora_wsd-p1 configs/data/cl100k/cfq_sparql_2048.yaml -s configs/data/cl100k/cfq_text_2048.yaml -s configs/data/cl100k/cfq_2048.yaml -s configs/continual/cg_cfq/2b/moe_lora_wsd.yaml --cluster bonete --chip b200 -n 4 --n_shards 1 --cpu 32 --mem 256G -p continual -g cg_cfq_2b training.per_device_batch_size=8
uv run theseus submit moe_lora_wsd_reset-p1 configs/data/cl100k/cfq_sparql_2048.yaml -s configs/data/cl100k/cfq_text_2048.yaml -s configs/data/cl100k/cfq_2048.yaml -s configs/continual/cg_cfq/2b/moe_lora_wsd_reset.yaml --cluster bonete --chip b200 -n 4 --n_shards 1 --cpu 32 --mem 256G -p continual -g cg_cfq_2b training.per_device_batch_size=8
uv run theseus submit transformer_full_cosine_rewarm-p1 configs/data/cl100k/cfq_sparql_2048.yaml -s configs/data/cl100k/cfq_text_2048.yaml -s configs/data/cl100k/cfq_2048.yaml -s configs/continual/cg_cfq/2b/transformer_full_cosine_rewarm.yaml --cluster bonete --chip b200 -n 4 --n_shards 1 --cpu 32 --mem 256G -p continual -g cg_cfq_2b training.per_device_batch_size=8
uv run theseus submit transformer_full_wsd-p1 configs/data/cl100k/cfq_sparql_2048.yaml -s configs/data/cl100k/cfq_text_2048.yaml -s configs/data/cl100k/cfq_2048.yaml -s configs/continual/cg_cfq/2b/transformer_full_wsd.yaml --cluster bonete --chip b200 -n 4 --n_shards 1 --cpu 32 --mem 256G -p continual -g cg_cfq_2b training.per_device_batch_size=8
uv run theseus submit transformer_full_wsd_reset-p1 configs/data/cl100k/cfq_sparql_2048.yaml -s configs/data/cl100k/cfq_text_2048.yaml -s configs/data/cl100k/cfq_2048.yaml -s configs/continual/cg_cfq/2b/transformer_full_wsd_reset.yaml --cluster bonete --chip b200 -n 4 --n_shards 1 --cpu 32 --mem 256G -p continual -g cg_cfq_2b training.per_device_batch_size=8
uv run theseus submit transformer_lora_cosine_rewarm-p1 configs/data/cl100k/cfq_sparql_2048.yaml -s configs/data/cl100k/cfq_text_2048.yaml -s configs/data/cl100k/cfq_2048.yaml -s configs/continual/cg_cfq/2b/transformer_lora_cosine_rewarm.yaml --cluster bonete --chip b200 -n 4 --n_shards 1 --cpu 32 --mem 256G -p continual -g cg_cfq_2b training.per_device_batch_size=8
uv run theseus submit transformer_lora_wsd-p1 configs/data/cl100k/cfq_sparql_2048.yaml -s configs/data/cl100k/cfq_text_2048.yaml -s configs/data/cl100k/cfq_2048.yaml -s configs/continual/cg_cfq/2b/transformer_lora_wsd.yaml --cluster bonete --chip b200 -n 4 --n_shards 1 --cpu 32 --mem 256G -p continual -g cg_cfq_2b training.per_device_batch_size=8
uv run theseus submit transformer_lora_wsd_reset-p1 configs/data/cl100k/cfq_sparql_2048.yaml -s configs/data/cl100k/cfq_text_2048.yaml -s configs/data/cl100k/cfq_2048.yaml -s configs/continual/cg_cfq/2b/transformer_lora_wsd_reset.yaml --cluster bonete --chip b200 -n 4 --n_shards 1 --cpu 32 --mem 256G -p continual -g cg_cfq_2b training.per_device_batch_size=8

cg_cfq / 700m¶

uv run theseus submit hybrid_full_cosine_rewarm-p1 configs/data/cl100k/cfq_sparql_2048.yaml -s configs/data/cl100k/cfq_text_2048.yaml -s configs/data/cl100k/cfq_2048.yaml -s configs/continual/cg_cfq/700m/hybrid_full_cosine_rewarm.yaml --cluster bonete --chip b200 -n 4 --n_shards 1 --cpu 32 --mem 256G -p continual -g cg_cfq_700m training.per_device_batch_size=8
uv run theseus submit hybrid_full_wsd-p1 configs/data/cl100k/cfq_sparql_2048.yaml -s configs/data/cl100k/cfq_text_2048.yaml -s configs/data/cl100k/cfq_2048.yaml -s configs/continual/cg_cfq/700m/hybrid_full_wsd.yaml --cluster bonete --chip b200 -n 4 --n_shards 1 --cpu 32 --mem 256G -p continual -g cg_cfq_700m training.per_device_batch_size=8
uv run theseus submit hybrid_full_wsd_reset-p1 configs/data/cl100k/cfq_sparql_2048.yaml -s configs/data/cl100k/cfq_text_2048.yaml -s configs/data/cl100k/cfq_2048.yaml -s configs/continual/cg_cfq/700m/hybrid_full_wsd_reset.yaml --cluster bonete --chip b200 -n 4 --n_shards 1 --cpu 32 --mem 256G -p continual -g cg_cfq_700m training.per_device_batch_size=8
uv run theseus submit hybrid_lora_cosine_rewarm-p1 configs/data/cl100k/cfq_sparql_2048.yaml -s configs/data/cl100k/cfq_text_2048.yaml -s configs/data/cl100k/cfq_2048.yaml -s configs/continual/cg_cfq/700m/hybrid_lora_cosine_rewarm.yaml --cluster bonete --chip b200 -n 4 --n_shards 1 --cpu 32 --mem 256G -p continual -g cg_cfq_700m training.per_device_batch_size=8
uv run theseus submit hybrid_lora_wsd-p1 configs/data/cl100k/cfq_sparql_2048.yaml -s configs/data/cl100k/cfq_text_2048.yaml -s configs/data/cl100k/cfq_2048.yaml -s configs/continual/cg_cfq/700m/hybrid_lora_wsd.yaml --cluster bonete --chip b200 -n 4 --n_shards 1 --cpu 32 --mem 256G -p continual -g cg_cfq_700m training.per_device_batch_size=8
uv run theseus submit hybrid_lora_wsd_reset-p1 configs/data/cl100k/cfq_sparql_2048.yaml -s configs/data/cl100k/cfq_text_2048.yaml -s configs/data/cl100k/cfq_2048.yaml -s configs/continual/cg_cfq/700m/hybrid_lora_wsd_reset.yaml --cluster bonete --chip b200 -n 4 --n_shards 1 --cpu 32 --mem 256G -p continual -g cg_cfq_700m training.per_device_batch_size=8
uv run theseus submit lact_full_cosine_rewarm-p1 configs/data/cl100k/cfq_sparql_2048.yaml -s configs/data/cl100k/cfq_text_2048.yaml -s configs/data/cl100k/cfq_2048.yaml -s configs/continual/cg_cfq/700m/lact_full_cosine_rewarm.yaml --cluster bonete --chip b200 -n 4 --n_shards 1 --cpu 32 --mem 256G -p continual -g cg_cfq_700m training.per_device_batch_size=8
uv run theseus submit lact_full_wsd-p1 configs/data/cl100k/cfq_sparql_2048.yaml -s configs/data/cl100k/cfq_text_2048.yaml -s configs/data/cl100k/cfq_2048.yaml -s configs/continual/cg_cfq/700m/lact_full_wsd.yaml --cluster bonete --chip b200 -n 4 --n_shards 1 --cpu 32 --mem 256G -p continual -g cg_cfq_700m training.per_device_batch_size=8
uv run theseus submit lact_full_wsd_reset-p1 configs/data/cl100k/cfq_sparql_2048.yaml -s configs/data/cl100k/cfq_text_2048.yaml -s configs/data/cl100k/cfq_2048.yaml -s configs/continual/cg_cfq/700m/lact_full_wsd_reset.yaml --cluster bonete --chip b200 -n 4 --n_shards 1 --cpu 32 --mem 256G -p continual -g cg_cfq_700m training.per_device_batch_size=8
uv run theseus submit lact_lora_cosine_rewarm-p1 configs/data/cl100k/cfq_sparql_2048.yaml -s configs/data/cl100k/cfq_text_2048.yaml -s configs/data/cl100k/cfq_2048.yaml -s configs/continual/cg_cfq/700m/lact_lora_cosine_rewarm.yaml --cluster bonete --chip b200 -n 4 --n_shards 1 --cpu 32 --mem 256G -p continual -g cg_cfq_700m training.per_device_batch_size=8
uv run theseus submit lact_lora_wsd-p1 configs/data/cl100k/cfq_sparql_2048.yaml -s configs/data/cl100k/cfq_text_2048.yaml -s configs/data/cl100k/cfq_2048.yaml -s configs/continual/cg_cfq/700m/lact_lora_wsd.yaml --cluster bonete --chip b200 -n 4 --n_shards 1 --cpu 32 --mem 256G -p continual -g cg_cfq_700m training.per_device_batch_size=8
uv run theseus submit lact_lora_wsd_reset-p1 configs/data/cl100k/cfq_sparql_2048.yaml -s configs/data/cl100k/cfq_text_2048.yaml -s configs/data/cl100k/cfq_2048.yaml -s configs/continual/cg_cfq/700m/lact_lora_wsd_reset.yaml --cluster bonete --chip b200 -n 4 --n_shards 1 --cpu 32 --mem 256G -p continual -g cg_cfq_700m training.per_device_batch_size=8
uv run theseus submit mamba_full_cosine_rewarm-p1 configs/data/cl100k/cfq_sparql_2048.yaml -s configs/data/cl100k/cfq_text_2048.yaml -s configs/data/cl100k/cfq_2048.yaml -s configs/continual/cg_cfq/700m/mamba_full_cosine_rewarm.yaml --cluster bonete --chip b200 -n 4 --n_shards 1 --cpu 32 --mem 256G -p continual -g cg_cfq_700m training.per_device_batch_size=8
uv run theseus submit mamba_full_wsd-p1 configs/data/cl100k/cfq_sparql_2048.yaml -s configs/data/cl100k/cfq_text_2048.yaml -s configs/data/cl100k/cfq_2048.yaml -s configs/continual/cg_cfq/700m/mamba_full_wsd.yaml --cluster bonete --chip b200 -n 4 --n_shards 1 --cpu 32 --mem 256G -p continual -g cg_cfq_700m training.per_device_batch_size=8
uv run theseus submit mamba_full_wsd_reset-p1 configs/data/cl100k/cfq_sparql_2048.yaml -s configs/data/cl100k/cfq_text_2048.yaml -s configs/data/cl100k/cfq_2048.yaml -s configs/continual/cg_cfq/700m/mamba_full_wsd_reset.yaml --cluster bonete --chip b200 -n 4 --n_shards 1 --cpu 32 --mem 256G -p continual -g cg_cfq_700m training.per_device_batch_size=8
uv run theseus submit mamba_lora_cosine_rewarm-p1 configs/data/cl100k/cfq_sparql_2048.yaml -s configs/data/cl100k/cfq_text_2048.yaml -s configs/data/cl100k/cfq_2048.yaml -s configs/continual/cg_cfq/700m/mamba_lora_cosine_rewarm.yaml --cluster bonete --chip b200 -n 4 --n_shards 1 --cpu 32 --mem 256G -p continual -g cg_cfq_700m training.per_device_batch_size=8
uv run theseus submit mamba_lora_wsd-p1 configs/data/cl100k/cfq_sparql_2048.yaml -s configs/data/cl100k/cfq_text_2048.yaml -s configs/data/cl100k/cfq_2048.yaml -s configs/continual/cg_cfq/700m/mamba_lora_wsd.yaml --cluster bonete --chip b200 -n 4 --n_shards 1 --cpu 32 --mem 256G -p continual -g cg_cfq_700m training.per_device_batch_size=8
uv run theseus submit mamba_lora_wsd_reset-p1 configs/data/cl100k/cfq_sparql_2048.yaml -s configs/data/cl100k/cfq_text_2048.yaml -s configs/data/cl100k/cfq_2048.yaml -s configs/continual/cg_cfq/700m/mamba_lora_wsd_reset.yaml --cluster bonete --chip b200 -n 4 --n_shards 1 --cpu 32 --mem 256G -p continual -g cg_cfq_700m training.per_device_batch_size=8
uv run theseus submit moe_full_cosine_rewarm-p1 configs/data/cl100k/cfq_sparql_2048.yaml -s configs/data/cl100k/cfq_text_2048.yaml -s configs/data/cl100k/cfq_2048.yaml -s configs/continual/cg_cfq/700m/moe_full_cosine_rewarm.yaml --cluster bonete --chip b200 -n 4 --n_shards 1 --cpu 32 --mem 256G -p continual -g cg_cfq_700m training.per_device_batch_size=8
uv run theseus submit moe_full_wsd-p1 configs/data/cl100k/cfq_sparql_2048.yaml -s configs/data/cl100k/cfq_text_2048.yaml -s configs/data/cl100k/cfq_2048.yaml -s configs/continual/cg_cfq/700m/moe_full_wsd.yaml --cluster bonete --chip b200 -n 4 --n_shards 1 --cpu 32 --mem 256G -p continual -g cg_cfq_700m training.per_device_batch_size=8
uv run theseus submit moe_full_wsd_reset-p1 configs/data/cl100k/cfq_sparql_2048.yaml -s configs/data/cl100k/cfq_text_2048.yaml -s configs/data/cl100k/cfq_2048.yaml -s configs/continual/cg_cfq/700m/moe_full_wsd_reset.yaml --cluster bonete --chip b200 -n 4 --n_shards 1 --cpu 32 --mem 256G -p continual -g cg_cfq_700m training.per_device_batch_size=8
uv run theseus submit moe_lora_cosine_rewarm-p1 configs/data/cl100k/cfq_sparql_2048.yaml -s configs/data/cl100k/cfq_text_2048.yaml -s configs/data/cl100k/cfq_2048.yaml -s configs/continual/cg_cfq/700m/moe_lora_cosine_rewarm.yaml --cluster bonete --chip b200 -n 4 --n_shards 1 --cpu 32 --mem 256G -p continual -g cg_cfq_700m training.per_device_batch_size=8
uv run theseus submit moe_lora_wsd-p1 configs/data/cl100k/cfq_sparql_2048.yaml -s configs/data/cl100k/cfq_text_2048.yaml -s configs/data/cl100k/cfq_2048.yaml -s configs/continual/cg_cfq/700m/moe_lora_wsd.yaml --cluster bonete --chip b200 -n 4 --n_shards 1 --cpu 32 --mem 256G -p continual -g cg_cfq_700m training.per_device_batch_size=8
uv run theseus submit moe_lora_wsd_reset-p1 configs/data/cl100k/cfq_sparql_2048.yaml -s configs/data/cl100k/cfq_text_2048.yaml -s configs/data/cl100k/cfq_2048.yaml -s configs/continual/cg_cfq/700m/moe_lora_wsd_reset.yaml --cluster bonete --chip b200 -n 4 --n_shards 1 --cpu 32 --mem 256G -p continual -g cg_cfq_700m training.per_device_batch_size=8
uv run theseus submit transformer_full_cosine_rewarm-p1 configs/data/cl100k/cfq_sparql_2048.yaml -s configs/data/cl100k/cfq_text_2048.yaml -s configs/data/cl100k/cfq_2048.yaml -s configs/continual/cg_cfq/700m/transformer_full_cosine_rewarm.yaml --cluster bonete --chip b200 -n 4 --n_shards 1 --cpu 32 --mem 256G -p continual -g cg_cfq_700m training.per_device_batch_size=8
uv run theseus submit transformer_full_wsd-p1 configs/data/cl100k/cfq_sparql_2048.yaml -s configs/data/cl100k/cfq_text_2048.yaml -s configs/data/cl100k/cfq_2048.yaml -s configs/continual/cg_cfq/700m/transformer_full_wsd.yaml --cluster bonete --chip b200 -n 4 --n_shards 1 --cpu 32 --mem 256G -p continual -g cg_cfq_700m training.per_device_batch_size=8
uv run theseus submit transformer_full_wsd_reset-p1 configs/data/cl100k/cfq_sparql_2048.yaml -s configs/data/cl100k/cfq_text_2048.yaml -s configs/data/cl100k/cfq_2048.yaml -s configs/continual/cg_cfq/700m/transformer_full_wsd_reset.yaml --cluster bonete --chip b200 -n 4 --n_shards 1 --cpu 32 --mem 256G -p continual -g cg_cfq_700m training.per_device_batch_size=8
uv run theseus submit transformer_lora_cosine_rewarm-p1 configs/data/cl100k/cfq_sparql_2048.yaml -s configs/data/cl100k/cfq_text_2048.yaml -s configs/data/cl100k/cfq_2048.yaml -s configs/continual/cg_cfq/700m/transformer_lora_cosine_rewarm.yaml --cluster bonete --chip b200 -n 4 --n_shards 1 --cpu 32 --mem 256G -p continual -g cg_cfq_700m training.per_device_batch_size=8
uv run theseus submit transformer_lora_wsd-p1 configs/data/cl100k/cfq_sparql_2048.yaml -s configs/data/cl100k/cfq_text_2048.yaml -s configs/data/cl100k/cfq_2048.yaml -s configs/continual/cg_cfq/700m/transformer_lora_wsd.yaml --cluster bonete --chip b200 -n 4 --n_shards 1 --cpu 32 --mem 256G -p continual -g cg_cfq_700m training.per_device_batch_size=8
uv run theseus submit transformer_lora_wsd_reset-p1 configs/data/cl100k/cfq_sparql_2048.yaml -s configs/data/cl100k/cfq_text_2048.yaml -s configs/data/cl100k/cfq_2048.yaml -s configs/continual/cg_cfq/700m/transformer_lora_wsd_reset.yaml --cluster bonete --chip b200 -n 4 --n_shards 1 --cpu 32 --mem 256G -p continual -g cg_cfq_700m training.per_device_batch_size=8

cg_grammar / 1b¶

uv run theseus submit hybrid_full_cosine_rewarm-p1 configs/data/cl100k/mtob_grammar_2048.yaml -s configs/data/cl100k/mtob_enkgv_2048.yaml -s configs/continual/cg_grammar/1b/hybrid_full_cosine_rewarm.yaml --cluster bonete --chip b200 -n 4 --n_shards 1 --cpu 32 --mem 256G -p continual -g cg_grammar_1b training.per_device_batch_size=8
uv run theseus submit hybrid_full_wsd-p1 configs/data/cl100k/mtob_grammar_2048.yaml -s configs/data/cl100k/mtob_enkgv_2048.yaml -s configs/continual/cg_grammar/1b/hybrid_full_wsd.yaml --cluster bonete --chip b200 -n 4 --n_shards 1 --cpu 32 --mem 256G -p continual -g cg_grammar_1b training.per_device_batch_size=8
uv run theseus submit hybrid_full_wsd_reset-p1 configs/data/cl100k/mtob_grammar_2048.yaml -s configs/data/cl100k/mtob_enkgv_2048.yaml -s configs/continual/cg_grammar/1b/hybrid_full_wsd_reset.yaml --cluster bonete --chip b200 -n 4 --n_shards 1 --cpu 32 --mem 256G -p continual -g cg_grammar_1b training.per_device_batch_size=8
uv run theseus submit hybrid_lora_cosine_rewarm-p1 configs/data/cl100k/mtob_grammar_2048.yaml -s configs/data/cl100k/mtob_enkgv_2048.yaml -s configs/continual/cg_grammar/1b/hybrid_lora_cosine_rewarm.yaml --cluster bonete --chip b200 -n 4 --n_shards 1 --cpu 32 --mem 256G -p continual -g cg_grammar_1b training.per_device_batch_size=8
uv run theseus submit hybrid_lora_wsd-p1 configs/data/cl100k/mtob_grammar_2048.yaml -s configs/data/cl100k/mtob_enkgv_2048.yaml -s configs/continual/cg_grammar/1b/hybrid_lora_wsd.yaml --cluster bonete --chip b200 -n 4 --n_shards 1 --cpu 32 --mem 256G -p continual -g cg_grammar_1b training.per_device_batch_size=8
uv run theseus submit hybrid_lora_wsd_reset-p1 configs/data/cl100k/mtob_grammar_2048.yaml -s configs/data/cl100k/mtob_enkgv_2048.yaml -s configs/continual/cg_grammar/1b/hybrid_lora_wsd_reset.yaml --cluster bonete --chip b200 -n 4 --n_shards 1 --cpu 32 --mem 256G -p continual -g cg_grammar_1b training.per_device_batch_size=8
uv run theseus submit lact_full_cosine_rewarm-p1 configs/data/cl100k/mtob_grammar_2048.yaml -s configs/data/cl100k/mtob_enkgv_2048.yaml -s configs/continual/cg_grammar/1b/lact_full_cosine_rewarm.yaml --cluster bonete --chip b200 -n 4 --n_shards 1 --cpu 32 --mem 256G -p continual -g cg_grammar_1b training.per_device_batch_size=8
uv run theseus submit lact_full_wsd-p1 configs/data/cl100k/mtob_grammar_2048.yaml -s configs/data/cl100k/mtob_enkgv_2048.yaml -s configs/continual/cg_grammar/1b/lact_full_wsd.yaml --cluster bonete --chip b200 -n 4 --n_shards 1 --cpu 32 --mem 256G -p continual -g cg_grammar_1b training.per_device_batch_size=8
uv run theseus submit lact_full_wsd_reset-p1 configs/data/cl100k/mtob_grammar_2048.yaml -s configs/data/cl100k/mtob_enkgv_2048.yaml -s configs/continual/cg_grammar/1b/lact_full_wsd_reset.yaml --cluster bonete --chip b200 -n 4 --n_shards 1 --cpu 32 --mem 256G -p continual -g cg_grammar_1b training.per_device_batch_size=8
uv run theseus submit lact_lora_cosine_rewarm-p1 configs/data/cl100k/mtob_grammar_2048.yaml -s configs/data/cl100k/mtob_enkgv_2048.yaml -s configs/continual/cg_grammar/1b/lact_lora_cosine_rewarm.yaml --cluster bonete --chip b200 -n 4 --n_shards 1 --cpu 32 --mem 256G -p continual -g cg_grammar_1b training.per_device_batch_size=8
uv run theseus submit lact_lora_wsd-p1 configs/data/cl100k/mtob_grammar_2048.yaml -s configs/data/cl100k/mtob_enkgv_2048.yaml -s configs/continual/cg_grammar/1b/lact_lora_wsd.yaml --cluster bonete --chip b200 -n 4 --n_shards 1 --cpu 32 --mem 256G -p continual -g cg_grammar_1b training.per_device_batch_size=8
uv run theseus submit lact_lora_wsd_reset-p1 configs/data/cl100k/mtob_grammar_2048.yaml -s configs/data/cl100k/mtob_enkgv_2048.yaml -s configs/continual/cg_grammar/1b/lact_lora_wsd_reset.yaml --cluster bonete --chip b200 -n 4 --n_shards 1 --cpu 32 --mem 256G -p continual -g cg_grammar_1b training.per_device_batch_size=8
uv run theseus submit mamba_full_cosine_rewarm-p1 configs/data/cl100k/mtob_grammar_2048.yaml -s configs/data/cl100k/mtob_enkgv_2048.yaml -s configs/continual/cg_grammar/1b/mamba_full_cosine_rewarm.yaml --cluster bonete --chip b200 -n 4 --n_shards 1 --cpu 32 --mem 256G -p continual -g cg_grammar_1b training.per_device_batch_size=8
uv run theseus submit mamba_full_wsd-p1 configs/data/cl100k/mtob_grammar_2048.yaml -s configs/data/cl100k/mtob_enkgv_2048.yaml -s configs/continual/cg_grammar/1b/mamba_full_wsd.yaml --cluster bonete --chip b200 -n 4 --n_shards 1 --cpu 32 --mem 256G -p continual -g cg_grammar_1b training.per_device_batch_size=8
uv run theseus submit mamba_full_wsd_reset-p1 configs/data/cl100k/mtob_grammar_2048.yaml -s configs/data/cl100k/mtob_enkgv_2048.yaml -s configs/continual/cg_grammar/1b/mamba_full_wsd_reset.yaml --cluster bonete --chip b200 -n 4 --n_shards 1 --cpu 32 --mem 256G -p continual -g cg_grammar_1b training.per_device_batch_size=8
uv run theseus submit mamba_lora_cosine_rewarm-p1 configs/data/cl100k/mtob_grammar_2048.yaml -s configs/data/cl100k/mtob_enkgv_2048.yaml -s configs/continual/cg_grammar/1b/mamba_lora_cosine_rewarm.yaml --cluster bonete --chip b200 -n 4 --n_shards 1 --cpu 32 --mem 256G -p continual -g cg_grammar_1b training.per_device_batch_size=8
uv run theseus submit mamba_lora_wsd-p1 configs/data/cl100k/mtob_grammar_2048.yaml -s configs/data/cl100k/mtob_enkgv_2048.yaml -s configs/continual/cg_grammar/1b/mamba_lora_wsd.yaml --cluster bonete --chip b200 -n 4 --n_shards 1 --cpu 32 --mem 256G -p continual -g cg_grammar_1b training.per_device_batch_size=8
uv run theseus submit mamba_lora_wsd_reset-p1 configs/data/cl100k/mtob_grammar_2048.yaml -s configs/data/cl100k/mtob_enkgv_2048.yaml -s configs/continual/cg_grammar/1b/mamba_lora_wsd_reset.yaml --cluster bonete --chip b200 -n 4 --n_shards 1 --cpu 32 --mem 256G -p continual -g cg_grammar_1b training.per_device_batch_size=8
uv run theseus submit moe_full_cosine_rewarm-p1 configs/data/cl100k/mtob_grammar_2048.yaml -s configs/data/cl100k/mtob_enkgv_2048.yaml -s configs/continual/cg_grammar/1b/moe_full_cosine_rewarm.yaml --cluster bonete --chip b200 -n 4 --n_shards 1 --cpu 32 --mem 256G -p continual -g cg_grammar_1b training.per_device_batch_size=8
uv run theseus submit moe_full_wsd-p1 configs/data/cl100k/mtob_grammar_2048.yaml -s configs/data/cl100k/mtob_enkgv_2048.yaml -s configs/continual/cg_grammar/1b/moe_full_wsd.yaml --cluster bonete --chip b200 -n 4 --n_shards 1 --cpu 32 --mem 256G -p continual -g cg_grammar_1b training.per_device_batch_size=8
uv run theseus submit moe_full_wsd_reset-p1 configs/data/cl100k/mtob_grammar_2048.yaml -s configs/data/cl100k/mtob_enkgv_2048.yaml -s configs/continual/cg_grammar/1b/moe_full_wsd_reset.yaml --cluster bonete --chip b200 -n 4 --n_shards 1 --cpu 32 --mem 256G -p continual -g cg_grammar_1b training.per_device_batch_size=8
uv run theseus submit moe_lora_cosine_rewarm-p1 configs/data/cl100k/mtob_grammar_2048.yaml -s configs/data/cl100k/mtob_enkgv_2048.yaml -s configs/continual/cg_grammar/1b/moe_lora_cosine_rewarm.yaml --cluster bonete --chip b200 -n 4 --n_shards 1 --cpu 32 --mem 256G -p continual -g cg_grammar_1b training.per_device_batch_size=8
uv run theseus submit moe_lora_wsd-p1 configs/data/cl100k/mtob_grammar_2048.yaml -s configs/data/cl100k/mtob_enkgv_2048.yaml -s configs/continual/cg_grammar/1b/moe_lora_wsd.yaml --cluster bonete --chip b200 -n 4 --n_shards 1 --cpu 32 --mem 256G -p continual -g cg_grammar_1b training.per_device_batch_size=8
uv run theseus submit moe_lora_wsd_reset-p1 configs/data/cl100k/mtob_grammar_2048.yaml -s configs/data/cl100k/mtob_enkgv_2048.yaml -s configs/continual/cg_grammar/1b/moe_lora_wsd_reset.yaml --cluster bonete --chip b200 -n 4 --n_shards 1 --cpu 32 --mem 256G -p continual -g cg_grammar_1b training.per_device_batch_size=8
uv run theseus submit transformer_full_cosine_rewarm-p1 configs/data/cl100k/mtob_grammar_2048.yaml -s configs/data/cl100k/mtob_enkgv_2048.yaml -s configs/continual/cg_grammar/1b/transformer_full_cosine_rewarm.yaml --cluster bonete --chip b200 -n 4 --n_shards 1 --cpu 32 --mem 256G -p continual -g cg_grammar_1b training.per_device_batch_size=8
uv run theseus submit transformer_full_wsd-p1 configs/data/cl100k/mtob_grammar_2048.yaml -s configs/data/cl100k/mtob_enkgv_2048.yaml -s configs/continual/cg_grammar/1b/transformer_full_wsd.yaml --cluster bonete --chip b200 -n 4 --n_shards 1 --cpu 32 --mem 256G -p continual -g cg_grammar_1b training.per_device_batch_size=8
uv run theseus submit transformer_full_wsd_reset-p1 configs/data/cl100k/mtob_grammar_2048.yaml -s configs/data/cl100k/mtob_enkgv_2048.yaml -s configs/continual/cg_grammar/1b/transformer_full_wsd_reset.yaml --cluster bonete --chip b200 -n 4 --n_shards 1 --cpu 32 --mem 256G -p continual -g cg_grammar_1b training.per_device_batch_size=8
uv run theseus submit transformer_lora_cosine_rewarm-p1 configs/data/cl100k/mtob_grammar_2048.yaml -s configs/data/cl100k/mtob_enkgv_2048.yaml -s configs/continual/cg_grammar/1b/transformer_lora_cosine_rewarm.yaml --cluster bonete --chip b200 -n 4 --n_shards 1 --cpu 32 --mem 256G -p continual -g cg_grammar_1b training.per_device_batch_size=8
uv run theseus submit transformer_lora_wsd-p1 configs/data/cl100k/mtob_grammar_2048.yaml -s configs/data/cl100k/mtob_enkgv_2048.yaml -s configs/continual/cg_grammar/1b/transformer_lora_wsd.yaml --cluster bonete --chip b200 -n 4 --n_shards 1 --cpu 32 --mem 256G -p continual -g cg_grammar_1b training.per_device_batch_size=8
uv run theseus submit transformer_lora_wsd_reset-p1 configs/data/cl100k/mtob_grammar_2048.yaml -s configs/data/cl100k/mtob_enkgv_2048.yaml -s configs/continual/cg_grammar/1b/transformer_lora_wsd_reset.yaml --cluster bonete --chip b200 -n 4 --n_shards 1 --cpu 32 --mem 256G -p continual -g cg_grammar_1b training.per_device_batch_size=8

cg_grammar / 2b¶

uv run theseus submit hybrid_full_cosine_rewarm-p1 configs/data/cl100k/mtob_grammar_2048.yaml -s configs/data/cl100k/mtob_enkgv_2048.yaml -s configs/continual/cg_grammar/2b/hybrid_full_cosine_rewarm.yaml --cluster bonete --chip b200 -n 4 --n_shards 1 --cpu 32 --mem 256G -p continual -g cg_grammar_2b training.per_device_batch_size=8
uv run theseus submit hybrid_full_wsd-p1 configs/data/cl100k/mtob_grammar_2048.yaml -s configs/data/cl100k/mtob_enkgv_2048.yaml -s configs/continual/cg_grammar/2b/hybrid_full_wsd.yaml --cluster bonete --chip b200 -n 4 --n_shards 1 --cpu 32 --mem 256G -p continual -g cg_grammar_2b training.per_device_batch_size=8
uv run theseus submit hybrid_full_wsd_reset-p1 configs/data/cl100k/mtob_grammar_2048.yaml -s configs/data/cl100k/mtob_enkgv_2048.yaml -s configs/continual/cg_grammar/2b/hybrid_full_wsd_reset.yaml --cluster bonete --chip b200 -n 4 --n_shards 1 --cpu 32 --mem 256G -p continual -g cg_grammar_2b training.per_device_batch_size=8
uv run theseus submit hybrid_lora_cosine_rewarm-p1 configs/data/cl100k/mtob_grammar_2048.yaml -s configs/data/cl100k/mtob_enkgv_2048.yaml -s configs/continual/cg_grammar/2b/hybrid_lora_cosine_rewarm.yaml --cluster bonete --chip b200 -n 4 --n_shards 1 --cpu 32 --mem 256G -p continual -g cg_grammar_2b training.per_device_batch_size=8
uv run theseus submit hybrid_lora_wsd-p1 configs/data/cl100k/mtob_grammar_2048.yaml -s configs/data/cl100k/mtob_enkgv_2048.yaml -s configs/continual/cg_grammar/2b/hybrid_lora_wsd.yaml --cluster bonete --chip b200 -n 4 --n_shards 1 --cpu 32 --mem 256G -p continual -g cg_grammar_2b training.per_device_batch_size=8
uv run theseus submit hybrid_lora_wsd_reset-p1 configs/data/cl100k/mtob_grammar_2048.yaml -s configs/data/cl100k/mtob_enkgv_2048.yaml -s configs/continual/cg_grammar/2b/hybrid_lora_wsd_reset.yaml --cluster bonete --chip b200 -n 4 --n_shards 1 --cpu 32 --mem 256G -p continual -g cg_grammar_2b training.per_device_batch_size=8
uv run theseus submit lact_full_cosine_rewarm-p1 configs/data/cl100k/mtob_grammar_2048.yaml -s configs/data/cl100k/mtob_enkgv_2048.yaml -s configs/continual/cg_grammar/2b/lact_full_cosine_rewarm.yaml --cluster bonete --chip b200 -n 4 --n_shards 1 --cpu 32 --mem 256G -p continual -g cg_grammar_2b training.per_device_batch_size=8
uv run theseus submit lact_full_wsd-p1 configs/data/cl100k/mtob_grammar_2048.yaml -s configs/data/cl100k/mtob_enkgv_2048.yaml -s configs/continual/cg_grammar/2b/lact_full_wsd.yaml --cluster bonete --chip b200 -n 4 --n_shards 1 --cpu 32 --mem 256G -p continual -g cg_grammar_2b training.per_device_batch_size=8
uv run theseus submit lact_full_wsd_reset-p1 configs/data/cl100k/mtob_grammar_2048.yaml -s configs/data/cl100k/mtob_enkgv_2048.yaml -s configs/continual/cg_grammar/2b/lact_full_wsd_reset.yaml --cluster bonete --chip b200 -n 4 --n_shards 1 --cpu 32 --mem 256G -p continual -g cg_grammar_2b training.per_device_batch_size=8
uv run theseus submit lact_lora_cosine_rewarm-p1 configs/data/cl100k/mtob_grammar_2048.yaml -s configs/data/cl100k/mtob_enkgv_2048.yaml -s configs/continual/cg_grammar/2b/lact_lora_cosine_rewarm.yaml --cluster bonete --chip b200 -n 4 --n_shards 1 --cpu 32 --mem 256G -p continual -g cg_grammar_2b training.per_device_batch_size=8
uv run theseus submit lact_lora_wsd-p1 configs/data/cl100k/mtob_grammar_2048.yaml -s configs/data/cl100k/mtob_enkgv_2048.yaml -s configs/continual/cg_grammar/2b/lact_lora_wsd.yaml --cluster bonete --chip b200 -n 4 --n_shards 1 --cpu 32 --mem 256G -p continual -g cg_grammar_2b training.per_device_batch_size=8
uv run theseus submit lact_lora_wsd_reset-p1 configs/data/cl100k/mtob_grammar_2048.yaml -s configs/data/cl100k/mtob_enkgv_2048.yaml -s configs/continual/cg_grammar/2b/lact_lora_wsd_reset.yaml --cluster bonete --chip b200 -n 4 --n_shards 1 --cpu 32 --mem 256G -p continual -g cg_grammar_2b training.per_device_batch_size=8
uv run theseus submit mamba_full_cosine_rewarm-p1 configs/data/cl100k/mtob_grammar_2048.yaml -s configs/data/cl100k/mtob_enkgv_2048.yaml -s configs/continual/cg_grammar/2b/mamba_full_cosine_rewarm.yaml --cluster bonete --chip b200 -n 4 --n_shards 1 --cpu 32 --mem 256G -p continual -g cg_grammar_2b training.per_device_batch_size=8
uv run theseus submit mamba_full_wsd-p1 configs/data/cl100k/mtob_grammar_2048.yaml -s configs/data/cl100k/mtob_enkgv_2048.yaml -s configs/continual/cg_grammar/2b/mamba_full_wsd.yaml --cluster bonete --chip b200 -n 4 --n_shards 1 --cpu 32 --mem 256G -p continual -g cg_grammar_2b training.per_device_batch_size=8
uv run theseus submit mamba_full_wsd_reset-p1 configs/data/cl100k/mtob_grammar_2048.yaml -s configs/data/cl100k/mtob_enkgv_2048.yaml -s configs/continual/cg_grammar/2b/mamba_full_wsd_reset.yaml --cluster bonete --chip b200 -n 4 --n_shards 1 --cpu 32 --mem 256G -p continual -g cg_grammar_2b training.per_device_batch_size=8
uv run theseus submit mamba_lora_cosine_rewarm-p1 configs/data/cl100k/mtob_grammar_2048.yaml -s configs/data/cl100k/mtob_enkgv_2048.yaml -s configs/continual/cg_grammar/2b/mamba_lora_cosine_rewarm.yaml --cluster bonete --chip b200 -n 4 --n_shards 1 --cpu 32 --mem 256G -p continual -g cg_grammar_2b training.per_device_batch_size=8
uv run theseus submit mamba_lora_wsd-p1 configs/data/cl100k/mtob_grammar_2048.yaml -s configs/data/cl100k/mtob_enkgv_2048.yaml -s configs/continual/cg_grammar/2b/mamba_lora_wsd.yaml --cluster bonete --chip b200 -n 4 --n_shards 1 --cpu 32 --mem 256G -p continual -g cg_grammar_2b training.per_device_batch_size=8
uv run theseus submit mamba_lora_wsd_reset-p1 configs/data/cl100k/mtob_grammar_2048.yaml -s configs/data/cl100k/mtob_enkgv_2048.yaml -s configs/continual/cg_grammar/2b/mamba_lora_wsd_reset.yaml --cluster bonete --chip b200 -n 4 --n_shards 1 --cpu 32 --mem 256G -p continual -g cg_grammar_2b training.per_device_batch_size=8
uv run theseus submit moe_full_cosine_rewarm-p1 configs/data/cl100k/mtob_grammar_2048.yaml -s configs/data/cl100k/mtob_enkgv_2048.yaml -s configs/continual/cg_grammar/2b/moe_full_cosine_rewarm.yaml --cluster bonete --chip b200 -n 4 --n_shards 1 --cpu 32 --mem 256G -p continual -g cg_grammar_2b training.per_device_batch_size=8
uv run theseus submit moe_full_wsd-p1 configs/data/cl100k/mtob_grammar_2048.yaml -s configs/data/cl100k/mtob_enkgv_2048.yaml -s configs/continual/cg_grammar/2b/moe_full_wsd.yaml --cluster bonete --chip b200 -n 4 --n_shards 1 --cpu 32 --mem 256G -p continual -g cg_grammar_2b training.per_device_batch_size=8
uv run theseus submit moe_full_wsd_reset-p1 configs/data/cl100k/mtob_grammar_2048.yaml -s configs/data/cl100k/mtob_enkgv_2048.yaml -s configs/continual/cg_grammar/2b/moe_full_wsd_reset.yaml --cluster bonete --chip b200 -n 4 --n_shards 1 --cpu 32 --mem 256G -p continual -g cg_grammar_2b training.per_device_batch_size=8
uv run theseus submit moe_lora_cosine_rewarm-p1 configs/data/cl100k/mtob_grammar_2048.yaml -s configs/data/cl100k/mtob_enkgv_2048.yaml -s configs/continual/cg_grammar/2b/moe_lora_cosine_rewarm.yaml --cluster bonete --chip b200 -n 4 --n_shards 1 --cpu 32 --mem 256G -p continual -g cg_grammar_2b training.per_device_batch_size=8
uv run theseus submit moe_lora_wsd-p1 configs/data/cl100k/mtob_grammar_2048.yaml -s configs/data/cl100k/mtob_enkgv_2048.yaml -s configs/continual/cg_grammar/2b/moe_lora_wsd.yaml --cluster bonete --chip b200 -n 4 --n_shards 1 --cpu 32 --mem 256G -p continual -g cg_grammar_2b training.per_device_batch_size=8
uv run theseus submit moe_lora_wsd_reset-p1 configs/data/cl100k/mtob_grammar_2048.yaml -s configs/data/cl100k/mtob_enkgv_2048.yaml -s configs/continual/cg_grammar/2b/moe_lora_wsd_reset.yaml --cluster bonete --chip b200 -n 4 --n_shards 1 --cpu 32 --mem 256G -p continual -g cg_grammar_2b training.per_device_batch_size=8
uv run theseus submit transformer_full_cosine_rewarm-p1 configs/data/cl100k/mtob_grammar_2048.yaml -s configs/data/cl100k/mtob_enkgv_2048.yaml -s configs/continual/cg_grammar/2b/transformer_full_cosine_rewarm.yaml --cluster bonete --chip b200 -n 4 --n_shards 1 --cpu 32 --mem 256G -p continual -g cg_grammar_2b training.per_device_batch_size=8
uv run theseus submit transformer_full_wsd-p1 configs/data/cl100k/mtob_grammar_2048.yaml -s configs/data/cl100k/mtob_enkgv_2048.yaml -s configs/continual/cg_grammar/2b/transformer_full_wsd.yaml --cluster bonete --chip b200 -n 4 --n_shards 1 --cpu 32 --mem 256G -p continual -g cg_grammar_2b training.per_device_batch_size=8
uv run theseus submit transformer_full_wsd_reset-p1 configs/data/cl100k/mtob_grammar_2048.yaml -s configs/data/cl100k/mtob_enkgv_2048.yaml -s configs/continual/cg_grammar/2b/transformer_full_wsd_reset.yaml --cluster bonete --chip b200 -n 4 --n_shards 1 --cpu 32 --mem 256G -p continual -g cg_grammar_2b training.per_device_batch_size=8
uv run theseus submit transformer_lora_cosine_rewarm-p1 configs/data/cl100k/mtob_grammar_2048.yaml -s configs/data/cl100k/mtob_enkgv_2048.yaml -s configs/continual/cg_grammar/2b/transformer_lora_cosine_rewarm.yaml --cluster bonete --chip b200 -n 4 --n_shards 1 --cpu 32 --mem 256G -p continual -g cg_grammar_2b training.per_device_batch_size=8
uv run theseus submit transformer_lora_wsd-p1 configs/data/cl100k/mtob_grammar_2048.yaml -s configs/data/cl100k/mtob_enkgv_2048.yaml -s configs/continual/cg_grammar/2b/transformer_lora_wsd.yaml --cluster bonete --chip b200 -n 4 --n_shards 1 --cpu 32 --mem 256G -p continual -g cg_grammar_2b training.per_device_batch_size=8
uv run theseus submit transformer_lora_wsd_reset-p1 configs/data/cl100k/mtob_grammar_2048.yaml -s configs/data/cl100k/mtob_enkgv_2048.yaml -s configs/continual/cg_grammar/2b/transformer_lora_wsd_reset.yaml --cluster bonete --chip b200 -n 4 --n_shards 1 --cpu 32 --mem 256G -p continual -g cg_grammar_2b training.per_device_batch_size=8

cg_grammar / 700m¶

uv run theseus submit hybrid_full_cosine_rewarm-p1 configs/data/cl100k/mtob_grammar_2048.yaml -s configs/data/cl100k/mtob_enkgv_2048.yaml -s configs/continual/cg_grammar/700m/hybrid_full_cosine_rewarm.yaml --cluster bonete --chip b200 -n 4 --n_shards 1 --cpu 32 --mem 256G -p continual -g cg_grammar_700m training.per_device_batch_size=8
uv run theseus submit hybrid_full_wsd-p1 configs/data/cl100k/mtob_grammar_2048.yaml -s configs/data/cl100k/mtob_enkgv_2048.yaml -s configs/continual/cg_grammar/700m/hybrid_full_wsd.yaml --cluster bonete --chip b200 -n 4 --n_shards 1 --cpu 32 --mem 256G -p continual -g cg_grammar_700m training.per_device_batch_size=8
uv run theseus submit hybrid_full_wsd_reset-p1 configs/data/cl100k/mtob_grammar_2048.yaml -s configs/data/cl100k/mtob_enkgv_2048.yaml -s configs/continual/cg_grammar/700m/hybrid_full_wsd_reset.yaml --cluster bonete --chip b200 -n 4 --n_shards 1 --cpu 32 --mem 256G -p continual -g cg_grammar_700m training.per_device_batch_size=8
uv run theseus submit hybrid_lora_cosine_rewarm-p1 configs/data/cl100k/mtob_grammar_2048.yaml -s configs/data/cl100k/mtob_enkgv_2048.yaml -s configs/continual/cg_grammar/700m/hybrid_lora_cosine_rewarm.yaml --cluster bonete --chip b200 -n 4 --n_shards 1 --cpu 32 --mem 256G -p continual -g cg_grammar_700m training.per_device_batch_size=8
uv run theseus submit hybrid_lora_wsd-p1 configs/data/cl100k/mtob_grammar_2048.yaml -s configs/data/cl100k/mtob_enkgv_2048.yaml -s configs/continual/cg_grammar/700m/hybrid_lora_wsd.yaml --cluster bonete --chip b200 -n 4 --n_shards 1 --cpu 32 --mem 256G -p continual -g cg_grammar_700m training.per_device_batch_size=8
uv run theseus submit hybrid_lora_wsd_reset-p1 configs/data/cl100k/mtob_grammar_2048.yaml -s configs/data/cl100k/mtob_enkgv_2048.yaml -s configs/continual/cg_grammar/700m/hybrid_lora_wsd_reset.yaml --cluster bonete --chip b200 -n 4 --n_shards 1 --cpu 32 --mem 256G -p continual -g cg_grammar_700m training.per_device_batch_size=8
uv run theseus submit lact_full_cosine_rewarm-p1 configs/data/cl100k/mtob_grammar_2048.yaml -s configs/data/cl100k/mtob_enkgv_2048.yaml -s configs/continual/cg_grammar/700m/lact_full_cosine_rewarm.yaml --cluster bonete --chip b200 -n 4 --n_shards 1 --cpu 32 --mem 256G -p continual -g cg_grammar_700m training.per_device_batch_size=8
uv run theseus submit lact_full_wsd-p1 configs/data/cl100k/mtob_grammar_2048.yaml -s configs/data/cl100k/mtob_enkgv_2048.yaml -s configs/continual/cg_grammar/700m/lact_full_wsd.yaml --cluster bonete --chip b200 -n 4 --n_shards 1 --cpu 32 --mem 256G -p continual -g cg_grammar_700m training.per_device_batch_size=8
uv run theseus submit lact_full_wsd_reset-p1 configs/data/cl100k/mtob_grammar_2048.yaml -s configs/data/cl100k/mtob_enkgv_2048.yaml -s configs/continual/cg_grammar/700m/lact_full_wsd_reset.yaml --cluster bonete --chip b200 -n 4 --n_shards 1 --cpu 32 --mem 256G -p continual -g cg_grammar_700m training.per_device_batch_size=8
uv run theseus submit lact_lora_cosine_rewarm-p1 configs/data/cl100k/mtob_grammar_2048.yaml -s configs/data/cl100k/mtob_enkgv_2048.yaml -s configs/continual/cg_grammar/700m/lact_lora_cosine_rewarm.yaml --cluster bonete --chip b200 -n 4 --n_shards 1 --cpu 32 --mem 256G -p continual -g cg_grammar_700m training.per_device_batch_size=8
uv run theseus submit lact_lora_wsd-p1 configs/data/cl100k/mtob_grammar_2048.yaml -s configs/data/cl100k/mtob_enkgv_2048.yaml -s configs/continual/cg_grammar/700m/lact_lora_wsd.yaml --cluster bonete --chip b200 -n 4 --n_shards 1 --cpu 32 --mem 256G -p continual -g cg_grammar_700m training.per_device_batch_size=8
uv run theseus submit lact_lora_wsd_reset-p1 configs/data/cl100k/mtob_grammar_2048.yaml -s configs/data/cl100k/mtob_enkgv_2048.yaml -s configs/continual/cg_grammar/700m/lact_lora_wsd_reset.yaml --cluster bonete --chip b200 -n 4 --n_shards 1 --cpu 32 --mem 256G -p continual -g cg_grammar_700m training.per_device_batch_size=8
uv run theseus submit mamba_full_cosine_rewarm-p1 configs/data/cl100k/mtob_grammar_2048.yaml -s configs/data/cl100k/mtob_enkgv_2048.yaml -s configs/continual/cg_grammar/700m/mamba_full_cosine_rewarm.yaml --cluster bonete --chip b200 -n 4 --n_shards 1 --cpu 32 --mem 256G -p continual -g cg_grammar_700m training.per_device_batch_size=8
uv run theseus submit mamba_full_wsd-p1 configs/data/cl100k/mtob_grammar_2048.yaml -s configs/data/cl100k/mtob_enkgv_2048.yaml -s configs/continual/cg_grammar/700m/mamba_full_wsd.yaml --cluster bonete --chip b200 -n 4 --n_shards 1 --cpu 32 --mem 256G -p continual -g cg_grammar_700m training.per_device_batch_size=8
uv run theseus submit mamba_full_wsd_reset-p1 configs/data/cl100k/mtob_grammar_2048.yaml -s configs/data/cl100k/mtob_enkgv_2048.yaml -s configs/continual/cg_grammar/700m/mamba_full_wsd_reset.yaml --cluster bonete --chip b200 -n 4 --n_shards 1 --cpu 32 --mem 256G -p continual -g cg_grammar_700m training.per_device_batch_size=8
uv run theseus submit mamba_lora_cosine_rewarm-p1 configs/data/cl100k/mtob_grammar_2048.yaml -s configs/data/cl100k/mtob_enkgv_2048.yaml -s configs/continual/cg_grammar/700m/mamba_lora_cosine_rewarm.yaml --cluster bonete --chip b200 -n 4 --n_shards 1 --cpu 32 --mem 256G -p continual -g cg_grammar_700m training.per_device_batch_size=8
uv run theseus submit mamba_lora_wsd-p1 configs/data/cl100k/mtob_grammar_2048.yaml -s configs/data/cl100k/mtob_enkgv_2048.yaml -s configs/continual/cg_grammar/700m/mamba_lora_wsd.yaml --cluster bonete --chip b200 -n 4 --n_shards 1 --cpu 32 --mem 256G -p continual -g cg_grammar_700m training.per_device_batch_size=8
uv run theseus submit mamba_lora_wsd_reset-p1 configs/data/cl100k/mtob_grammar_2048.yaml -s configs/data/cl100k/mtob_enkgv_2048.yaml -s configs/continual/cg_grammar/700m/mamba_lora_wsd_reset.yaml --cluster bonete --chip b200 -n 4 --n_shards 1 --cpu 32 --mem 256G -p continual -g cg_grammar_700m training.per_device_batch_size=8
uv run theseus submit moe_full_cosine_rewarm-p1 configs/data/cl100k/mtob_grammar_2048.yaml -s configs/data/cl100k/mtob_enkgv_2048.yaml -s configs/continual/cg_grammar/700m/moe_full_cosine_rewarm.yaml --cluster bonete --chip b200 -n 4 --n_shards 1 --cpu 32 --mem 256G -p continual -g cg_grammar_700m training.per_device_batch_size=8
uv run theseus submit moe_full_wsd-p1 configs/data/cl100k/mtob_grammar_2048.yaml -s configs/data/cl100k/mtob_enkgv_2048.yaml -s configs/continual/cg_grammar/700m/moe_full_wsd.yaml --cluster bonete --chip b200 -n 4 --n_shards 1 --cpu 32 --mem 256G -p continual -g cg_grammar_700m training.per_device_batch_size=8
uv run theseus submit moe_full_wsd_reset-p1 configs/data/cl100k/mtob_grammar_2048.yaml -s configs/data/cl100k/mtob_enkgv_2048.yaml -s configs/continual/cg_grammar/700m/moe_full_wsd_reset.yaml --cluster bonete --chip b200 -n 4 --n_shards 1 --cpu 32 --mem 256G -p continual -g cg_grammar_700m training.per_device_batch_size=8
uv run theseus submit moe_lora_cosine_rewarm-p1 configs/data/cl100k/mtob_grammar_2048.yaml -s configs/data/cl100k/mtob_enkgv_2048.yaml -s configs/continual/cg_grammar/700m/moe_lora_cosine_rewarm.yaml --cluster bonete --chip b200 -n 4 --n_shards 1 --cpu 32 --mem 256G -p continual -g cg_grammar_700m training.per_device_batch_size=8
uv run theseus submit moe_lora_wsd-p1 configs/data/cl100k/mtob_grammar_2048.yaml -s configs/data/cl100k/mtob_enkgv_2048.yaml -s configs/continual/cg_grammar/700m/moe_lora_wsd.yaml --cluster bonete --chip b200 -n 4 --n_shards 1 --cpu 32 --mem 256G -p continual -g cg_grammar_700m training.per_device_batch_size=8
uv run theseus submit moe_lora_wsd_reset-p1 configs/data/cl100k/mtob_grammar_2048.yaml -s configs/data/cl100k/mtob_enkgv_2048.yaml -s configs/continual/cg_grammar/700m/moe_lora_wsd_reset.yaml --cluster bonete --chip b200 -n 4 --n_shards 1 --cpu 32 --mem 256G -p continual -g cg_grammar_700m training.per_device_batch_size=8
uv run theseus submit transformer_full_cosine_rewarm-p1 configs/data/cl100k/mtob_grammar_2048.yaml -s configs/data/cl100k/mtob_enkgv_2048.yaml -s configs/continual/cg_grammar/700m/transformer_full_cosine_rewarm.yaml --cluster bonete --chip b200 -n 4 --n_shards 1 --cpu 32 --mem 256G -p continual -g cg_grammar_700m training.per_device_batch_size=8
uv run theseus submit transformer_full_wsd-p1 configs/data/cl100k/mtob_grammar_2048.yaml -s configs/data/cl100k/mtob_enkgv_2048.yaml -s configs/continual/cg_grammar/700m/transformer_full_wsd.yaml --cluster bonete --chip b200 -n 4 --n_shards 1 --cpu 32 --mem 256G -p continual -g cg_grammar_700m training.per_device_batch_size=8
uv run theseus submit transformer_full_wsd_reset-p1 configs/data/cl100k/mtob_grammar_2048.yaml -s configs/data/cl100k/mtob_enkgv_2048.yaml -s configs/continual/cg_grammar/700m/transformer_full_wsd_reset.yaml --cluster bonete --chip b200 -n 4 --n_shards 1 --cpu 32 --mem 256G -p continual -g cg_grammar_700m training.per_device_batch_size=8
uv run theseus submit transformer_lora_cosine_rewarm-p1 configs/data/cl100k/mtob_grammar_2048.yaml -s configs/data/cl100k/mtob_enkgv_2048.yaml -s configs/continual/cg_grammar/700m/transformer_lora_cosine_rewarm.yaml --cluster bonete --chip b200 -n 4 --n_shards 1 --cpu 32 --mem 256G -p continual -g cg_grammar_700m training.per_device_batch_size=8
uv run theseus submit transformer_lora_wsd-p1 configs/data/cl100k/mtob_grammar_2048.yaml -s configs/data/cl100k/mtob_enkgv_2048.yaml -s configs/continual/cg_grammar/700m/transformer_lora_wsd.yaml --cluster bonete --chip b200 -n 4 --n_shards 1 --cpu 32 --mem 256G -p continual -g cg_grammar_700m training.per_device_batch_size=8
uv run theseus submit transformer_lora_wsd_reset-p1 configs/data/cl100k/mtob_grammar_2048.yaml -s configs/data/cl100k/mtob_enkgv_2048.yaml -s configs/continual/cg_grammar/700m/transformer_lora_wsd_reset.yaml --cluster bonete --chip b200 -n 4 --n_shards 1 --cpu 32 --mem 256G -p continual -g cg_grammar_700m training.per_device_batch_size=8

cg_safety / 1b¶

uv run theseus submit hybrid_full_cosine_rewarm-p1 configs/data/cl100k/harmfulqa_red_2048.yaml -s configs/data/cl100k/mmlu_2048.yaml -s configs/data/cl100k/harmfulqa_blue_2048.yaml -s configs/data/cl100k/squad_2048.yaml -s configs/continual/cg_safety/1b/hybrid_full_cosine_rewarm.yaml --cluster bonete --chip b200 -n 4 --n_shards 1 --cpu 32 --mem 256G -p continual -g cg_safety_1b training.per_device_batch_size=8
uv run theseus submit hybrid_full_wsd-p1 configs/data/cl100k/harmfulqa_red_2048.yaml -s configs/data/cl100k/mmlu_2048.yaml -s configs/data/cl100k/harmfulqa_blue_2048.yaml -s configs/data/cl100k/squad_2048.yaml -s configs/continual/cg_safety/1b/hybrid_full_wsd.yaml --cluster bonete --chip b200 -n 4 --n_shards 1 --cpu 32 --mem 256G -p continual -g cg_safety_1b training.per_device_batch_size=8
uv run theseus submit hybrid_full_wsd_reset-p1 configs/data/cl100k/harmfulqa_red_2048.yaml -s configs/data/cl100k/mmlu_2048.yaml -s configs/data/cl100k/harmfulqa_blue_2048.yaml -s configs/data/cl100k/squad_2048.yaml -s configs/continual/cg_safety/1b/hybrid_full_wsd_reset.yaml --cluster bonete --chip b200 -n 4 --n_shards 1 --cpu 32 --mem 256G -p continual -g cg_safety_1b training.per_device_batch_size=8
uv run theseus submit hybrid_lora_cosine_rewarm-p1 configs/data/cl100k/harmfulqa_red_2048.yaml -s configs/data/cl100k/mmlu_2048.yaml -s configs/data/cl100k/harmfulqa_blue_2048.yaml -s configs/data/cl100k/squad_2048.yaml -s configs/continual/cg_safety/1b/hybrid_lora_cosine_rewarm.yaml --cluster bonete --chip b200 -n 4 --n_shards 1 --cpu 32 --mem 256G -p continual -g cg_safety_1b training.per_device_batch_size=8
uv run theseus submit hybrid_lora_wsd-p1 configs/data/cl100k/harmfulqa_red_2048.yaml -s configs/data/cl100k/mmlu_2048.yaml -s configs/data/cl100k/harmfulqa_blue_2048.yaml -s configs/data/cl100k/squad_2048.yaml -s configs/continual/cg_safety/1b/hybrid_lora_wsd.yaml --cluster bonete --chip b200 -n 4 --n_shards 1 --cpu 32 --mem 256G -p continual -g cg_safety_1b training.per_device_batch_size=8
uv run theseus submit hybrid_lora_wsd_reset-p1 configs/data/cl100k/harmfulqa_red_2048.yaml -s configs/data/cl100k/mmlu_2048.yaml -s configs/data/cl100k/harmfulqa_blue_2048.yaml -s configs/data/cl100k/squad_2048.yaml -s configs/continual/cg_safety/1b/hybrid_lora_wsd_reset.yaml --cluster bonete --chip b200 -n 4 --n_shards 1 --cpu 32 --mem 256G -p continual -g cg_safety_1b training.per_device_batch_size=8
uv run theseus submit lact_full_cosine_rewarm-p1 configs/data/cl100k/harmfulqa_red_2048.yaml -s configs/data/cl100k/mmlu_2048.yaml -s configs/data/cl100k/harmfulqa_blue_2048.yaml -s configs/data/cl100k/squad_2048.yaml -s configs/continual/cg_safety/1b/lact_full_cosine_rewarm.yaml --cluster bonete --chip b200 -n 4 --n_shards 1 --cpu 32 --mem 256G -p continual -g cg_safety_1b training.per_device_batch_size=8
uv run theseus submit lact_full_wsd-p1 configs/data/cl100k/harmfulqa_red_2048.yaml -s configs/data/cl100k/mmlu_2048.yaml -s configs/data/cl100k/harmfulqa_blue_2048.yaml -s configs/data/cl100k/squad_2048.yaml -s configs/continual/cg_safety/1b/lact_full_wsd.yaml --cluster bonete --chip b200 -n 4 --n_shards 1 --cpu 32 --mem 256G -p continual -g cg_safety_1b training.per_device_batch_size=8
uv run theseus submit lact_full_wsd_reset-p1 configs/data/cl100k/harmfulqa_red_2048.yaml -s configs/data/cl100k/mmlu_2048.yaml -s configs/data/cl100k/harmfulqa_blue_2048.yaml -s configs/data/cl100k/squad_2048.yaml -s configs/continual/cg_safety/1b/lact_full_wsd_reset.yaml --cluster bonete --chip b200 -n 4 --n_shards 1 --cpu 32 --mem 256G -p continual -g cg_safety_1b training.per_device_batch_size=8
uv run theseus submit lact_full_wsd_shuffled-p1 configs/data/cl100k/harmfulqa_red_2048.yaml -s configs/data/cl100k/squad_2048.yaml -s configs/data/cl100k/harmfulqa_blue_2048.yaml -s configs/data/cl100k/mmlu_2048.yaml -s configs/continual/cg_safety/1b/lact_full_wsd_shuffled.yaml --cluster bonete --chip b200 -n 4 --n_shards 1 --cpu 32 --mem 256G -p continual -g cg_safety_1b training.per_device_batch_size=8
uv run theseus submit lact_lora_cosine_rewarm-p1 configs/data/cl100k/harmfulqa_red_2048.yaml -s configs/data/cl100k/mmlu_2048.yaml -s configs/data/cl100k/harmfulqa_blue_2048.yaml -s configs/data/cl100k/squad_2048.yaml -s configs/continual/cg_safety/1b/lact_lora_cosine_rewarm.yaml --cluster bonete --chip b200 -n 4 --n_shards 1 --cpu 32 --mem 256G -p continual -g cg_safety_1b training.per_device_batch_size=8
uv run theseus submit lact_lora_wsd-p1 configs/data/cl100k/harmfulqa_red_2048.yaml -s configs/data/cl100k/mmlu_2048.yaml -s configs/data/cl100k/harmfulqa_blue_2048.yaml -s configs/data/cl100k/squad_2048.yaml -s configs/continual/cg_safety/1b/lact_lora_wsd.yaml --cluster bonete --chip b200 -n 4 --n_shards 1 --cpu 32 --mem 256G -p continual -g cg_safety_1b training.per_device_batch_size=8
uv run theseus submit lact_lora_wsd_reset-p1 configs/data/cl100k/harmfulqa_red_2048.yaml -s configs/data/cl100k/mmlu_2048.yaml -s configs/data/cl100k/harmfulqa_blue_2048.yaml -s configs/data/cl100k/squad_2048.yaml -s configs/continual/cg_safety/1b/lact_lora_wsd_reset.yaml --cluster bonete --chip b200 -n 4 --n_shards 1 --cpu 32 --mem 256G -p continual -g cg_safety_1b training.per_device_batch_size=8
uv run theseus submit mamba_full_cosine_rewarm-p1 configs/data/cl100k/harmfulqa_red_2048.yaml -s configs/data/cl100k/mmlu_2048.yaml -s configs/data/cl100k/harmfulqa_blue_2048.yaml -s configs/data/cl100k/squad_2048.yaml -s configs/continual/cg_safety/1b/mamba_full_cosine_rewarm.yaml --cluster bonete --chip b200 -n 4 --n_shards 1 --cpu 32 --mem 256G -p continual -g cg_safety_1b training.per_device_batch_size=8
uv run theseus submit mamba_full_wsd-p1 configs/data/cl100k/harmfulqa_red_2048.yaml -s configs/data/cl100k/mmlu_2048.yaml -s configs/data/cl100k/harmfulqa_blue_2048.yaml -s configs/data/cl100k/squad_2048.yaml -s configs/continual/cg_safety/1b/mamba_full_wsd.yaml --cluster bonete --chip b200 -n 4 --n_shards 1 --cpu 32 --mem 256G -p continual -g cg_safety_1b training.per_device_batch_size=8
uv run theseus submit mamba_full_wsd_reset-p1 configs/data/cl100k/harmfulqa_red_2048.yaml -s configs/data/cl100k/mmlu_2048.yaml -s configs/data/cl100k/harmfulqa_blue_2048.yaml -s configs/data/cl100k/squad_2048.yaml -s configs/continual/cg_safety/1b/mamba_full_wsd_reset.yaml --cluster bonete --chip b200 -n 4 --n_shards 1 --cpu 32 --mem 256G -p continual -g cg_safety_1b training.per_device_batch_size=8
uv run theseus submit mamba_full_wsd_shuffled-p1 configs/data/cl100k/harmfulqa_red_2048.yaml -s configs/data/cl100k/squad_2048.yaml -s configs/data/cl100k/harmfulqa_blue_2048.yaml -s configs/data/cl100k/mmlu_2048.yaml -s configs/continual/cg_safety/1b/mamba_full_wsd_shuffled.yaml --cluster bonete --chip b200 -n 4 --n_shards 1 --cpu 32 --mem 256G -p continual -g cg_safety_1b training.per_device_batch_size=8
uv run theseus submit mamba_lora_cosine_rewarm-p1 configs/data/cl100k/harmfulqa_red_2048.yaml -s configs/data/cl100k/mmlu_2048.yaml -s configs/data/cl100k/harmfulqa_blue_2048.yaml -s configs/data/cl100k/squad_2048.yaml -s configs/continual/cg_safety/1b/mamba_lora_cosine_rewarm.yaml --cluster bonete --chip b200 -n 4 --n_shards 1 --cpu 32 --mem 256G -p continual -g cg_safety_1b training.per_device_batch_size=8
uv run theseus submit mamba_lora_wsd-p1 configs/data/cl100k/harmfulqa_red_2048.yaml -s configs/data/cl100k/mmlu_2048.yaml -s configs/data/cl100k/harmfulqa_blue_2048.yaml -s configs/data/cl100k/squad_2048.yaml -s configs/continual/cg_safety/1b/mamba_lora_wsd.yaml --cluster bonete --chip b200 -n 4 --n_shards 1 --cpu 32 --mem 256G -p continual -g cg_safety_1b training.per_device_batch_size=8
uv run theseus submit mamba_lora_wsd_reset-p1 configs/data/cl100k/harmfulqa_red_2048.yaml -s configs/data/cl100k/mmlu_2048.yaml -s configs/data/cl100k/harmfulqa_blue_2048.yaml -s configs/data/cl100k/squad_2048.yaml -s configs/continual/cg_safety/1b/mamba_lora_wsd_reset.yaml --cluster bonete --chip b200 -n 4 --n_shards 1 --cpu 32 --mem 256G -p continual -g cg_safety_1b training.per_device_batch_size=8
uv run theseus submit moe_full_cosine_rewarm-p1 configs/data/cl100k/harmfulqa_red_2048.yaml -s configs/data/cl100k/mmlu_2048.yaml -s configs/data/cl100k/harmfulqa_blue_2048.yaml -s configs/data/cl100k/squad_2048.yaml -s configs/continual/cg_safety/1b/moe_full_cosine_rewarm.yaml --cluster bonete --chip b200 -n 4 --n_shards 1 --cpu 32 --mem 256G -p continual -g cg_safety_1b training.per_device_batch_size=8
uv run theseus submit moe_full_wsd-p1 configs/data/cl100k/harmfulqa_red_2048.yaml -s configs/data/cl100k/mmlu_2048.yaml -s configs/data/cl100k/harmfulqa_blue_2048.yaml -s configs/data/cl100k/squad_2048.yaml -s configs/continual/cg_safety/1b/moe_full_wsd.yaml --cluster bonete --chip b200 -n 4 --n_shards 1 --cpu 32 --mem 256G -p continual -g cg_safety_1b training.per_device_batch_size=8
uv run theseus submit moe_full_wsd_reset-p1 configs/data/cl100k/harmfulqa_red_2048.yaml -s configs/data/cl100k/mmlu_2048.yaml -s configs/data/cl100k/harmfulqa_blue_2048.yaml -s configs/data/cl100k/squad_2048.yaml -s configs/continual/cg_safety/1b/moe_full_wsd_reset.yaml --cluster bonete --chip b200 -n 4 --n_shards 1 --cpu 32 --mem 256G -p continual -g cg_safety_1b training.per_device_batch_size=8
uv run theseus submit moe_full_wsd_shuffled-p1 configs/data/cl100k/harmfulqa_red_2048.yaml -s configs/data/cl100k/squad_2048.yaml -s configs/data/cl100k/harmfulqa_blue_2048.yaml -s configs/data/cl100k/mmlu_2048.yaml -s configs/continual/cg_safety/1b/moe_full_wsd_shuffled.yaml --cluster bonete --chip b200 -n 4 --n_shards 1 --cpu 32 --mem 256G -p continual -g cg_safety_1b training.per_device_batch_size=8
uv run theseus submit moe_lora_cosine_rewarm-p1 configs/data/cl100k/harmfulqa_red_2048.yaml -s configs/data/cl100k/mmlu_2048.yaml -s configs/data/cl100k/harmfulqa_blue_2048.yaml -s configs/data/cl100k/squad_2048.yaml -s configs/continual/cg_safety/1b/moe_lora_cosine_rewarm.yaml --cluster bonete --chip b200 -n 4 --n_shards 1 --cpu 32 --mem 256G -p continual -g cg_safety_1b training.per_device_batch_size=8
uv run theseus submit moe_lora_wsd-p1 configs/data/cl100k/harmfulqa_red_2048.yaml -s configs/data/cl100k/mmlu_2048.yaml -s configs/data/cl100k/harmfulqa_blue_2048.yaml -s configs/data/cl100k/squad_2048.yaml -s configs/continual/cg_safety/1b/moe_lora_wsd.yaml --cluster bonete --chip b200 -n 4 --n_shards 1 --cpu 32 --mem 256G -p continual -g cg_safety_1b training.per_device_batch_size=8
uv run theseus submit moe_lora_wsd_reset-p1 configs/data/cl100k/harmfulqa_red_2048.yaml -s configs/data/cl100k/mmlu_2048.yaml -s configs/data/cl100k/harmfulqa_blue_2048.yaml -s configs/data/cl100k/squad_2048.yaml -s configs/continual/cg_safety/1b/moe_lora_wsd_reset.yaml --cluster bonete --chip b200 -n 4 --n_shards 1 --cpu 32 --mem 256G -p continual -g cg_safety_1b training.per_device_batch_size=8
uv run theseus submit transformer_full_cosine_rewarm-p1 configs/data/cl100k/harmfulqa_red_2048.yaml -s configs/data/cl100k/mmlu_2048.yaml -s configs/data/cl100k/harmfulqa_blue_2048.yaml -s configs/data/cl100k/squad_2048.yaml -s configs/continual/cg_safety/1b/transformer_full_cosine_rewarm.yaml --cluster bonete --chip b200 -n 4 --n_shards 1 --cpu 32 --mem 256G -p continual -g cg_safety_1b training.per_device_batch_size=8
uv run theseus submit transformer_full_wsd-p1 configs/data/cl100k/harmfulqa_red_2048.yaml -s configs/data/cl100k/mmlu_2048.yaml -s configs/data/cl100k/harmfulqa_blue_2048.yaml -s configs/data/cl100k/squad_2048.yaml -s configs/continual/cg_safety/1b/transformer_full_wsd.yaml --cluster bonete --chip b200 -n 4 --n_shards 1 --cpu 32 --mem 256G -p continual -g cg_safety_1b training.per_device_batch_size=8
uv run theseus submit transformer_full_wsd_reset-p1 configs/data/cl100k/harmfulqa_red_2048.yaml -s configs/data/cl100k/mmlu_2048.yaml -s configs/data/cl100k/harmfulqa_blue_2048.yaml -s configs/data/cl100k/squad_2048.yaml -s configs/continual/cg_safety/1b/transformer_full_wsd_reset.yaml --cluster bonete --chip b200 -n 4 --n_shards 1 --cpu 32 --mem 256G -p continual -g cg_safety_1b training.per_device_batch_size=8
uv run theseus submit transformer_full_wsd_shuffled-p1 configs/data/cl100k/harmfulqa_red_2048.yaml -s configs/data/cl100k/squad_2048.yaml -s configs/data/cl100k/harmfulqa_blue_2048.yaml -s configs/data/cl100k/mmlu_2048.yaml -s configs/continual/cg_safety/1b/transformer_full_wsd_shuffled.yaml --cluster bonete --chip b200 -n 4 --n_shards 1 --cpu 32 --mem 256G -p continual -g cg_safety_1b training.per_device_batch_size=8
uv run theseus submit transformer_lora_cosine_rewarm-p1 configs/data/cl100k/harmfulqa_red_2048.yaml -s configs/data/cl100k/mmlu_2048.yaml -s configs/data/cl100k/harmfulqa_blue_2048.yaml -s configs/data/cl100k/squad_2048.yaml -s configs/continual/cg_safety/1b/transformer_lora_cosine_rewarm.yaml --cluster bonete --chip b200 -n 4 --n_shards 1 --cpu 32 --mem 256G -p continual -g cg_safety_1b training.per_device_batch_size=8
uv run theseus submit transformer_lora_wsd-p1 configs/data/cl100k/harmfulqa_red_2048.yaml -s configs/data/cl100k/mmlu_2048.yaml -s configs/data/cl100k/harmfulqa_blue_2048.yaml -s configs/data/cl100k/squad_2048.yaml -s configs/continual/cg_safety/1b/transformer_lora_wsd.yaml --cluster bonete --chip b200 -n 4 --n_shards 1 --cpu 32 --mem 256G -p continual -g cg_safety_1b training.per_device_batch_size=8
uv run theseus submit transformer_lora_wsd_reset-p1 configs/data/cl100k/harmfulqa_red_2048.yaml -s configs/data/cl100k/mmlu_2048.yaml -s configs/data/cl100k/harmfulqa_blue_2048.yaml -s configs/data/cl100k/squad_2048.yaml -s configs/continual/cg_safety/1b/transformer_lora_wsd_reset.yaml --cluster bonete --chip b200 -n 4 --n_shards 1 --cpu 32 --mem 256G -p continual -g cg_safety_1b training.per_device_batch_size=8

cg_safety / 2b¶

uv run theseus submit hybrid_full_cosine_rewarm-p1 configs/data/cl100k/harmfulqa_red_2048.yaml -s configs/data/cl100k/mmlu_2048.yaml -s configs/data/cl100k/harmfulqa_blue_2048.yaml -s configs/data/cl100k/squad_2048.yaml -s configs/continual/cg_safety/2b/hybrid_full_cosine_rewarm.yaml --cluster bonete --chip b200 -n 4 --n_shards 1 --cpu 32 --mem 256G -p continual -g cg_safety_2b training.per_device_batch_size=8
uv run theseus submit hybrid_full_wsd-p1 configs/data/cl100k/harmfulqa_red_2048.yaml -s configs/data/cl100k/mmlu_2048.yaml -s configs/data/cl100k/harmfulqa_blue_2048.yaml -s configs/data/cl100k/squad_2048.yaml -s configs/continual/cg_safety/2b/hybrid_full_wsd.yaml --cluster bonete --chip b200 -n 4 --n_shards 1 --cpu 32 --mem 256G -p continual -g cg_safety_2b training.per_device_batch_size=8
uv run theseus submit hybrid_full_wsd_reset-p1 configs/data/cl100k/harmfulqa_red_2048.yaml -s configs/data/cl100k/mmlu_2048.yaml -s configs/data/cl100k/harmfulqa_blue_2048.yaml -s configs/data/cl100k/squad_2048.yaml -s configs/continual/cg_safety/2b/hybrid_full_wsd_reset.yaml --cluster bonete --chip b200 -n 4 --n_shards 1 --cpu 32 --mem 256G -p continual -g cg_safety_2b training.per_device_batch_size=8
uv run theseus submit hybrid_lora_cosine_rewarm-p1 configs/data/cl100k/harmfulqa_red_2048.yaml -s configs/data/cl100k/mmlu_2048.yaml -s configs/data/cl100k/harmfulqa_blue_2048.yaml -s configs/data/cl100k/squad_2048.yaml -s configs/continual/cg_safety/2b/hybrid_lora_cosine_rewarm.yaml --cluster bonete --chip b200 -n 4 --n_shards 1 --cpu 32 --mem 256G -p continual -g cg_safety_2b training.per_device_batch_size=8
uv run theseus submit hybrid_lora_wsd-p1 configs/data/cl100k/harmfulqa_red_2048.yaml -s configs/data/cl100k/mmlu_2048.yaml -s configs/data/cl100k/harmfulqa_blue_2048.yaml -s configs/data/cl100k/squad_2048.yaml -s configs/continual/cg_safety/2b/hybrid_lora_wsd.yaml --cluster bonete --chip b200 -n 4 --n_shards 1 --cpu 32 --mem 256G -p continual -g cg_safety_2b training.per_device_batch_size=8
uv run theseus submit hybrid_lora_wsd_reset-p1 configs/data/cl100k/harmfulqa_red_2048.yaml -s configs/data/cl100k/mmlu_2048.yaml -s configs/data/cl100k/harmfulqa_blue_2048.yaml -s configs/data/cl100k/squad_2048.yaml -s configs/continual/cg_safety/2b/hybrid_lora_wsd_reset.yaml --cluster bonete --chip b200 -n 4 --n_shards 1 --cpu 32 --mem 256G -p continual -g cg_safety_2b training.per_device_batch_size=8
uv run theseus submit lact_full_cosine_rewarm-p1 configs/data/cl100k/harmfulqa_red_2048.yaml -s configs/data/cl100k/mmlu_2048.yaml -s configs/data/cl100k/harmfulqa_blue_2048.yaml -s configs/data/cl100k/squad_2048.yaml -s configs/continual/cg_safety/2b/lact_full_cosine_rewarm.yaml --cluster bonete --chip b200 -n 4 --n_shards 1 --cpu 32 --mem 256G -p continual -g cg_safety_2b training.per_device_batch_size=8
uv run theseus submit lact_full_wsd-p1 configs/data/cl100k/harmfulqa_red_2048.yaml -s configs/data/cl100k/mmlu_2048.yaml -s configs/data/cl100k/harmfulqa_blue_2048.yaml -s configs/data/cl100k/squad_2048.yaml -s configs/continual/cg_safety/2b/lact_full_wsd.yaml --cluster bonete --chip b200 -n 4 --n_shards 1 --cpu 32 --mem 256G -p continual -g cg_safety_2b training.per_device_batch_size=8
uv run theseus submit lact_full_wsd_reset-p1 configs/data/cl100k/harmfulqa_red_2048.yaml -s configs/data/cl100k/mmlu_2048.yaml -s configs/data/cl100k/harmfulqa_blue_2048.yaml -s configs/data/cl100k/squad_2048.yaml -s configs/continual/cg_safety/2b/lact_full_wsd_reset.yaml --cluster bonete --chip b200 -n 4 --n_shards 1 --cpu 32 --mem 256G -p continual -g cg_safety_2b training.per_device_batch_size=8
uv run theseus submit lact_lora_cosine_rewarm-p1 configs/data/cl100k/harmfulqa_red_2048.yaml -s configs/data/cl100k/mmlu_2048.yaml -s configs/data/cl100k/harmfulqa_blue_2048.yaml -s configs/data/cl100k/squad_2048.yaml -s configs/continual/cg_safety/2b/lact_lora_cosine_rewarm.yaml --cluster bonete --chip b200 -n 4 --n_shards 1 --cpu 32 --mem 256G -p continual -g cg_safety_2b training.per_device_batch_size=8
uv run theseus submit lact_lora_wsd-p1 configs/data/cl100k/harmfulqa_red_2048.yaml -s configs/data/cl100k/mmlu_2048.yaml -s configs/data/cl100k/harmfulqa_blue_2048.yaml -s configs/data/cl100k/squad_2048.yaml -s configs/continual/cg_safety/2b/lact_lora_wsd.yaml --cluster bonete --chip b200 -n 4 --n_shards 1 --cpu 32 --mem 256G -p continual -g cg_safety_2b training.per_device_batch_size=8
uv run theseus submit lact_lora_wsd_reset-p1 configs/data/cl100k/harmfulqa_red_2048.yaml -s configs/data/cl100k/mmlu_2048.yaml -s configs/data/cl100k/harmfulqa_blue_2048.yaml -s configs/data/cl100k/squad_2048.yaml -s configs/continual/cg_safety/2b/lact_lora_wsd_reset.yaml --cluster bonete --chip b200 -n 4 --n_shards 1 --cpu 32 --mem 256G -p continual -g cg_safety_2b training.per_device_batch_size=8
uv run theseus submit mamba_full_cosine_rewarm-p1 configs/data/cl100k/harmfulqa_red_2048.yaml -s configs/data/cl100k/mmlu_2048.yaml -s configs/data/cl100k/harmfulqa_blue_2048.yaml -s configs/data/cl100k/squad_2048.yaml -s configs/continual/cg_safety/2b/mamba_full_cosine_rewarm.yaml --cluster bonete --chip b200 -n 4 --n_shards 1 --cpu 32 --mem 256G -p continual -g cg_safety_2b training.per_device_batch_size=8
uv run theseus submit mamba_full_wsd-p1 configs/data/cl100k/harmfulqa_red_2048.yaml -s configs/data/cl100k/mmlu_2048.yaml -s configs/data/cl100k/harmfulqa_blue_2048.yaml -s configs/data/cl100k/squad_2048.yaml -s configs/continual/cg_safety/2b/mamba_full_wsd.yaml --cluster bonete --chip b200 -n 4 --n_shards 1 --cpu 32 --mem 256G -p continual -g cg_safety_2b training.per_device_batch_size=8
uv run theseus submit mamba_full_wsd_reset-p1 configs/data/cl100k/harmfulqa_red_2048.yaml -s configs/data/cl100k/mmlu_2048.yaml -s configs/data/cl100k/harmfulqa_blue_2048.yaml -s configs/data/cl100k/squad_2048.yaml -s configs/continual/cg_safety/2b/mamba_full_wsd_reset.yaml --cluster bonete --chip b200 -n 4 --n_shards 1 --cpu 32 --mem 256G -p continual -g cg_safety_2b training.per_device_batch_size=8
uv run theseus submit mamba_lora_cosine_rewarm-p1 configs/data/cl100k/harmfulqa_red_2048.yaml -s configs/data/cl100k/mmlu_2048.yaml -s configs/data/cl100k/harmfulqa_blue_2048.yaml -s configs/data/cl100k/squad_2048.yaml -s configs/continual/cg_safety/2b/mamba_lora_cosine_rewarm.yaml --cluster bonete --chip b200 -n 4 --n_shards 1 --cpu 32 --mem 256G -p continual -g cg_safety_2b training.per_device_batch_size=8
uv run theseus submit mamba_lora_wsd-p1 configs/data/cl100k/harmfulqa_red_2048.yaml -s configs/data/cl100k/mmlu_2048.yaml -s configs/data/cl100k/harmfulqa_blue_2048.yaml -s configs/data/cl100k/squad_2048.yaml -s configs/continual/cg_safety/2b/mamba_lora_wsd.yaml --cluster bonete --chip b200 -n 4 --n_shards 1 --cpu 32 --mem 256G -p continual -g cg_safety_2b training.per_device_batch_size=8
uv run theseus submit mamba_lora_wsd_reset-p1 configs/data/cl100k/harmfulqa_red_2048.yaml -s configs/data/cl100k/mmlu_2048.yaml -s configs/data/cl100k/harmfulqa_blue_2048.yaml -s configs/data/cl100k/squad_2048.yaml -s configs/continual/cg_safety/2b/mamba_lora_wsd_reset.yaml --cluster bonete --chip b200 -n 4 --n_shards 1 --cpu 32 --mem 256G -p continual -g cg_safety_2b training.per_device_batch_size=8
uv run theseus submit moe_full_cosine_rewarm-p1 configs/data/cl100k/harmfulqa_red_2048.yaml -s configs/data/cl100k/mmlu_2048.yaml -s configs/data/cl100k/harmfulqa_blue_2048.yaml -s configs/data/cl100k/squad_2048.yaml -s configs/continual/cg_safety/2b/moe_full_cosine_rewarm.yaml --cluster bonete --chip b200 -n 4 --n_shards 1 --cpu 32 --mem 256G -p continual -g cg_safety_2b training.per_device_batch_size=8
uv run theseus submit moe_full_wsd-p1 configs/data/cl100k/harmfulqa_red_2048.yaml -s configs/data/cl100k/mmlu_2048.yaml -s configs/data/cl100k/harmfulqa_blue_2048.yaml -s configs/data/cl100k/squad_2048.yaml -s configs/continual/cg_safety/2b/moe_full_wsd.yaml --cluster bonete --chip b200 -n 4 --n_shards 1 --cpu 32 --mem 256G -p continual -g cg_safety_2b training.per_device_batch_size=8
uv run theseus submit moe_full_wsd_reset-p1 configs/data/cl100k/harmfulqa_red_2048.yaml -s configs/data/cl100k/mmlu_2048.yaml -s configs/data/cl100k/harmfulqa_blue_2048.yaml -s configs/data/cl100k/squad_2048.yaml -s configs/continual/cg_safety/2b/moe_full_wsd_reset.yaml --cluster bonete --chip b200 -n 4 --n_shards 1 --cpu 32 --mem 256G -p continual -g cg_safety_2b training.per_device_batch_size=8
uv run theseus submit moe_lora_cosine_rewarm-p1 configs/data/cl100k/harmfulqa_red_2048.yaml -s configs/data/cl100k/mmlu_2048.yaml -s configs/data/cl100k/harmfulqa_blue_2048.yaml -s configs/data/cl100k/squad_2048.yaml -s configs/continual/cg_safety/2b/moe_lora_cosine_rewarm.yaml --cluster bonete --chip b200 -n 4 --n_shards 1 --cpu 32 --mem 256G -p continual -g cg_safety_2b training.per_device_batch_size=8
uv run theseus submit moe_lora_wsd-p1 configs/data/cl100k/harmfulqa_red_2048.yaml -s configs/data/cl100k/mmlu_2048.yaml -s configs/data/cl100k/harmfulqa_blue_2048.yaml -s configs/data/cl100k/squad_2048.yaml -s configs/continual/cg_safety/2b/moe_lora_wsd.yaml --cluster bonete --chip b200 -n 4 --n_shards 1 --cpu 32 --mem 256G -p continual -g cg_safety_2b training.per_device_batch_size=8
uv run theseus submit moe_lora_wsd_reset-p1 configs/data/cl100k/harmfulqa_red_2048.yaml -s configs/data/cl100k/mmlu_2048.yaml -s configs/data/cl100k/harmfulqa_blue_2048.yaml -s configs/data/cl100k/squad_2048.yaml -s configs/continual/cg_safety/2b/moe_lora_wsd_reset.yaml --cluster bonete --chip b200 -n 4 --n_shards 1 --cpu 32 --mem 256G -p continual -g cg_safety_2b training.per_device_batch_size=8
uv run theseus submit transformer_full_cosine_rewarm-p1 configs/data/cl100k/harmfulqa_red_2048.yaml -s configs/data/cl100k/mmlu_2048.yaml -s configs/data/cl100k/harmfulqa_blue_2048.yaml -s configs/data/cl100k/squad_2048.yaml -s configs/continual/cg_safety/2b/transformer_full_cosine_rewarm.yaml --cluster bonete --chip b200 -n 4 --n_shards 1 --cpu 32 --mem 256G -p continual -g cg_safety_2b training.per_device_batch_size=8
uv run theseus submit transformer_full_wsd-p1 configs/data/cl100k/harmfulqa_red_2048.yaml -s configs/data/cl100k/mmlu_2048.yaml -s configs/data/cl100k/harmfulqa_blue_2048.yaml -s configs/data/cl100k/squad_2048.yaml -s configs/continual/cg_safety/2b/transformer_full_wsd.yaml --cluster bonete --chip b200 -n 4 --n_shards 1 --cpu 32 --mem 256G -p continual -g cg_safety_2b training.per_device_batch_size=8
uv run theseus submit transformer_full_wsd_reset-p1 configs/data/cl100k/harmfulqa_red_2048.yaml -s configs/data/cl100k/mmlu_2048.yaml -s configs/data/cl100k/harmfulqa_blue_2048.yaml -s configs/data/cl100k/squad_2048.yaml -s configs/continual/cg_safety/2b/transformer_full_wsd_reset.yaml --cluster bonete --chip b200 -n 4 --n_shards 1 --cpu 32 --mem 256G -p continual -g cg_safety_2b training.per_device_batch_size=8
uv run theseus submit transformer_lora_cosine_rewarm-p1 configs/data/cl100k/harmfulqa_red_2048.yaml -s configs/data/cl100k/mmlu_2048.yaml -s configs/data/cl100k/harmfulqa_blue_2048.yaml -s configs/data/cl100k/squad_2048.yaml -s configs/continual/cg_safety/2b/transformer_lora_cosine_rewarm.yaml --cluster bonete --chip b200 -n 4 --n_shards 1 --cpu 32 --mem 256G -p continual -g cg_safety_2b training.per_device_batch_size=8
uv run theseus submit transformer_lora_wsd-p1 configs/data/cl100k/harmfulqa_red_2048.yaml -s configs/data/cl100k/mmlu_2048.yaml -s configs/data/cl100k/harmfulqa_blue_2048.yaml -s configs/data/cl100k/squad_2048.yaml -s configs/continual/cg_safety/2b/transformer_lora_wsd.yaml --cluster bonete --chip b200 -n 4 --n_shards 1 --cpu 32 --mem 256G -p continual -g cg_safety_2b training.per_device_batch_size=8
uv run theseus submit transformer_lora_wsd_reset-p1 configs/data/cl100k/harmfulqa_red_2048.yaml -s configs/data/cl100k/mmlu_2048.yaml -s configs/data/cl100k/harmfulqa_blue_2048.yaml -s configs/data/cl100k/squad_2048.yaml -s configs/continual/cg_safety/2b/transformer_lora_wsd_reset.yaml --cluster bonete --chip b200 -n 4 --n_shards 1 --cpu 32 --mem 256G -p continual -g cg_safety_2b training.per_device_batch_size=8

cg_safety / 700m¶

uv run theseus submit hybrid_full_cosine_rewarm-p1 configs/data/cl100k/harmfulqa_red_2048.yaml -s configs/data/cl100k/mmlu_2048.yaml -s configs/data/cl100k/harmfulqa_blue_2048.yaml -s configs/data/cl100k/squad_2048.yaml -s configs/continual/cg_safety/700m/hybrid_full_cosine_rewarm.yaml --cluster bonete --chip b200 -n 4 --n_shards 1 --cpu 32 --mem 256G -p continual -g cg_safety_700m training.per_device_batch_size=8
uv run theseus submit hybrid_full_wsd-p1 configs/data/cl100k/harmfulqa_red_2048.yaml -s configs/data/cl100k/mmlu_2048.yaml -s configs/data/cl100k/harmfulqa_blue_2048.yaml -s configs/data/cl100k/squad_2048.yaml -s configs/continual/cg_safety/700m/hybrid_full_wsd.yaml --cluster bonete --chip b200 -n 4 --n_shards 1 --cpu 32 --mem 256G -p continual -g cg_safety_700m training.per_device_batch_size=8
uv run theseus submit hybrid_full_wsd_reset-p1 configs/data/cl100k/harmfulqa_red_2048.yaml -s configs/data/cl100k/mmlu_2048.yaml -s configs/data/cl100k/harmfulqa_blue_2048.yaml -s configs/data/cl100k/squad_2048.yaml -s configs/continual/cg_safety/700m/hybrid_full_wsd_reset.yaml --cluster bonete --chip b200 -n 4 --n_shards 1 --cpu 32 --mem 256G -p continual -g cg_safety_700m training.per_device_batch_size=8
uv run theseus submit hybrid_lora_cosine_rewarm-p1 configs/data/cl100k/harmfulqa_red_2048.yaml -s configs/data/cl100k/mmlu_2048.yaml -s configs/data/cl100k/harmfulqa_blue_2048.yaml -s configs/data/cl100k/squad_2048.yaml -s configs/continual/cg_safety/700m/hybrid_lora_cosine_rewarm.yaml --cluster bonete --chip b200 -n 4 --n_shards 1 --cpu 32 --mem 256G -p continual -g cg_safety_700m training.per_device_batch_size=8
uv run theseus submit hybrid_lora_wsd-p1 configs/data/cl100k/harmfulqa_red_2048.yaml -s configs/data/cl100k/mmlu_2048.yaml -s configs/data/cl100k/harmfulqa_blue_2048.yaml -s configs/data/cl100k/squad_2048.yaml -s configs/continual/cg_safety/700m/hybrid_lora_wsd.yaml --cluster bonete --chip b200 -n 4 --n_shards 1 --cpu 32 --mem 256G -p continual -g cg_safety_700m training.per_device_batch_size=8
uv run theseus submit hybrid_lora_wsd_reset-p1 configs/data/cl100k/harmfulqa_red_2048.yaml -s configs/data/cl100k/mmlu_2048.yaml -s configs/data/cl100k/harmfulqa_blue_2048.yaml -s configs/data/cl100k/squad_2048.yaml -s configs/continual/cg_safety/700m/hybrid_lora_wsd_reset.yaml --cluster bonete --chip b200 -n 4 --n_shards 1 --cpu 32 --mem 256G -p continual -g cg_safety_700m training.per_device_batch_size=8
uv run theseus submit lact_full_cosine_rewarm-p1 configs/data/cl100k/harmfulqa_red_2048.yaml -s configs/data/cl100k/mmlu_2048.yaml -s configs/data/cl100k/harmfulqa_blue_2048.yaml -s configs/data/cl100k/squad_2048.yaml -s configs/continual/cg_safety/700m/lact_full_cosine_rewarm.yaml --cluster bonete --chip b200 -n 4 --n_shards 1 --cpu 32 --mem 256G -p continual -g cg_safety_700m training.per_device_batch_size=8
uv run theseus submit lact_full_wsd-p1 configs/data/cl100k/harmfulqa_red_2048.yaml -s configs/data/cl100k/mmlu_2048.yaml -s configs/data/cl100k/harmfulqa_blue_2048.yaml -s configs/data/cl100k/squad_2048.yaml -s configs/continual/cg_safety/700m/lact_full_wsd.yaml --cluster bonete --chip b200 -n 4 --n_shards 1 --cpu 32 --mem 256G -p continual -g cg_safety_700m training.per_device_batch_size=8
uv run theseus submit lact_full_wsd_reset-p1 configs/data/cl100k/harmfulqa_red_2048.yaml -s configs/data/cl100k/mmlu_2048.yaml -s configs/data/cl100k/harmfulqa_blue_2048.yaml -s configs/data/cl100k/squad_2048.yaml -s configs/continual/cg_safety/700m/lact_full_wsd_reset.yaml --cluster bonete --chip b200 -n 4 --n_shards 1 --cpu 32 --mem 256G -p continual -g cg_safety_700m training.per_device_batch_size=8
uv run theseus submit lact_lora_cosine_rewarm-p1 configs/data/cl100k/harmfulqa_red_2048.yaml -s configs/data/cl100k/mmlu_2048.yaml -s configs/data/cl100k/harmfulqa_blue_2048.yaml -s configs/data/cl100k/squad_2048.yaml -s configs/continual/cg_safety/700m/lact_lora_cosine_rewarm.yaml --cluster bonete --chip b200 -n 4 --n_shards 1 --cpu 32 --mem 256G -p continual -g cg_safety_700m training.per_device_batch_size=8
uv run theseus submit lact_lora_wsd-p1 configs/data/cl100k/harmfulqa_red_2048.yaml -s configs/data/cl100k/mmlu_2048.yaml -s configs/data/cl100k/harmfulqa_blue_2048.yaml -s configs/data/cl100k/squad_2048.yaml -s configs/continual/cg_safety/700m/lact_lora_wsd.yaml --cluster bonete --chip b200 -n 4 --n_shards 1 --cpu 32 --mem 256G -p continual -g cg_safety_700m training.per_device_batch_size=8
uv run theseus submit lact_lora_wsd_reset-p1 configs/data/cl100k/harmfulqa_red_2048.yaml -s configs/data/cl100k/mmlu_2048.yaml -s configs/data/cl100k/harmfulqa_blue_2048.yaml -s configs/data/cl100k/squad_2048.yaml -s configs/continual/cg_safety/700m/lact_lora_wsd_reset.yaml --cluster bonete --chip b200 -n 4 --n_shards 1 --cpu 32 --mem 256G -p continual -g cg_safety_700m training.per_device_batch_size=8
uv run theseus submit mamba_full_cosine_rewarm-p1 configs/data/cl100k/harmfulqa_red_2048.yaml -s configs/data/cl100k/mmlu_2048.yaml -s configs/data/cl100k/harmfulqa_blue_2048.yaml -s configs/data/cl100k/squad_2048.yaml -s configs/continual/cg_safety/700m/mamba_full_cosine_rewarm.yaml --cluster bonete --chip b200 -n 4 --n_shards 1 --cpu 32 --mem 256G -p continual -g cg_safety_700m training.per_device_batch_size=8
uv run theseus submit mamba_full_wsd-p1 configs/data/cl100k/harmfulqa_red_2048.yaml -s configs/data/cl100k/mmlu_2048.yaml -s configs/data/cl100k/harmfulqa_blue_2048.yaml -s configs/data/cl100k/squad_2048.yaml -s configs/continual/cg_safety/700m/mamba_full_wsd.yaml --cluster bonete --chip b200 -n 4 --n_shards 1 --cpu 32 --mem 256G -p continual -g cg_safety_700m training.per_device_batch_size=8
uv run theseus submit mamba_full_wsd_reset-p1 configs/data/cl100k/harmfulqa_red_2048.yaml -s configs/data/cl100k/mmlu_2048.yaml -s configs/data/cl100k/harmfulqa_blue_2048.yaml -s configs/data/cl100k/squad_2048.yaml -s configs/continual/cg_safety/700m/mamba_full_wsd_reset.yaml --cluster bonete --chip b200 -n 4 --n_shards 1 --cpu 32 --mem 256G -p continual -g cg_safety_700m training.per_device_batch_size=8
uv run theseus submit mamba_lora_cosine_rewarm-p1 configs/data/cl100k/harmfulqa_red_2048.yaml -s configs/data/cl100k/mmlu_2048.yaml -s configs/data/cl100k/harmfulqa_blue_2048.yaml -s configs/data/cl100k/squad_2048.yaml -s configs/continual/cg_safety/700m/mamba_lora_cosine_rewarm.yaml --cluster bonete --chip b200 -n 4 --n_shards 1 --cpu 32 --mem 256G -p continual -g cg_safety_700m training.per_device_batch_size=8
uv run theseus submit mamba_lora_wsd-p1 configs/data/cl100k/harmfulqa_red_2048.yaml -s configs/data/cl100k/mmlu_2048.yaml -s configs/data/cl100k/harmfulqa_blue_2048.yaml -s configs/data/cl100k/squad_2048.yaml -s configs/continual/cg_safety/700m/mamba_lora_wsd.yaml --cluster bonete --chip b200 -n 4 --n_shards 1 --cpu 32 --mem 256G -p continual -g cg_safety_700m training.per_device_batch_size=8
uv run theseus submit mamba_lora_wsd_reset-p1 configs/data/cl100k/harmfulqa_red_2048.yaml -s configs/data/cl100k/mmlu_2048.yaml -s configs/data/cl100k/harmfulqa_blue_2048.yaml -s configs/data/cl100k/squad_2048.yaml -s configs/continual/cg_safety/700m/mamba_lora_wsd_reset.yaml --cluster bonete --chip b200 -n 4 --n_shards 1 --cpu 32 --mem 256G -p continual -g cg_safety_700m training.per_device_batch_size=8
uv run theseus submit moe_full_cosine_rewarm-p1 configs/data/cl100k/harmfulqa_red_2048.yaml -s configs/data/cl100k/mmlu_2048.yaml -s configs/data/cl100k/harmfulqa_blue_2048.yaml -s configs/data/cl100k/squad_2048.yaml -s configs/continual/cg_safety/700m/moe_full_cosine_rewarm.yaml --cluster bonete --chip b200 -n 4 --n_shards 1 --cpu 32 --mem 256G -p continual -g cg_safety_700m training.per_device_batch_size=8
uv run theseus submit moe_full_wsd-p1 configs/data/cl100k/harmfulqa_red_2048.yaml -s configs/data/cl100k/mmlu_2048.yaml -s configs/data/cl100k/harmfulqa_blue_2048.yaml -s configs/data/cl100k/squad_2048.yaml -s configs/continual/cg_safety/700m/moe_full_wsd.yaml --cluster bonete --chip b200 -n 4 --n_shards 1 --cpu 32 --mem 256G -p continual -g cg_safety_700m training.per_device_batch_size=8
uv run theseus submit moe_full_wsd_reset-p1 configs/data/cl100k/harmfulqa_red_2048.yaml -s configs/data/cl100k/mmlu_2048.yaml -s configs/data/cl100k/harmfulqa_blue_2048.yaml -s configs/data/cl100k/squad_2048.yaml -s configs/continual/cg_safety/700m/moe_full_wsd_reset.yaml --cluster bonete --chip b200 -n 4 --n_shards 1 --cpu 32 --mem 256G -p continual -g cg_safety_700m training.per_device_batch_size=8
uv run theseus submit moe_lora_cosine_rewarm-p1 configs/data/cl100k/harmfulqa_red_2048.yaml -s configs/data/cl100k/mmlu_2048.yaml -s configs/data/cl100k/harmfulqa_blue_2048.yaml -s configs/data/cl100k/squad_2048.yaml -s configs/continual/cg_safety/700m/moe_lora_cosine_rewarm.yaml --cluster bonete --chip b200 -n 4 --n_shards 1 --cpu 32 --mem 256G -p continual -g cg_safety_700m training.per_device_batch_size=8
uv run theseus submit moe_lora_wsd-p1 configs/data/cl100k/harmfulqa_red_2048.yaml -s configs/data/cl100k/mmlu_2048.yaml -s configs/data/cl100k/harmfulqa_blue_2048.yaml -s configs/data/cl100k/squad_2048.yaml -s configs/continual/cg_safety/700m/moe_lora_wsd.yaml --cluster bonete --chip b200 -n 4 --n_shards 1 --cpu 32 --mem 256G -p continual -g cg_safety_700m training.per_device_batch_size=8
uv run theseus submit moe_lora_wsd_reset-p1 configs/data/cl100k/harmfulqa_red_2048.yaml -s configs/data/cl100k/mmlu_2048.yaml -s configs/data/cl100k/harmfulqa_blue_2048.yaml -s configs/data/cl100k/squad_2048.yaml -s configs/continual/cg_safety/700m/moe_lora_wsd_reset.yaml --cluster bonete --chip b200 -n 4 --n_shards 1 --cpu 32 --mem 256G -p continual -g cg_safety_700m training.per_device_batch_size=8
uv run theseus submit transformer_full_cosine_rewarm-p1 configs/data/cl100k/harmfulqa_red_2048.yaml -s configs/data/cl100k/mmlu_2048.yaml -s configs/data/cl100k/harmfulqa_blue_2048.yaml -s configs/data/cl100k/squad_2048.yaml -s configs/continual/cg_safety/700m/transformer_full_cosine_rewarm.yaml --cluster bonete --chip b200 -n 4 --n_shards 1 --cpu 32 --mem 256G -p continual -g cg_safety_700m training.per_device_batch_size=8
uv run theseus submit transformer_full_wsd-p1 configs/data/cl100k/harmfulqa_red_2048.yaml -s configs/data/cl100k/mmlu_2048.yaml -s configs/data/cl100k/harmfulqa_blue_2048.yaml -s configs/data/cl100k/squad_2048.yaml -s configs/continual/cg_safety/700m/transformer_full_wsd.yaml --cluster bonete --chip b200 -n 4 --n_shards 1 --cpu 32 --mem 256G -p continual -g cg_safety_700m training.per_device_batch_size=8
uv run theseus submit transformer_full_wsd_reset-p1 configs/data/cl100k/harmfulqa_red_2048.yaml -s configs/data/cl100k/mmlu_2048.yaml -s configs/data/cl100k/harmfulqa_blue_2048.yaml -s configs/data/cl100k/squad_2048.yaml -s configs/continual/cg_safety/700m/transformer_full_wsd_reset.yaml --cluster bonete --chip b200 -n 4 --n_shards 1 --cpu 32 --mem 256G -p continual -g cg_safety_700m training.per_device_batch_size=8
uv run theseus submit transformer_lora_cosine_rewarm-p1 configs/data/cl100k/harmfulqa_red_2048.yaml -s configs/data/cl100k/mmlu_2048.yaml -s configs/data/cl100k/harmfulqa_blue_2048.yaml -s configs/data/cl100k/squad_2048.yaml -s configs/continual/cg_safety/700m/transformer_lora_cosine_rewarm.yaml --cluster bonete --chip b200 -n 4 --n_shards 1 --cpu 32 --mem 256G -p continual -g cg_safety_700m training.per_device_batch_size=8
uv run theseus submit transformer_lora_wsd-p1 configs/data/cl100k/harmfulqa_red_2048.yaml -s configs/data/cl100k/mmlu_2048.yaml -s configs/data/cl100k/harmfulqa_blue_2048.yaml -s configs/data/cl100k/squad_2048.yaml -s configs/continual/cg_safety/700m/transformer_lora_wsd.yaml --cluster bonete --chip b200 -n 4 --n_shards 1 --cpu 32 --mem 256G -p continual -g cg_safety_700m training.per_device_batch_size=8
uv run theseus submit transformer_lora_wsd_reset-p1 configs/data/cl100k/harmfulqa_red_2048.yaml -s configs/data/cl100k/mmlu_2048.yaml -s configs/data/cl100k/harmfulqa_blue_2048.yaml -s configs/data/cl100k/squad_2048.yaml -s configs/continual/cg_safety/700m/transformer_lora_wsd_reset.yaml --cluster bonete --chip b200 -n 4 --n_shards 1 --cpu 32 --mem 256G -p continual -g cg_safety_700m training.per_device_batch_size=8

ds_domain / 1b¶

uv run theseus submit hybrid_full_cosine_rewarm-p1 configs/continual/ds_domain/1b/hybrid_full_cosine_rewarm.yaml --cluster bonete --chip b200 -n 4 --n_shards 1 --cpu 32 --mem 256G -p continual -g ds_domain_1b training.per_device_batch_size=8
uv run theseus submit hybrid_full_wsd-p1 configs/continual/ds_domain/1b/hybrid_full_wsd.yaml --cluster bonete --chip b200 -n 4 --n_shards 1 --cpu 32 --mem 256G -p continual -g ds_domain_1b training.per_device_batch_size=8
uv run theseus submit hybrid_full_wsd_reset-p1 configs/continual/ds_domain/1b/hybrid_full_wsd_reset.yaml --cluster bonete --chip b200 -n 4 --n_shards 1 --cpu 32 --mem 256G -p continual -g ds_domain_1b training.per_device_batch_size=8
uv run theseus submit hybrid_lora_cosine_rewarm-p1 configs/continual/ds_domain/1b/hybrid_lora_cosine_rewarm.yaml --cluster bonete --chip b200 -n 4 --n_shards 1 --cpu 32 --mem 256G -p continual -g ds_domain_1b training.per_device_batch_size=8
uv run theseus submit hybrid_lora_wsd-p1 configs/continual/ds_domain/1b/hybrid_lora_wsd.yaml --cluster bonete --chip b200 -n 4 --n_shards 1 --cpu 32 --mem 256G -p continual -g ds_domain_1b training.per_device_batch_size=8
uv run theseus submit hybrid_lora_wsd_reset-p1 configs/continual/ds_domain/1b/hybrid_lora_wsd_reset.yaml --cluster bonete --chip b200 -n 4 --n_shards 1 --cpu 32 --mem 256G -p continual -g ds_domain_1b training.per_device_batch_size=8
uv run theseus submit lact_full_cosine_rewarm-p1 configs/continual/ds_domain/1b/lact_full_cosine_rewarm.yaml --cluster bonete --chip b200 -n 4 --n_shards 1 --cpu 32 --mem 256G -p continual -g ds_domain_1b training.per_device_batch_size=8
uv run theseus submit lact_full_wsd-p1 configs/continual/ds_domain/1b/lact_full_wsd.yaml --cluster bonete --chip b200 -n 4 --n_shards 1 --cpu 32 --mem 256G -p continual -g ds_domain_1b training.per_device_batch_size=8
uv run theseus submit lact_full_wsd_reset-p1 configs/continual/ds_domain/1b/lact_full_wsd_reset.yaml --cluster bonete --chip b200 -n 4 --n_shards 1 --cpu 32 --mem 256G -p continual -g ds_domain_1b training.per_device_batch_size=8
uv run theseus submit lact_full_wsd_shuffled-p1 configs/continual/ds_domain/1b/lact_full_wsd_shuffled.yaml --cluster bonete --chip b200 -n 4 --n_shards 1 --cpu 32 --mem 256G -p continual -g ds_domain_1b training.per_device_batch_size=8
uv run theseus submit lact_lora_cosine_rewarm-p1 configs/continual/ds_domain/1b/lact_lora_cosine_rewarm.yaml --cluster bonete --chip b200 -n 4 --n_shards 1 --cpu 32 --mem 256G -p continual -g ds_domain_1b training.per_device_batch_size=8
uv run theseus submit lact_lora_wsd-p1 configs/continual/ds_domain/1b/lact_lora_wsd.yaml --cluster bonete --chip b200 -n 4 --n_shards 1 --cpu 32 --mem 256G -p continual -g ds_domain_1b training.per_device_batch_size=8
uv run theseus submit lact_lora_wsd_reset-p1 configs/continual/ds_domain/1b/lact_lora_wsd_reset.yaml --cluster bonete --chip b200 -n 4 --n_shards 1 --cpu 32 --mem 256G -p continual -g ds_domain_1b training.per_device_batch_size=8
uv run theseus submit mamba_full_cosine_rewarm-p1 configs/continual/ds_domain/1b/mamba_full_cosine_rewarm.yaml --cluster bonete --chip b200 -n 4 --n_shards 1 --cpu 32 --mem 256G -p continual -g ds_domain_1b training.per_device_batch_size=8
uv run theseus submit mamba_full_wsd-p1 configs/continual/ds_domain/1b/mamba_full_wsd.yaml --cluster bonete --chip b200 -n 4 --n_shards 1 --cpu 32 --mem 256G -p continual -g ds_domain_1b training.per_device_batch_size=8
uv run theseus submit mamba_full_wsd_reset-p1 configs/continual/ds_domain/1b/mamba_full_wsd_reset.yaml --cluster bonete --chip b200 -n 4 --n_shards 1 --cpu 32 --mem 256G -p continual -g ds_domain_1b training.per_device_batch_size=8
uv run theseus submit mamba_full_wsd_shuffled-p1 configs/continual/ds_domain/1b/mamba_full_wsd_shuffled.yaml --cluster bonete --chip b200 -n 4 --n_shards 1 --cpu 32 --mem 256G -p continual -g ds_domain_1b training.per_device_batch_size=8
uv run theseus submit mamba_lora_cosine_rewarm-p1 configs/continual/ds_domain/1b/mamba_lora_cosine_rewarm.yaml --cluster bonete --chip b200 -n 4 --n_shards 1 --cpu 32 --mem 256G -p continual -g ds_domain_1b training.per_device_batch_size=8
uv run theseus submit mamba_lora_wsd-p1 configs/continual/ds_domain/1b/mamba_lora_wsd.yaml --cluster bonete --chip b200 -n 4 --n_shards 1 --cpu 32 --mem 256G -p continual -g ds_domain_1b training.per_device_batch_size=8
uv run theseus submit mamba_lora_wsd_reset-p1 configs/continual/ds_domain/1b/mamba_lora_wsd_reset.yaml --cluster bonete --chip b200 -n 4 --n_shards 1 --cpu 32 --mem 256G -p continual -g ds_domain_1b training.per_device_batch_size=8
uv run theseus submit moe_full_cosine_rewarm-p1 configs/continual/ds_domain/1b/moe_full_cosine_rewarm.yaml --cluster bonete --chip b200 -n 4 --n_shards 1 --cpu 32 --mem 256G -p continual -g ds_domain_1b training.per_device_batch_size=8
uv run theseus submit moe_full_wsd-p1 configs/continual/ds_domain/1b/moe_full_wsd.yaml --cluster bonete --chip b200 -n 4 --n_shards 1 --cpu 32 --mem 256G -p continual -g ds_domain_1b training.per_device_batch_size=8
uv run theseus submit moe_full_wsd_reset-p1 configs/continual/ds_domain/1b/moe_full_wsd_reset.yaml --cluster bonete --chip b200 -n 4 --n_shards 1 --cpu 32 --mem 256G -p continual -g ds_domain_1b training.per_device_batch_size=8
uv run theseus submit moe_full_wsd_shuffled-p1 configs/continual/ds_domain/1b/moe_full_wsd_shuffled.yaml --cluster bonete --chip b200 -n 4 --n_shards 1 --cpu 32 --mem 256G -p continual -g ds_domain_1b training.per_device_batch_size=8
uv run theseus submit moe_lora_cosine_rewarm-p1 configs/continual/ds_domain/1b/moe_lora_cosine_rewarm.yaml --cluster bonete --chip b200 -n 4 --n_shards 1 --cpu 32 --mem 256G -p continual -g ds_domain_1b training.per_device_batch_size=8
uv run theseus submit moe_lora_wsd-p1 configs/continual/ds_domain/1b/moe_lora_wsd.yaml --cluster bonete --chip b200 -n 4 --n_shards 1 --cpu 32 --mem 256G -p continual -g ds_domain_1b training.per_device_batch_size=8
uv run theseus submit moe_lora_wsd_reset-p1 configs/continual/ds_domain/1b/moe_lora_wsd_reset.yaml --cluster bonete --chip b200 -n 4 --n_shards 1 --cpu 32 --mem 256G -p continual -g ds_domain_1b training.per_device_batch_size=8
uv run theseus submit transformer_full_cosine_rewarm-p1 configs/continual/ds_domain/1b/transformer_full_cosine_rewarm.yaml --cluster bonete --chip b200 -n 4 --n_shards 1 --cpu 32 --mem 256G -p continual -g ds_domain_1b training.per_device_batch_size=8
uv run theseus submit transformer_full_wsd-p1 configs/continual/ds_domain/1b/transformer_full_wsd.yaml --cluster bonete --chip b200 -n 4 --n_shards 1 --cpu 32 --mem 256G -p continual -g ds_domain_1b training.per_device_batch_size=8
uv run theseus submit transformer_full_wsd_reset-p1 configs/continual/ds_domain/1b/transformer_full_wsd_reset.yaml --cluster bonete --chip b200 -n 4 --n_shards 1 --cpu 32 --mem 256G -p continual -g ds_domain_1b training.per_device_batch_size=8
uv run theseus submit transformer_full_wsd_shuffled-p1 configs/continual/ds_domain/1b/transformer_full_wsd_shuffled.yaml --cluster bonete --chip b200 -n 4 --n_shards 1 --cpu 32 --mem 256G -p continual -g ds_domain_1b training.per_device_batch_size=8
uv run theseus submit transformer_lora_cosine_rewarm-p1 configs/continual/ds_domain/1b/transformer_lora_cosine_rewarm.yaml --cluster bonete --chip b200 -n 4 --n_shards 1 --cpu 32 --mem 256G -p continual -g ds_domain_1b training.per_device_batch_size=8
uv run theseus submit transformer_lora_wsd-p1 configs/continual/ds_domain/1b/transformer_lora_wsd.yaml --cluster bonete --chip b200 -n 4 --n_shards 1 --cpu 32 --mem 256G -p continual -g ds_domain_1b training.per_device_batch_size=8
uv run theseus submit transformer_lora_wsd_reset-p1 configs/continual/ds_domain/1b/transformer_lora_wsd_reset.yaml --cluster bonete --chip b200 -n 4 --n_shards 1 --cpu 32 --mem 256G -p continual -g ds_domain_1b training.per_device_batch_size=8

ds_domain / 2b¶

uv run theseus submit hybrid_full_cosine_rewarm-p1 configs/continual/ds_domain/2b/hybrid_full_cosine_rewarm.yaml --cluster bonete --chip b200 -n 4 --n_shards 1 --cpu 32 --mem 256G -p continual -g ds_domain_2b training.per_device_batch_size=8
uv run theseus submit hybrid_full_wsd-p1 configs/continual/ds_domain/2b/hybrid_full_wsd.yaml --cluster bonete --chip b200 -n 4 --n_shards 1 --cpu 32 --mem 256G -p continual -g ds_domain_2b training.per_device_batch_size=8
uv run theseus submit hybrid_full_wsd_reset-p1 configs/continual/ds_domain/2b/hybrid_full_wsd_reset.yaml --cluster bonete --chip b200 -n 4 --n_shards 1 --cpu 32 --mem 256G -p continual -g ds_domain_2b training.per_device_batch_size=8
uv run theseus submit hybrid_lora_cosine_rewarm-p1 configs/continual/ds_domain/2b/hybrid_lora_cosine_rewarm.yaml --cluster bonete --chip b200 -n 4 --n_shards 1 --cpu 32 --mem 256G -p continual -g ds_domain_2b training.per_device_batch_size=8
uv run theseus submit hybrid_lora_wsd-p1 configs/continual/ds_domain/2b/hybrid_lora_wsd.yaml --cluster bonete --chip b200 -n 4 --n_shards 1 --cpu 32 --mem 256G -p continual -g ds_domain_2b training.per_device_batch_size=8
uv run theseus submit hybrid_lora_wsd_reset-p1 configs/continual/ds_domain/2b/hybrid_lora_wsd_reset.yaml --cluster bonete --chip b200 -n 4 --n_shards 1 --cpu 32 --mem 256G -p continual -g ds_domain_2b training.per_device_batch_size=8
uv run theseus submit lact_full_cosine_rewarm-p1 configs/continual/ds_domain/2b/lact_full_cosine_rewarm.yaml --cluster bonete --chip b200 -n 4 --n_shards 1 --cpu 32 --mem 256G -p continual -g ds_domain_2b training.per_device_batch_size=8
uv run theseus submit lact_full_wsd-p1 configs/continual/ds_domain/2b/lact_full_wsd.yaml --cluster bonete --chip b200 -n 4 --n_shards 1 --cpu 32 --mem 256G -p continual -g ds_domain_2b training.per_device_batch_size=8
uv run theseus submit lact_full_wsd_reset-p1 configs/continual/ds_domain/2b/lact_full_wsd_reset.yaml --cluster bonete --chip b200 -n 4 --n_shards 1 --cpu 32 --mem 256G -p continual -g ds_domain_2b training.per_device_batch_size=8
uv run theseus submit lact_lora_cosine_rewarm-p1 configs/continual/ds_domain/2b/lact_lora_cosine_rewarm.yaml --cluster bonete --chip b200 -n 4 --n_shards 1 --cpu 32 --mem 256G -p continual -g ds_domain_2b training.per_device_batch_size=8
uv run theseus submit lact_lora_wsd-p1 configs/continual/ds_domain/2b/lact_lora_wsd.yaml --cluster bonete --chip b200 -n 4 --n_shards 1 --cpu 32 --mem 256G -p continual -g ds_domain_2b training.per_device_batch_size=8
uv run theseus submit lact_lora_wsd_reset-p1 configs/continual/ds_domain/2b/lact_lora_wsd_reset.yaml --cluster bonete --chip b200 -n 4 --n_shards 1 --cpu 32 --mem 256G -p continual -g ds_domain_2b training.per_device_batch_size=8
uv run theseus submit mamba_full_cosine_rewarm-p1 configs/continual/ds_domain/2b/mamba_full_cosine_rewarm.yaml --cluster bonete --chip b200 -n 4 --n_shards 1 --cpu 32 --mem 256G -p continual -g ds_domain_2b training.per_device_batch_size=8
uv run theseus submit mamba_full_wsd-p1 configs/continual/ds_domain/2b/mamba_full_wsd.yaml --cluster bonete --chip b200 -n 4 --n_shards 1 --cpu 32 --mem 256G -p continual -g ds_domain_2b training.per_device_batch_size=8
uv run theseus submit mamba_full_wsd_reset-p1 configs/continual/ds_domain/2b/mamba_full_wsd_reset.yaml --cluster bonete --chip b200 -n 4 --n_shards 1 --cpu 32 --mem 256G -p continual -g ds_domain_2b training.per_device_batch_size=8
uv run theseus submit mamba_lora_cosine_rewarm-p1 configs/continual/ds_domain/2b/mamba_lora_cosine_rewarm.yaml --cluster bonete --chip b200 -n 4 --n_shards 1 --cpu 32 --mem 256G -p continual -g ds_domain_2b training.per_device_batch_size=8
uv run theseus submit mamba_lora_wsd-p1 configs/continual/ds_domain/2b/mamba_lora_wsd.yaml --cluster bonete --chip b200 -n 4 --n_shards 1 --cpu 32 --mem 256G -p continual -g ds_domain_2b training.per_device_batch_size=8
uv run theseus submit mamba_lora_wsd_reset-p1 configs/continual/ds_domain/2b/mamba_lora_wsd_reset.yaml --cluster bonete --chip b200 -n 4 --n_shards 1 --cpu 32 --mem 256G -p continual -g ds_domain_2b training.per_device_batch_size=8
uv run theseus submit moe_full_cosine_rewarm-p1 configs/continual/ds_domain/2b/moe_full_cosine_rewarm.yaml --cluster bonete --chip b200 -n 4 --n_shards 1 --cpu 32 --mem 256G -p continual -g ds_domain_2b training.per_device_batch_size=8
uv run theseus submit moe_full_wsd-p1 configs/continual/ds_domain/2b/moe_full_wsd.yaml --cluster bonete --chip b200 -n 4 --n_shards 1 --cpu 32 --mem 256G -p continual -g ds_domain_2b training.per_device_batch_size=8
uv run theseus submit moe_full_wsd_reset-p1 configs/continual/ds_domain/2b/moe_full_wsd_reset.yaml --cluster bonete --chip b200 -n 4 --n_shards 1 --cpu 32 --mem 256G -p continual -g ds_domain_2b training.per_device_batch_size=8
uv run theseus submit moe_lora_cosine_rewarm-p1 configs/continual/ds_domain/2b/moe_lora_cosine_rewarm.yaml --cluster bonete --chip b200 -n 4 --n_shards 1 --cpu 32 --mem 256G -p continual -g ds_domain_2b training.per_device_batch_size=8
uv run theseus submit moe_lora_wsd-p1 configs/continual/ds_domain/2b/moe_lora_wsd.yaml --cluster bonete --chip b200 -n 4 --n_shards 1 --cpu 32 --mem 256G -p continual -g ds_domain_2b training.per_device_batch_size=8
uv run theseus submit moe_lora_wsd_reset-p1 configs/continual/ds_domain/2b/moe_lora_wsd_reset.yaml --cluster bonete --chip b200 -n 4 --n_shards 1 --cpu 32 --mem 256G -p continual -g ds_domain_2b training.per_device_batch_size=8
uv run theseus submit transformer_full_cosine_rewarm-p1 configs/continual/ds_domain/2b/transformer_full_cosine_rewarm.yaml --cluster bonete --chip b200 -n 4 --n_shards 1 --cpu 32 --mem 256G -p continual -g ds_domain_2b training.per_device_batch_size=8
uv run theseus submit transformer_full_wsd-p1 configs/continual/ds_domain/2b/transformer_full_wsd.yaml --cluster bonete --chip b200 -n 4 --n_shards 1 --cpu 32 --mem 256G -p continual -g ds_domain_2b training.per_device_batch_size=8
uv run theseus submit transformer_full_wsd_reset-p1 configs/continual/ds_domain/2b/transformer_full_wsd_reset.yaml --cluster bonete --chip b200 -n 4 --n_shards 1 --cpu 32 --mem 256G -p continual -g ds_domain_2b training.per_device_batch_size=8
uv run theseus submit transformer_lora_cosine_rewarm-p1 configs/continual/ds_domain/2b/transformer_lora_cosine_rewarm.yaml --cluster bonete --chip b200 -n 4 --n_shards 1 --cpu 32 --mem 256G -p continual -g ds_domain_2b training.per_device_batch_size=8
uv run theseus submit transformer_lora_wsd-p1 configs/continual/ds_domain/2b/transformer_lora_wsd.yaml --cluster bonete --chip b200 -n 4 --n_shards 1 --cpu 32 --mem 256G -p continual -g ds_domain_2b training.per_device_batch_size=8
uv run theseus submit transformer_lora_wsd_reset-p1 configs/continual/ds_domain/2b/transformer_lora_wsd_reset.yaml --cluster bonete --chip b200 -n 4 --n_shards 1 --cpu 32 --mem 256G -p continual -g ds_domain_2b training.per_device_batch_size=8

ds_domain / 700m¶

uv run theseus submit hybrid_full_cosine_rewarm-p1 configs/continual/ds_domain/700m/hybrid_full_cosine_rewarm.yaml --cluster bonete --chip b200 -n 4 --n_shards 1 --cpu 32 --mem 256G -p continual -g ds_domain_700m training.per_device_batch_size=8
uv run theseus submit hybrid_full_wsd-p1 configs/continual/ds_domain/700m/hybrid_full_wsd.yaml --cluster bonete --chip b200 -n 4 --n_shards 1 --cpu 32 --mem 256G -p continual -g ds_domain_700m training.per_device_batch_size=8
uv run theseus submit hybrid_full_wsd_reset-p1 configs/continual/ds_domain/700m/hybrid_full_wsd_reset.yaml --cluster bonete --chip b200 -n 4 --n_shards 1 --cpu 32 --mem 256G -p continual -g ds_domain_700m training.per_device_batch_size=8
uv run theseus submit hybrid_lora_cosine_rewarm-p1 configs/continual/ds_domain/700m/hybrid_lora_cosine_rewarm.yaml --cluster bonete --chip b200 -n 4 --n_shards 1 --cpu 32 --mem 256G -p continual -g ds_domain_700m training.per_device_batch_size=8
uv run theseus submit hybrid_lora_wsd-p1 configs/continual/ds_domain/700m/hybrid_lora_wsd.yaml --cluster bonete --chip b200 -n 4 --n_shards 1 --cpu 32 --mem 256G -p continual -g ds_domain_700m training.per_device_batch_size=8
uv run theseus submit hybrid_lora_wsd_reset-p1 configs/continual/ds_domain/700m/hybrid_lora_wsd_reset.yaml --cluster bonete --chip b200 -n 4 --n_shards 1 --cpu 32 --mem 256G -p continual -g ds_domain_700m training.per_device_batch_size=8
uv run theseus submit lact_full_cosine_rewarm-p1 configs/continual/ds_domain/700m/lact_full_cosine_rewarm.yaml --cluster bonete --chip b200 -n 4 --n_shards 1 --cpu 32 --mem 256G -p continual -g ds_domain_700m training.per_device_batch_size=8
uv run theseus submit lact_full_wsd-p1 configs/continual/ds_domain/700m/lact_full_wsd.yaml --cluster bonete --chip b200 -n 4 --n_shards 1 --cpu 32 --mem 256G -p continual -g ds_domain_700m training.per_device_batch_size=8
uv run theseus submit lact_full_wsd_reset-p1 configs/continual/ds_domain/700m/lact_full_wsd_reset.yaml --cluster bonete --chip b200 -n 4 --n_shards 1 --cpu 32 --mem 256G -p continual -g ds_domain_700m training.per_device_batch_size=8
uv run theseus submit lact_lora_cosine_rewarm-p1 configs/continual/ds_domain/700m/lact_lora_cosine_rewarm.yaml --cluster bonete --chip b200 -n 4 --n_shards 1 --cpu 32 --mem 256G -p continual -g ds_domain_700m training.per_device_batch_size=8
uv run theseus submit lact_lora_wsd-p1 configs/continual/ds_domain/700m/lact_lora_wsd.yaml --cluster bonete --chip b200 -n 4 --n_shards 1 --cpu 32 --mem 256G -p continual -g ds_domain_700m training.per_device_batch_size=8
uv run theseus submit lact_lora_wsd_reset-p1 configs/continual/ds_domain/700m/lact_lora_wsd_reset.yaml --cluster bonete --chip b200 -n 4 --n_shards 1 --cpu 32 --mem 256G -p continual -g ds_domain_700m training.per_device_batch_size=8
uv run theseus submit mamba_full_cosine_rewarm-p1 configs/continual/ds_domain/700m/mamba_full_cosine_rewarm.yaml --cluster bonete --chip b200 -n 4 --n_shards 1 --cpu 32 --mem 256G -p continual -g ds_domain_700m training.per_device_batch_size=8
uv run theseus submit mamba_full_wsd-p1 configs/continual/ds_domain/700m/mamba_full_wsd.yaml --cluster bonete --chip b200 -n 4 --n_shards 1 --cpu 32 --mem 256G -p continual -g ds_domain_700m training.per_device_batch_size=8
uv run theseus submit mamba_full_wsd_reset-p1 configs/continual/ds_domain/700m/mamba_full_wsd_reset.yaml --cluster bonete --chip b200 -n 4 --n_shards 1 --cpu 32 --mem 256G -p continual -g ds_domain_700m training.per_device_batch_size=8
uv run theseus submit mamba_lora_cosine_rewarm-p1 configs/continual/ds_domain/700m/mamba_lora_cosine_rewarm.yaml --cluster bonete --chip b200 -n 4 --n_shards 1 --cpu 32 --mem 256G -p continual -g ds_domain_700m training.per_device_batch_size=8
uv run theseus submit mamba_lora_wsd-p1 configs/continual/ds_domain/700m/mamba_lora_wsd.yaml --cluster bonete --chip b200 -n 4 --n_shards 1 --cpu 32 --mem 256G -p continual -g ds_domain_700m training.per_device_batch_size=8
uv run theseus submit mamba_lora_wsd_reset-p1 configs/continual/ds_domain/700m/mamba_lora_wsd_reset.yaml --cluster bonete --chip b200 -n 4 --n_shards 1 --cpu 32 --mem 256G -p continual -g ds_domain_700m training.per_device_batch_size=8
uv run theseus submit moe_full_cosine_rewarm-p1 configs/continual/ds_domain/700m/moe_full_cosine_rewarm.yaml --cluster bonete --chip b200 -n 4 --n_shards 1 --cpu 32 --mem 256G -p continual -g ds_domain_700m training.per_device_batch_size=8
uv run theseus submit moe_full_wsd-p1 configs/continual/ds_domain/700m/moe_full_wsd.yaml --cluster bonete --chip b200 -n 4 --n_shards 1 --cpu 32 --mem 256G -p continual -g ds_domain_700m training.per_device_batch_size=8
uv run theseus submit moe_full_wsd_reset-p1 configs/continual/ds_domain/700m/moe_full_wsd_reset.yaml --cluster bonete --chip b200 -n 4 --n_shards 1 --cpu 32 --mem 256G -p continual -g ds_domain_700m training.per_device_batch_size=8
uv run theseus submit moe_lora_cosine_rewarm-p1 configs/continual/ds_domain/700m/moe_lora_cosine_rewarm.yaml --cluster bonete --chip b200 -n 4 --n_shards 1 --cpu 32 --mem 256G -p continual -g ds_domain_700m training.per_device_batch_size=8
uv run theseus submit moe_lora_wsd-p1 configs/continual/ds_domain/700m/moe_lora_wsd.yaml --cluster bonete --chip b200 -n 4 --n_shards 1 --cpu 32 --mem 256G -p continual -g ds_domain_700m training.per_device_batch_size=8
uv run theseus submit moe_lora_wsd_reset-p1 configs/continual/ds_domain/700m/moe_lora_wsd_reset.yaml --cluster bonete --chip b200 -n 4 --n_shards 1 --cpu 32 --mem 256G -p continual -g ds_domain_700m training.per_device_batch_size=8
uv run theseus submit transformer_full_cosine_rewarm-p1 configs/continual/ds_domain/700m/transformer_full_cosine_rewarm.yaml --cluster bonete --chip b200 -n 4 --n_shards 1 --cpu 32 --mem 256G -p continual -g ds_domain_700m training.per_device_batch_size=8
uv run theseus submit transformer_full_wsd-p1 configs/continual/ds_domain/700m/transformer_full_wsd.yaml --cluster bonete --chip b200 -n 4 --n_shards 1 --cpu 32 --mem 256G -p continual -g ds_domain_700m training.per_device_batch_size=8
uv run theseus submit transformer_full_wsd_reset-p1 configs/continual/ds_domain/700m/transformer_full_wsd_reset.yaml --cluster bonete --chip b200 -n 4 --n_shards 1 --cpu 32 --mem 256G -p continual -g ds_domain_700m training.per_device_batch_size=8
uv run theseus submit transformer_lora_cosine_rewarm-p1 configs/continual/ds_domain/700m/transformer_lora_cosine_rewarm.yaml --cluster bonete --chip b200 -n 4 --n_shards 1 --cpu 32 --mem 256G -p continual -g ds_domain_700m training.per_device_batch_size=8
uv run theseus submit transformer_lora_wsd-p1 configs/continual/ds_domain/700m/transformer_lora_wsd.yaml --cluster bonete --chip b200 -n 4 --n_shards 1 --cpu 32 --mem 256G -p continual -g ds_domain_700m training.per_device_batch_size=8
uv run theseus submit transformer_lora_wsd_reset-p1 configs/continual/ds_domain/700m/transformer_lora_wsd_reset.yaml --cluster bonete --chip b200 -n 4 --n_shards 1 --cpu 32 --mem 256G -p continual -g ds_domain_700m training.per_device_batch_size=8

ds_multilingual / 1b¶

uv run theseus submit hybrid_full_cosine_rewarm-p1 configs/continual/ds_multilingual/1b/hybrid_full_cosine_rewarm.yaml --cluster bonete --chip b200 -n 4 --n_shards 1 --cpu 32 --mem 256G -p continual -g ds_multilingual_1b training.per_device_batch_size=8
uv run theseus submit hybrid_full_wsd-p1 configs/continual/ds_multilingual/1b/hybrid_full_wsd.yaml --cluster bonete --chip b200 -n 4 --n_shards 1 --cpu 32 --mem 256G -p continual -g ds_multilingual_1b training.per_device_batch_size=8
uv run theseus submit hybrid_full_wsd_reset-p1 configs/continual/ds_multilingual/1b/hybrid_full_wsd_reset.yaml --cluster bonete --chip b200 -n 4 --n_shards 1 --cpu 32 --mem 256G -p continual -g ds_multilingual_1b training.per_device_batch_size=8
uv run theseus submit hybrid_lora_cosine_rewarm-p1 configs/continual/ds_multilingual/1b/hybrid_lora_cosine_rewarm.yaml --cluster bonete --chip b200 -n 4 --n_shards 1 --cpu 32 --mem 256G -p continual -g ds_multilingual_1b training.per_device_batch_size=8
uv run theseus submit hybrid_lora_wsd-p1 configs/continual/ds_multilingual/1b/hybrid_lora_wsd.yaml --cluster bonete --chip b200 -n 4 --n_shards 1 --cpu 32 --mem 256G -p continual -g ds_multilingual_1b training.per_device_batch_size=8
uv run theseus submit hybrid_lora_wsd_reset-p1 configs/continual/ds_multilingual/1b/hybrid_lora_wsd_reset.yaml --cluster bonete --chip b200 -n 4 --n_shards 1 --cpu 32 --mem 256G -p continual -g ds_multilingual_1b training.per_device_batch_size=8
uv run theseus submit lact_full_cosine_rewarm-p1 configs/continual/ds_multilingual/1b/lact_full_cosine_rewarm.yaml --cluster bonete --chip b200 -n 4 --n_shards 1 --cpu 32 --mem 256G -p continual -g ds_multilingual_1b training.per_device_batch_size=8
uv run theseus submit lact_full_wsd-p1 configs/continual/ds_multilingual/1b/lact_full_wsd.yaml --cluster bonete --chip b200 -n 4 --n_shards 1 --cpu 32 --mem 256G -p continual -g ds_multilingual_1b training.per_device_batch_size=8
uv run theseus submit lact_full_wsd_reset-p1 configs/continual/ds_multilingual/1b/lact_full_wsd_reset.yaml --cluster bonete --chip b200 -n 4 --n_shards 1 --cpu 32 --mem 256G -p continual -g ds_multilingual_1b training.per_device_batch_size=8
uv run theseus submit lact_full_wsd_shuffled-p1 configs/continual/ds_multilingual/1b/lact_full_wsd_shuffled.yaml --cluster bonete --chip b200 -n 4 --n_shards 1 --cpu 32 --mem 256G -p continual -g ds_multilingual_1b training.per_device_batch_size=8
uv run theseus submit lact_lora_cosine_rewarm-p1 configs/continual/ds_multilingual/1b/lact_lora_cosine_rewarm.yaml --cluster bonete --chip b200 -n 4 --n_shards 1 --cpu 32 --mem 256G -p continual -g ds_multilingual_1b training.per_device_batch_size=8
uv run theseus submit lact_lora_wsd-p1 configs/continual/ds_multilingual/1b/lact_lora_wsd.yaml --cluster bonete --chip b200 -n 4 --n_shards 1 --cpu 32 --mem 256G -p continual -g ds_multilingual_1b training.per_device_batch_size=8
uv run theseus submit lact_lora_wsd_reset-p1 configs/continual/ds_multilingual/1b/lact_lora_wsd_reset.yaml --cluster bonete --chip b200 -n 4 --n_shards 1 --cpu 32 --mem 256G -p continual -g ds_multilingual_1b training.per_device_batch_size=8
uv run theseus submit mamba_full_cosine_rewarm-p1 configs/continual/ds_multilingual/1b/mamba_full_cosine_rewarm.yaml --cluster bonete --chip b200 -n 4 --n_shards 1 --cpu 32 --mem 256G -p continual -g ds_multilingual_1b training.per_device_batch_size=8
uv run theseus submit mamba_full_wsd-p1 configs/continual/ds_multilingual/1b/mamba_full_wsd.yaml --cluster bonete --chip b200 -n 4 --n_shards 1 --cpu 32 --mem 256G -p continual -g ds_multilingual_1b training.per_device_batch_size=8
uv run theseus submit mamba_full_wsd_reset-p1 configs/continual/ds_multilingual/1b/mamba_full_wsd_reset.yaml --cluster bonete --chip b200 -n 4 --n_shards 1 --cpu 32 --mem 256G -p continual -g ds_multilingual_1b training.per_device_batch_size=8
uv run theseus submit mamba_full_wsd_shuffled-p1 configs/continual/ds_multilingual/1b/mamba_full_wsd_shuffled.yaml --cluster bonete --chip b200 -n 4 --n_shards 1 --cpu 32 --mem 256G -p continual -g ds_multilingual_1b training.per_device_batch_size=8
uv run theseus submit mamba_lora_cosine_rewarm-p1 configs/continual/ds_multilingual/1b/mamba_lora_cosine_rewarm.yaml --cluster bonete --chip b200 -n 4 --n_shards 1 --cpu 32 --mem 256G -p continual -g ds_multilingual_1b training.per_device_batch_size=8
uv run theseus submit mamba_lora_wsd-p1 configs/continual/ds_multilingual/1b/mamba_lora_wsd.yaml --cluster bonete --chip b200 -n 4 --n_shards 1 --cpu 32 --mem 256G -p continual -g ds_multilingual_1b training.per_device_batch_size=8
uv run theseus submit mamba_lora_wsd_reset-p1 configs/continual/ds_multilingual/1b/mamba_lora_wsd_reset.yaml --cluster bonete --chip b200 -n 4 --n_shards 1 --cpu 32 --mem 256G -p continual -g ds_multilingual_1b training.per_device_batch_size=8
uv run theseus submit moe_full_cosine_rewarm-p1 configs/continual/ds_multilingual/1b/moe_full_cosine_rewarm.yaml --cluster bonete --chip b200 -n 4 --n_shards 1 --cpu 32 --mem 256G -p continual -g ds_multilingual_1b training.per_device_batch_size=8
uv run theseus submit moe_full_wsd-p1 configs/continual/ds_multilingual/1b/moe_full_wsd.yaml --cluster bonete --chip b200 -n 4 --n_shards 1 --cpu 32 --mem 256G -p continual -g ds_multilingual_1b training.per_device_batch_size=8
uv run theseus submit moe_full_wsd_reset-p1 configs/continual/ds_multilingual/1b/moe_full_wsd_reset.yaml --cluster bonete --chip b200 -n 4 --n_shards 1 --cpu 32 --mem 256G -p continual -g ds_multilingual_1b training.per_device_batch_size=8
uv run theseus submit moe_full_wsd_shuffled-p1 configs/continual/ds_multilingual/1b/moe_full_wsd_shuffled.yaml --cluster bonete --chip b200 -n 4 --n_shards 1 --cpu 32 --mem 256G -p continual -g ds_multilingual_1b training.per_device_batch_size=8
uv run theseus submit moe_lora_cosine_rewarm-p1 configs/continual/ds_multilingual/1b/moe_lora_cosine_rewarm.yaml --cluster bonete --chip b200 -n 4 --n_shards 1 --cpu 32 --mem 256G -p continual -g ds_multilingual_1b training.per_device_batch_size=8
uv run theseus submit moe_lora_wsd-p1 configs/continual/ds_multilingual/1b/moe_lora_wsd.yaml --cluster bonete --chip b200 -n 4 --n_shards 1 --cpu 32 --mem 256G -p continual -g ds_multilingual_1b training.per_device_batch_size=8
uv run theseus submit moe_lora_wsd_reset-p1 configs/continual/ds_multilingual/1b/moe_lora_wsd_reset.yaml --cluster bonete --chip b200 -n 4 --n_shards 1 --cpu 32 --mem 256G -p continual -g ds_multilingual_1b training.per_device_batch_size=8
uv run theseus submit transformer_full_cosine_rewarm-p1 configs/continual/ds_multilingual/1b/transformer_full_cosine_rewarm.yaml --cluster bonete --chip b200 -n 4 --n_shards 1 --cpu 32 --mem 256G -p continual -g ds_multilingual_1b training.per_device_batch_size=8
uv run theseus submit transformer_full_wsd-p1 configs/continual/ds_multilingual/1b/transformer_full_wsd.yaml --cluster bonete --chip b200 -n 4 --n_shards 1 --cpu 32 --mem 256G -p continual -g ds_multilingual_1b training.per_device_batch_size=8
uv run theseus submit transformer_full_wsd_reset-p1 configs/continual/ds_multilingual/1b/transformer_full_wsd_reset.yaml --cluster bonete --chip b200 -n 4 --n_shards 1 --cpu 32 --mem 256G -p continual -g ds_multilingual_1b training.per_device_batch_size=8
uv run theseus submit transformer_full_wsd_shuffled-p1 configs/continual/ds_multilingual/1b/transformer_full_wsd_shuffled.yaml --cluster bonete --chip b200 -n 4 --n_shards 1 --cpu 32 --mem 256G -p continual -g ds_multilingual_1b training.per_device_batch_size=8
uv run theseus submit transformer_lora_cosine_rewarm-p1 configs/continual/ds_multilingual/1b/transformer_lora_cosine_rewarm.yaml --cluster bonete --chip b200 -n 4 --n_shards 1 --cpu 32 --mem 256G -p continual -g ds_multilingual_1b training.per_device_batch_size=8
uv run theseus submit transformer_lora_wsd-p1 configs/continual/ds_multilingual/1b/transformer_lora_wsd.yaml --cluster bonete --chip b200 -n 4 --n_shards 1 --cpu 32 --mem 256G -p continual -g ds_multilingual_1b training.per_device_batch_size=8
uv run theseus submit transformer_lora_wsd_reset-p1 configs/continual/ds_multilingual/1b/transformer_lora_wsd_reset.yaml --cluster bonete --chip b200 -n 4 --n_shards 1 --cpu 32 --mem 256G -p continual -g ds_multilingual_1b training.per_device_batch_size=8

ds_multilingual / 2b¶

uv run theseus submit hybrid_full_cosine_rewarm-p1 configs/continual/ds_multilingual/2b/hybrid_full_cosine_rewarm.yaml --cluster bonete --chip b200 -n 4 --n_shards 1 --cpu 32 --mem 256G -p continual -g ds_multilingual_2b training.per_device_batch_size=8
uv run theseus submit hybrid_full_wsd-p1 configs/continual/ds_multilingual/2b/hybrid_full_wsd.yaml --cluster bonete --chip b200 -n 4 --n_shards 1 --cpu 32 --mem 256G -p continual -g ds_multilingual_2b training.per_device_batch_size=8
uv run theseus submit hybrid_full_wsd_reset-p1 configs/continual/ds_multilingual/2b/hybrid_full_wsd_reset.yaml --cluster bonete --chip b200 -n 4 --n_shards 1 --cpu 32 --mem 256G -p continual -g ds_multilingual_2b training.per_device_batch_size=8
uv run theseus submit hybrid_lora_cosine_rewarm-p1 configs/continual/ds_multilingual/2b/hybrid_lora_cosine_rewarm.yaml --cluster bonete --chip b200 -n 4 --n_shards 1 --cpu 32 --mem 256G -p continual -g ds_multilingual_2b training.per_device_batch_size=8
uv run theseus submit hybrid_lora_wsd-p1 configs/continual/ds_multilingual/2b/hybrid_lora_wsd.yaml --cluster bonete --chip b200 -n 4 --n_shards 1 --cpu 32 --mem 256G -p continual -g ds_multilingual_2b training.per_device_batch_size=8
uv run theseus submit hybrid_lora_wsd_reset-p1 configs/continual/ds_multilingual/2b/hybrid_lora_wsd_reset.yaml --cluster bonete --chip b200 -n 4 --n_shards 1 --cpu 32 --mem 256G -p continual -g ds_multilingual_2b training.per_device_batch_size=8
uv run theseus submit lact_full_cosine_rewarm-p1 configs/continual/ds_multilingual/2b/lact_full_cosine_rewarm.yaml --cluster bonete --chip b200 -n 4 --n_shards 1 --cpu 32 --mem 256G -p continual -g ds_multilingual_2b training.per_device_batch_size=8
uv run theseus submit lact_full_wsd-p1 configs/continual/ds_multilingual/2b/lact_full_wsd.yaml --cluster bonete --chip b200 -n 4 --n_shards 1 --cpu 32 --mem 256G -p continual -g ds_multilingual_2b training.per_device_batch_size=8
uv run theseus submit lact_full_wsd_reset-p1 configs/continual/ds_multilingual/2b/lact_full_wsd_reset.yaml --cluster bonete --chip b200 -n 4 --n_shards 1 --cpu 32 --mem 256G -p continual -g ds_multilingual_2b training.per_device_batch_size=8
uv run theseus submit lact_lora_cosine_rewarm-p1 configs/continual/ds_multilingual/2b/lact_lora_cosine_rewarm.yaml --cluster bonete --chip b200 -n 4 --n_shards 1 --cpu 32 --mem 256G -p continual -g ds_multilingual_2b training.per_device_batch_size=8
uv run theseus submit lact_lora_wsd-p1 configs/continual/ds_multilingual/2b/lact_lora_wsd.yaml --cluster bonete --chip b200 -n 4 --n_shards 1 --cpu 32 --mem 256G -p continual -g ds_multilingual_2b training.per_device_batch_size=8
uv run theseus submit lact_lora_wsd_reset-p1 configs/continual/ds_multilingual/2b/lact_lora_wsd_reset.yaml --cluster bonete --chip b200 -n 4 --n_shards 1 --cpu 32 --mem 256G -p continual -g ds_multilingual_2b training.per_device_batch_size=8
uv run theseus submit mamba_full_cosine_rewarm-p1 configs/continual/ds_multilingual/2b/mamba_full_cosine_rewarm.yaml --cluster bonete --chip b200 -n 4 --n_shards 1 --cpu 32 --mem 256G -p continual -g ds_multilingual_2b training.per_device_batch_size=8
uv run theseus submit mamba_full_wsd-p1 configs/continual/ds_multilingual/2b/mamba_full_wsd.yaml --cluster bonete --chip b200 -n 4 --n_shards 1 --cpu 32 --mem 256G -p continual -g ds_multilingual_2b training.per_device_batch_size=8
uv run theseus submit mamba_full_wsd_reset-p1 configs/continual/ds_multilingual/2b/mamba_full_wsd_reset.yaml --cluster bonete --chip b200 -n 4 --n_shards 1 --cpu 32 --mem 256G -p continual -g ds_multilingual_2b training.per_device_batch_size=8
uv run theseus submit mamba_lora_cosine_rewarm-p1 configs/continual/ds_multilingual/2b/mamba_lora_cosine_rewarm.yaml --cluster bonete --chip b200 -n 4 --n_shards 1 --cpu 32 --mem 256G -p continual -g ds_multilingual_2b training.per_device_batch_size=8
uv run theseus submit mamba_lora_wsd-p1 configs/continual/ds_multilingual/2b/mamba_lora_wsd.yaml --cluster bonete --chip b200 -n 4 --n_shards 1 --cpu 32 --mem 256G -p continual -g ds_multilingual_2b training.per_device_batch_size=8
uv run theseus submit mamba_lora_wsd_reset-p1 configs/continual/ds_multilingual/2b/mamba_lora_wsd_reset.yaml --cluster bonete --chip b200 -n 4 --n_shards 1 --cpu 32 --mem 256G -p continual -g ds_multilingual_2b training.per_device_batch_size=8
uv run theseus submit moe_full_cosine_rewarm-p1 configs/continual/ds_multilingual/2b/moe_full_cosine_rewarm.yaml --cluster bonete --chip b200 -n 4 --n_shards 1 --cpu 32 --mem 256G -p continual -g ds_multilingual_2b training.per_device_batch_size=8
uv run theseus submit moe_full_wsd-p1 configs/continual/ds_multilingual/2b/moe_full_wsd.yaml --cluster bonete --chip b200 -n 4 --n_shards 1 --cpu 32 --mem 256G -p continual -g ds_multilingual_2b training.per_device_batch_size=8
uv run theseus submit moe_full_wsd_reset-p1 configs/continual/ds_multilingual/2b/moe_full_wsd_reset.yaml --cluster bonete --chip b200 -n 4 --n_shards 1 --cpu 32 --mem 256G -p continual -g ds_multilingual_2b training.per_device_batch_size=8
uv run theseus submit moe_lora_cosine_rewarm-p1 configs/continual/ds_multilingual/2b/moe_lora_cosine_rewarm.yaml --cluster bonete --chip b200 -n 4 --n_shards 1 --cpu 32 --mem 256G -p continual -g ds_multilingual_2b training.per_device_batch_size=8
uv run theseus submit moe_lora_wsd-p1 configs/continual/ds_multilingual/2b/moe_lora_wsd.yaml --cluster bonete --chip b200 -n 4 --n_shards 1 --cpu 32 --mem 256G -p continual -g ds_multilingual_2b training.per_device_batch_size=8
uv run theseus submit moe_lora_wsd_reset-p1 configs/continual/ds_multilingual/2b/moe_lora_wsd_reset.yaml --cluster bonete --chip b200 -n 4 --n_shards 1 --cpu 32 --mem 256G -p continual -g ds_multilingual_2b training.per_device_batch_size=8
uv run theseus submit transformer_full_cosine_rewarm-p1 configs/continual/ds_multilingual/2b/transformer_full_cosine_rewarm.yaml --cluster bonete --chip b200 -n 4 --n_shards 1 --cpu 32 --mem 256G -p continual -g ds_multilingual_2b training.per_device_batch_size=8
uv run theseus submit transformer_full_wsd-p1 configs/continual/ds_multilingual/2b/transformer_full_wsd.yaml --cluster bonete --chip b200 -n 4 --n_shards 1 --cpu 32 --mem 256G -p continual -g ds_multilingual_2b training.per_device_batch_size=8
uv run theseus submit transformer_full_wsd_reset-p1 configs/continual/ds_multilingual/2b/transformer_full_wsd_reset.yaml --cluster bonete --chip b200 -n 4 --n_shards 1 --cpu 32 --mem 256G -p continual -g ds_multilingual_2b training.per_device_batch_size=8
uv run theseus submit transformer_lora_cosine_rewarm-p1 configs/continual/ds_multilingual/2b/transformer_lora_cosine_rewarm.yaml --cluster bonete --chip b200 -n 4 --n_shards 1 --cpu 32 --mem 256G -p continual -g ds_multilingual_2b training.per_device_batch_size=8
uv run theseus submit transformer_lora_wsd-p1 configs/continual/ds_multilingual/2b/transformer_lora_wsd.yaml --cluster bonete --chip b200 -n 4 --n_shards 1 --cpu 32 --mem 256G -p continual -g ds_multilingual_2b training.per_device_batch_size=8
uv run theseus submit transformer_lora_wsd_reset-p1 configs/continual/ds_multilingual/2b/transformer_lora_wsd_reset.yaml --cluster bonete --chip b200 -n 4 --n_shards 1 --cpu 32 --mem 256G -p continual -g ds_multilingual_2b training.per_device_batch_size=8

ds_multilingual / 700m¶

uv run theseus submit hybrid_full_cosine_rewarm-p1 configs/continual/ds_multilingual/700m/hybrid_full_cosine_rewarm.yaml --cluster bonete --chip b200 -n 4 --n_shards 1 --cpu 32 --mem 256G -p continual -g ds_multilingual_700m training.per_device_batch_size=8
uv run theseus submit hybrid_full_wsd-p1 configs/continual/ds_multilingual/700m/hybrid_full_wsd.yaml --cluster bonete --chip b200 -n 4 --n_shards 1 --cpu 32 --mem 256G -p continual -g ds_multilingual_700m training.per_device_batch_size=8
uv run theseus submit hybrid_full_wsd_reset-p1 configs/continual/ds_multilingual/700m/hybrid_full_wsd_reset.yaml --cluster bonete --chip b200 -n 4 --n_shards 1 --cpu 32 --mem 256G -p continual -g ds_multilingual_700m training.per_device_batch_size=8
uv run theseus submit hybrid_lora_cosine_rewarm-p1 configs/continual/ds_multilingual/700m/hybrid_lora_cosine_rewarm.yaml --cluster bonete --chip b200 -n 4 --n_shards 1 --cpu 32 --mem 256G -p continual -g ds_multilingual_700m training.per_device_batch_size=8
uv run theseus submit hybrid_lora_wsd-p1 configs/continual/ds_multilingual/700m/hybrid_lora_wsd.yaml --cluster bonete --chip b200 -n 4 --n_shards 1 --cpu 32 --mem 256G -p continual -g ds_multilingual_700m training.per_device_batch_size=8
uv run theseus submit hybrid_lora_wsd_reset-p1 configs/continual/ds_multilingual/700m/hybrid_lora_wsd_reset.yaml --cluster bonete --chip b200 -n 4 --n_shards 1 --cpu 32 --mem 256G -p continual -g ds_multilingual_700m training.per_device_batch_size=8
uv run theseus submit lact_full_cosine_rewarm-p1 configs/continual/ds_multilingual/700m/lact_full_cosine_rewarm.yaml --cluster bonete --chip b200 -n 4 --n_shards 1 --cpu 32 --mem 256G -p continual -g ds_multilingual_700m training.per_device_batch_size=8
uv run theseus submit lact_full_wsd-p1 configs/continual/ds_multilingual/700m/lact_full_wsd.yaml --cluster bonete --chip b200 -n 4 --n_shards 1 --cpu 32 --mem 256G -p continual -g ds_multilingual_700m training.per_device_batch_size=8
uv run theseus submit lact_full_wsd_reset-p1 configs/continual/ds_multilingual/700m/lact_full_wsd_reset.yaml --cluster bonete --chip b200 -n 4 --n_shards 1 --cpu 32 --mem 256G -p continual -g ds_multilingual_700m training.per_device_batch_size=8
uv run theseus submit lact_lora_cosine_rewarm-p1 configs/continual/ds_multilingual/700m/lact_lora_cosine_rewarm.yaml --cluster bonete --chip b200 -n 4 --n_shards 1 --cpu 32 --mem 256G -p continual -g ds_multilingual_700m training.per_device_batch_size=8
uv run theseus submit lact_lora_wsd-p1 configs/continual/ds_multilingual/700m/lact_lora_wsd.yaml --cluster bonete --chip b200 -n 4 --n_shards 1 --cpu 32 --mem 256G -p continual -g ds_multilingual_700m training.per_device_batch_size=8
uv run theseus submit lact_lora_wsd_reset-p1 configs/continual/ds_multilingual/700m/lact_lora_wsd_reset.yaml --cluster bonete --chip b200 -n 4 --n_shards 1 --cpu 32 --mem 256G -p continual -g ds_multilingual_700m training.per_device_batch_size=8
uv run theseus submit mamba_full_cosine_rewarm-p1 configs/continual/ds_multilingual/700m/mamba_full_cosine_rewarm.yaml --cluster bonete --chip b200 -n 4 --n_shards 1 --cpu 32 --mem 256G -p continual -g ds_multilingual_700m training.per_device_batch_size=8
uv run theseus submit mamba_full_wsd-p1 configs/continual/ds_multilingual/700m/mamba_full_wsd.yaml --cluster bonete --chip b200 -n 4 --n_shards 1 --cpu 32 --mem 256G -p continual -g ds_multilingual_700m training.per_device_batch_size=8
uv run theseus submit mamba_full_wsd_reset-p1 configs/continual/ds_multilingual/700m/mamba_full_wsd_reset.yaml --cluster bonete --chip b200 -n 4 --n_shards 1 --cpu 32 --mem 256G -p continual -g ds_multilingual_700m training.per_device_batch_size=8
uv run theseus submit mamba_lora_cosine_rewarm-p1 configs/continual/ds_multilingual/700m/mamba_lora_cosine_rewarm.yaml --cluster bonete --chip b200 -n 4 --n_shards 1 --cpu 32 --mem 256G -p continual -g ds_multilingual_700m training.per_device_batch_size=8
uv run theseus submit mamba_lora_wsd-p1 configs/continual/ds_multilingual/700m/mamba_lora_wsd.yaml --cluster bonete --chip b200 -n 4 --n_shards 1 --cpu 32 --mem 256G -p continual -g ds_multilingual_700m training.per_device_batch_size=8
uv run theseus submit mamba_lora_wsd_reset-p1 configs/continual/ds_multilingual/700m/mamba_lora_wsd_reset.yaml --cluster bonete --chip b200 -n 4 --n_shards 1 --cpu 32 --mem 256G -p continual -g ds_multilingual_700m training.per_device_batch_size=8
uv run theseus submit moe_full_cosine_rewarm-p1 configs/continual/ds_multilingual/700m/moe_full_cosine_rewarm.yaml --cluster bonete --chip b200 -n 4 --n_shards 1 --cpu 32 --mem 256G -p continual -g ds_multilingual_700m training.per_device_batch_size=8
uv run theseus submit moe_full_wsd-p1 configs/continual/ds_multilingual/700m/moe_full_wsd.yaml --cluster bonete --chip b200 -n 4 --n_shards 1 --cpu 32 --mem 256G -p continual -g ds_multilingual_700m training.per_device_batch_size=8
uv run theseus submit moe_full_wsd_reset-p1 configs/continual/ds_multilingual/700m/moe_full_wsd_reset.yaml --cluster bonete --chip b200 -n 4 --n_shards 1 --cpu 32 --mem 256G -p continual -g ds_multilingual_700m training.per_device_batch_size=8
uv run theseus submit moe_lora_cosine_rewarm-p1 configs/continual/ds_multilingual/700m/moe_lora_cosine_rewarm.yaml --cluster bonete --chip b200 -n 4 --n_shards 1 --cpu 32 --mem 256G -p continual -g ds_multilingual_700m training.per_device_batch_size=8
uv run theseus submit moe_lora_wsd-p1 configs/continual/ds_multilingual/700m/moe_lora_wsd.yaml --cluster bonete --chip b200 -n 4 --n_shards 1 --cpu 32 --mem 256G -p continual -g ds_multilingual_700m training.per_device_batch_size=8
uv run theseus submit moe_lora_wsd_reset-p1 configs/continual/ds_multilingual/700m/moe_lora_wsd_reset.yaml --cluster bonete --chip b200 -n 4 --n_shards 1 --cpu 32 --mem 256G -p continual -g ds_multilingual_700m training.per_device_batch_size=8
uv run theseus submit transformer_full_cosine_rewarm-p1 configs/continual/ds_multilingual/700m/transformer_full_cosine_rewarm.yaml --cluster bonete --chip b200 -n 4 --n_shards 1 --cpu 32 --mem 256G -p continual -g ds_multilingual_700m training.per_device_batch_size=8
uv run theseus submit transformer_full_wsd-p1 configs/continual/ds_multilingual/700m/transformer_full_wsd.yaml --cluster bonete --chip b200 -n 4 --n_shards 1 --cpu 32 --mem 256G -p continual -g ds_multilingual_700m training.per_device_batch_size=8
uv run theseus submit transformer_full_wsd_reset-p1 configs/continual/ds_multilingual/700m/transformer_full_wsd_reset.yaml --cluster bonete --chip b200 -n 4 --n_shards 1 --cpu 32 --mem 256G -p continual -g ds_multilingual_700m training.per_device_batch_size=8
uv run theseus submit transformer_lora_cosine_rewarm-p1 configs/continual/ds_multilingual/700m/transformer_lora_cosine_rewarm.yaml --cluster bonete --chip b200 -n 4 --n_shards 1 --cpu 32 --mem 256G -p continual -g ds_multilingual_700m training.per_device_batch_size=8
uv run theseus submit transformer_lora_wsd-p1 configs/continual/ds_multilingual/700m/transformer_lora_wsd.yaml --cluster bonete --chip b200 -n 4 --n_shards 1 --cpu 32 --mem 256G -p continual -g ds_multilingual_700m training.per_device_batch_size=8
uv run theseus submit transformer_lora_wsd_reset-p1 configs/continual/ds_multilingual/700m/transformer_lora_wsd_reset.yaml --cluster bonete --chip b200 -n 4 --n_shards 1 --cpu 32 --mem 256G -p continual -g ds_multilingual_700m training.per_device_batch_size=8

ds_nlu / 1b¶

uv run theseus submit hybrid_full_cosine_rewarm-p1 configs/data/cl100k/mnli_2048.yaml -s configs/data/cl100k/qqp_2048.yaml -s configs/data/cl100k/sst2_2048.yaml -s configs/data/cl100k/siqa_2048.yaml -s configs/continual/ds_nlu/1b/hybrid_full_cosine_rewarm.yaml --cluster bonete --chip b200 -n 4 --n_shards 1 --cpu 32 --mem 256G -p continual -g ds_nlu_1b training.per_device_batch_size=8
uv run theseus submit hybrid_full_wsd-p1 configs/data/cl100k/mnli_2048.yaml -s configs/data/cl100k/qqp_2048.yaml -s configs/data/cl100k/sst2_2048.yaml -s configs/data/cl100k/siqa_2048.yaml -s configs/continual/ds_nlu/1b/hybrid_full_wsd.yaml --cluster bonete --chip b200 -n 4 --n_shards 1 --cpu 32 --mem 256G -p continual -g ds_nlu_1b training.per_device_batch_size=8
uv run theseus submit hybrid_full_wsd_reset-p1 configs/data/cl100k/mnli_2048.yaml -s configs/data/cl100k/qqp_2048.yaml -s configs/data/cl100k/sst2_2048.yaml -s configs/data/cl100k/siqa_2048.yaml -s configs/continual/ds_nlu/1b/hybrid_full_wsd_reset.yaml --cluster bonete --chip b200 -n 4 --n_shards 1 --cpu 32 --mem 256G -p continual -g ds_nlu_1b training.per_device_batch_size=8
uv run theseus submit hybrid_lora_cosine_rewarm-p1 configs/data/cl100k/mnli_2048.yaml -s configs/data/cl100k/qqp_2048.yaml -s configs/data/cl100k/sst2_2048.yaml -s configs/data/cl100k/siqa_2048.yaml -s configs/continual/ds_nlu/1b/hybrid_lora_cosine_rewarm.yaml --cluster bonete --chip b200 -n 4 --n_shards 1 --cpu 32 --mem 256G -p continual -g ds_nlu_1b training.per_device_batch_size=8
uv run theseus submit hybrid_lora_wsd-p1 configs/data/cl100k/mnli_2048.yaml -s configs/data/cl100k/qqp_2048.yaml -s configs/data/cl100k/sst2_2048.yaml -s configs/data/cl100k/siqa_2048.yaml -s configs/continual/ds_nlu/1b/hybrid_lora_wsd.yaml --cluster bonete --chip b200 -n 4 --n_shards 1 --cpu 32 --mem 256G -p continual -g ds_nlu_1b training.per_device_batch_size=8
uv run theseus submit hybrid_lora_wsd_reset-p1 configs/data/cl100k/mnli_2048.yaml -s configs/data/cl100k/qqp_2048.yaml -s configs/data/cl100k/sst2_2048.yaml -s configs/data/cl100k/siqa_2048.yaml -s configs/continual/ds_nlu/1b/hybrid_lora_wsd_reset.yaml --cluster bonete --chip b200 -n 4 --n_shards 1 --cpu 32 --mem 256G -p continual -g ds_nlu_1b training.per_device_batch_size=8
uv run theseus submit lact_full_cosine_rewarm-p1 configs/data/cl100k/mnli_2048.yaml -s configs/data/cl100k/qqp_2048.yaml -s configs/data/cl100k/sst2_2048.yaml -s configs/data/cl100k/siqa_2048.yaml -s configs/continual/ds_nlu/1b/lact_full_cosine_rewarm.yaml --cluster bonete --chip b200 -n 4 --n_shards 1 --cpu 32 --mem 256G -p continual -g ds_nlu_1b training.per_device_batch_size=8
uv run theseus submit lact_full_wsd-p1 configs/data/cl100k/mnli_2048.yaml -s configs/data/cl100k/qqp_2048.yaml -s configs/data/cl100k/sst2_2048.yaml -s configs/data/cl100k/siqa_2048.yaml -s configs/continual/ds_nlu/1b/lact_full_wsd.yaml --cluster bonete --chip b200 -n 4 --n_shards 1 --cpu 32 --mem 256G -p continual -g ds_nlu_1b training.per_device_batch_size=8
uv run theseus submit lact_full_wsd_reset-p1 configs/data/cl100k/mnli_2048.yaml -s configs/data/cl100k/qqp_2048.yaml -s configs/data/cl100k/sst2_2048.yaml -s configs/data/cl100k/siqa_2048.yaml -s configs/continual/ds_nlu/1b/lact_full_wsd_reset.yaml --cluster bonete --chip b200 -n 4 --n_shards 1 --cpu 32 --mem 256G -p continual -g ds_nlu_1b training.per_device_batch_size=8
uv run theseus submit lact_lora_cosine_rewarm-p1 configs/data/cl100k/mnli_2048.yaml -s configs/data/cl100k/qqp_2048.yaml -s configs/data/cl100k/sst2_2048.yaml -s configs/data/cl100k/siqa_2048.yaml -s configs/continual/ds_nlu/1b/lact_lora_cosine_rewarm.yaml --cluster bonete --chip b200 -n 4 --n_shards 1 --cpu 32 --mem 256G -p continual -g ds_nlu_1b training.per_device_batch_size=8
uv run theseus submit lact_lora_wsd-p1 configs/data/cl100k/mnli_2048.yaml -s configs/data/cl100k/qqp_2048.yaml -s configs/data/cl100k/sst2_2048.yaml -s configs/data/cl100k/siqa_2048.yaml -s configs/continual/ds_nlu/1b/lact_lora_wsd.yaml --cluster bonete --chip b200 -n 4 --n_shards 1 --cpu 32 --mem 256G -p continual -g ds_nlu_1b training.per_device_batch_size=8
uv run theseus submit lact_lora_wsd_reset-p1 configs/data/cl100k/mnli_2048.yaml -s configs/data/cl100k/qqp_2048.yaml -s configs/data/cl100k/sst2_2048.yaml -s configs/data/cl100k/siqa_2048.yaml -s configs/continual/ds_nlu/1b/lact_lora_wsd_reset.yaml --cluster bonete --chip b200 -n 4 --n_shards 1 --cpu 32 --mem 256G -p continual -g ds_nlu_1b training.per_device_batch_size=8
uv run theseus submit mamba_full_cosine_rewarm-p1 configs/data/cl100k/mnli_2048.yaml -s configs/data/cl100k/qqp_2048.yaml -s configs/data/cl100k/sst2_2048.yaml -s configs/data/cl100k/siqa_2048.yaml -s configs/continual/ds_nlu/1b/mamba_full_cosine_rewarm.yaml --cluster bonete --chip b200 -n 4 --n_shards 1 --cpu 32 --mem 256G -p continual -g ds_nlu_1b training.per_device_batch_size=8
uv run theseus submit mamba_full_wsd-p1 configs/data/cl100k/mnli_2048.yaml -s configs/data/cl100k/qqp_2048.yaml -s configs/data/cl100k/sst2_2048.yaml -s configs/data/cl100k/siqa_2048.yaml -s configs/continual/ds_nlu/1b/mamba_full_wsd.yaml --cluster bonete --chip b200 -n 4 --n_shards 1 --cpu 32 --mem 256G -p continual -g ds_nlu_1b training.per_device_batch_size=8
uv run theseus submit mamba_full_wsd_reset-p1 configs/data/cl100k/mnli_2048.yaml -s configs/data/cl100k/qqp_2048.yaml -s configs/data/cl100k/sst2_2048.yaml -s configs/data/cl100k/siqa_2048.yaml -s configs/continual/ds_nlu/1b/mamba_full_wsd_reset.yaml --cluster bonete --chip b200 -n 4 --n_shards 1 --cpu 32 --mem 256G -p continual -g ds_nlu_1b training.per_device_batch_size=8
uv run theseus submit mamba_lora_cosine_rewarm-p1 configs/data/cl100k/mnli_2048.yaml -s configs/data/cl100k/qqp_2048.yaml -s configs/data/cl100k/sst2_2048.yaml -s configs/data/cl100k/siqa_2048.yaml -s configs/continual/ds_nlu/1b/mamba_lora_cosine_rewarm.yaml --cluster bonete --chip b200 -n 4 --n_shards 1 --cpu 32 --mem 256G -p continual -g ds_nlu_1b training.per_device_batch_size=8
uv run theseus submit mamba_lora_wsd-p1 configs/data/cl100k/mnli_2048.yaml -s configs/data/cl100k/qqp_2048.yaml -s configs/data/cl100k/sst2_2048.yaml -s configs/data/cl100k/siqa_2048.yaml -s configs/continual/ds_nlu/1b/mamba_lora_wsd.yaml --cluster bonete --chip b200 -n 4 --n_shards 1 --cpu 32 --mem 256G -p continual -g ds_nlu_1b training.per_device_batch_size=8
uv run theseus submit mamba_lora_wsd_reset-p1 configs/data/cl100k/mnli_2048.yaml -s configs/data/cl100k/qqp_2048.yaml -s configs/data/cl100k/sst2_2048.yaml -s configs/data/cl100k/siqa_2048.yaml -s configs/continual/ds_nlu/1b/mamba_lora_wsd_reset.yaml --cluster bonete --chip b200 -n 4 --n_shards 1 --cpu 32 --mem 256G -p continual -g ds_nlu_1b training.per_device_batch_size=8
uv run theseus submit moe_full_cosine_rewarm-p1 configs/data/cl100k/mnli_2048.yaml -s configs/data/cl100k/qqp_2048.yaml -s configs/data/cl100k/sst2_2048.yaml -s configs/data/cl100k/siqa_2048.yaml -s configs/continual/ds_nlu/1b/moe_full_cosine_rewarm.yaml --cluster bonete --chip b200 -n 4 --n_shards 1 --cpu 32 --mem 256G -p continual -g ds_nlu_1b training.per_device_batch_size=8
uv run theseus submit moe_full_wsd-p1 configs/data/cl100k/mnli_2048.yaml -s configs/data/cl100k/qqp_2048.yaml -s configs/data/cl100k/sst2_2048.yaml -s configs/data/cl100k/siqa_2048.yaml -s configs/continual/ds_nlu/1b/moe_full_wsd.yaml --cluster bonete --chip b200 -n 4 --n_shards 1 --cpu 32 --mem 256G -p continual -g ds_nlu_1b training.per_device_batch_size=8
uv run theseus submit moe_full_wsd_reset-p1 configs/data/cl100k/mnli_2048.yaml -s configs/data/cl100k/qqp_2048.yaml -s configs/data/cl100k/sst2_2048.yaml -s configs/data/cl100k/siqa_2048.yaml -s configs/continual/ds_nlu/1b/moe_full_wsd_reset.yaml --cluster bonete --chip b200 -n 4 --n_shards 1 --cpu 32 --mem 256G -p continual -g ds_nlu_1b training.per_device_batch_size=8
uv run theseus submit moe_lora_cosine_rewarm-p1 configs/data/cl100k/mnli_2048.yaml -s configs/data/cl100k/qqp_2048.yaml -s configs/data/cl100k/sst2_2048.yaml -s configs/data/cl100k/siqa_2048.yaml -s configs/continual/ds_nlu/1b/moe_lora_cosine_rewarm.yaml --cluster bonete --chip b200 -n 4 --n_shards 1 --cpu 32 --mem 256G -p continual -g ds_nlu_1b training.per_device_batch_size=8
uv run theseus submit moe_lora_wsd-p1 configs/data/cl100k/mnli_2048.yaml -s configs/data/cl100k/qqp_2048.yaml -s configs/data/cl100k/sst2_2048.yaml -s configs/data/cl100k/siqa_2048.yaml -s configs/continual/ds_nlu/1b/moe_lora_wsd.yaml --cluster bonete --chip b200 -n 4 --n_shards 1 --cpu 32 --mem 256G -p continual -g ds_nlu_1b training.per_device_batch_size=8
uv run theseus submit moe_lora_wsd_reset-p1 configs/data/cl100k/mnli_2048.yaml -s configs/data/cl100k/qqp_2048.yaml -s configs/data/cl100k/sst2_2048.yaml -s configs/data/cl100k/siqa_2048.yaml -s configs/continual/ds_nlu/1b/moe_lora_wsd_reset.yaml --cluster bonete --chip b200 -n 4 --n_shards 1 --cpu 32 --mem 256G -p continual -g ds_nlu_1b training.per_device_batch_size=8
uv run theseus submit transformer_full_cosine_rewarm-p1 configs/data/cl100k/mnli_2048.yaml -s configs/data/cl100k/qqp_2048.yaml -s configs/data/cl100k/sst2_2048.yaml -s configs/data/cl100k/siqa_2048.yaml -s configs/continual/ds_nlu/1b/transformer_full_cosine_rewarm.yaml --cluster bonete --chip b200 -n 4 --n_shards 1 --cpu 32 --mem 256G -p continual -g ds_nlu_1b training.per_device_batch_size=8
uv run theseus submit transformer_full_wsd-p1 configs/data/cl100k/mnli_2048.yaml -s configs/data/cl100k/qqp_2048.yaml -s configs/data/cl100k/sst2_2048.yaml -s configs/data/cl100k/siqa_2048.yaml -s configs/continual/ds_nlu/1b/transformer_full_wsd.yaml --cluster bonete --chip b200 -n 4 --n_shards 1 --cpu 32 --mem 256G -p continual -g ds_nlu_1b training.per_device_batch_size=8
uv run theseus submit transformer_full_wsd_reset-p1 configs/data/cl100k/mnli_2048.yaml -s configs/data/cl100k/qqp_2048.yaml -s configs/data/cl100k/sst2_2048.yaml -s configs/data/cl100k/siqa_2048.yaml -s configs/continual/ds_nlu/1b/transformer_full_wsd_reset.yaml --cluster bonete --chip b200 -n 4 --n_shards 1 --cpu 32 --mem 256G -p continual -g ds_nlu_1b training.per_device_batch_size=8
uv run theseus submit transformer_lora_cosine_rewarm-p1 configs/data/cl100k/mnli_2048.yaml -s configs/data/cl100k/qqp_2048.yaml -s configs/data/cl100k/sst2_2048.yaml -s configs/data/cl100k/siqa_2048.yaml -s configs/continual/ds_nlu/1b/transformer_lora_cosine_rewarm.yaml --cluster bonete --chip b200 -n 4 --n_shards 1 --cpu 32 --mem 256G -p continual -g ds_nlu_1b training.per_device_batch_size=8
uv run theseus submit transformer_lora_wsd-p1 configs/data/cl100k/mnli_2048.yaml -s configs/data/cl100k/qqp_2048.yaml -s configs/data/cl100k/sst2_2048.yaml -s configs/data/cl100k/siqa_2048.yaml -s configs/continual/ds_nlu/1b/transformer_lora_wsd.yaml --cluster bonete --chip b200 -n 4 --n_shards 1 --cpu 32 --mem 256G -p continual -g ds_nlu_1b training.per_device_batch_size=8
uv run theseus submit transformer_lora_wsd_reset-p1 configs/data/cl100k/mnli_2048.yaml -s configs/data/cl100k/qqp_2048.yaml -s configs/data/cl100k/sst2_2048.yaml -s configs/data/cl100k/siqa_2048.yaml -s configs/continual/ds_nlu/1b/transformer_lora_wsd_reset.yaml --cluster bonete --chip b200 -n 4 --n_shards 1 --cpu 32 --mem 256G -p continual -g ds_nlu_1b training.per_device_batch_size=8

ds_nlu / 2b¶

uv run theseus submit hybrid_full_cosine_rewarm-p1 configs/data/cl100k/mnli_2048.yaml -s configs/data/cl100k/qqp_2048.yaml -s configs/data/cl100k/sst2_2048.yaml -s configs/data/cl100k/siqa_2048.yaml -s configs/continual/ds_nlu/2b/hybrid_full_cosine_rewarm.yaml --cluster bonete --chip b200 -n 4 --n_shards 1 --cpu 32 --mem 256G -p continual -g ds_nlu_2b training.per_device_batch_size=8
uv run theseus submit hybrid_full_wsd-p1 configs/data/cl100k/mnli_2048.yaml -s configs/data/cl100k/qqp_2048.yaml -s configs/data/cl100k/sst2_2048.yaml -s configs/data/cl100k/siqa_2048.yaml -s configs/continual/ds_nlu/2b/hybrid_full_wsd.yaml --cluster bonete --chip b200 -n 4 --n_shards 1 --cpu 32 --mem 256G -p continual -g ds_nlu_2b training.per_device_batch_size=8
uv run theseus submit hybrid_full_wsd_reset-p1 configs/data/cl100k/mnli_2048.yaml -s configs/data/cl100k/qqp_2048.yaml -s configs/data/cl100k/sst2_2048.yaml -s configs/data/cl100k/siqa_2048.yaml -s configs/continual/ds_nlu/2b/hybrid_full_wsd_reset.yaml --cluster bonete --chip b200 -n 4 --n_shards 1 --cpu 32 --mem 256G -p continual -g ds_nlu_2b training.per_device_batch_size=8
uv run theseus submit hybrid_lora_cosine_rewarm-p1 configs/data/cl100k/mnli_2048.yaml -s configs/data/cl100k/qqp_2048.yaml -s configs/data/cl100k/sst2_2048.yaml -s configs/data/cl100k/siqa_2048.yaml -s configs/continual/ds_nlu/2b/hybrid_lora_cosine_rewarm.yaml --cluster bonete --chip b200 -n 4 --n_shards 1 --cpu 32 --mem 256G -p continual -g ds_nlu_2b training.per_device_batch_size=8
uv run theseus submit hybrid_lora_wsd-p1 configs/data/cl100k/mnli_2048.yaml -s configs/data/cl100k/qqp_2048.yaml -s configs/data/cl100k/sst2_2048.yaml -s configs/data/cl100k/siqa_2048.yaml -s configs/continual/ds_nlu/2b/hybrid_lora_wsd.yaml --cluster bonete --chip b200 -n 4 --n_shards 1 --cpu 32 --mem 256G -p continual -g ds_nlu_2b training.per_device_batch_size=8
uv run theseus submit hybrid_lora_wsd_reset-p1 configs/data/cl100k/mnli_2048.yaml -s configs/data/cl100k/qqp_2048.yaml -s configs/data/cl100k/sst2_2048.yaml -s configs/data/cl100k/siqa_2048.yaml -s configs/continual/ds_nlu/2b/hybrid_lora_wsd_reset.yaml --cluster bonete --chip b200 -n 4 --n_shards 1 --cpu 32 --mem 256G -p continual -g ds_nlu_2b training.per_device_batch_size=8
uv run theseus submit lact_full_cosine_rewarm-p1 configs/data/cl100k/mnli_2048.yaml -s configs/data/cl100k/qqp_2048.yaml -s configs/data/cl100k/sst2_2048.yaml -s configs/data/cl100k/siqa_2048.yaml -s configs/continual/ds_nlu/2b/lact_full_cosine_rewarm.yaml --cluster bonete --chip b200 -n 4 --n_shards 1 --cpu 32 --mem 256G -p continual -g ds_nlu_2b training.per_device_batch_size=8
uv run theseus submit lact_full_wsd-p1 configs/data/cl100k/mnli_2048.yaml -s configs/data/cl100k/qqp_2048.yaml -s configs/data/cl100k/sst2_2048.yaml -s configs/data/cl100k/siqa_2048.yaml -s configs/continual/ds_nlu/2b/lact_full_wsd.yaml --cluster bonete --chip b200 -n 4 --n_shards 1 --cpu 32 --mem 256G -p continual -g ds_nlu_2b training.per_device_batch_size=8
uv run theseus submit lact_full_wsd_reset-p1 configs/data/cl100k/mnli_2048.yaml -s configs/data/cl100k/qqp_2048.yaml -s configs/data/cl100k/sst2_2048.yaml -s configs/data/cl100k/siqa_2048.yaml -s configs/continual/ds_nlu/2b/lact_full_wsd_reset.yaml --cluster bonete --chip b200 -n 4 --n_shards 1 --cpu 32 --mem 256G -p continual -g ds_nlu_2b training.per_device_batch_size=8
uv run theseus submit lact_lora_cosine_rewarm-p1 configs/data/cl100k/mnli_2048.yaml -s configs/data/cl100k/qqp_2048.yaml -s configs/data/cl100k/sst2_2048.yaml -s configs/data/cl100k/siqa_2048.yaml -s configs/continual/ds_nlu/2b/lact_lora_cosine_rewarm.yaml --cluster bonete --chip b200 -n 4 --n_shards 1 --cpu 32 --mem 256G -p continual -g ds_nlu_2b training.per_device_batch_size=8
uv run theseus submit lact_lora_wsd-p1 configs/data/cl100k/mnli_2048.yaml -s configs/data/cl100k/qqp_2048.yaml -s configs/data/cl100k/sst2_2048.yaml -s configs/data/cl100k/siqa_2048.yaml -s configs/continual/ds_nlu/2b/lact_lora_wsd.yaml --cluster bonete --chip b200 -n 4 --n_shards 1 --cpu 32 --mem 256G -p continual -g ds_nlu_2b training.per_device_batch_size=8
uv run theseus submit lact_lora_wsd_reset-p1 configs/data/cl100k/mnli_2048.yaml -s configs/data/cl100k/qqp_2048.yaml -s configs/data/cl100k/sst2_2048.yaml -s configs/data/cl100k/siqa_2048.yaml -s configs/continual/ds_nlu/2b/lact_lora_wsd_reset.yaml --cluster bonete --chip b200 -n 4 --n_shards 1 --cpu 32 --mem 256G -p continual -g ds_nlu_2b training.per_device_batch_size=8
uv run theseus submit mamba_full_cosine_rewarm-p1 configs/data/cl100k/mnli_2048.yaml -s configs/data/cl100k/qqp_2048.yaml -s configs/data/cl100k/sst2_2048.yaml -s configs/data/cl100k/siqa_2048.yaml -s configs/continual/ds_nlu/2b/mamba_full_cosine_rewarm.yaml --cluster bonete --chip b200 -n 4 --n_shards 1 --cpu 32 --mem 256G -p continual -g ds_nlu_2b training.per_device_batch_size=8
uv run theseus submit mamba_full_wsd-p1 configs/data/cl100k/mnli_2048.yaml -s configs/data/cl100k/qqp_2048.yaml -s configs/data/cl100k/sst2_2048.yaml -s configs/data/cl100k/siqa_2048.yaml -s configs/continual/ds_nlu/2b/mamba_full_wsd.yaml --cluster bonete --chip b200 -n 4 --n_shards 1 --cpu 32 --mem 256G -p continual -g ds_nlu_2b training.per_device_batch_size=8
uv run theseus submit mamba_full_wsd_reset-p1 configs/data/cl100k/mnli_2048.yaml -s configs/data/cl100k/qqp_2048.yaml -s configs/data/cl100k/sst2_2048.yaml -s configs/data/cl100k/siqa_2048.yaml -s configs/continual/ds_nlu/2b/mamba_full_wsd_reset.yaml --cluster bonete --chip b200 -n 4 --n_shards 1 --cpu 32 --mem 256G -p continual -g ds_nlu_2b training.per_device_batch_size=8
uv run theseus submit mamba_lora_cosine_rewarm-p1 configs/data/cl100k/mnli_2048.yaml -s configs/data/cl100k/qqp_2048.yaml -s configs/data/cl100k/sst2_2048.yaml -s configs/data/cl100k/siqa_2048.yaml -s configs/continual/ds_nlu/2b/mamba_lora_cosine_rewarm.yaml --cluster bonete --chip b200 -n 4 --n_shards 1 --cpu 32 --mem 256G -p continual -g ds_nlu_2b training.per_device_batch_size=8
uv run theseus submit mamba_lora_wsd-p1 configs/data/cl100k/mnli_2048.yaml -s configs/data/cl100k/qqp_2048.yaml -s configs/data/cl100k/sst2_2048.yaml -s configs/data/cl100k/siqa_2048.yaml -s configs/continual/ds_nlu/2b/mamba_lora_wsd.yaml --cluster bonete --chip b200 -n 4 --n_shards 1 --cpu 32 --mem 256G -p continual -g ds_nlu_2b training.per_device_batch_size=8
uv run theseus submit mamba_lora_wsd_reset-p1 configs/data/cl100k/mnli_2048.yaml -s configs/data/cl100k/qqp_2048.yaml -s configs/data/cl100k/sst2_2048.yaml -s configs/data/cl100k/siqa_2048.yaml -s configs/continual/ds_nlu/2b/mamba_lora_wsd_reset.yaml --cluster bonete --chip b200 -n 4 --n_shards 1 --cpu 32 --mem 256G -p continual -g ds_nlu_2b training.per_device_batch_size=8
uv run theseus submit moe_full_cosine_rewarm-p1 configs/data/cl100k/mnli_2048.yaml -s configs/data/cl100k/qqp_2048.yaml -s configs/data/cl100k/sst2_2048.yaml -s configs/data/cl100k/siqa_2048.yaml -s configs/continual/ds_nlu/2b/moe_full_cosine_rewarm.yaml --cluster bonete --chip b200 -n 4 --n_shards 1 --cpu 32 --mem 256G -p continual -g ds_nlu_2b training.per_device_batch_size=8
uv run theseus submit moe_full_wsd-p1 configs/data/cl100k/mnli_2048.yaml -s configs/data/cl100k/qqp_2048.yaml -s configs/data/cl100k/sst2_2048.yaml -s configs/data/cl100k/siqa_2048.yaml -s configs/continual/ds_nlu/2b/moe_full_wsd.yaml --cluster bonete --chip b200 -n 4 --n_shards 1 --cpu 32 --mem 256G -p continual -g ds_nlu_2b training.per_device_batch_size=8
uv run theseus submit moe_full_wsd_reset-p1 configs/data/cl100k/mnli_2048.yaml -s configs/data/cl100k/qqp_2048.yaml -s configs/data/cl100k/sst2_2048.yaml -s configs/data/cl100k/siqa_2048.yaml -s configs/continual/ds_nlu/2b/moe_full_wsd_reset.yaml --cluster bonete --chip b200 -n 4 --n_shards 1 --cpu 32 --mem 256G -p continual -g ds_nlu_2b training.per_device_batch_size=8
uv run theseus submit moe_lora_cosine_rewarm-p1 configs/data/cl100k/mnli_2048.yaml -s configs/data/cl100k/qqp_2048.yaml -s configs/data/cl100k/sst2_2048.yaml -s configs/data/cl100k/siqa_2048.yaml -s configs/continual/ds_nlu/2b/moe_lora_cosine_rewarm.yaml --cluster bonete --chip b200 -n 4 --n_shards 1 --cpu 32 --mem 256G -p continual -g ds_nlu_2b training.per_device_batch_size=8
uv run theseus submit moe_lora_wsd-p1 configs/data/cl100k/mnli_2048.yaml -s configs/data/cl100k/qqp_2048.yaml -s configs/data/cl100k/sst2_2048.yaml -s configs/data/cl100k/siqa_2048.yaml -s configs/continual/ds_nlu/2b/moe_lora_wsd.yaml --cluster bonete --chip b200 -n 4 --n_shards 1 --cpu 32 --mem 256G -p continual -g ds_nlu_2b training.per_device_batch_size=8
uv run theseus submit moe_lora_wsd_reset-p1 configs/data/cl100k/mnli_2048.yaml -s configs/data/cl100k/qqp_2048.yaml -s configs/data/cl100k/sst2_2048.yaml -s configs/data/cl100k/siqa_2048.yaml -s configs/continual/ds_nlu/2b/moe_lora_wsd_reset.yaml --cluster bonete --chip b200 -n 4 --n_shards 1 --cpu 32 --mem 256G -p continual -g ds_nlu_2b training.per_device_batch_size=8
uv run theseus submit transformer_full_cosine_rewarm-p1 configs/data/cl100k/mnli_2048.yaml -s configs/data/cl100k/qqp_2048.yaml -s configs/data/cl100k/sst2_2048.yaml -s configs/data/cl100k/siqa_2048.yaml -s configs/continual/ds_nlu/2b/transformer_full_cosine_rewarm.yaml --cluster bonete --chip b200 -n 4 --n_shards 1 --cpu 32 --mem 256G -p continual -g ds_nlu_2b training.per_device_batch_size=8
uv run theseus submit transformer_full_wsd-p1 configs/data/cl100k/mnli_2048.yaml -s configs/data/cl100k/qqp_2048.yaml -s configs/data/cl100k/sst2_2048.yaml -s configs/data/cl100k/siqa_2048.yaml -s configs/continual/ds_nlu/2b/transformer_full_wsd.yaml --cluster bonete --chip b200 -n 4 --n_shards 1 --cpu 32 --mem 256G -p continual -g ds_nlu_2b training.per_device_batch_size=8
uv run theseus submit transformer_full_wsd_reset-p1 configs/data/cl100k/mnli_2048.yaml -s configs/data/cl100k/qqp_2048.yaml -s configs/data/cl100k/sst2_2048.yaml -s configs/data/cl100k/siqa_2048.yaml -s configs/continual/ds_nlu/2b/transformer_full_wsd_reset.yaml --cluster bonete --chip b200 -n 4 --n_shards 1 --cpu 32 --mem 256G -p continual -g ds_nlu_2b training.per_device_batch_size=8
uv run theseus submit transformer_lora_cosine_rewarm-p1 configs/data/cl100k/mnli_2048.yaml -s configs/data/cl100k/qqp_2048.yaml -s configs/data/cl100k/sst2_2048.yaml -s configs/data/cl100k/siqa_2048.yaml -s configs/continual/ds_nlu/2b/transformer_lora_cosine_rewarm.yaml --cluster bonete --chip b200 -n 4 --n_shards 1 --cpu 32 --mem 256G -p continual -g ds_nlu_2b training.per_device_batch_size=8
uv run theseus submit transformer_lora_wsd-p1 configs/data/cl100k/mnli_2048.yaml -s configs/data/cl100k/qqp_2048.yaml -s configs/data/cl100k/sst2_2048.yaml -s configs/data/cl100k/siqa_2048.yaml -s configs/continual/ds_nlu/2b/transformer_lora_wsd.yaml --cluster bonete --chip b200 -n 4 --n_shards 1 --cpu 32 --mem 256G -p continual -g ds_nlu_2b training.per_device_batch_size=8
uv run theseus submit transformer_lora_wsd_reset-p1 configs/data/cl100k/mnli_2048.yaml -s configs/data/cl100k/qqp_2048.yaml -s configs/data/cl100k/sst2_2048.yaml -s configs/data/cl100k/siqa_2048.yaml -s configs/continual/ds_nlu/2b/transformer_lora_wsd_reset.yaml --cluster bonete --chip b200 -n 4 --n_shards 1 --cpu 32 --mem 256G -p continual -g ds_nlu_2b training.per_device_batch_size=8

ds_nlu / 700m¶

uv run theseus submit hybrid_full_cosine_rewarm-p1 configs/data/cl100k/mnli_2048.yaml -s configs/data/cl100k/qqp_2048.yaml -s configs/data/cl100k/sst2_2048.yaml -s configs/data/cl100k/siqa_2048.yaml -s configs/continual/ds_nlu/700m/hybrid_full_cosine_rewarm.yaml --cluster bonete --chip b200 -n 4 --n_shards 1 --cpu 32 --mem 256G -p continual -g ds_nlu_700m training.per_device_batch_size=8
uv run theseus submit hybrid_full_wsd-p1 configs/data/cl100k/mnli_2048.yaml -s configs/data/cl100k/qqp_2048.yaml -s configs/data/cl100k/sst2_2048.yaml -s configs/data/cl100k/siqa_2048.yaml -s configs/continual/ds_nlu/700m/hybrid_full_wsd.yaml --cluster bonete --chip b200 -n 4 --n_shards 1 --cpu 32 --mem 256G -p continual -g ds_nlu_700m training.per_device_batch_size=8
uv run theseus submit hybrid_full_wsd_reset-p1 configs/data/cl100k/mnli_2048.yaml -s configs/data/cl100k/qqp_2048.yaml -s configs/data/cl100k/sst2_2048.yaml -s configs/data/cl100k/siqa_2048.yaml -s configs/continual/ds_nlu/700m/hybrid_full_wsd_reset.yaml --cluster bonete --chip b200 -n 4 --n_shards 1 --cpu 32 --mem 256G -p continual -g ds_nlu_700m training.per_device_batch_size=8
uv run theseus submit hybrid_lora_cosine_rewarm-p1 configs/data/cl100k/mnli_2048.yaml -s configs/data/cl100k/qqp_2048.yaml -s configs/data/cl100k/sst2_2048.yaml -s configs/data/cl100k/siqa_2048.yaml -s configs/continual/ds_nlu/700m/hybrid_lora_cosine_rewarm.yaml --cluster bonete --chip b200 -n 4 --n_shards 1 --cpu 32 --mem 256G -p continual -g ds_nlu_700m training.per_device_batch_size=8
uv run theseus submit hybrid_lora_wsd-p1 configs/data/cl100k/mnli_2048.yaml -s configs/data/cl100k/qqp_2048.yaml -s configs/data/cl100k/sst2_2048.yaml -s configs/data/cl100k/siqa_2048.yaml -s configs/continual/ds_nlu/700m/hybrid_lora_wsd.yaml --cluster bonete --chip b200 -n 4 --n_shards 1 --cpu 32 --mem 256G -p continual -g ds_nlu_700m training.per_device_batch_size=8
uv run theseus submit hybrid_lora_wsd_reset-p1 configs/data/cl100k/mnli_2048.yaml -s configs/data/cl100k/qqp_2048.yaml -s configs/data/cl100k/sst2_2048.yaml -s configs/data/cl100k/siqa_2048.yaml -s configs/continual/ds_nlu/700m/hybrid_lora_wsd_reset.yaml --cluster bonete --chip b200 -n 4 --n_shards 1 --cpu 32 --mem 256G -p continual -g ds_nlu_700m training.per_device_batch_size=8
uv run theseus submit lact_full_cosine_rewarm-p1 configs/data/cl100k/mnli_2048.yaml -s configs/data/cl100k/qqp_2048.yaml -s configs/data/cl100k/sst2_2048.yaml -s configs/data/cl100k/siqa_2048.yaml -s configs/continual/ds_nlu/700m/lact_full_cosine_rewarm.yaml --cluster bonete --chip b200 -n 4 --n_shards 1 --cpu 32 --mem 256G -p continual -g ds_nlu_700m training.per_device_batch_size=8
uv run theseus submit lact_full_wsd-p1 configs/data/cl100k/mnli_2048.yaml -s configs/data/cl100k/qqp_2048.yaml -s configs/data/cl100k/sst2_2048.yaml -s configs/data/cl100k/siqa_2048.yaml -s configs/continual/ds_nlu/700m/lact_full_wsd.yaml --cluster bonete --chip b200 -n 4 --n_shards 1 --cpu 32 --mem 256G -p continual -g ds_nlu_700m training.per_device_batch_size=8
uv run theseus submit lact_full_wsd_reset-p1 configs/data/cl100k/mnli_2048.yaml -s configs/data/cl100k/qqp_2048.yaml -s configs/data/cl100k/sst2_2048.yaml -s configs/data/cl100k/siqa_2048.yaml -s configs/continual/ds_nlu/700m/lact_full_wsd_reset.yaml --cluster bonete --chip b200 -n 4 --n_shards 1 --cpu 32 --mem 256G -p continual -g ds_nlu_700m training.per_device_batch_size=8
uv run theseus submit lact_lora_cosine_rewarm-p1 configs/data/cl100k/mnli_2048.yaml -s configs/data/cl100k/qqp_2048.yaml -s configs/data/cl100k/sst2_2048.yaml -s configs/data/cl100k/siqa_2048.yaml -s configs/continual/ds_nlu/700m/lact_lora_cosine_rewarm.yaml --cluster bonete --chip b200 -n 4 --n_shards 1 --cpu 32 --mem 256G -p continual -g ds_nlu_700m training.per_device_batch_size=8
uv run theseus submit lact_lora_wsd-p1 configs/data/cl100k/mnli_2048.yaml -s configs/data/cl100k/qqp_2048.yaml -s configs/data/cl100k/sst2_2048.yaml -s configs/data/cl100k/siqa_2048.yaml -s configs/continual/ds_nlu/700m/lact_lora_wsd.yaml --cluster bonete --chip b200 -n 4 --n_shards 1 --cpu 32 --mem 256G -p continual -g ds_nlu_700m training.per_device_batch_size=8
uv run theseus submit lact_lora_wsd_reset-p1 configs/data/cl100k/mnli_2048.yaml -s configs/data/cl100k/qqp_2048.yaml -s configs/data/cl100k/sst2_2048.yaml -s configs/data/cl100k/siqa_2048.yaml -s configs/continual/ds_nlu/700m/lact_lora_wsd_reset.yaml --cluster bonete --chip b200 -n 4 --n_shards 1 --cpu 32 --mem 256G -p continual -g ds_nlu_700m training.per_device_batch_size=8
uv run theseus submit mamba_full_cosine_rewarm-p1 configs/data/cl100k/mnli_2048.yaml -s configs/data/cl100k/qqp_2048.yaml -s configs/data/cl100k/sst2_2048.yaml -s configs/data/cl100k/siqa_2048.yaml -s configs/continual/ds_nlu/700m/mamba_full_cosine_rewarm.yaml --cluster bonete --chip b200 -n 4 --n_shards 1 --cpu 32 --mem 256G -p continual -g ds_nlu_700m training.per_device_batch_size=8
uv run theseus submit mamba_full_wsd-p1 configs/data/cl100k/mnli_2048.yaml -s configs/data/cl100k/qqp_2048.yaml -s configs/data/cl100k/sst2_2048.yaml -s configs/data/cl100k/siqa_2048.yaml -s configs/continual/ds_nlu/700m/mamba_full_wsd.yaml --cluster bonete --chip b200 -n 4 --n_shards 1 --cpu 32 --mem 256G -p continual -g ds_nlu_700m training.per_device_batch_size=8
uv run theseus submit mamba_full_wsd_reset-p1 configs/data/cl100k/mnli_2048.yaml -s configs/data/cl100k/qqp_2048.yaml -s configs/data/cl100k/sst2_2048.yaml -s configs/data/cl100k/siqa_2048.yaml -s configs/continual/ds_nlu/700m/mamba_full_wsd_reset.yaml --cluster bonete --chip b200 -n 4 --n_shards 1 --cpu 32 --mem 256G -p continual -g ds_nlu_700m training.per_device_batch_size=8
uv run theseus submit mamba_lora_cosine_rewarm-p1 configs/data/cl100k/mnli_2048.yaml -s configs/data/cl100k/qqp_2048.yaml -s configs/data/cl100k/sst2_2048.yaml -s configs/data/cl100k/siqa_2048.yaml -s configs/continual/ds_nlu/700m/mamba_lora_cosine_rewarm.yaml --cluster bonete --chip b200 -n 4 --n_shards 1 --cpu 32 --mem 256G -p continual -g ds_nlu_700m training.per_device_batch_size=8
uv run theseus submit mamba_lora_wsd-p1 configs/data/cl100k/mnli_2048.yaml -s configs/data/cl100k/qqp_2048.yaml -s configs/data/cl100k/sst2_2048.yaml -s configs/data/cl100k/siqa_2048.yaml -s configs/continual/ds_nlu/700m/mamba_lora_wsd.yaml --cluster bonete --chip b200 -n 4 --n_shards 1 --cpu 32 --mem 256G -p continual -g ds_nlu_700m training.per_device_batch_size=8
uv run theseus submit mamba_lora_wsd_reset-p1 configs/data/cl100k/mnli_2048.yaml -s configs/data/cl100k/qqp_2048.yaml -s configs/data/cl100k/sst2_2048.yaml -s configs/data/cl100k/siqa_2048.yaml -s configs/continual/ds_nlu/700m/mamba_lora_wsd_reset.yaml --cluster bonete --chip b200 -n 4 --n_shards 1 --cpu 32 --mem 256G -p continual -g ds_nlu_700m training.per_device_batch_size=8
uv run theseus submit moe_full_cosine_rewarm-p1 configs/data/cl100k/mnli_2048.yaml -s configs/data/cl100k/qqp_2048.yaml -s configs/data/cl100k/sst2_2048.yaml -s configs/data/cl100k/siqa_2048.yaml -s configs/continual/ds_nlu/700m/moe_full_cosine_rewarm.yaml --cluster bonete --chip b200 -n 4 --n_shards 1 --cpu 32 --mem 256G -p continual -g ds_nlu_700m training.per_device_batch_size=8
uv run theseus submit moe_full_wsd-p1 configs/data/cl100k/mnli_2048.yaml -s configs/data/cl100k/qqp_2048.yaml -s configs/data/cl100k/sst2_2048.yaml -s configs/data/cl100k/siqa_2048.yaml -s configs/continual/ds_nlu/700m/moe_full_wsd.yaml --cluster bonete --chip b200 -n 4 --n_shards 1 --cpu 32 --mem 256G -p continual -g ds_nlu_700m training.per_device_batch_size=8
uv run theseus submit moe_full_wsd_reset-p1 configs/data/cl100k/mnli_2048.yaml -s configs/data/cl100k/qqp_2048.yaml -s configs/data/cl100k/sst2_2048.yaml -s configs/data/cl100k/siqa_2048.yaml -s configs/continual/ds_nlu/700m/moe_full_wsd_reset.yaml --cluster bonete --chip b200 -n 4 --n_shards 1 --cpu 32 --mem 256G -p continual -g ds_nlu_700m training.per_device_batch_size=8
uv run theseus submit moe_lora_cosine_rewarm-p1 configs/data/cl100k/mnli_2048.yaml -s configs/data/cl100k/qqp_2048.yaml -s configs/data/cl100k/sst2_2048.yaml -s configs/data/cl100k/siqa_2048.yaml -s configs/continual/ds_nlu/700m/moe_lora_cosine_rewarm.yaml --cluster bonete --chip b200 -n 4 --n_shards 1 --cpu 32 --mem 256G -p continual -g ds_nlu_700m training.per_device_batch_size=8
uv run theseus submit moe_lora_wsd-p1 configs/data/cl100k/mnli_2048.yaml -s configs/data/cl100k/qqp_2048.yaml -s configs/data/cl100k/sst2_2048.yaml -s configs/data/cl100k/siqa_2048.yaml -s configs/continual/ds_nlu/700m/moe_lora_wsd.yaml --cluster bonete --chip b200 -n 4 --n_shards 1 --cpu 32 --mem 256G -p continual -g ds_nlu_700m training.per_device_batch_size=8
uv run theseus submit moe_lora_wsd_reset-p1 configs/data/cl100k/mnli_2048.yaml -s configs/data/cl100k/qqp_2048.yaml -s configs/data/cl100k/sst2_2048.yaml -s configs/data/cl100k/siqa_2048.yaml -s configs/continual/ds_nlu/700m/moe_lora_wsd_reset.yaml --cluster bonete --chip b200 -n 4 --n_shards 1 --cpu 32 --mem 256G -p continual -g ds_nlu_700m training.per_device_batch_size=8
uv run theseus submit transformer_full_cosine_rewarm-p1 configs/data/cl100k/mnli_2048.yaml -s configs/data/cl100k/qqp_2048.yaml -s configs/data/cl100k/sst2_2048.yaml -s configs/data/cl100k/siqa_2048.yaml -s configs/continual/ds_nlu/700m/transformer_full_cosine_rewarm.yaml --cluster bonete --chip b200 -n 4 --n_shards 1 --cpu 32 --mem 256G -p continual -g ds_nlu_700m training.per_device_batch_size=8
uv run theseus submit transformer_full_wsd-p1 configs/data/cl100k/mnli_2048.yaml -s configs/data/cl100k/qqp_2048.yaml -s configs/data/cl100k/sst2_2048.yaml -s configs/data/cl100k/siqa_2048.yaml -s configs/continual/ds_nlu/700m/transformer_full_wsd.yaml --cluster bonete --chip b200 -n 4 --n_shards 1 --cpu 32 --mem 256G -p continual -g ds_nlu_700m training.per_device_batch_size=8
uv run theseus submit transformer_full_wsd_reset-p1 configs/data/cl100k/mnli_2048.yaml -s configs/data/cl100k/qqp_2048.yaml -s configs/data/cl100k/sst2_2048.yaml -s configs/data/cl100k/siqa_2048.yaml -s configs/continual/ds_nlu/700m/transformer_full_wsd_reset.yaml --cluster bonete --chip b200 -n 4 --n_shards 1 --cpu 32 --mem 256G -p continual -g ds_nlu_700m training.per_device_batch_size=8
uv run theseus submit transformer_lora_cosine_rewarm-p1 configs/data/cl100k/mnli_2048.yaml -s configs/data/cl100k/qqp_2048.yaml -s configs/data/cl100k/sst2_2048.yaml -s configs/data/cl100k/siqa_2048.yaml -s configs/continual/ds_nlu/700m/transformer_lora_cosine_rewarm.yaml --cluster bonete --chip b200 -n 4 --n_shards 1 --cpu 32 --mem 256G -p continual -g ds_nlu_700m training.per_device_batch_size=8
uv run theseus submit transformer_lora_wsd-p1 configs/data/cl100k/mnli_2048.yaml -s configs/data/cl100k/qqp_2048.yaml -s configs/data/cl100k/sst2_2048.yaml -s configs/data/cl100k/siqa_2048.yaml -s configs/continual/ds_nlu/700m/transformer_lora_wsd.yaml --cluster bonete --chip b200 -n 4 --n_shards 1 --cpu 32 --mem 256G -p continual -g ds_nlu_700m training.per_device_batch_size=8
uv run theseus submit transformer_lora_wsd_reset-p1 configs/data/cl100k/mnli_2048.yaml -s configs/data/cl100k/qqp_2048.yaml -s configs/data/cl100k/sst2_2048.yaml -s configs/data/cl100k/siqa_2048.yaml -s configs/continual/ds_nlu/700m/transformer_lora_wsd_reset.yaml --cluster bonete --chip b200 -n 4 --n_shards 1 --cpu 32 --mem 256G -p continual -g ds_nlu_700m training.per_device_batch_size=8

ic_injected / 1b¶

uv run theseus submit hybrid_full_wsd-p1 configs/continual/ic_injected/1b/hybrid_full_wsd.yaml --cluster bonete --chip b200 -n 4 --n_shards 1 --cpu 32 --mem 256G -p continual -g ic_injected_1b training.per_device_batch_size=8
uv run theseus submit lact_full_wsd-p1 configs/continual/ic_injected/1b/lact_full_wsd.yaml --cluster bonete --chip b200 -n 4 --n_shards 1 --cpu 32 --mem 256G -p continual -g ic_injected_1b training.per_device_batch_size=8
uv run theseus submit mamba_full_wsd-p1 configs/continual/ic_injected/1b/mamba_full_wsd.yaml --cluster bonete --chip b200 -n 4 --n_shards 1 --cpu 32 --mem 256G -p continual -g ic_injected_1b training.per_device_batch_size=8
uv run theseus submit moe_full_wsd-p1 configs/continual/ic_injected/1b/moe_full_wsd.yaml --cluster bonete --chip b200 -n 4 --n_shards 1 --cpu 32 --mem 256G -p continual -g ic_injected_1b training.per_device_batch_size=8
uv run theseus submit transformer_full_wsd-p1 configs/continual/ic_injected/1b/transformer_full_wsd.yaml --cluster bonete --chip b200 -n 4 --n_shards 1 --cpu 32 --mem 256G -p continual -g ic_injected_1b training.per_device_batch_size=8

ic_injected / 2b¶

uv run theseus submit hybrid_full_wsd-p1 configs/continual/ic_injected/2b/hybrid_full_wsd.yaml --cluster bonete --chip b200 -n 4 --n_shards 1 --cpu 32 --mem 256G -p continual -g ic_injected_2b training.per_device_batch_size=8
uv run theseus submit lact_full_wsd-p1 configs/continual/ic_injected/2b/lact_full_wsd.yaml --cluster bonete --chip b200 -n 4 --n_shards 1 --cpu 32 --mem 256G -p continual -g ic_injected_2b training.per_device_batch_size=8
uv run theseus submit mamba_full_wsd-p1 configs/continual/ic_injected/2b/mamba_full_wsd.yaml --cluster bonete --chip b200 -n 4 --n_shards 1 --cpu 32 --mem 256G -p continual -g ic_injected_2b training.per_device_batch_size=8
uv run theseus submit moe_full_wsd-p1 configs/continual/ic_injected/2b/moe_full_wsd.yaml --cluster bonete --chip b200 -n 4 --n_shards 1 --cpu 32 --mem 256G -p continual -g ic_injected_2b training.per_device_batch_size=8
uv run theseus submit transformer_full_wsd-p1 configs/continual/ic_injected/2b/transformer_full_wsd.yaml --cluster bonete --chip b200 -n 4 --n_shards 1 --cpu 32 --mem 256G -p continual -g ic_injected_2b training.per_device_batch_size=8

ic_injected / 700m¶

uv run theseus submit hybrid_full_wsd-p1 configs/continual/ic_injected/700m/hybrid_full_wsd.yaml --cluster bonete --chip b200 -n 4 --n_shards 1 --cpu 32 --mem 256G -p continual -g ic_injected_700m training.per_device_batch_size=8
uv run theseus submit lact_full_wsd-p1 configs/continual/ic_injected/700m/lact_full_wsd.yaml --cluster bonete --chip b200 -n 4 --n_shards 1 --cpu 32 --mem 256G -p continual -g ic_injected_700m training.per_device_batch_size=8
uv run theseus submit mamba_full_wsd-p1 configs/continual/ic_injected/700m/mamba_full_wsd.yaml --cluster bonete --chip b200 -n 4 --n_shards 1 --cpu 32 --mem 256G -p continual -g ic_injected_700m training.per_device_batch_size=8
uv run theseus submit moe_full_wsd-p1 configs/continual/ic_injected/700m/moe_full_wsd.yaml --cluster bonete --chip b200 -n 4 --n_shards 1 --cpu 32 --mem 256G -p continual -g ic_injected_700m training.per_device_batch_size=8
uv run theseus submit transformer_full_wsd-p1 configs/continual/ic_injected/700m/transformer_full_wsd.yaml --cluster bonete --chip b200 -n 4 --n_shards 1 --cpu 32 --mem 256G -p continual -g ic_injected_700m training.per_device_batch_size=8

ic_lengthgen / 1b¶

uv run theseus submit hybrid_full_wsd-p1 configs/continual/ic_lengthgen/1b/hybrid_full_wsd.yaml --cluster bonete --chip b200 -n 4 --n_shards 1 --cpu 32 --mem 256G -p continual -g ic_lengthgen_1b training.per_device_batch_size=8
uv run theseus submit lact_full_wsd-p1 configs/continual/ic_lengthgen/1b/lact_full_wsd.yaml --cluster bonete --chip b200 -n 4 --n_shards 1 --cpu 32 --mem 256G -p continual -g ic_lengthgen_1b training.per_device_batch_size=8
uv run theseus submit mamba_full_wsd-p1 configs/continual/ic_lengthgen/1b/mamba_full_wsd.yaml --cluster bonete --chip b200 -n 4 --n_shards 1 --cpu 32 --mem 256G -p continual -g ic_lengthgen_1b training.per_device_batch_size=8
uv run theseus submit moe_full_wsd-p1 configs/continual/ic_lengthgen/1b/moe_full_wsd.yaml --cluster bonete --chip b200 -n 4 --n_shards 1 --cpu 32 --mem 256G -p continual -g ic_lengthgen_1b training.per_device_batch_size=8
uv run theseus submit transformer_full_wsd-p1 configs/continual/ic_lengthgen/1b/transformer_full_wsd.yaml --cluster bonete --chip b200 -n 4 --n_shards 1 --cpu 32 --mem 256G -p continual -g ic_lengthgen_1b training.per_device_batch_size=8

ic_lengthgen / 2b¶

uv run theseus submit hybrid_full_wsd-p1 configs/continual/ic_lengthgen/2b/hybrid_full_wsd.yaml --cluster bonete --chip b200 -n 4 --n_shards 1 --cpu 32 --mem 256G -p continual -g ic_lengthgen_2b training.per_device_batch_size=8
uv run theseus submit lact_full_wsd-p1 configs/continual/ic_lengthgen/2b/lact_full_wsd.yaml --cluster bonete --chip b200 -n 4 --n_shards 1 --cpu 32 --mem 256G -p continual -g ic_lengthgen_2b training.per_device_batch_size=8
uv run theseus submit mamba_full_wsd-p1 configs/continual/ic_lengthgen/2b/mamba_full_wsd.yaml --cluster bonete --chip b200 -n 4 --n_shards 1 --cpu 32 --mem 256G -p continual -g ic_lengthgen_2b training.per_device_batch_size=8
uv run theseus submit moe_full_wsd-p1 configs/continual/ic_lengthgen/2b/moe_full_wsd.yaml --cluster bonete --chip b200 -n 4 --n_shards 1 --cpu 32 --mem 256G -p continual -g ic_lengthgen_2b training.per_device_batch_size=8
uv run theseus submit transformer_full_wsd-p1 configs/continual/ic_lengthgen/2b/transformer_full_wsd.yaml --cluster bonete --chip b200 -n 4 --n_shards 1 --cpu 32 --mem 256G -p continual -g ic_lengthgen_2b training.per_device_batch_size=8

ic_lengthgen / 700m¶

uv run theseus submit hybrid_full_wsd-p1 configs/continual/ic_lengthgen/700m/hybrid_full_wsd.yaml --cluster bonete --chip b200 -n 4 --n_shards 1 --cpu 32 --mem 256G -p continual -g ic_lengthgen_700m training.per_device_batch_size=8
uv run theseus submit lact_full_wsd-p1 configs/continual/ic_lengthgen/700m/lact_full_wsd.yaml --cluster bonete --chip b200 -n 4 --n_shards 1 --cpu 32 --mem 256G -p continual -g ic_lengthgen_700m training.per_device_batch_size=8
uv run theseus submit mamba_full_wsd-p1 configs/continual/ic_lengthgen/700m/mamba_full_wsd.yaml --cluster bonete --chip b200 -n 4 --n_shards 1 --cpu 32 --mem 256G -p continual -g ic_lengthgen_700m training.per_device_batch_size=8
uv run theseus submit moe_full_wsd-p1 configs/continual/ic_lengthgen/700m/moe_full_wsd.yaml --cluster bonete --chip b200 -n 4 --n_shards 1 --cpu 32 --mem 256G -p continual -g ic_lengthgen_700m training.per_device_batch_size=8
uv run theseus submit transformer_full_wsd-p1 configs/continual/ic_lengthgen/700m/transformer_full_wsd.yaml --cluster bonete --chip b200 -n 4 --n_shards 1 --cpu 32 --mem 256G -p continual -g ic_lengthgen_700m training.per_device_batch_size=8

ic_longqa / 1b¶

uv run theseus submit hybrid_full_wsd-p1 configs/continual/ic_longqa/1b/hybrid_full_wsd.yaml --cluster bonete --chip b200 -n 4 --n_shards 1 --cpu 32 --mem 256G -p continual -g ic_longqa_1b training.per_device_batch_size=8
uv run theseus submit lact_full_wsd-p1 configs/continual/ic_longqa/1b/lact_full_wsd.yaml --cluster bonete --chip b200 -n 4 --n_shards 1 --cpu 32 --mem 256G -p continual -g ic_longqa_1b training.per_device_batch_size=8
uv run theseus submit mamba_full_wsd-p1 configs/continual/ic_longqa/1b/mamba_full_wsd.yaml --cluster bonete --chip b200 -n 4 --n_shards 1 --cpu 32 --mem 256G -p continual -g ic_longqa_1b training.per_device_batch_size=8
uv run theseus submit moe_full_wsd-p1 configs/continual/ic_longqa/1b/moe_full_wsd.yaml --cluster bonete --chip b200 -n 4 --n_shards 1 --cpu 32 --mem 256G -p continual -g ic_longqa_1b training.per_device_batch_size=8
uv run theseus submit transformer_full_wsd-p1 configs/continual/ic_longqa/1b/transformer_full_wsd.yaml --cluster bonete --chip b200 -n 4 --n_shards 1 --cpu 32 --mem 256G -p continual -g ic_longqa_1b training.per_device_batch_size=8

ic_longqa / 2b¶

uv run theseus submit hybrid_full_wsd-p1 configs/continual/ic_longqa/2b/hybrid_full_wsd.yaml --cluster bonete --chip b200 -n 4 --n_shards 1 --cpu 32 --mem 256G -p continual -g ic_longqa_2b training.per_device_batch_size=8
uv run theseus submit lact_full_wsd-p1 configs/continual/ic_longqa/2b/lact_full_wsd.yaml --cluster bonete --chip b200 -n 4 --n_shards 1 --cpu 32 --mem 256G -p continual -g ic_longqa_2b training.per_device_batch_size=8
uv run theseus submit mamba_full_wsd-p1 configs/continual/ic_longqa/2b/mamba_full_wsd.yaml --cluster bonete --chip b200 -n 4 --n_shards 1 --cpu 32 --mem 256G -p continual -g ic_longqa_2b training.per_device_batch_size=8
uv run theseus submit moe_full_wsd-p1 configs/continual/ic_longqa/2b/moe_full_wsd.yaml --cluster bonete --chip b200 -n 4 --n_shards 1 --cpu 32 --mem 256G -p continual -g ic_longqa_2b training.per_device_batch_size=8
uv run theseus submit transformer_full_wsd-p1 configs/continual/ic_longqa/2b/transformer_full_wsd.yaml --cluster bonete --chip b200 -n 4 --n_shards 1 --cpu 32 --mem 256G -p continual -g ic_longqa_2b training.per_device_batch_size=8

ic_longqa / 700m¶

uv run theseus submit hybrid_full_wsd-p1 configs/continual/ic_longqa/700m/hybrid_full_wsd.yaml --cluster bonete --chip b200 -n 4 --n_shards 1 --cpu 32 --mem 256G -p continual -g ic_longqa_700m training.per_device_batch_size=8
uv run theseus submit lact_full_wsd-p1 configs/continual/ic_longqa/700m/lact_full_wsd.yaml --cluster bonete --chip b200 -n 4 --n_shards 1 --cpu 32 --mem 256G -p continual -g ic_longqa_700m training.per_device_batch_size=8
uv run theseus submit mamba_full_wsd-p1 configs/continual/ic_longqa/700m/mamba_full_wsd.yaml --cluster bonete --chip b200 -n 4 --n_shards 1 --cpu 32 --mem 256G -p continual -g ic_longqa_700m training.per_device_batch_size=8
uv run theseus submit moe_full_wsd-p1 configs/continual/ic_longqa/700m/moe_full_wsd.yaml --cluster bonete --chip b200 -n 4 --n_shards 1 --cpu 32 --mem 256G -p continual -g ic_longqa_700m training.per_device_batch_size=8
uv run theseus submit transformer_full_wsd-p1 configs/continual/ic_longqa/700m/transformer_full_wsd.yaml --cluster bonete --chip b200 -n 4 --n_shards 1 --cpu 32 --mem 256G -p continual -g ic_longqa_700m training.per_device_batch_size=8