根据系统替换RuleBasedModelV1/game/r
与RuleBasedModelV1/rule_utils/env
Combinational Q-Learning论文中的env
混合了RuleBased模型和MCTS模型 场上最少手牌数大于10时采用Rule决策, 否则采用MCTS
根据系统替换RuleBasedModelV1/game/r
与RuleBasedModelV1/rule_utils/env
Combinational Q-Learning论文中的env
混合了RuleBased模型和MCTS模型 场上最少手牌数大于10时采用Rule决策, 否则采用MCTS