时间:2026-04-09 关注公众号 来源:网络
max_tokens是骡子快跑单次响应的最大token数,控制输出长度而非输入或上下文;中文约1.3–1.6字/Token,需预留缓冲;超级智能体模式语义截断,计算机模式硬截断;支持自然语言隐式调控;可通过“测试”重复法反推实际值。
骡子快跑(MuleRun)采用订阅套餐与按量付费相结合的收费模式,个人用户起步价约为19.9 美元/月。
订阅套餐价格
Plus 套餐:月费19.9 美元,支持 5 个并发智能体会话、100GB 存储及高峰优先访问 。
Pro 套餐:月费99.9 美元,支持 30 个并发会话、1TB 存储,提供 API 密钥及工单支持 。
企业套餐:包含组织管理、私有代理及专属 SLA 服务,具体费用需定制 。
按量付费与积分
计费单位:平台使用积分(Credits)结算,1 美元兑换 100 积分。2消耗标准:简单任务(如写文案)消耗 10-30 积分/次,复杂任务(如建网页)消耗 50-100 积分/次 。4典型场景:3D 桌面人物创作等特定 Agent 使用单次约 50 积分(0.5 美元)。
新人福利政策
注册赠送:新用户注册即送1000-2000 积分,可免费完成约 20 次核心操作 。4免费体验:设有免费会员层级,允许用户体验基础功能后再决定是否付费 。
如果您在使用骡子快跑时发现生成内容被意外截断或未达预期长度,则可能是由于输出长度参数 max_tokens 的限制作用所致。以下是对此参数功能与行为的详细解析:
一、max_tokens 的本质定义与作用范围
max_tokens 是骡子快跑在单次响应中允许生成的最大 token 数量,它直接约束模型输出的文本长度,而非输入长度或上下文总容量。该参数影响的是最终呈现给用户的响应体,不干预系统指令、工具调用日志或内部推理链的生成过程。
1、当响应内容达到设定的 max_tokens 值时,模型会立即终止生成并返回当前已完成的部分;
2、超出部分不会被缓存或延迟输出,也不会触发自动续写机制;
3、该限制独立于上下文窗口(默认128K Token),仅作用于本次输出流的终点控制。
二、max_tokens 与实际中文字符数的换算关系
由于 token 切分基于子词单元(subword),中文字符与 token 并非 1:1 对应。骡子快跑采用优化后的中文分词策略,平均约 1.3–1.6个中文字符对应1个token,具体比例受标点密度、专有名词长度及是否含英文混合内容影响。
1、纯中文短句(如“请生成三行诗”)通常每字≈1.4 token;
2、含大量英文术语或代码片段时,token 消耗显著升高,可能达每字符2.1 token以上;
3、若需稳定控制在500汉字以内输出,建议将 max_tokens 设为700以预留缓冲余量。
三、不同交互模式下 max_tokens 的生效逻辑
骡子快跑在超级智能体模式与计算机模式中对 max_tokens 的处理存在结构性差异:前者按语义完整性优先截断,后者执行硬性字节级终止。两种模式均不支持运行时动态扩展该值。
1、在超级智能体模式下,系统会在接近阈值前主动压缩冗余修饰语,保留主谓宾结构与关键实体;
2、切换至计算机模式后,max_tokens 触发的是底层虚拟机沙箱的 write buffer 截断,无语义判断,可能在句子中间强制中断;
3、使用 tool:summarize-strict 工具时,其内部 --max-len 参数与顶层 max_tokens 独立运算,互不覆盖。
四、通过自然语言指令隐式调控输出长度
用户无需手动配置技术参数,骡子快跑支持在提问中嵌入语义化长度约束指令,系统将自动映射为等效的 max_tokens 限值,并启用对应压缩策略。
1、明确字数要求,例如“请用不超过100字回答”,将触发约140 token 的硬性上限;
2、结构化提示如“分三点说明,每点不超过一行”,会激活要点式生成逻辑,整体输出通常控制在220 token 内;
3、指定摘要类型,如“生成一句话结论”,系统默认分配≤60 token,确保单句完整性。
五、查看与验证当前会话实际使用的 max_tokens 值
骡子快跑不对外暴露原始参数面板,但可通过特定响应特征反向推断当前生效的 max_tokens 设置。该方法适用于调试长文本生成异常或比对不同Agent的输出稳定性。
1、向任意Agent发送固定模板请求:“重复输出‘测试’二字共500次”,记录实际返回次数;
2、将返回字数乘以1.5系数,所得数值即为当前会话近似生效的 max_tokens 值;
3、若响应在第333次“测试”后中断,表明实际限值约为500 token。