第八十七章 动力装甲技术难题(3 / 3)
所谓的级联方法,是指由两个和两个以上的神经网络联合起来组成的网络。在控制策略差异较大的不同环境下,将环境控制参数提取出来,作为前一级神经网络的输入,其余特征向量和前一级神经网络的输出作为下一级神经网络的输入。
这种方法虽然需要更多的计算资源,但能对一些高度非线性的情况进行很好的处理。
而惩罚项则是一种安全强化学习的技巧。有时,为了学习的稳定性,会给到达非安全状态的动作加一个非常大的惩罚性回报。
惩罚项如果太大,会导致学习到的策略过于保守,从而无法使性能达到最优,如果太小,则很可能失去惩罚作用。因此其大小需要精心调试或通过自动学习的方式得到。
苏寒雨很快将具体算法的变动画在平板上,然后发送给张飞。
张飞来自计算机科学与技术学院,是一名软件工程专业的学生。
几个月前,他被郝俊物色并招致麾下的。
虽然他刚来时与苏寒雨不熟,但自从加入实验室后一直与团队配合得极为出色。
张飞生得人高马大,接近一米九的个头。他穿了一件t恤,看上去并没有显得很强壮,但那薄薄的衣服下隐藏着常年健身和习武而淬炼出的钢筋铁骨。
因为从父亲那里听说过太多血汗程序员的故事,从高中开始,他就把技能树上的身体和编程相关技能都点满了,或许是因为过于极端的原因,高考只考上了普沃大学。
张飞的专业成绩并不是很理想,甚至挂过几门科目,但丝毫不影响他成为一名出色的程序员——他挂的科目跟编程没有任何关系。
他一边看着平板中的算法流程图,一边听苏寒雨讲解,很快就明白了对方的需求。
虽然在编程神器gpt和codegeex的帮助下,很多代码已经不需要程序员去写了,但一些特定的业务逻辑还是需要有经验的程序员进行检查和修改。
张飞很熟练地将算法转换为恰当的提示并输入给gpt,然后将gpt初步生成的代码放到codegeex中,使用codegeex完成一些更细致的函数编写工作。
代码编写过程不超过1分钟。
5分钟后,编译和测试工作也已完成。
新的程序已经上传并部署到动力装甲中。
“第二次测试开始!”