第8章 第一课(1 / 3)
语料清洗,其实就跟保护孩子教育的成长环境是差不过的概念。
教育孩子,必须保护他的成长环境——越是小的时候,就越不能让他接触乱七八糟的东西。
一旦从小长歪了、学坏了,后期再怎么教育、再怎么修理,也很难完全纠正回来。
人工智能模型也一样如此,如果早期的“言心”模型出了问题,那意味着“言心”模型现在所有的备份都会出现同样的问题。
机器学习很难,各种模型各种算法,都是经历数年甚至十数年的演进和发展才逐步完善的。
训练的过程中,更是消耗大量的cpu、gpu算力资源,耗费大量的金钱,可能还不能完全达到预期想要的效果。
但是,机器学习一旦学到了,想要让它“忘掉”——那更是不可能的事情。
在无数个神经网络节点上,机器学习到的东西可以说是无处不在,谁也不知道这些语料的成果会在哪些个节点上有所体现。
现在的技术手段根本没有办法通过递归或遍历确定这些节点——因为就连训练者们自己其实也不清楚ai模型究竟是如何掌握这些能力的。
动不动几十甚至上百个tb的数据,也确实不是人力检测所能企及的——更不用说去指定清除特定的内容和能力了,这根本不可能做得到。
类比人的记忆,其实也差不多,你告诉一个人一个秘密,然后后悔了,想让他忘掉?
那能怎么办?没有任何办法!
就算你对着他的脑袋给一榔头,最终也不一定会是个什么结果——相比单独忘掉这件事儿,让他完全失忆倒是更简单一些。
机器学习的“遗忘”也是如此,但从技术层面来讲,消除特定数据点影响的传统方法,就是重开——也就是从某个备份开始重建系统。
如果所有备份都有问题的话,那就真的只能从零开始了。
而从零开始,那意味着海量的培养成本——几十上百亿的投资啊,直接就打了水漂了。
这样的损失,别说是千寻科技,换成其他任何企业也无法轻易接受。
“也不是完全没有办法。”程旭微微思索了一番,随后慎重的点了点头,微笑着说道。
如果真的是人,除了让他完全失忆,程旭也没有任何办法。