浏览人工智能、统计学习、自动控制等相关领域国际顶级期刊的论文,会发现大部分论文是“调包族”:这些论文不再进行基础算法的编程,而是调用现成的软件包,其中最常用的就是Matlab Toolbox。这些基础算法包括:BP,Hopfield,Decision Tree,Random Forest,MARS,SVM,等等等等。由于研究者们不再对这些基础算法进行自己编程,使得研究者们对基础算法的理解趋于表面化、肤浅化,这也是许多年来这些领域在基础理论方面没有突破的一个重要原因。这是全球整个研究领域的问题,不局限于我们国家。
所以,对于人工智能统计学习等相关领域的研究者们来说,Matlab被禁用正好给了我们一个难得的机遇,让我们回归本学科科学研究的本质。二十年前,当我觉得模糊系统和模糊控制研究可以暂时先告一段落的时候,我“放眼世界”,最吸引我的就是“统计学习”。当时,我读Breiman的论文、读Friedman的论文,让我着迷。Breiman关于Decision Tree的原始论文和书,以及后来发展起来的Random Forests,还有Friedman的MARS,等等等等。大师们思想的足迹,让我流连忘返。我自己编程去实现这些算法,然后和我的模糊系统WM方法做比较(我也是模糊大师哦),深刻体会各自方法的优缺点,对我后来的研究与实践帮助甚大。我深深地体会到,只有自己编程、在不断的试错中“细嚼慢咽”,才能深刻体会这些核心算法的优缺点。而只有深刻体会这些核心基础算法的优缺点,才能在实践中有效地使用它们,解决重要的实际问题。
“调包族”最大的问题是什么呢?就是当结果不理想时,不知道如何改进,只有“听天由命”。这是因为调包族对算法的细节缺乏深刻理解,知其然不知其所以然,不知道如何改进算法,使其更加适用于自己的问题。通常,大数据建模涉及复杂的非线性关系,而且这些复杂关系因问题的不同而不同。所以,需要对算法的众多参数进行有的放矢的调节,使之适应于需要解决的具体问题。如果对算法的细节缺乏深刻的理解,不知道这些众多参数之间的互动关系,那么就很难有效地调节这些参数,使算法的性能达到最优。
还有,“调包族”的盛行阻碍了基础理论的发展。因为,新理论是在旧理论的基础之上、通过改进旧理论的缺点缺陷而发展起来的。常言道:It takes a better theory to kill an existing theory。“调包族”对现有算法采取囫囵吞枣的态度,将不同的算法机械地“排列组合”,这种“撞大运”的研究方式很难产生深刻的理论。
总之,Matlab被禁给了我国人工智能研究者们一个难得的“歪打正着”的机会,让我们静下心来自己编程基础算法,深刻体会基础模型与算法的核心要素与优缺点,在现有成绩的基础之上“百尺竿头、更进一步”,迎接更加灿烂的明天。
天若有情天亦老,人间正道是沧桑。