兴趣是最好的老师 ----中学教育改革反思之三
石一
2017年10月,AlphaGo自我创新,推出了一款AlphaGo Zero。这款机器程序完全不依赖围棋专家的对局,从零开始,使用强化学习的方法;仅用一台带有4个TPU的机器,40天下了2900万局棋;从中自我进化成了一个新的围棋界的霸主;100:0绝胜李世石版本AlphaGo,89:11击败Master。
一、AlphaGo Zero开发成功对于中学教育改革的意义和借鉴
以AlphaGo中的开发作为我们阐述学习的兴趣非常重要,用来阐述中学教育改革也非常现实。AlphaGo Zero完全不需要使用人类专家对局作为数据输入。从而我们认为,AlphaGo Zero可以被认为是完全从零开始学习,这一点,对于当前机器学习和人工智能不仅有非常重要的意义,而且也对中学教育的改革也有很强的借鉴参照。
简明起见,需要解释一下机器学习中有监督学习、强化学习和无监督学习的含义以及差别。广义上来讲,所有的问题都可以表示成一个抽象函数,有着输入和输出。比如图像识别:输入是一张张图片,输出是不同的识别物体;句子的句法分析:输入是句子,输出是句法分析树;而下棋,输入是棋盘状态,输出是当前状态的最佳行动。机器学习的任务就是从数据中学出来这个函数,至少越来越近似这个函数。
其中,最核心的问题就是数据是长什么样的?在理想的情况下,我们期望这个数据是完整的<输入,输出>对,也就是说正确的输出在数据中被“标注”出来了。标注就是所谓的监督;而在这种情况下的学习,就是有监督学习。而在另外一种情况下,数据只包含输入,而不包含输出。也就是说完全没有标注,这种情况下的学习,就是无监督学习。
但还有一些情况介于这两者之间,其中包括强化学习。强化学习和无监督学习类似,数据中并不包含输出。但是,和无监督学习不同的是,强化学习中的数据也不只包含输入,它还包括了一个数据迭代运行多步之后的奖惩机制。比如踢足球,每一步的输入是当前状态,而输出是可能选择的行动,如传球、射门等。然而,很多情况并不能够直接给出在当前状态下最好的输出是什么。但是,一旦进球了,我们就能够给出一个奖惩机制。进球就是奖励,被进球就是惩罚。
又比如在下棋中,虽然每个棋盘状态下的最佳行动很难给出,但下完之后的输赢很容易判定。这就是奖惩机制,这就是一个典型的强化学习问题。注意,强化学习中的奖惩机制一般是在多步迭代后给出,如果只是一步的话,强化学习就变成了有监督学习。所以,从数据的角度来看,可以大致认为有监督学习就是一步奖惩的强化学习。
直观上,数据给的越好越多,那么学习的效果就应该越好。所以有监督学习应该比强化学习奏效,而强化学习应该比无监督学习奏效。这点在实际上也得到了验证。事实上,当前在商业领域的机器学习应用,包括语音识别、图像识别、句法分析、机器翻译等,绝大部分都采用的是有监督学习。然而,有监督学习需要用到的数据(即<输入,输出>对)从哪里来?输入好办,但是正确的输出却很难得到。为了得到正确的输出,往往需要人工来“标注”。机器学习在近十年内取得的巨大成功,离不开相当多在背后默默做标注的人。但是,标注往往极为耗时耗力耗财,很多时候只有大机构长期投入才能完成。为了解决“数据”来源的问题,人工智能界主要提出了两条思路。一条就是依靠机器某种方式自动生成和标注数据,如最近很流行的生成对抗网络。另一条就是考虑有监督学习之外的其他机器学习手段,比如强化学习。
AlphaGo Zero证明了后者是完全可行的,至少在机器下围棋这个领域。AlphaGo Zero甚至比AlphaGo还厉害,这是不是这意味着强化学习比有监督学习厉害呢?并不是。除了算法上的改进之外,AlphaGo所用到从高手棋谱中得到的数据,即<输入,输出>对(<棋盘状态,选择>对),并不一定是最优解。这是关于数据质量的问题。对于复杂问题(如围棋)的标注,人类的标注有时并不一定是最佳选择。很多时候,人类高手容易出现盲点。而强化学习算法,因为不依赖太多先验知识,反而能够跳出窠臼。所以, AlphaGo Zero的有些落子,出现了一些“神之一手”,人类顶级选手都想不到的招数。
除此之外,Alpha Zero通过这种从零开始的强化学习,它可以学习到已有的和新的围棋定式,也就是说学习到了新的知识。而定式是通过出现频率来判断的。这点也非常有意义,因为这再次表明了显式的知识可以通过隐式的学习过程来得到,而且这种过程能得到以前从未有过的知识。虽然这很振奋人心,但目前还需要持辩证的观点。
总之,AlphaGo Zero攻克了智力游戏中的皇冠——围棋;提出了一个新的“基于蒙特卡洛树搜索的强化学习”方法来估算搜索中的评价函数;验证了强化学习的有效性;进一步表明用隐式的方法能够获取显式的知识,当之无愧是人工智能史上一个里程碑。
笔者不厌其烦描述人工智能创造的历程,无论是标注,还是奖惩,其目的是想用当代最著名人工智能的成果,如何通过高强度,远超人类已知的强度,每天72多万局的对弈,当然有很多专家的标注,最后,成就AlphaGo Zero团队的辉煌。反观中学教育,我们的中学生智商参差不齐,如果没有监督的学习,或者强化学习,是很难掌握现有的高中课程知识,因此,中学老师们的标注,也就是指导和个别强化监督学习,很难想像可以成就学习之精英。所以少部分人能够脱颖而出,所谓正态分布的左端,就是极聪明的那部分人,能够经受老师们的督导而不怯步,并愿意进一步接受强化训练,主要原因还是健康的体魄、坚毅要素和强烈的学习之兴趣。
二、兴趣之培养
那么如何培养学习之兴趣,中国式的教育往往注重知识的灌输,而忽略了孩子们兴趣的培养,甚至有的人终其一生也没有领略到做学问的兴趣。
无论如何,学生回家以后,一定要有温习的空间和时间。遇到挫折的时候,需要家长的安慰和鼓励。这是很重要的事情。
可是对于困境的少年而言,去找谁,来取得安慰?从何而来鼓励?这不仅是一个现实问题,同时也是亟需解决的问题,省育才助学基金会急政府之所急,急学校之所急,急困境家庭之所急,联手监利一中开展坚毅要素课题的研究,就是应这三急,历经三年,做出一个小的局部的实验,证明了,处于困境中的少年,经过坚毅要素的培养,也可以转化,成为可造之材,第一批青苗班21名选助生全部考入大学,就是一个明证。
三、渐变或者突变的意义和指导方法
国际著名数学家丘成桐指出,现在有很多教育家反对学生记熟一些公式,凡事都需由基本原理来推导,这是一个很错误的想法。
有些事情推导比结论更重要,但是有些时候是不可能这样做的。做学问往往在前人的基础上向前发展。我们不可能什么都懂,必须基于前人做过的学问来向前发展,通过反复思考前人的学问才能理解整个学问的宏观看法。
AlphaGo Zero 的成功,至少对于中学数学教育的改革指明了方向,当然不可否认机器的云计算和高强度不知疲倦求解,对于围棋定式的掌握不无帮助,但真正要解决答案,还必须要掌握渐变和突变的规律。比如数学题的解法是有很多的,比如勾股定理的证明方法至少有几十种,不同的证明方法帮助我们理解定理的内容。19世纪的数学家高斯,用不同的方法构造正十七边形,不同的方法来自不同的想法,不同的想法导致不同方向的发展。
实际上,很多工程师甚至物理学家有时并不严格地理解他们用来解决问题的方法,但是他们知道如何去用这个方法。对于那些关心如何严格推导数学方法的数学家来说,很多时候也是知道结果然后去推导,所以我们要明白学习的方法有时候需要倒过来考虑问题,先知道做什么,再知道为什么这样做。要灵活处理这些关系。
四、坚毅要素和人格力量的培养
现代社会乃是一个合群的社会,学生必须学习与同学相处,并尊重有能力有学问的老师和同学。学生必须懂得如何尊重同学的长处,帮助有需要的同学。学生要培养与他人沟通合作的能力、独立思考的能力、团队协作的精神,对周围人和对社会的责任感,等等,并在这种环境中去训练自己。
美国的教学体系,有很多地方值得我们学习,虽然这也不见得是一个理想的体系。
比如美国的高中和大学对成绩就不给出分数,只给出A、B、C、D。这不是件坏事情,可以削弱学生之间不必要的竞争。为分数而斤斤计较以及争夺班里的第一名,会破坏学生之间的合作,集体的力量得不到尊重。
中小学教育里要特别注重对学生独立人格和品性的培养,学生的个性和个人特点也受到充分的尊重和肯定。
不少学校把对个人品德的要求按头一个字母缩写成“PRIDE”(荣誉),即Perseverance (坚持),Respect (尊重),Integrity (正直),Diligence (勤奋),Excellence (优秀),作为学生自我要求的基本要点。这种美德的评价要尊重人的本性。对于学生本人,要形成自己独立的价值观。
对中学生来说,永保一颗纯真的童心,保持人与生俱来的求知欲和创造能力,展示自己的个性,这对今后的学习和工作是至关重要的。衷心地希望在座的各位可爱的孩子们快快乐乐、健康地成长。教育有效性之扭转对于当代中国而言,提高教育有效性的关键在于如何把价值观教育自然而然地融入教育的全部过程之中。这是一个巨大的挑战。因为统一的高考录取体制对基础教育的制约和影响,以及社会外部环境的变化,教育的过程正在逐步被异化为应付考试训练的过程。
目前,这个过程正在向低龄化阶段发展。由于“不能输在起跑线上”的比拼心理,对儿童的早期智力开发正在进入历史上最狂热焦躁的阶段。越来越多的孩子从教育中不能享受到快乐,不快乐的时间一再提前。教育提供给人们的,除了一张张毕业证书外,越来越难以使人感受到精神的愉悦和心灵的平和。
省育才助学基金会在监利一中的坚毅课题实施过程中,一直跟踪青苗项目选助生在德育、体育、美育、音乐等无用之课程培养,积极配合校方,充实和完善培育方案,注重提高选助生的坚毅素质之养成,特别注意用无意识或者潜意识方法,灌输坚强之意志,逐步消解精神贫困之苗头,从而在根本上树立自强自立之信心,从2015年至2017年,第一期青苗班选助生21名全部取录大学,实现了第一步的小目标,虽然有个别选助生感觉没有考好,但是进入大学之后,与我们基金会保持密切的联系和互动,表示要求进一步深造的愿望,或者 参加学生会等社会组织,逐步锻炼自己,融入社会。
2018年3月20日