喵喵喵?
小故事:“机器学习”名字的由来
1952年,阿瑟·萨缪尔(Arthur Samuel, 1901- 1990)在IBM公司研制了一个西洋跳棋程序,这个程序具有自学习能力,可通过对大量棋局的分析逐渐辨识出当前局面下的“好棋”和“坏棋”,从而不断提高弈棋水平,并很快就下赢了萨缪尔自己.
1956年,萨缪尔应约翰●麦卡锡(John McCarthy,“人工智能之父”,1971年图灵奖得主)之邀,在标志着人工智能学科诞生的达特茅斯会议上介绍这项工作.
萨缪尔发明了“机器学习”这个词,将其定义为“不显式编程地赋予计算机能力的研究领域”.
他的文章“Some studies in machine learning using the game of checkers”1959年在IBM Journal正式发表后,爱德华●费根鲍姆(Edward Feigenbaum,“知识工程之父”, 1994年图灵奖得主)为编写其巨著Computers and Thought,在1961年邀请萨缪尔提供一个该程序最好的对弈实例.
于是,萨缪尔借机向康涅狄格州的跳棋冠军、当时全美排名第四的棋手发起了挑战,结果萨缪尔程序获胜,在当时引起轰动.
事实上,萨缪尔跳棋程序不仅在人工智能领域产生了重大影响,还影响到整个计算机科学的发展,早期计算机科学研究认为,计算机不可能完成事先没有显式编程好的任务,而萨缪尔跳棋程序否证了这个假设.另外,这个程序是最早在计算机上执行非数值计算任务的程序之一,其逻辑指令设计思想极大地影响了IBM计算机的指令集,并很快被其他计算机的设计者采用。
【我们软件工程的老师在哔哔的时候也提到过查找、查询、搜索、挖掘、大数据、机器学习、深度学习等其实都是一个问题,那就是在一个范围内寻找(答案),因为范围不同,所以给了不同的名字。】
…………
小故事: t检验、啤酒、“学生”与威廉●戈瑟特
1899年,由于爱尔兰都柏林的吉尼斯啤酒厂热衷于聘用剑桥、牛津的优秀毕业生,学化学的牛津毕业生威廉·戈瑟特(William Gosset, 1876 1937)到该厂就职,希望将他的生物化学知识用于啤酒生产过程.
为降低啤酒质量监控的成本,戈瑟特发明了t检验法,1908年在Biometrika发
表.为防止泄漏商业机密,戈瑟特发表文章时用了笔名“学生”,于是该方法被称为“学生氏t检验”(Student's t-test).
吉尼斯啤酒厂是一家很有远见的企业,为保持技术人员的高水准,该厂像高校一样给予技术人员“学术假”,1906--1907年戈瑟特得以到“统计学之父”卡尔·皮尔逊(Karl Pearson, 1857- 1936)教授在伦敦大学学院(University College London,简称UCL)的实验室访问学习.
因此,很难说t检验法是戈瑟特在啤酒厂还是在UCL访学期间提出的,但“学生”与戈瑟特之间的联系是被UCL的统计学家们发现的,尤其因为皮尔逊教授恰是Biometrika的主编.
【戈瑟特先生在皮尔逊先生那里学习,又在皮尔逊先生的杂志那里发表,皮尔逊先生肯定知根知底,之所以以‘学生’为笔名,大概就是说皮尔逊是戈瑟特的皮老师呗!顺便一说,那个吉尼斯啤酒厂在1954年开始出版《吉尼斯世界纪录大全》。是个很牛批的啤酒厂哦!】
…………
小故事:关于“最小二乘法”
1801年,意大利天文学家皮亚齐发现了1号小行星“谷神星”,但在跟踪观测了40天后,因谷神星转至太阳系的背后,皮亚齐失去了谷神星的位置.
许多天文学家试图重新找到谷神星,但都徒劳无获.这引起了伟大的德国数学家高斯(1777- 1855)的注意,他发明了一种方法,根据皮亚齐的观测数据计算出了谷神星的轨道,后来德国天文学家奥伯斯在高斯预言的时间和星空领域重新找到了谷神星.1809年,高斯在他的著作《天体运动论》中发表了这种方法,即最小二乘法.
1805年,在椭圆积分、数论和几何方面都有重大贡献的法国大数学家勒让德(1752 1833)发表了《计算彗星轨道的新方法》,其附录中描述了最小二乘法,勒让德是法国18--19世纪数学界的三驾马车之一,早已是法国科学院院士.但勒让德的书中没有涉及最小二乘法的误差分析,高斯1809年的著作中包括了这方面的内容,这对最小二乘法用于数理统计、乃至今天的机器学习有极为重要的意义,由于高斯的这一重大贡献,以及他声称自己1799年就已开始使用这个方法,因此很多人将最小二乘法的发明优先权归之为高斯.当时这两位大数学家发生了著名的优先权之争,此后有许多数学史家专门进行研究,但至今也没弄清到底是谁最先发明了最小二乘法.
【不管是谁先发明的最小二乘法,这两位先生都是数学界的大佬。不过我们可能对高斯更熟悉一些,毕竟他在书中出现的挺多,我是指数学书。】
…………
小故事:决策树与罗斯●昆兰
说起决策树学习,就必然要谈到澳大利亚计算机科学家罗斯·昆兰(J. Ross Quinlan, 1943 ).
最初的决策树算法是心理学家兼计算机科学家E. B.Hunt 1962年在研究人类的概念学习过程时提出的CLS(Concept Learning System),这个算法确立了决策树“分而治之”的学习策略.
罗斯·昆兰在Hunt的指导下于1968年在美国华盛顿大学获得计算机博士学位,然后到悉尼大学任教1978 年他在学术假时到斯坦福大学访问,选修了图灵的助手D. Michie开设的一门研究生课程.
课上有一个大作业,要求写程序来学习出完备正确的规则,以判断国际象棋残局中一方是否会在两步棋后被将死.昆兰写了一个类似于CLS的程序来完成作业,其中最重要的改进是引入了信息增益准则.后来他把这个工作整理出来在1979年发表,这就是ID3算法.
1986年Machine Learning 杂志创刊,昆兰应邀在创刊号上重新发表了ID3算法,掀起了决策树研究的热潮.短短几年间众多决策树算法问世,ID4、ID5等名字迅速被其他研究者提出的算法占用,昆兰只好将自己的ID3后继算法命名为C4.0,在此基础上进一步提出了著名的C4.5.有趣的是,昆兰自称C4.5仅是对C4.0做了些小改进,因此将它命名为“第4.5代分类器”,而将后续的商业化版本称为C5.0.
【C4.5在WEKA中的实现称为J4.8。别问我什么意思,俺也不知道,但是大佬们是真滴牛批。】
…………
小故事:神经网络的几起几落
二十世纪四十年代MP神经元模型、Hebb学习律出现后,五十年代出现了以感知机、Adaline为代表的一系列成果,这是神经网络发展的第一个高潮期.
不幸的是,MIT计算机科学研究的莫基人马文.闵斯基(MarvinMinsky, 1927 2016)与Seymour Papert在1969年出版了《感知机》一书,书中指出,单层神经网络无法解决非线性问题,而多层网络的训练算法尚看不到希望.
这个论断直接使神经网络研究进入了“冰河期”,美国和苏联均停止了对神经网络研究的资助,全球该领域研究人员纷纷转行,仅剩极少数人坚持下来。哈佛大学的Paul Werbos在1974年发明BP算法时,正值神经网络冰河期,因此未受到应有的重视.
1983年,加州理工学院的物理学家John Hopfield利用神经网络,在旅行商问题这个NP完全问题的求解上获得当时最好结果,引起了轰动.稍后,UCSD的David Rumelhart与James McClland领导的PDP小组出版了《并行分布处理:认知微结构的探索》一书,Rumelhart等人重新发明了BP算法,由于当时正处于Hopield带来的兴奋之中,BP算法迅速走红.这掀起了神经网络的第二次高潮。
二十世纪九十年代中期,随着统计学习理论和支持向量机的兴起,神经网络学习的理论性质不够清楚、试错性强、在使用中充斥大量“窍门”(trick)的弱点更为明显,于是神经网络研究又进入低谷,NIPS会议甚至多年不接受以神经网络为主题的论文.
2010年前后,随着计算能力的迅猛提升和大数据的涌现,神经网络研究在“深度学习”的名义下又重断崛起,先是在ImageNet 等若干竞赛上以大优势夺冠,此后谷歌、百度、脸书等公司纷纷投入巨资进行研发,神经网络迎来了第三次高潮。
【NIPS有点势利?算了,今天就到这里】
参考文献:
周志华.机器学习.北京:清华大学出版社