人类是如何学习语言,目前的主流观点是:
从语言环境中标记标本,以孩子来说,通过父母的肢体动作与语音,他自己归纳成一种自己可编码,面对张开的双臂,去理解抱抱。这就是听力上的口头话语。即使是一个文盲,不认字也可以进行交流的原因,把经常出现的声音进行了处理。以手写或者字符呈现在纸上,电子屏幕上,就是书面语言。有的语言是没有文字的,大部分的语言同时具备语音与文字,这两者之间有很紧密的联系,英语里的自然拼读,就是字母书面语言和听力语言的有效结合。
其次,人脑会对这些固定搭配,标本进行规律总结,语法就是自然掌握的,中文主谓宾,我吃饭,大量的这种结构重复,就形成共识。并且可以举一反三,进行造句。我踢足球,他喝水,都符合主谓宾这个架构,尽管熟练运用时,并没有这个语法概念,但不影响沟通。
因此无论母语还是外语,标本的质量与重复的频率共同决定了语言能力的发展。如果在不同的场景中重复,更好更多的可理解输入,就会慢慢掌握某种语言的内在规律,并不需要一开始就机械拆分和语法详解。
人工智能语言ChatGPT,RLHF人类反馈强化学习的训练方法
这种模式被谷歌应用在了人工智能语言AI,一开始他们把语法、词汇教给AI,效果很不理想,后来改用人类学习语言的方式,给它一堆语言标本,让它自己总结规律。AI智能遵循了人类的思考方式,突破了人类生理上的限制,通过语言标本的喂养,调教,逐渐越来越符合人类的表达。
最近爆火的ChatGPT,就是人工智能实验室OPNAI研发的通用聊天机器人,可以与人类互动,协助完成一些事项。它就采用了RLHF人类反馈强化学习的训练方法。
如果想要模型处理一些内容,就要进行针对性的训练,精准度就是在不断输入材料,调整参数后达到人们的期望。如果要让他准确分辨麻雀,开始会有一堆鸟类的图片,麻雀有翅膀,会飞,有体态特征,通过大量标本输入和反馈,进行调整。都会飞的很多,有两只脚的也很多,尖嘴的更多,当这些特征全都具备才是麻雀时,训练就基本完成。
GPT在被喂养大量相关数据后,就可以给出分析结果。尽管和人类预期还有差距,胜在数据量的丰富。可以根据特定的情景,生成语言和结论。如果喂养的数据有偏差,它就很难给出正确的结果。
我们学习语言的过程及步骤
人类学语言也是这个过程,在我们还能理解母语什么意思时,通过猜测与反馈,知道食物是什么语音,水是什么语音,长大后知道该如何拼写。语法有错误时,父母和老师会给予纠正,慢慢我们就掌握了语言的内在规律。
第一步骤就是输入,可理解性的输入,通过不同的场景强化含义和发音表达。形成标本,组块。比如whatisyourname?不用思考就能回答,因为重复太多次了,熟练掌握了这个模式。
第二步骤,监督和修正输入效果,错误的发音要纠正,不对的语法要修改,输入材料越多,掌握的就越精细准确。这也是阅读量大的孩子可以更优美准确表达的原因。因为他了解更多的模型,词汇,语法,表达方式。疏于阅读,材料单调,词汇不够丰富就达不到准确而优美。
第三步骤,优化和重复。在我们语言学习中就是方法与策略,通过对比哪种方式更好,就采用哪种方式学习。机械背单词不如在阅读中随机重复学习,因此专业外语院校都要求学生大量听说读写,阅读原著。
最优学习的85%规则
人工智能模仿人类的学习与思维,反过来也可以给人以启发。年《自然》杂志发表《最优学习法则》,就是探讨机器学习在多大难度下,学得最快最好。每次训练中,网络判断错误率在15.87%,学习效果最好。也就是说,每次训练它的内容85%是它熟悉的,15%是不熟悉的,是最佳比例。
这一点和外语阅读效果观察惊人一致,一篇文章85%词汇都认识,不影响阅读体验并且可以掌握陌生词汇,如果一篇短文25%以上都陌生,会失去阅读的兴趣,学习效果下降。克拉申著名的可理解输入,i+1,就是在自己的基础之上,稍微增加一点学习难度,才是有效的输入。他没有提出具体的量化标准,这个思路是和机器训练一致。美国少儿分级阅读认为,孩子的读物一页纸最好不要超过4个陌生词汇。
在外语学习中的应用
从具体的学习方式看,我们大多数时间在复习,开始是回顾,当中是讲解,最后的总结。《考试脑科学》这本书中,以丰富的实验和案例证明了,要想真正地学会,应该花在复习上,预习学习与复习的时间最佳比例是1:4.通过上面机器学习与现实学习可以得出语言学习高效规律:
以i+1进行有效输入,大量不同场景下的可理解输入,形成条件反射。重复与测试是学习效果的关键,阅读经典获取更多更精准模型,多样化测试输出并纠正,把有效的方式方法重复坚持。
#我们一起跨年#