近几个月来,GPT相关的话题不断出圈,给各行各业带来巨大的变化,而一项技术的发展是经过漫长的岁月迭代而成,不同国家和地区在这方面的进度也不尽相同,通过梳理各个国家在人工智能语言模型的发展历程,我们似乎能够看到未来的发展趋势。
美国
自20世纪50年代以来,人们一直在探索如何使用计算机处理语言。美国一直是处于人工智能领域研究的前沿阵地。早期的研究集中于理解和翻译语言,随着计算机和数据存储技术的发展,研究重点逐渐转移到语言生成和自然语言处理技术上。
1950年,克劳德·香农的论文《通信中的数学原理》提出了信息论,奠定了自然语言处理的理论基础。
1954年,乔治敦大学的IBM研究员胡哲提出了一种用于机器翻译的统计模型,开创了机器翻译领域。
1960年代,美国国防部开展了机器翻译研究计划,促进了语言处理技术的发展。
1971年,麻省理工学院的塞缪尔教授发布了自然语言生成系统的第一个版本。
1983年,微软研究院的里奇和韦特斯坦开发了第一个大规模神经网络语言模型,即经典的循环神经网络(RNN)。
1991年,IBM的Watson计划启动,旨在开发一种可以回答人类问题的计算机系统。
2018年,OpenAI发布了GPT-2,一种大规模预训练语言模型,引起了全球广泛关注。
2022年11月30日,OpenAI公布了一个通过由GPT-3.5系列大型语音模型微调而成的全新对话式AI模型ChatGPT,掀起人工智能的热潮。
2023年3月15日,OpenAI发布ChatGPT-4,瞬间席卷各行各业。成为人工智能领域最为领先的语言处理技术。
中国
中国自20世纪80年代末开始涉足语言处理领域。随着中国信息技术的发展和对人工智能的投资增加,语言模型在中国的应用逐渐扩大。
1984年,中国科学院计算技术研究所成立了自然语言处理研究室,开展了语言处理技术的研究。
1996年,哈尔滨工业大学成立了自然语言处理实验室,开展了汉语自然语言处理研究。
2002年,中文信息处理领域的国家重点实验室成立,推动了语言处理技术在中国的发展。
2011年,百度推出了自然语言处理平台,加速了语言处理技术在中国的商业化应用。
2014年,中国科学院计算技术研究所的郑华东等人开发了具有革命性的深度学习框架PaddlePaddle,成为了中国领先的人工智能开源平台。
2018年,华为发布了自研的AI芯片“昇腾”,用于支持深度学习和自然语言处理等人工智能技术。
2019年,百度发布了GPT-2的中文版本“ERINE”,成为中国自然语言处理领域的一大突破。
2022年3月16日,百度正式发布文心一言,包括五大能力——“文学创作、商业文案创作、数理逻辑推算、中文理解、多模态生成”。
日本
日本自20世纪60年代开始研究自然语言处理技术,并在此领域中发挥了重要作用。
1960年代,日本开始研究机器翻译技术,并在该领域取得了重要进展。
1984年,日本筑波大学成立了自然语言处理研究室,推动了日本语言处理技术的发展。
1990年代,日本在信息技术方面取得了重大突破,推动了自然语言处理技术的发展。
2004年,日本电气通信大学教授岩泽毅等人开发了CRF(条件随机场)算法,成为日本语言模型领域的重要突破。
2015年,LINE公司推出了基于深度学习的语音助手“Clova”,加速了自然语言处理技术在日本的商业化应用。
2018年,日本东京大学的团队发表了一篇论文,提出了一种基于Transformer的语言模型,即BERT(Bidirectional Encoder Representations from Transformers),开创了预训练模型的新时代。
2021年8月,Rinna发布了一个名为GPT2-medium的模型,然后又在次年推出了日本版的GPT-2,参数达到13亿。目前已经是日本参数规模最大,最具代表性的大模型了。
韩国
韩国在语言模型领域的发展相对较晚,但随着信息技术的发展和韩国政府对人工智能的重视,该领域正在快速发展。
1994年,韩国信息通信部成立了自然语言处理研究室,开展了语言处理技术的研究。
2006年,KAIST(韩国科学技术院)成立了人工智能研究中心,致力于推动人工智能技术在韩国的发展。
2012年,Naver公司推出了智能语音助手“Clova”,并开展了自然语言处理技术的研究。
2016年,韩国政府推出了“AI大师计划”,旨在培养具备人工智能领域专业知识和技能的人才,推动人工智能产业的发展。
2018年,KAIST研究团队开发了韩国首个基于深度学习的自然语言处理平台“KoNLPy”,为韩国语言处理技术的发展提供了支持。
2019年,Naver发布了韩国首个AI语音助手“Wave”,成为韩国语音技术领域的一大突破。
2022年12月,LG集团的人工智能智库LG AI Research 推出了Exaone。这是一个拥有3000亿参数,使用图像和文本数据的多模态模型,也是目前韩国参数规模最大的模型。
总结
从以上各国的发展可以看出,美国是语言模型发展最早、最快的国家,早期在语言模型领域的重要人物包括香农、麦卡洛克等,后来发展出了许多具有代表性的语言模型,如LSTM、GPT等。
中国在语言模型领域的发展相对较晚,但近年来随着信息技术的快速发展和政府的大力支持,该领域取得了快速进展,如Baidu的“ERINE”、PaddlePaddle平台等。
日本在语言模型领域中也具有重要地位,早期主要在机器翻译技术方面有所突破,后来也逐渐转向深度学习技术的研究,如BERT模型。
韩国在语言模型领域的发展相对较晚,但近年来随着政府和企业的支持,该领域也在逐渐迎头赶上,在研发主力上更多偏向于财阀巨头。
从各国的人工智能语言模型的发展历程可以看出目前大数据语言模型的发展特点:
数据方面,从少量标注数据、大量标注数据、海量非标注数据+少量标注数据到海量非标注数据,越来越多数据被利用起来,人的介入越来越少,未来会有更多文本数据、更多其它形态的数据被用起来,更远的未来是任何我们能见到的电子数据,都应该让机器自己从中学到知识或能力。
算法方面,表达能力越来越强,规模越来越大,自主学习能力越来越强,从专用向通用,沿着这个趋势往后,未来Transformer预计够用,同时也需要替代Transformer的新型模型,逐步迈向通用人工智能。
人机关系方面,人的角色逐渐从教导者转向监督者,未来可能会从人机协作、机器向人学习,发展成人向机器学习,最后由机器拓展人类。
目前大数据语言模型的发展已经取得重大成就,随着技术的不断发展将必然朝着智能化、个性化、多样化、可靠性安全性和共享开放和发展。