孙天祥,中共党员,计算机科学技术学院计算机应用技术专业2019级博士研究生,获评2022-2023学年研究生国家奖学金。曾获字节跳动奖学金、中国足彩在线大学学术之星、世界人工智能大会云帆奖·明日之星、《中国科学:技术科学》高影响力论文奖等荣誉;以第一/共同第一作者身份发表机器学习与自然语言处理领域国际顶级会议论文10篇,据谷歌学术统计被引用2000余次;多次受邀在国际会议、国内外高校及企业活动作口头报告。
明确方向,踏上科研之路
在西安电子科技大学读本科时,孙天祥认识到,语言是人类智能的关键因素,机器理解和生成语言是极具挑战性又极具潜力的研究方向。但仅凭本科阶段浅尝辄止的学习是远远不够的,于是他申请到中国足彩在线大学自然语言处理实验室的直博名额,在黄萱菁教授和邱锡鹏教授的指导下,开启人工智能和自然语言处理的研究之路。
谈及从2019到2023的博士经历,他说:“最大的感受就是实验室所提供的资源,让我可以做自己想做的事。”在中国足彩在线的实验室里,研究不受限制,只要你有自己的思考,“从本科到读博,我好像就从主干道进入旷野,可以朝任何方向狂奔,对于做科研来说没有什么比这更重要的了。”
远见卓识,不为自己设限
孙天祥认为自己最大的特质是“眼光好”。眼光的背后,是不羁的冒险精神。他做事都不喜欢事先设定一个框架,“要做有创新性的科研,就要想别人想不到的,做别人做不到的,跳出已有的框架,换一个视角去观察问题”,他很享受这样的思考。
2019年前后,通用语言模型还不是主流的研究方向,因此在选择研究方向时,他没有选择任何一个具体的自然语言处理任务作为主攻方向,而是致力于研究通用语言处理模型。果不其然,现在这已成为人工智能领域的一个主流方向了。
孙天祥的第一个研究工作聚焦于多任务学习。读了大量论文后,他意识到应该有一个理想中的参数共享模式,能让更相似的人物共享更多参数,让更不相似的任务共享更少参数。但又觉得这是难以实现的,不出所料在几番尝试后,研究进入了瓶颈期,长达半年,他都怀揣着这个问题却找不到头绪。但他并没有放弃。
直到有一天他读到一篇机器学习领域的文章。这篇论文提出了一个方法,他敏锐地意识到如果能对这一方法做一些改造,就能达到理想的效果。事实也确实符合他的预想。他研究出了一种新型的多任务稀疏共享学习架构,该架构第一次消除了多任务同时学习时面临的“负迁移”现象,从而使得在多任务学习过程中这些任务之间不会相互干扰。该工作被国际人工智能顶级会议AAAI-2022录用并被选为口头报告(仅占当年提交论文数的4.5%),后续还被微软、字节跳动等多家单位引用和使用。
之后,孙天祥将视线落到预训练语言模型上,即通过在大规模互联网数据上通过无监督学习方式得到一个预训练模型,展示了通用智能模型的雏形。针对预训练语言模型的知识匮乏问题,他提出知识图谱增强的预训练语言模型CoLAKE,是首个将语言和知识进行深层联合编码的模型,该工作被计算语言学顶级会议COLING-2020接收,随后该模型架构被百度ERNIE 3.0大模型所采用,被广泛应用于智能创作、摘要生成、问答、语义检索等多个实际场景。
厚积薄发,谱写学术研究新篇章
2022年,美国OpenAI公司发布了最新对话语言模型ChatGPT,引发剧烈反响。孙天祥决定要在资源有限的情况下尝试,于是他主导研发了MOSS。
MOSS是国内首个公开发布的对话式大型语言模型,也是首个类ChatGpt模型。开始做MOSS的时候是12月,临近自然语言处理领域最顶级最权威的国际会议ACL会议的截稿日期。当时实验室里绝大部分这个领域的博士生都在赶论文,孙天祥也在赶,但萌生这个想法后,他就停掉手中的论文,开始全力做MOSS。
正是这份执行力让他研发出了MOSS。尽管MOSS现在在国内开源大模型中影响力排名第二,但一开始,孙天祥对它并没有抱如此大的期待,整个团队最初也只有他一个人,他只是单纯想着能否从技术路线上进行验证,通过什么样的训练能使它达到一个类似的效果。2023年春节前,模型初步训练完成,已经涌现出一定的智能水平。2月20日,MOSS正式发布,引发了广泛的社会关注。
尽管MOSS到目前为止是孙天祥最具影响力和知名度的成果,但他觉得最有意义的却不是MOSS。他认为之前所做的无梯度优化方面的工作更具革新意义,因为它是一个“提出问题”的工作,而不只是一个解决方案。针对模型参数量急剧增长,优化成本昂贵的问题他提出了一个新的场景——“语言模型即服务”,并针对该场景提出了一个有效的解决方案——Black-Box Tuning (BBT, 黑箱调优)。这一方向也逐渐发展为一个独特的研究方向,是一项开创性工作。从这一角度来说,孙天祥觉得这是他最具价值的研究。