主讲人:徐明 教授
(2023年10月7日)
清华大学碳中和讲席教授,环境学院副院长、环境生态学教研所所长、环境数据科学与系统工程团队负责人,入选国家海外高层次人才引进计划,曾任美国密西根大学(安娜堡)环境与可持续性学院及土木与环境工程教授,现任Resources, Conservation & Recycling主编(2022影响因子13.2,中科院一区Top)、国际产业生态学会主席(首位非欧美人士出任主席),主要从事环境系统工程与产业生态领域的研究。2015年获得国际产业生态学会青年科学家Laudise奖(首位华人获奖者),2016年获得美国国家科学基金奖励青年教师的最高奖CAREER奖,2021年获美国土木工程师协会针对职业生涯中期科学家的最高奖Walter L. Huber Civil Engineering Research Prize(产业生态和生命周期评价领域首位获奖者)。领导开发全球首个环境、生态与可持续发展领域的大语言模型应用ai.tiangong.world。
课程概要:
以ChatGPT为代表的生成人工智能是近期发展迅速的一项重要技术,具有解决当前和未来地球所面临的众多环境问题的巨大潜力。本讲座将探讨生成人工智能的基本原理,全球首个环境、生态与可持续发展领域大语言模型应用——天工AI(ai.tiangong.world),以及潜在的环境领域应用。
课程内容:
(一)科研范式的演化
实验,观察现象→理论,解释现象→计算→大数据。
科研范式的转化:从计算科学到数据驱动科学(第四科研范式)。
图1 科研范式发展(来源:https://doi.org/10.1002/adma.202104113)
(二)数据驱动科研范式的实质
传统来讲,观测→模型→更多观测→改进模型;
直接从数据得知真实模型需要相应工具,例如人工智能。
图2 数据驱动科研范式的实质(来源:主讲人)
(三)人工智能相关概念之间的关系
传统的人工智能≈机器学习,可做分类和回归。
从属关系1:ChatGPT∈GPT∈转换器∈深度学习∈神经网络∈机器学习∈人工智能;
从属关系2:大语言模型∈大模型∈生成式人工智能。
图3 人工智能相关概念之间的关系(来源:主讲人)
(一)概念的提出
基于大模型的生成式人工智能(Generative AI):1932年提出概念,2022年通过大数据、大算力、大模型,在生成文字、代码、图像、视频、声音、音乐等方面取得应用。
(二)原理
语言模型基本原理:基于概率预测。大语言模型参数比较多,跟传统语言模型的区别在于对自然语言的理解能力更强。在参数到达一定数量后,精度会大幅提升。
与人类学习过程相似:精度先升再降再升最后平台期,且具有“首位效应”和“最近效应”(应用最前面或者最后面的资料,精度就会较高,应用中间的资料,精度就会较低)。大家观察到这种现象,但不知原因。与一些物理现象也相似:晶体介电常数随温度增加先降低、后增加、再降低。
(三)应用
大模型让通用人工智能(AGI,artificial general intelligence)成为可能。传统是专用人工智能(弱人工智能),需针对每个任务单独训练开发模型;通用人工模型(强人工智能)可以自主理解和解决所有问题。
大语言模型对人类认知带来的本质变化:过去,认知的制约因素在于信息的获取,现在在于信息的处理,未来在于信息处理的工具。
大语言模型的新发展——智能体:普通GPT需要靠用户提出问题,AutoGPT等工具可生成智能体,根据用户目标,分解若干任务,自己生成问题并从生成式人工智能应用、互联网、指定数据库等地获取答案。
大语言模型擅长和不擅长什么:擅长1)海量信息检索;2)总结归纳;3)已有框架下生成新的内容;4)简单重复性工作。不擅长1)准确性(不能全信);2)一致性 (前后答案不一致);3)有效性(答案无意义);4)时效性(取决于训练数据的时效性);5)道德伦理。
一是提升工作效率:文本自动生成、代码自动生成、文本翻译、自动化重复性劳动;二是新的交互方式:传统大屏指挥舱(数据展示)转为交互式信息和知识获取(可以直接问取想要的信息);三是专业信息中心+内网可控+AI应用:专业信息中心+开源大语言模型(内网/离线保证数据安全);四是业务助手:设计实验、工业认证、产品绿色设计、环境管理、绿色供应链管理等等;五是环境管理虚拟实验室:工程技术可以做小试中试、生物医学做临床实验,环境难以在大尺度进行实地实验。传统环境管理实验基于模型(依据大量假设,结果基于假设),基于智能Agent建立“环境管理虚拟实验室”,熟悉人类行为,不需基于假设。
(一)访问方式
访问入口:ai.tiangong.world
(二)现有工具介绍
1. 天工paper
paper.tiangong.world——2023年3月17日上线。可以上传文献,机器帮读,直接问问题,没有语言障碍。
2. 天工chat
chat.tiangong.world——2023年4月10日上线。使用环境、生态、可持续发展全领域学术论文训练过,直接问问题,可提供参考文献。
3. 天工Pro(内测)
更大的覆盖范围(扩展公报、统计年鉴、专利等)、更强的生成能力(水平、速度)、全场景应用体系
4. 天工Pro Agent
智能任务拆解、自动完成,根据任务情景需求搭建agent。
示例1:互联网+专业知识库查询——执行计算
示例2:互联网+专业知识库查询——程序生成
示例3:预算说明文本生成
图4 天工Pro Agent执行计算过程示意(来源:主讲人)
图5 天工Pro Agent程序生成过程示意(来源:主讲人)
图6 天工Pro Agent编制预算说明过程示意(来源:主讲人)
研究的过程中,越来越深刻地感受到大语言模型为代表的人工智能工具和方法技术,是改变很多行业的一个新趋势,很多人可能还没有意识到这种变化。在《跨越鸿沟》这本书里,讲了一个技术采纳的生命周期定律:一个新技术被用户接受,都有一个过程,刚开始只是一小部分技术狂热者使用,再过一段,有一些高瞻远瞩者加入。我们可能更多是属于技术狂热者,希望听了我们报告或者用了我们工具的专家能够作为高瞻远瞩者,以正面的姿态去看待新的技术和新的变革,引领本行业的人,在新的人工智能时代下做一些新的变化和创新。
图7 技术采纳生命周期定律示意图(来源:《跨越鸿沟》--[美]杰弗里·摩尔)