4回答

0收藏

[知识科普]神经机器翻译与语言大模型

应用科普 应用科普 454 人阅读 | 4 人回复 | 2025-03-18

应TTTiger的建议,新开一个帖子汇总介绍机器翻译和语言大模型的前世今生。

在介绍前有两本书我建议各位可以看看,一本是《神经机器翻译:基础、原理、实践与进阶》,一本是《GPT图解:大模型是怎样构建的》,这两本书看完基本已经初步了解了整个框架。

1.jpg
2.jpg


本文会按照时间顺序介绍,中间可能会穿插一些附件译文。预计每周更新一次。直到最新的部分。

分享到:

回答|共 4 个

Joseph

发表于 2025-4-7 19:52:47 | 显示全部楼层

图谱:https://www.aminer.cn/ai-history

人工智能演进之路:从逻辑单元到Transformer。

人工智能概念的雏形,可以追溯至1936年阿兰图灵的《论可计算数及其在判定问题中的应用》,而在1943年,美国神经生理学家Warren McCulloch和数学家Walter Pitts提出了阈值逻辑单元。这被认为是神经网络和人工智能领域的基石。

1949年,Warren Weaver在其题为“翻译”的备忘录中提出了机器翻译。由此人工智能和机器翻译,以及认知科学、神经科学进行着交叉和思想碰撞。

机器翻译在其发展中,出现了三个派系:规则系、统计系、神经网络系。三个派系的发展与计算机还有人工智能有密切的联系。

1950 年,Claude Shannon在 提出计算机博弈,紧接着1954 年,Alan Mathison Turing在提出“图灵测试”。至此人们开始注意到这一概念。

1952年,霍奇金-赫胥黎模型展示了大脑如何利用神经元形成神经网络。而Frank Rosenblatt在1957年基于这个模型推出了感知器。这个感知器可以根据输入与目标的误差调整权重,能进行简单的二分类任务。可视为现代神经网络的雏形和起点。

1956年,达特茅斯学院召开了一个研讨会,John McCarthy, Marvin Minsky, Nathaniel Rochester, 以及Claude Shannon等人正式提出“人工智能”这一概念。

1936年至1959,从有模糊的想法,到1948年冯诺伊曼构型计算机出现。之后随着计算机的更新和发展,人工智能的概念开始清晰和具有影响力。

Joseph

发表于 2025-4-7 19:59:49 | 显示全部楼层

第一次浪潮与寒冬:20世纪60年代

1960年,Bernard Widrow 和 Ted Hoff提出了自适应线性神经元,与感知器相似,具有更好的收敛性能。

1961年,Leonard Merrick Uhr 和 Charles M Vossler发表了题目为A Pattern Recognition Program That Generates, Evaluates and Adjusts its Own Operators 的模式识别论文,该文章描述了一种利用机器学习或自组织过程设计模式识别程序的尝试。程序启动时不仅不知道要输入的特定模式,而且没有任何处理输入的运算符。算符是由程序本身生成和提炼的,它是问题空间的函数,也是处理问题空间的成功和失败的函数。程序不仅学习有关不同模式的信息,而且至少在一定程度上,它还学习或构造适合于分析输入到它特定模式集的二级代码。这也是第一个机器学习程序。


人工智能领域初步萌芽了自然语言处理和人机对话技术。Daniel Bobrow 在1964年发表了Natural Language Input for a Computer Problem Solving System,以及Joseph Weizenbaum在1966年发表了ELIZA—A Computer Program for the Study of Natural Language Communication between Man and Machine。

1966 年,麻省理工学院的计算机科学家Joseph Weizenbaum 在 ACM 上发表了题为《 ELIZA,一个研究人机自然语言交流的计算机程序》(ELIZA-a computer program for the study of natural language communication between man and machine)的文章。文章描述了这个叫作 ELIZA 的程序如何使人与计算机在一定程度上进行自然语言对话成为可能。Weizenbaum 开发了最早的聊天机器人 ELIZA,用于在临床治疗中模仿心理医生。


1968年,在美国国家航空航天局要求下,Edward Feigenbaum提出首个专家系统DENDRAL,并对知识库给出了初步的定义,这也孕育了后来的第二次人工智能浪潮。该系统具有非常丰富的化学知识,可根据质谱数据帮助化学家推断分子结构。这个系统的完成标志着专家系统的诞生。

现在,专家系统(Expert System,简称ES)是人工智能(Artificial Intelligence,简称AI)的一个重要分支,同自然语言理解,机器人学并列为AI的三大研究方向。


1969年,Marvin Minsky 和 Seymour Papert在《感知器》一书中提出,单层感知器具有局限性,无法解决非线性问题。这说明从技术上感知器无法实现人们期望的人工智能,因此大众对AI感到失望,资金抽离,第一次寒冬开始。

Joseph

发表于 2025-4-11 09:50:31 | 显示全部楼层

第二次浪潮期:20世纪70年代末、80年代

20世纪70年代末、80年代初,人工智能进入了第二次浪潮,其中代表性的工作是1976年兰德尔·戴维斯(Randall Davis)构建和维护的大规模的知识库,1980年德鲁·麦狄蒙(Drew McDermott)和乔恩·多伊尔(Jon Doyle)提出的非单调逻辑,以及后期出现的机器人系统。      
      
1974年,Paul WerBos提出多层反向传播算法,这种方法允许梯度通过多层网络反向传播,使得训练深度网络成为可能。

1975年,马文·明斯基(Marvin Minsky)在论文《知识表示的框架》(A Framework for Representing Knowledge)中提出框架理论,用于人工智能中的“知识表示”。

1976年,Douglas Lenat他发表论文《数学中发现的人工智能方法——启发式搜索》。该文章描述了一个名为“AM”的程序,它模拟了初等数学研究的一个方面:在大量启发式规则的指导下开发新概念数学被认为是一种智能行为,而不是一种成品。本地启发式通过一个议程机制、系统要执行的任务的全局列表以及每个任务合理的原因进行通信。

1976年,Randall Davis在斯坦福大学获得人工智能博士学位,并发表文章          Applications of Meta Level Knowledge to the Construction,            Maintenance and Use of Large Knowledge Bases,此文提出:使用集成的面向对象模型是提高知识库(KB)开发、维护和使用的完整性的解决方案。共享对象增加了模型之间的跟踪能力,增强了半自动开发和维护功能。而抽象模型是在知识库构造过程中创建的,推理则是在模型初始化过程中执行的。      

Randall Davis在基于知识的系统和人机交互领域做出了开创性的贡献,发表了大约100多篇文章,并在多个系统的开发中发挥了核心作用。他和他的研究小组通过创建能够理解用户图像、手势和交谈的软件,开发先进的工具,并与计算机进行自然的多模式交互。

1980年,汉斯·贝利纳(Hans Berliner)打造的计算机战胜双陆棋世界冠军成为标志性事件。随后,基于行为的机器人学在罗德尼·布鲁克斯(Rodney Brooks)和萨顿(R. Sutton)等
人的推动下快速发展,成为人工智能一个重要的发展分支。这其中格瑞·特索罗(Gerry Tesauro)等人打造的自我学习双陆棋程序又为后来的增强学习的发展奠定了基础。

视觉计算理论(computational theory of vision)是在20世纪70年代由马尔(David Marr)提出的概念,他在1982年发表代表作《视觉计算理论》。计算机视觉是一门研究如何使机器“看”的科学,更进一步的说,就是指用摄影机和计算机代替人眼对目标进行识别、跟踪和测量等机器视觉,并进一步做图像处理,用计算机处理成更适合人眼观察或进行仪器检测的图像。学习和运算能让机器能够更好的理解图片环境,并且建立具有真正智能的视觉系统。

1986年,《通过反向传播误差进行表示学习》的重要论文发表,详细介绍了如何将反向传播算法用语训练多层神经网络。而Geoffrey Hinton等人提出的多层感知机,解决了Perceptron存在的不能做非线性分类的问题;Judea Pearl倡导的概率方法和贝叶斯网络为后来的因果推断奠定基础;以及机器学习方法在机器视觉等方向取得快速发展。

1986年,Brooks发表论文《移动机器人鲁棒分层控制系统》,标志着基于行为的机器人学的创立。

1989年,Yann LeCun 提出卷积神经网络,这是一种特殊的深度学习模型,使用卷积层来学习局部特征,被广泛应用于图像识别和计算机视觉领域。

Joseph

发表于 2025-4-13 20:03:18 | 显示全部楼层

1995年,支持向量机SVM出现,SVM在多个任务中表现出的优越性能能让人门再次怀疑神经网络的潜力。

20世纪90年代,AI 出现了两个很重要的发展:一方面是蒂姆·伯纳斯·李(Tim Berners-Lee)在1998年提出的语义网,即以语义为基础的知识网或知识表示。后来又出现了 OWL 语言和其他一些相关知识描述语言,这为知识库的两个核心问题:知识表达和开放知识实体,给出了一个可能的解决方案(尽管这一思路在后来一直没有得到广泛认可,直到2012年谷歌提出知识图谱的概念,才让这一方向有了明确的发展思路)。

另一个重要的发展是统计机器学习理论,包括Vapnik Vladimir等人提出的支持向量机、John Lafferty等人的条件随机场以及David Blei和Michael Jordan等人的话题模型LDA。总的来讲这一时期的主旋律是AI平稳发展,人工智能相关的各个领域都取得长足进步。

1998年,Tim Berners-Lee提出的的一个概念:语义网(Semantic  Web)。它的核心是:通过给万维网上的文档(如HTML)添加能够被计算机所理解的语义(Meta data),从而使整个互联网成为一个通用的信息交换媒介),其最基本的元素就是语义链接(linked node)。

整个90年代,除了1997年5月11日,“深蓝”计算机击败了国际象棋冠军,在人工智能领域的突破并不大,更多是积累和尝试。


您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

161 积分
11 主题