数理语言学(Mathematical Linguistics),又称数学语言学,是一门综合运用数学原理研究语言的边缘学科。它不仅涉及语言学本身,还与现代数学、
计算机科学、控制论以及
人工智能等领域有着紧密的联系。数理语言学旨在借助数学的思想和方法,深入探索语言的本质特征和规律。
数理语言学的历史可以追溯至19世纪中期。1847年,
俄罗斯数学家В.Я.布利亚科夫斯基提出使用概率论研究语法、词源及语言历史比较的可能性。1894年,
瑞士语言学家F de索绪尔主张用数学公式描述语言中的量与量之间关系,并将其与几何系统和
代数相提并论。1904年,
波兰语言学家J.N.博杜恩·德·库尔德内强调语言学家应具备数学知识,以便更好地拓展量的概念和发展新的演绎方法。1933年,美国语言学家L.布龙菲尔德认为数学是语言研究的巅峰。1913年,俄国数学家A.A.马尔科夫通过研究
亚历山大·普希金诗歌中的
俄语元音和
辅音序列,提出了马尔科夫
随机过程的数学理论。
20世纪40年代起,随着通信技术的进步,数理语言学的重要性日益凸显。为了提高信道传输效率,需要对语言的统计特性进行精细研究。同时,机器翻译、情报检索等技术的发展,推动了对语言结构的精准描述和建模的需求。这些实践需求促进了数理语言学的诞生,并且科学技术的发展为其提供了坚实的基础。1955年,
哈佛大学率先开办数理语言学讨论班,并于1957年正式开设相关课程。随后,多个国家和地区陆续开展教学和研究工作。在中国,自20世纪50年代末起,数理语言学的研究逐渐展开,并取得了显著成果。
数理语言学包含三个主要组成部分:
代数语言学、统计语言学以及应用数理语言学。代数语言学侧重于使用集合论、数理逻辑、算法理论等代数方法研究语言。统计语言学则采用概率论、
数理统计学和信息论等统计数学方法探究语言成分使用的频率和概率。应用数理语言学则是将前两者应用于机器翻译、人机对话、情报检索等实际应用场景的技术研究。
代数语言学致力于构建语言的代数模型,通过对语言现实的抽象代数描述和理论分析,实现语言学的部分转化。其语言模型包括分析性模型、生成性模型和辨识性模型,其中
孟德斯鸠语法结合了句法与语义的研究。这些模型的研究不仅革新了语言学的传统研究方法,也为自然语言的计算机处理提供了有效工具。
统计语言学的目标是建立语言的统计模型,涵盖语音
统计学、语言年代学、风格统计学等多个子领域。近年来,随着
计算机技术的发展,自然语言的统计研究得到了广泛的关注。