-
统计自然语言处理基础
《统计自然语言处理基础:国外计算机科学教材系列》是一本全面系统地介绍统计自然语言处理技术的专著,被国内外许多所著名大学选为计算语言学相关课程的教材。《统计自然语言处理基础:国外计算机科学教材系列》涵盖的内容十分广泛,分为四个部分,共16章,包括了构建自然语言处理软件工具将用到的几乎所有理论和算法。全书的论述过程由浅入深,从数学基础到精确的理论算法,从简单的词法分析到复杂的语法分析,适合不同水平的读者群的需求。同时,《统计自然语言处理基础:国外计算机科学教材系列》将理论与实践紧密联系在一起,在介绍理论知识的基础上给出了自然语言处理技术的高层应用(如信息检索等)。在《统计自然语言处理基础:国外计算机科学教材系列》的配套网站上提供了许多相关资源和工具,便于读者结合书中习题,在实践中获得提高。近年来,自然语言处理中的统计学方法已经逐渐成为主流。 -
计算语言学基础
-
Graph-based Natural Language Processing and Information Retrieval
Graph theory and the fields of natural language processing and information retrieval are well-studied disciplines. Traditionally, these areas have been perceived as distinct, with different algorithms, different applications, and different potential end-users. However, recent research has shown that these disciplines are intimately connected, with a large variety of natural language processing and information retrieval applications finding efficient solutions within graph-theoretical frameworks. This book extensively covers the use of graph-based algorithms for natural language processing and information retrieval. It brings together topics as diverse as lexical semantics, text summarization, text mining, ontology construction, text classification, and information retrieval, which are connected by the common underlying theme of the use of graph-theoretical methods for text and information processing tasks. Readers will come away with a firm understanding of the major methods and applications in natural language processing and information retrieval that rely on graph-based representations and algorithms. -
语言学中的数学方法
本書是一本關於計算語言學的專著。全書包括A、B、C、D、E五篇:A篇講述集合論,B篇講述邏輯和形式系統,C篇講述抽象代數,D篇講述作為形式語言的英語,E篇講述形式語言、形式語法和自動機,讀者可以從中瞭解並掌握語言學研究中使用的主要的數學方法。本書是專門為語言學工作者編寫的,講數學問題時都緊緊扣住語言,深入淺出,實例豐富,作者還精心設計了大量練習,書末附有練習答案選,可滿足語言學工作者在研究中學習和使用數學方法的需要,是一本不可多得的優秀讀物。 -
语言与数学
如何实现语言的机器翻译?如何从海量的语言文字中抽取有用信息?如何利用自然语言进行人机对话?自然语言与计算机程序语言是否一致?如何自动合成语音……信息时代对自然语言的处理使语言学与数学紧密结合在一起。 作者从事计算语言学研究几十年,潜心探索出语言符号的七种新特性。本书详细论述了这七种特性与数学的关系,反映了当前国内外语言与数学关系研究方面的最新成果。 ------- 语言符号的随机性与统计数学 语言符号的冗余性与随机过程 语言符号的离散性与集合论 语言符号的递归性与公理化方法 语言符号的层次性与图论 语言符号的非单元性与复杂特征的运算 语言符号的模糊性与模糊数学 -
Computational Simulation in Evolutionary Linguistics
本專著通過一個自行開發的多個體計算仿真模型來探索語言衍生中的一個關鍵問題,即語法能力是如何產生的。它是由天生的、人類所特有的能力決定的,還是從一些人與動物普遍具有的簡單能力中逐步適應發展而來的?該模型模擬了兩種語言普適特性(體現於詞彙上的合成性和體現於詞序上的規則性)的衍生過程,指出從整體語言向合成語言的轉化是一個詞彙與基本成分詞序共同演化的過程。該模型同時記錄了一個“自底向頂”的語法發展過程,即句子層面的(頂層的)詞序可通過複用詞項間的(底層的)局部詞序來得到。這些仿真結果表明語言的合成性和規則性,以及相關的語言能力可以從一些人與動物普遍具有的能力(如簡單的特徵提取和排序能力)中發展而來。 除了語言使用者的學習機制,本論文進一步討論了社群傳播,社會和語義結構對語言演化所施加的影響。首先,通過仿真幾種主要的社群傳播形式,本論文探討了“水平”傳播中的約定俗成效應對語言演化所起的作用。其次,通過記錄語言在幾種簡單社會結構中的產生與保持,本論文探討了受歡迎個體在語言演化中的作用,個體間對語言的理解與整個社會層次結構間的相互關係,以及社群間的交流對社群間語言趨同所起的作用。最後,通過模擬在不同語義結構下的語言保持,本論文指出不同的語義結構會對詞序產生影響,此因素可被用於解釋人類語言在基本詞序上的偏向性分佈。這些研究討論了自組織在語言演化中所起的作用,重新認識了社群傳播中的樽頸效應,並對其他研究社會結構對語言演化之影響的課題起了指導性作用。