在线语料库工具在英语学术写作中的运用 张绪华杜方圆 摘要 在英语学术写作过程中,词语搭配的选择往往是影响语言地道性的重要因素。 本文介绍在线语料库工具的几个重要功能:搭配词检索、近义词检索和近义词搭 配检索、模糊检索,以及文本修改。介绍在线语料库工具的目的在于增强学习者 的学术语言意识,并为提高学生学术写作语言表达的地道性提供辅助工具 关键词 英语学术写作;语料库;地道性 Using Online Corpus in Graduate EFL Academic Writing Abstract Collocation is often seen as an obstacle to the attainment of native-like fluency in EFL academic writing. The aim of this study is to increase the language learners academic language awareness and provide auxiliary tools to help the graduate students improve their native-like idiomaticity in academic writing. Several important functions of the online corpus tools are introduced, including collocation retrieval, retrieval of synonyms and their collocates, fuzzy search, and corpus-based text editing Keywords: English academic writing; Corpus; Idiomaticity 引言 Pawley和 Syder(1983)是较早认识到语言中惯用语结构重要性的研究者。 据 Pawley和 Syder(1983:191)分析,本族语者的语言运用之所以流利、准确 是因为他们会大量使用符合语法规则的词汇化句干( lexicalized sentence stems),或者称为事先预制好的语块( prefabricated expressions)。二语学习 者可以达到“像本族语者一样的流利”( native- like fluency),但却很难以做 到“像本族语一样的选择”( native- like selection),即有像本族语一样的措 辞能力。常见的现象就是,二语学习者能够流利地说或者写一些语法正确的句子, 但听或读起来却“不地道”(non- idiomatic)。 归根结底,二语学习者在语言产出过程中,由于对于惯用语结构或者词语 “地道性”用法的不熟悉,导致需要依赖母语模型去拼凑一些“不地道”的用法 这个问题在英语学术写作过程中体现的尤为明显。在大学学习阶段,学习者面临 突然增加的大量英语学术写作任务,包括课程论文、学术研究论文以及学位论文 等。由于缺乏对于学术英语语体特征,尤其是学术英语中词汇化句干的认识,势 必会在写作中使用“不地道”的词语搭配。本文探讨英语学术写作过程中容易出 现的搭配类问题,并介绍使用在线语料库工具解决相应问题,提高写作实践中语 言的地道性 语料库是按照一定的语言规则,收集自然出现的连续语言而建成的具有一定 容量的电子文本库。语料库对学术写作者来说是非常有力的帮手,能够帮助写作
1 在线语料库工具在英语学术写作中的运用 张绪华 杜方圆 摘要 在英语学术写作过程中,词语搭配的选择往往是影响语言地道性的重要因素。 本文介绍在线语料库工具的几个重要功能:搭配词检索、近义词检索和近义词搭 配检索、模糊检索,以及文本修改。介绍在线语料库工具的目的在于增强学习者 的学术语言意识,并为提高学生学术写作语言表达的地道性提供辅助工具。 关键词 英语学术写作;语料库;地道性 Using Online Corpus in Graduate EFL Academic Writing Abstract: Collocation is often seen as an obstacle to the attainment of native-like fluency in EFL academic writing. The aim of this study is to increase the language learners’ academic language awareness and provide auxiliary tools to help the graduate students improve their native-like idiomaticity in academic writing. Several important functions of the online corpus tools are introduced, including collocation retrieval, retrieval of synonyms and their collocates, fuzzy search, and corpus-based text editing. Keywords: English academic writing; Corpus; Idiomaticity 引言 Pawley 和 Syder(1983)是较早认识到语言中惯用语结构重要性的研究者。 据 Pawley 和 Syder(1983:191)分析,本族语者的语言运用之所以流利、准确, 是因为他们会大量使用符合语法规则的词汇化句干(lexicalized sentence stems),或者称为事先预制好的语块(prefabricated expressions)。二语学习 者可以达到“像本族语者一样的流利”(native-like fluency),但却很难以做 到“像本族语一样的选择”(native-like selection),即有像本族语一样的措 辞能力。常见的现象就是,二语学习者能够流利地说或者写一些语法正确的句子, 但听或读起来却“不地道”(non-idiomatic)。 归根结底,二语学习者在语言产出过程中,由于对于惯用语结构或者词语 “地道性”用法的不熟悉,导致需要依赖母语模型去拼凑一些“不地道”的用法。 这个问题在英语学术写作过程中体现的尤为明显。在大学学习阶段,学习者面临 突然增加的大量英语学术写作任务,包括课程论文、学术研究论文以及学位论文 等。由于缺乏对于学术英语语体特征,尤其是学术英语中词汇化句干的认识,势 必会在写作中使用“不地道”的词语搭配。本文探讨英语学术写作过程中容易出 现的搭配类问题,并介绍使用在线语料库工具解决相应问题,提高写作实践中语 言的地道性。 语料库是按照一定的语言规则,收集自然出现的连续语言而建成的具有一定 容量的电子文本库。语料库对学术写作者来说是非常有力的帮手,能够帮助写作
者查询搭配词,用自然、地道的英文来表达。对于使用者而言,小到每个人电脑 中随时可供调用、检索的文档,大到互联网上数以亿计的文字网页,都可以作为 语料库辅助学术写作实践。然而,面对存储量巨大的语料库,使用者要进行语料 的检索,分析和处理,就离不开语料库工具。 相对于单机语料库工具而言,在线语料库工具具有无可比拟的优势。首先, 在线语料库工具通常将语料和检索工具结合起来,无需使用者寻找供检索的语料, 方便使用者高效、快捷地分析语料。其次,研究者常用的 WordSmith和 Antconc 等检索软件,需要首先将语料与之关联,然后再进行检索分析,其检索结果取决 于与之关联语料标注程度。与在线语料库工具相结合的语料库通常已经经过了语 法、句法以及语义标注,可直接按照用途进行检索。最后,单机语料库工具通常 具有索引、词表和搭配査询等功能,比较起来,依托网络数据优势,在线语料库 工具具有易分享和共时性强等单机版语料库工具所不具有的功能 本文介绍使用在线语料库工具的功能辅助英语学术写作,帮助学习者提高学 术语言意识,并更髙效地査询词语的搭配关系,提高语言表达地道性。我们将以 提出问题加解决问题的方式展开讨论,在每一小节中首先回顾英语学术写作者在 写作过程中频繁遇到的问题,随后介绍可用于解决此类问题的语料库工具及功能。 下文从搭配词检索,近义词检索和近义词搭配检索,模糊检索,及文本修改几个 方面具体讨论。 1.搭配词检索 在英语学术写作过程中,学习者遇到的最多的问题无疑是选词地道性问题, 尤其是搭配词的选择问题。在线语料库工具COCA和 Sketch Engine都为我们提 供了解决这一问题的工具。美国当代英语语料库( Corpus of Contemporary American English简称 Coca)(hTtp: //corpus. byu edu/coca/)是目前最大 的平衡在线英语语料库。语料库由包含5.2亿词的文本构成,文本分为口语、小 说、杂志、报纸和学术文章等五种不同的文体,各占库容约20%。COCA由美国 杨百瀚大学 Mark Davies(2008)教授主持创立并与2008年上线供使用。该语 料库检索界面良好,语料按照年代、文体等进行了细致的划分。 图1-1COCA语料库检索界面
2 者查询搭配词,用自然、地道的英文来表达。对于使用者而言,小到每个人电脑 中随时可供调用、检索的文档,大到互联网上数以亿计的文字网页,都可以作为 语料库辅助学术写作实践。然而,面对存储量巨大的语料库,使用者要进行语料 的检索,分析和处理,就离不开语料库工具。 相对于单机语料库工具而言,在线语料库工具具有无可比拟的优势。首先, 在线语料库工具通常将语料和检索工具结合起来,无需使用者寻找供检索的语料, 方便使用者高效、快捷地分析语料。其次,研究者常用的 WordSmith 和 Antconc 等检索软件,需要首先将语料与之关联,然后再进行检索分析,其检索结果取决 于与之关联语料标注程度。与在线语料库工具相结合的语料库通常已经经过了语 法、句法以及语义标注,可直接按照用途进行检索。最后,单机语料库工具通常 具有索引、词表和搭配查询等功能,比较起来,依托网络数据优势,在线语料库 工具具有易分享和共时性强等单机版语料库工具所不具有的功能。 本文介绍使用在线语料库工具的功能辅助英语学术写作,帮助学习者提高学 术语言意识,并更高效地查询词语的搭配关系,提高语言表达地道性。我们将以 提出问题加解决问题的方式展开讨论,在每一小节中首先回顾英语学术写作者在 写作过程中频繁遇到的问题,随后介绍可用于解决此类问题的语料库工具及功能。 下文从搭配词检索,近义词检索和近义词搭配检索,模糊检索,及文本修改几个 方面具体讨论。 1. 搭配词检索 在英语学术写作过程中,学习者遇到的最多的问题无疑是选词地道性问题, 尤其是搭配词的选择问题。在线语料库工具 COCA 和 Sketch Engine 都为我们提 供了解决这一问题的工具。美国当代英语语料库(Corpus of Contemporary American English, 简称 COCA)(http://corpus.byu.edu/coca/)是目前最大 的平衡在线英语语料库。语料库由包含 5.2 亿词的文本构成,文本分为口语、小 说、杂志、报纸和学术文章等五种不同的文体,各占库容约 20%。COCA 由美国 杨百瀚大学 Mark Davies(2008)教授主持创立并与 2008 年上线供使用。该语 料库检索界面良好,语料按照年代、文体等进行了细致的划分。 图1-1 COCA 语料库检索界面
Corpus of Contemporary American English⑥國 SEARCH FREQUENCY 叵 Chart Collocates Compare KWIC IDT LDCE IR In additionr to the celite iterface, you ea aleo download ext es data via Wordandphrase U Sectin Sort/init Options ncludane the ability to analyze entire texts that you ircut) added rpus. thi just the put manth ad 1.6 billion past year (and 3.5 billion woeds tot iation in English The torg than d20 tillson weed ef text (20 ailian wot d ach year 1990- and it is equally divided anor poken, ficion, C0A语料库检索主界面(图1-1)布局直观明了,共有三个功能区,页面上 侧的“显示选择区”、左侧的“检索条件限定区”、及其右侧的“帮助信息区”。 “显示选择区”可以在“搜索”( SEARCH)、“频次”( FREQUENCY),以及“例 句语境”( CONTEXT)等页面间切换。在“检索条件限定区”设置检索条件后, 点击“查找匹配字符串”( FIND MATCHING STRING)按钮,就会得到相应的检索 项目在语料库中出现的频次信息。进一步点击“频次”页面出现的检索结果,包 括该结果的句子、上下文以及语料来源等信息会在“例句语境”页面显示。 “检索条件限定区”分为四个部分,由上至下四行分别是“显示方式设 置”、“检索字串录入”、以及“语料库分类选项”等区域。“显示方式设置” 区域用来选择检索结果以“列表显示”(LIST)、“图表显示”( CHART)、“搭 配词”( COLLOCATES)、“对比显示”( COMPARE)以及“关键词显示”(KWIC) 等。限于篇幅,本文重点介绍“列表显示”和“搭配词”功能。 以形容“ PERSISTENT”为例,根据 COBUILD高阶英汉双解学习词典(2011), 其通常表达“持续存在的”,“继续发生的”,“执著的”,“不屈不挠的”以 及“锲而不舍的”等涵义。根据词典中有限的释义及例句,学习者很难判断该词 的具体搭配用法。如果想知道哪些名词与其频繁共现,可以使用“限定词性 (P0S)的检索方式。我们可以在“LIST”选项下,键入“ PERSISTENT”,并在 “词性列表査询”(P0S)选项中选择标注名词的“NOUN.AL”(名词码集),检 索对话框中就会出现“ PERSISTENT[N*]”,点击“查找匹配字符串”,就可以检 索“ PERSISTENT”与任意名词搭配的情况。即可得到图1-2所示查询结果 图1-2“ PERSISTENT”与名词搭配情况
3 COCA 语料库检索主界面(图 1-1)布局直观明了,共有三个功能区,页面上 侧的“显示选择区”、左侧的“检索条件限定区”、及其右侧的“帮助信息区”。 “显示选择区”可以在“搜索”(SEARCH)、“频次”(FREQUENCY),以及“例 句语境”(CONTEXT)等页面间切换。在“检索条件限定区”设置检索条件后, 点击“查找匹配字符串”(FIND MATCHING STRING)按钮,就会得到相应的检索 项目在语料库中出现的频次信息。进一步点击“频次”页面出现的检索结果,包 括该结果的句子、上下文以及语料来源等信息会在“例句语境”页面显示。 “检索条件限定区”分为四个部分,由上至下四行分别是“显示方式设 置”、“检索字串录入”、以及“语料库分类选项”等区域。“显示方式设置” 区域用来选择检索结果以“列表显示”(LIST)、 “图表显示”(CHART)、“搭 配词”(COLLOCATES)、“对比显示”(COMPARE)以及“关键词显示”(KWIC) 等。限于篇幅,本文重点介绍“列表显示”和“搭配词”功能。 以形容“PERSISTENT”为例,根据 COBUILD 高阶英汉双解学习词典(2011), 其通常表达“持续存在的”,“继续发生的”,“执著的”,“不屈不挠的”以 及“锲而不舍的”等涵义。根据词典中有限的释义及例句,学习者很难判断该词 的具体搭配用法。如果想知道哪些名词与其频繁共现,可以使用“限定词性” (POS)的检索方式。我们可以在“LIST”选项下,键入“PERSISTENT”,并在 “词性列表查询”(POS)选项中选择标注名词的“NOUN.ALL”(名词码集),检 索对话框中就会出现“PERSISTENT[N*]”,点击“查找匹配字符串”,就可以检 索“PERSISTENT”与任意名词搭配的情况。即可得到图 1-2 所示查询结果。 图1-2 “PERSISTENT”与名词搭配情况
ORSISTEVI DIA1EA PFRSTSTET闭L PEESISTET PAD "D PERSTSTEVT CRILESTASTS 曰 PERSISTENT T 江 WT FAILUES PEESISTET侃E PERSTSTEWT TFEC 观察图1-2可知,检索词“ PERSISTENT”常与表达消极涵义的名词(例如, offenders, problem,min, rumor, cough和fear等)共现,极少用于修饰表 达积极涵义的名词(高频共现名词中仅见“ effort”),因此应当尽量避免将其 与表达消极意义的名词搭配使用。如果我们想要表达的是“持续的鼓励”或者 “持续的帮助”等积极涵义,就需要找到与“ PERSISTENT”表达相同涵义,但频 繁与表达积极涵义的名词搭配使用的形容词,这就需要进行近义词辨析。 近义词检索和近义词搭配检索 如何辨析涵义相近的词语,以及在特定的语境中选取合适的词语也是学习者 常常会遇到的问题。作为COA语料库的一大特色,其录入的语料已经经过同义 词等语义标注。只要在检索框中以恰当的方式限定检索词,即可得到相应的检索 结果。“ PERSISTENT”同义词的检索方式实在检索词外加“[=] (“[= PERSISTENT]”),检索结果如图1-3所示,检索得到 CONTINUED, DETERMINED, REMAINING, CONTINUING, CONSTANT, LASTING及 ENDURING等同、 近义词。 图1-3“ PERSISTENT”近义词
4 观察图 1-2 可知,检索词“PERSISTENT”常与表达消极涵义的名词(例如, offenders,problem,pain,rumor,cough 和 fear 等)共现,极少用于修饰表 达积极涵义的名词(高频共现名词中仅见“effort”),因此应当尽量避免将其 与表达消极意义的名词搭配使用。如果我们想要表达的是“持续的鼓励”或者 “持续的帮助”等积极涵义,就需要找到与“PERSISTENT”表达相同涵义,但频 繁与表达积极涵义的名词搭配使用的形容词,这就需要进行近义词辨析。 2. 近义词检索和近义词搭配检索 如何辨析涵义相近的词语,以及在特定的语境中选取合适的词语也是学习者 常常会遇到的问题。作为 COCA 语料库的一大特色,其录入的语料已经经过同义 词等语义标注。只要在检索框中以恰当的方式限定检索词,即可得到相应的检索 结果。 “PERSISTENT” 同 义 词 的 检 索 方 式 实 在 检 索 词 外 加 “[ = ]” (“[=PERSISTENT]”),检索结果如图 1-3 所示,检索得到 CONTINUED, DETERMINED, REMAINING, CONTINUING, CONSTANT, LASTING 及 ENDURING 等同、 近义词。 图1-3 “PERSISTENT”近义词
OCNTINITNe [S LASTIIG [S IIGDTENT (s Icss【s TPMACTOLG(s] 我们可以点击图1-3中的任一检索结果,在“例句语境”页面中生成索引行 或者语境,并以此为根据,判断该项写作任务中最为合适的词语选项。我们还可 以重复第一节中介绍的检索步骤,观察“PER& SISTENⅥ”近义词与名词搭配情况。 图1-4近义词搭配检索 List Chart Collocates KMIC allocate 14321001234+ Rewor M ar erack, believe, lowd az quieky. More infommation: compare to lisi dipla. collocates, direction 利用近义词检索和搭配检索的组合检索方式,我们还能够对近义词的使用进 行辨析。比如输入检索词“HELP”,而在搭配词处输入“[= PERSISTENT]”,左 右跨距分别设定为1和0(见图4)。检索发现能和“HELP”搭配的“ PERSISTENT” 的近义词只有4个,其中“ continued help”频率最高(11次),其次是 “ continuing help”和“ constant help”(各3次),剩下的“ permanent”的 搭配在整个语料库中出现的频率仅有1次,说明较少使用。 另 个在线语料库工具 Sketch Engin (https://the.sketchengine.co.uk/open/)(kilgarriff等2014),同样可以 进行搭配(模糊)检索,以及近义词(组)辨析,帮助学习者掌握近义词(组) 之间微妙的不同,在不同的语境下,帮助学习者选择更精准的词语。此外, Sketch Engine的独特功能“词语素描”( Word sketch),能够呈现査询词语在语法结 构之下(例如,作为主词、谓语、补语等)所能搭配的词 图1-5“ SIGNIFICANT”的词语素描
5 我们可以点击图 1-3 中的任一检索结果,在“例句语境”页面中生成索引行 或者语境,并以此为根据,判断该项写作任务中最为合适的词语选项。我们还可 以重复第一节中介绍的检索步骤,观察“PERSISTENT”近义词与名词搭配情况。 图1-4 近义词搭配检索 利用近义词检索和搭配检索的组合检索方式,我们还能够对近义词的使用进 行辨析。比如输入检索词“HELP”,而在搭配词处输入“[=PERSISTENT]”,左 右跨距分别设定为1和0(见图4)。检索发现能和“HELP”搭配的“PERSISTENT” 的近义词只有 4 个,其中“continued help”频率最高(11 次),其次是 “continuing help”和“constant help”(各 3 次),剩下的“permanent”的 搭配在整个语料库中出现的频率仅有 1 次,说明较少使用。 另 一 个 在 线 语 料 库 工 具 Sketch Engine (https://the.sketchengine.co.uk/open/)(Kilgarriff 等,2014),同样可以 进行搭配(模糊)检索,以及近义词(组)辨析,帮助学习者掌握近义词(组) 之间微妙的不同,在不同的语境下,帮助学习者选择更精准的词语。此外,Sketch Engine 的独特功能“词语素描”(Word Sketch),能够呈现查询词语在语法结 构之下(例如,作为主词、谓语、补语等)所能搭配的词。 图1-5 “SIGNIFICANT”的词语素描