如何建立自己的语料库

作者&投稿:驹廖 (若有异议请与网页底部的电邮联系)
基于语料库研究。。。是怎么用语料库呢 可以自己创建预料库啊~

仅一个文本肯定是不够的,要有很多文本,而为了保证文本的真实性(不能自己凭空捏造),所以做科学研究的时候就需要建立在语料库的基础上,所以说是基于语料库的研究。比如,我研究一个作家的语言风格,我就要建立在他创作出来的文本之上;我要研究汉语的一些语言现象,一般就要建立在平衡语料库之上,研究其他语言同样。语料库一般都会有人创建的,不需要自己做。

语料的话就是自己选一些自己认为合适的语言材料,比如你可以选报刊经济一类的,或文学的等等,这个看你自己的需要了,规模也可大可小。 软件的话我用的是Antconc。

对了,你是做什么方向的呢?中文还是英文?上面这个只适合于英文的。

基本上没有办法建立相应的语料库,优质的原语料是优质语料库的前提。

动态变化的语料库:大众传播媒体的情况是在不断变化的,语料库也要相应变化.(例如:1978年,中国报纸只有186种,基本上是单一的党委机关报,到1995年底,已经增加到2202种,平均期印数增加4倍,总印张增加3·5倍,报纸的品种,功能,发行都有了相当大的变化如果要科学地反应语言的流通应用情况,语料库的容量,选材,抽样等怎么可能一成不变呢)。

扩展资料:

语料库的分类:

1、是研究双语语料的对齐技术(Alignment),国内外学者就此提出多种策略和方法,已经出现了许多对齐双语或多语语料的程序或工具[Gale 1993];

2、是研究双语语料的各种应用,如在基于统计的机器翻译技术[Brown 1990]、基于实例的机器翻译技术[Nagao 1984],双语词典编纂[Klavans and Tzoukermann 1990]技术中,双语语料库都发挥着十分重要的作用;

3、是双语语料库的设计、采集、编码和管理问题。比较著名的语料库编码方案有TEI 文本编码标准以及CES标准,两者均基于SGML标记语言研究

指不只有一种语言的语料库。分为平行语料库和对照语料库两种。平行语料库指库中的两种或多种文本互相是对方的译文,因此可以用于翻译或者机器翻译研究;对照语料库中两种或多种语言的文本不构成对译关系,只是领域相同,主题相近。通常只能用于两种或多种语言的对比。

参考资料来源:百度百科-语料库



首先要明确建立的是单语语料库还是双语语料库,因为用到的建库软件和方法不一样,单语语料库的建立过程相对简单一些。

1、单语语料库

(1)准备单语语料,将语料都转换成TXT格式,建议按一定规律给各个文档命名

(2)下载并安装AntConC软件,界面如下

(3)将准备好的文档全部导入软件,然后就可以在AntConc里检索语料了。具体使用方法可以自行百度。

2、双语语料库

(1)语料准备

准备英汉对照的双语文档。可以是两个文档,其中一个英文,一个中文;也可以是英中上下对照或左右对照的单文档。无论是双文档还是单文档,都要注意原文与译文需要严格对照,这是后续软件识别的重要基础。

(2)语料对齐

业内有几种主流的语料对齐工具,我个人用的最多的是Tmxmall在线对齐。

例如,英中文档的对齐效果如下,将对齐好的文档导出,存为tmx格式。

(3)在trados等CAT工具中新建翻译记忆库,把之前保存好的tmx文件导入即可。

附:关于原语料来源,一是自己翻译积累,二是权威网站获取,优质的原语料是优质语料库的前提。如果觉得自己做语料库耗时间,也可以到Tmxmall语料商城上看看别人上传的各类语料库,和其他译员交易已经建好的语料库。



1. 多做翻译,之后把翻译对齐(可以用Tmxmall做在线对齐,比较简单),对齐后的文件便是tmx记忆库格式

2. 自己到网上下载相关语料,然后做对齐,制作tmx双语文件

3. 倘若公司以前有做过的翻译语料,直接可以用Tmxmall做对齐,复用以前的翻译

4. 用TMROBOT管理语料,防止语料太乱以及语料丢失

  • 建立语料库最大的任务就是做对齐,对齐效率越高,准确率越高,用处就越大。

Tmxmall对齐方式是先基于段落对齐,然后再细化为句对齐,很好的提高了工作效率及准确。

  • 其次,在线对齐使得对齐工作变得更为简单,易操作。



至少五年以上翻译方有意义,否则根本杯水车薪,积累的太少。单个领域的语料库没有个几万,根本用不上。

对于单语语料库建库:
将收集到的单语语料数据集中存储在txt文本文档中即可,可以使用YiCorpus多功能语料库检索平台进行数据检索、分析和研究。
(语料数据采集:通过数据抓取技术获取网上公开无版权争议的数据资源;通过格式转换将不同格式源文件转换成可编辑使用的文档;通过OCR识别技术将图片、纸质文件转换为可编辑加工的文本;寻找网络上现成的语料库资源下载使用。)
对于双语/多语平行语料库建库:
将收集到的双语平行语料数据导入语料对齐工具进行对齐(如:Tmxmall在线对齐),之后将对齐后的文件下载到本地即可;如果是多语平行,则可先将每个译文分别与原文进行对齐(具体方法与双语平行语料一致)并导出,之后将导出的原文和每个译文分别复制粘贴到txt文档中即可。可以使用YiCorpus多功能语料库检索平台进行数据检索、分析和研究。


关于本科翻译教学的思考
比如,在讲授某一文体的翻译时,教师可以向学生推荐译语中相同风格的范文,也可以让他们通过 Internet或其它印刷材料来构建自己的语料库,让他们感受名作、范文的遣词、行句、谋篇,并定期、不定期地对学生访谈,检查他们阅读后的感受和收获。 2、教师讲解译文时要点明并表扬学生的译文精彩之处,对语言能力取得进步的学生要...

如何通过四六级?
有两个翻译小技巧,第一个,灵活变通,遇到不会的单词可以换一种自己会的说法翻译出来,不要不会硬写,第二个,把长句拆成短句子翻译,就用最基本的语句翻译,不要想着用什么高级的语法除非你百分百确定这个语法是你掌握的,

我国建成世界最大语言资源库,有何现实意义?
而建立这样一个大工程,能够让多样化的语言深入祖国栋梁和祖国花朵,让青年人主动去学习中国新文化,主动去继承中华民族五千年的灿烂文明。多样化的语料唯一且不可迭代,拥有无尽的财富。中国有五十六个民族,每个民族都有着自己独一无二的特色,有着从古传至今的语言沟通文字,其流传的不仅仅是沟通模式,更...

语言学研究怎么保证语料的覆盖面
借助于语料库语言学所提供的方法,语言学家既可以验证已有的语言规则,也可以基于语料库提供的数据描写演变中的语法、语用规则。过去,语料库中的材料由人工收集和整理,通常用来计算词汇使用的频率,以此作为编写教材和字典的依据;现在,运用计算机建设语料库的效率和规模都有了很大提高。语料库是由从有代表性的语言材料中...

如何自己做素材?如何创建自己的素材库
课程讲了四大内容:素材来源;建立素材库;素材如何转换成文章;新手小白写作时需要注意的事项。1_眯母惺苌睢7怕挪剑鄄焐睢 2无意识的积累。听音乐,看电影,和别人聊天中都可以积累素材。3_喽潦椋乇鹗蔷涿档梅锤炊痢 4养成随时记录的习惯。包括自己的梦境都可以记录下来。建议坚持写日记,随感。先...

背诵有方法
所谓"死"就是原始的语言积累,创建个人的语料库,语料丰富了,一旦掌握了运用技巧,就能随意提取,运用自如,"死"的语言材料变"活"起来了。--华东师范大学外国语学院院长、教授 张维 一个是清晨7时前就起床,到大操场是朗诵英文读本,一遍又一遍,直到背得烂熟为止。一个是默记,在午饭和晚饭的时候,带着英文单字卡片,...

什么是英语思维?
正如第五讲中所讲,“宏观上建立起完整系统的语法框架体系”,“微观上透彻理解英语语法背后的原理”。做到“知其然,且知其所以然”做到“融会贯通,以不变应万变”,你的英语思维就慢慢清晰了。好了,我们现在已经理解了何为“英语思维”,以及如何建立“英语思维”,那么所谓的“英语语感”又是怎么...

论文查重自建库有何意义?
论文查重自建库的意义在于可以建立自己的比对库,将所有参考过的文献资源上传至比对库中,然后进行论文查重检测。这样可以更加有效地检测论文中可能存在的抄袭或剽窃行为,并且可以根据自建库中的文献资源,标记出论文中存在相似度较高的部分,方便使用者对其进行针对性的修改。此外,自建库还可以提高查重的准确...

如何建立自己的边界,不受他人影响?
4. 学会坚持自己的立场:如果他人对我们的立场产生质疑或者认为我们的选择有问题,我们应该学会坚持自己的立场。为了维护自己的权益,我们需要学会表达自己的看法,有时可能需要换位思考了解他人的立场,但不一定要放弃自己的决策。建立自己的边界需要我们了解自己、学会说“不”、制定自己的规划和坚持自己的...

考“雅思”是怎么回事?4。5分是什么意思。说得越详细越好,在线等_百度...
我的写作非常弱,直到考试前一天都几乎不能在规定时间内写完,除了要计时练习,需要短期备考的同学可以把题目按文化、教育等等题材大类各精写一篇,最好在google上搜索到相关文章快速突破关键词,建立一个语料库。所有人都觉得简单的task1是我这个读图盲的软肋,北语陈卫东的雅思直快和雅思8分万能作文助我良多。北语的...

隆回县13091151143: 如何创建任意两种语言的双语语料库?比如英中/中俄/中韩/中日语料库? -
出面注射: 你好,英中/中俄/中韩/中日语料库的创建方法是通用的,只要在创建过程中按需选择不同的语言对(源语言和目标语言)即可.建库步骤:1、准备双语对照的文档.要注意原文与译文需要严格对照,这是后续软件识别的重要基础.2、用Tmxmall 在线对齐或WinAlign或其他对齐工具进行语料对齐.3、在trados等CAT工具中新建翻译记忆库,把之前保存好的tmx文件导入即可.可以参考我知乎上的文章,上面的步骤更加详细.https://zhuanlan.zhihu.com/p/29508128

隆回县13091151143: 您好,请问您知道怎么建语料库嚒?需要什么软件支持?我现在做毕业论文,也需要自己建语料库,惆怅中.. -
出面注射: 语料的话就是自己选一些自己认为合适的语言材料,比如你可以选报刊经济一类的,或文学的等等,这个看你自己的需要了,规模也可大可小. 软件的话我用的是Antconc.对了,你是做什么方向的呢?中文还是英文?上面这个只适合于英文的.

隆回县13091151143: 托福考试如何准备自己的语料库?
出面注射: 语料库包含两大内容,一个是把你内心中比较典型的经历发掘出来,翻译好了放在你脑子里.如果考试中遇到了相关话题会对你帮助很大.第二大内容是比较好的短语和句...

隆回县13091151143: 怎样创建一个用于外语教学的语料库 -
出面注射: 在桌面上新建一个文件夹,名为“外语学习”.然后去收集各种对你有帮助的外语资料,包括视频教程,PDF,以及一些在线学习网址等.如果是收集,按照相同的理论,去收集APP等.

隆回县13091151143: 跪求平行语料库的设计需要什么软件?自己想建设一个小型的体育英汉/汉英平行语料库,谢谢! -
出面注射: 可以准备好英汉、汉英的双语材料,将准备好的双语材料导入Tmxmall在线对齐进行语料对齐,导入后Tmxmall在线对齐会对双语材料进行段对齐,稍微调整一下段落,再点击“对齐”就会进行句对齐.检查一遍就可以直接导出双语平行对齐的语料啦~

隆回县13091151143: 怎样快速的学好英文?又怎样记住英语单词?
出面注射: 1.首先要把背的单词抄在一竖条纸上,右边写上词性和所有的意思,记词性是最重要的,现在你也许看不出来,将来你英语好了,你就知道有多么重要了,有些单词一个词有10多个意思,如果你知道这个单词在文章里是什么词性的话,意思就很容易出来 2.平时走路的时候拿出来一边走,一边背,每个词的读音和意思都要读出来,不断的读,不断记忆

隆回县13091151143: 英语如何学好,我基础不好怎嘛办,有没有快点的学英语方法
出面注射: 一、学会模仿 相信每位英语学习者对欧美电影或电视剧都会情有独钟,大家不要只为剧情发展而只关注中文字幕,要有意识的去模仿语音和语调,哪怕那些句子或单词你不懂什么意思,只要找对感觉就对了,就像我们平时喜欢唱英文歌一样,...

隆回县13091151143: 零基础学英语该怎么办 -
出面注射: 零基础就从基础学起,不过你要知道英语学习是一个长期过程,你要做好长期坚持学习的准备,这样才会有效果,你可以在ABC360跟着外国老师交流,英语就要多说,这样学起来会快很多.

隆回县13091151143: 英语应该怎么学最好
出面注射: 英语学习不是一蹴而就的,方法也是关键. 之前在洛基英语学的不错,还有一些个人的建议,希望对你有所帮助. 1.多记,首先单词量是必须滴; 2.多背,课文范例,背得越多越好,越熟越好; 3.敢说,大胆说,大声说,不怕错,错了及时纠正; 4.多写,好记性不如烂笔头,天天写,熟能生巧; 5.多听,收音机广播,还有录音等; 6.多看,尤其象国外经典原文片,反复看.

隆回县13091151143: 英语怎么学好
出面注射: 要想学好英语,就得先从听、说入手.课上认真听老师讲,听同学们说,自己积极举手发言,大胆地去讲英语. 课下多听录音带,反复练习,尽量模仿正确的语音语调.每天坚持读半个小时的英语.人们常说的“拳不离手,曲不离口”,就是这个道理. 楼主也可以根据自己的情况去报个班啊.新世界外语学员在学习中遇到各方面问题,都可及时登录学员专用BBS论坛发帖提问,各科老师会及时地进行答疑解惑;免费心理,及时解决学员的心理问题,帮助学员以更轻松的心理走进考场

本站内容来自于网友发表,不代表本站立场,仅表示其个人看法,不对其真实性、正确性、有效性作任何的担保
相关事宜请发邮件给我们
© 星空见康网