怎样使用语料库

作者&投稿:豆卢关 (若有异议请与网页底部的电邮联系)
怎样利用语料库~

看你使用什么样的语料库了,比如北大CCL语料库,你想研究“对于”,输入“对于”,所有含“对于”的语料都会出现,点击下载就可以把语料存储在自己的电脑上。更复杂的,比如含“不但”,同时含“而且”的你看看语料库使用说明就可以了。

把自己的语料库(sogou文本分类语料库)放在LTK_DATA/corpora/目录下;
然后在命令行输入以下之后,即可看到所有的txt文件名列表了。

看你使用什么样的语料库了,比如北大CCL语料库,你想研究“对于”,输入“对于”,所有含“对于”的语料都会出现,点击下载就可以把语料存储在自己的电脑上。更复杂的,比如含“不但”,同时含“而且”的你看看语料库使用说明就可以了。

1. 多做翻译,之后把翻译对齐(可以用Tmxmall做在线对齐,比较简单),对齐后的文件便是tmx语料库格式

2. 自己到网上下载相关语料,然后做对齐,制作tmx双语文件

3. 倘若公司以前有做过的翻译语料,直接可以用Tmxmall做对齐,复用以前的翻译

4. 用TMROBOT管理语料,防止语料太乱以及语料丢失

  • 建立语料库最大的任务就是做对齐,对齐效率越高,准确率越高,用处就越大。

Tmxmall对齐方式是先基于段落对齐,然后再细化为句对齐,很好的提高了工作效率及准确。

  • 其次,在线对齐使得对齐工作变得更为简单,易操作。



CORPUS4U是语料库的大家庭,很好的学习地方。北外的许家金、中科院艾海洋、新加坡国立大学洪华清等高手云集,好好学吧。


PYTHON自然语言处理怎么样
记得2007年上半年,最初读到这本书的时候还是草稿,用了整个一个暑假来仔细研究这本书,现在已经和以前的有很大不同了! 如果你要是自然语言学或语言信息处理相关专业的学生,又对python与nltk感兴趣的话,就看这本书吧,可以当做入门读物来看,整本书即涉及到了语料库的操作,也对传统的基于规则的...

雅思王听力语料库机考笔试第二版和综合版一样吗
编法不一样。王陆雅思听力王机考笔试第一版和第二版内容是一样的,第一版的是按照词的出现频率编的,第二版的是按照出现的场景编的。《雅思王听力真题速成(机考笔试综合版)》是2016年中国人民大学出版社出版的图书,由环球雅思最著名的雅思专家王陆编著。本书包括完整的剑桥真题题库,包括最新考试的...

语言研究方法在语言研究中起什么样的作用求答案
基于大规模语料库的英语语法书也已经问世。在理论建设上,基于英国国家语料库英语口语库的研究表明,基于真实英语口语语料的英语口语语法跟基于书面语的语法有很大不同。在应用语言学领域,词典编纂和语言教学同是语料库的最大受益者。目前已有多部词典在编纂或修订过程中,不同程度地使用语料库或电子文档...

雅思王口语真题语料库怎么样?好不好用
还可以,但是不要照着背,自己还是整理一套属于自己的回答好些,不然雷同的回答也得不了好的分数,你还可以到其他网站上找些最近预测的口语话题,准备充分点自己信心也足些。

对于翻译记忆库TM和术语库TB,计算机辅助翻译(computer-aided tran...
TB术语库:意义:1.提高翻译速度 各个行业和领域的专业性会形成大量的术语。而译者作为一个独立的个体不可能熟知各个领域。术语库的建立使得译者无需大量查阅相关专业书籍,节省时间,提高翻译速度。2.提高翻译质量 随着社会发展,语言会不断创造新名词,术语也是一样。术语库可以时时进行管理与更新,将有效...

样别是什么意思?
样别是指在统计样本中,将样本数据根据某个特征分成不同的类别。例如,在进行文本分类时,可以将语料库中的文章按照主题分类,每个类别就是一个样别,可以用来训练分类模型。在生物学研究中,也常常用样别来研究不同物种或不同组织之间的差异。样别既可以是数值型的,也可以是分类型的。样别在数据分析...

如何分析词与词之间的相关性?
这个可以用词向量的办法,设定一些基准意义向量,把要分析的词语用这些向量表达出来,然后利用向量夹角分析词语意义的相关性(相似性)。两个词之间的依存语义关系。这个我并不了解,只是知道有这样一种办法。常用词语的特定搭配(collocation)。这种相关性可以用语料库分析一个词的临近词,包括间隔一个词的...

苏州大学英语语言文学专业考研分享?
我一般是开头结尾加上三段论述,多思考多背多练多修改,和上两篇作文是一样的。准备一个厚本子,专门写作文,找人修改,修改好的可以打印出来,以后经常看看。总而言之,每一门课都是背练结合,还要思考和积累,整理错题本和语料库,总结经验,输入加输出,才能在考场上遇到难题不慌张,简单题拿到分。真题可以先做一两套...

词达人竞赛每个人的题一样吗
不一定,因为词达人加油包和校赛的题目都是由不同的机构出题,所以题目可能不一样。在练习任务和测试任务中,所有习题都是从语料库动态生成的,每个学生\/每次重做获得的试题内容并不完全一致,这样一方面能确保学生掌握了词汇用法而不是仅仅记住了答案,另一方面也有效地避免了作弊的可能性。自2019年3月1...

BERT - 论文解读
为了获取长的连续文本序列,作者选用了 BIllion Word Benchmark 这样的文档级语料库,而非打乱的句子级语料库。 3.2 Fine-tuning BERT: 因为transformer 中的 self-attention 机制适用于很多下游任务,所以可以直接对模型进行微调。对于涉及文本对的任务,一般的做法是独立 encode 文本对,然后再应用双向的 cross attention ...

昂仁县15397371781: 怎样利用语料库 -
线巧盐酸: 看你使用什么样的语料库了,比如北大CCL语料库,你想研究“对于”,输入“对于”,所有含“对于”的语料都会出现,点击下载就可以把语料存储在自己的电脑上.更复杂的,比如含“不但”,同时含“而且”的你看看语料库使用说明就可以了.

昂仁县15397371781: Trados 用户如何使用TMXBASE语料库 -
线巧盐酸: 有了这个方法,不仅可以充分享有专业语料库资源,还可以满足客户对Trados翻译文件格式的要求,同时还可以生成Trados语料库. 具体方法如下: 1)登录freetm.com (免费) 2)使用TMXBASE帐号登录,连接你需要的语料库 3)完成文档翻译 4)使用双语结果文件下载模式,选择Trados兼容格式完成下载

昂仁县15397371781: 王陆的雅思听力语料库怎么用啊?是先背一遍再听写还是直接听写,然后再被? -
线巧盐酸: 王陆讲过这个问题:先听一遍试试,如果正确率大于50%就直接听写,然后再被.如果正确率小于50%,就先背,再听写,然后再背.

昂仁县15397371781: 如何使用antconc语料库??? -
线巧盐酸: Antconc只是语料库的检索工具.你得先获得语料库,再利用它来检索.具体怎么检索,软件一般都会附带说明书,仔细读一读就会清楚.在线语料库如BNC, COCA等不需要也不能用Antconc来检索.

昂仁县15397371781: 请问王路的那本雅思王听力应该怎么用 -
线巧盐酸: 本文由王陆老师微博及讲座相关内容整理:听力语料库是一本好书,但是里面内容非常多,对于备考时间不长的烤鸭来说是很重的负担.实际上,如果大家备考时间在一个月左右(备考时间三周以内的烤鸭不建议用本书),只需要准备本书(...

昂仁县15397371781: HSK动态作文语料库 如何使用? -
线巧盐酸: 语料库网址:http://202.112.195.8/hsk/login.asp,注册后即可登录使用.用户也可以登录北京语言大学校园网主页、科研处、汉语水平考试中心、对外汉语研究中心、语言研究所、图书馆的网页进入语料库. 语料库建设及其可持续发展,有赖于学界同仁的大力支持.为使语料库建设得到更好更快的发展,本语料库拟实行会员制管理办法,凡提供外国留学生的作文语料或其他成篇语料及相关背景信息的用户,皆可成为会员,并获得更高的使用权限.具体事宜请致函hskcorpus@yeah.net联系.

昂仁县15397371781: 请问是否有人知道如何能够使用上海交大科技英语语料库JDEST,我做论文急需要知道这个,请知道的人帮助 -
线巧盐酸: http://corpus.sjtu.edu.cn/WebCast/Search.aspx 以guest身份登录.

昂仁县15397371781: sketch engine 怎么用 -
线巧盐酸: 基于计算机的语料库研究是网络信息技术运用在外语教学的典型体现之一.Sketch Engine作为一种在线语料库索引工具,用来描述总结词汇的语法知识包括关键词与词语搭配的使用频率、显著性,相关例句以及语法关系,同义词辨析等功能,本文主要介绍该工具的使用方法以及在词语搭配和同义词辨析教学上的可应用性,并探讨了在教学实践中的教师应如何借助语料库的资源充实课堂资料,并引导鼓励学生通过使用SketchEngine进行探索性学习,从语料库辅助教学的模式中受益.

昂仁县15397371781: 非北大学生能用北大CCL语料库吗?怎么用呀? -
线巧盐酸: 能! http://ccl.pku.edu.cn:8080/ccl_corpus/

昂仁县15397371781: CCL和北大语料库 -
线巧盐酸: 输入你想查询的字段,比如“就”,点查询,CCL就产生出所有含“就”的语料,你可以把这些语料下载到你的电脑上,是txt的文本形式.更多更强大的查询功能可以直接看CCL的使用说明.在百度搜CCL即可找到.

本站内容来自于网友发表,不代表本站立场,仅表示其个人看法,不对其真实性、正确性、有效性作任何的担保
相关事宜请发邮件给我们
© 星空见康网