商务服务
译员必备,国内外语料库汇总!
2024-11-09 19:42

译员必备,国内外语料库汇总!

译只喵
今天要跟大家分享一些语料库,它对写论文的人、语言教师及专业译员等都会有莫大的帮助,赶紧马下吧~

语料库是神马?

语料库的英语表达是 corpus,来源于 13 世纪的拉丁语,意思是 body,有“躯干、身体;集合、全集”之意,复数形式通常用 corpora。

语料库是收集多种权威口语和书面用语的数据库。其中用语由多种途径获得,如书面用语可来源于书籍报纸等,口语预料则来自于日常会话。

来源:数据挖掘入门与实战

国内可用免费语料

1

国家语委

1.国家语委现代汉语语料库

http://www.cncorpus.org/现代汉语通用平衡语料库现在重新开放网络查询了。重开后的在线检索速度更快,功能更强,同时提供检索结果下载。现代汉语语料库在线提供免费检索的语料约2000万字,为分词和词性标注语料。

2.古代汉语语料库http://www.cncorpus.org/login.aspx网站现在还增加了一亿字的古代汉语生语料,研究古代汉语的也可以去查询和下载。同时,还提供了分词、词性标注软件、词频统计、字频统计软件,基于国家语委语料库的字频词频统计结果和发布的词表等,以供学习研究语言文字的老师同学使用。

2

北京大学计算语言学研究所

《人民日报》标注语料库http://www.icl.pku.edu.cn/icl_res/

《人民日报》标注语料库中一半的语料(1998年上半年)共1300万字已经通过《人民日报》新闻信息中心公开提供许可使用权。其中一个月的语料(1998年1月)近200万字在互联网上公布,供自由下载。

3

北京语言大学

汉语国际教育技术研发中心:HSK动态作文语料库http://www.sinica.edu.tw/Early_Mandarin/

4

台湾中央研究院

中研院语料库WWW版所有功能均开放使用,但为防主机资源耗用过剧及顾及数据传输之实际限制,暂以检索结果为限制的条件:院内检索限两万行数据,院外检索限两千行数据。

1.现代汉语平衡语料库http://www.sinica.edu.tw/SinicaCorpus/专门针对语言分析而设计的,每个文句都依词断开,并标示词类。语料的搜集也尽量做到现代汉语分配在不同的主题和语式上,是现代汉语无穷多的语句中一个代表性的样本。现有语料库主要针对语言分析而设计,由中央研究院信息所、语言所词库小组完成,内含有简介、使用说明,现行的语料库是4.0的版本。

2.古汉语语料库http://www.sinica.edu.tw/ftms-bin/ftmsw古汉语语料库包含以下五个语料库: 上古汉语、中古汉语(含大藏经)、近代汉语、其他、出土文献。部分数据取自史语所汉籍全文数据库,故两者间略有重迭。此语料库之出土文献语料库,全部取自史语所汉简小组所制作的数据库。

3.近代汉语标记语料库http://www.sinica.edu.tw/Early_Mandarin/为应汉语史研究需求而建构的语料库。目前素语料库所搜集的语料已含盖上古汉语(先秦至西汉)、中古汉语(东汉魏晋南北朝)、近代汉语(唐五代以后)大部分的重要语料,并己陆续开放使用;在标记语料库方面,上古汉语及近代汉语都已有部分语料完成标注的工作,并视结果逐步提供上线检索。

4.树图数据库http://treebank.sinica.edu.tw/「中文句結構樹資料庫」(Sinica Treebank Version 3.0) 包含了6個檔案,61,087個中文樹圖,361,834個詞,是中央研究院詞庫小組從中央研究院平衡語料庫 (Sinica Corpus) 中抽取句子,經由電腦剖析成結構樹,並加以人工修正、檢驗後所得的成果。

5.中英双语知识本体词网http://bow.sinica.edu.tw/结合词网,知识本体,与领域标记的词汇知识库。

6.搜文解字http://words.sinica.edu.tw/包含「搜词寻字」、「文学之美」、「游戏解惑」、「古文字的世界」四个单元,可由部件、部首、字、音、词互查,并可查询在四书、老、庄、唐诗中的出处,及直接连结到出处,阅读原文。

5

中国传媒大学

1.中国传媒大学文本语料库检索系统http://ling.cuc.edu.cn/RawPub/2.在线分词标注系统http://ling.cuc.edu.cn/cucseg/3.新词语研究资源库http://ling.cuc.edu.cn/newword/web/index.asp4.音视频语料检索系统http://ling.cuc.edu.cn/mmcpub(目前系统正在升级改造中)

6

哈尔滨工业大学

哈工大信息检索研究室对外共享语料库资源http://ir.hit.edu.cn/demo/ltp/Sharing_Plan.htm该语料库为汉英双语语料库,10万对齐双语句对,文本文件格式,同义词词林扩展版,77,343条词语,秉承《同义词词林》的编撰风格,同时采用五级编码体系,多文档自动文摘语料库,40个主题,文本文件格式,同一主题下是同一事件的不同报道。

7

香港教育学院

言资讯科学中心及其语料库实验室http://www.livac.org/index.php?lang=sc自1995年开始,以「共时」方式处理了超常的大量汉语语料,通过精密的技术,累积众多精确的统计数据,建立了LIVAC (Linguistic Variation in Chinese Speech Communities)共时语料库。

本语料库最大特点是采用「共时性」视窗模式,严谨地定时分别收集来自多地的定量同类语料,可供各种客观的比较研究,方便有关的信息科技发展与应用。此外,语料库又兼顾了「历时性」,方便各方人士客观地观察与研究视窗内的有代表性的语言发展全面动态。

9

中文语言资源联盟

中文语言资源联盟http://www.chineseldc.org/(Chinese Linguistic Data Consortium,简称ChineseLDC)的建立。ChineseLDC是吸收国内高等院校,科研机构和公司参加的开放式语言资源联盟。其目的是建成能代表当今中文信息处理水平的,通用的中文语言信息知识库。

10

国外语料库资源

1.兰开斯特汉语语料库 (LCMC) http://ota.oucs.ox.ac.uk/scripts/download.php?otaid=2474应学术界对免费对公众开放的平衡的现代汉语语料库的需求的情况下筹建的。 LCMC 语料库是由兰开斯特大学语言学系承担的并得到英国经社研究委员会资助的研究项目。 LCMC语料库是与 Freiburg-LOB Corpus of British English (即FLOB)平行对应的汉语语料库,它有助于我们从事汉语的单语和英汉双语的对比研究。

2. 语言开放典藏社群(OLAC)OLAC(Open Language Archives Community)http://search.language-archives.org/index.html

语言开放典藏社群是由个人或组织所组成的国际性合作协会。许多种类的协会需要语言资源,如:语言学家、工程师、教师、演说家,也有许多机构提供片段性的架构,如:文件管理器、软件开发者和出版者。

3. SKETCHENGINE多语言语料库www.sketchengine.co.uk每个邮箱可以注册一次,免费期是一个月,免费期过了就再注册一个邮箱,再注册一次。其中汉语语料库是没有加工的生语料库,使用价值不大。关键是其中的英语语料库实际上是原来要付费才能使用的BNC,可以好好利用。

你还有什么语料库想推荐吗?

有奖问答:下面世界名校,你能认出多少?

你认出的,都能见!就在7月2日,与世界200强名校零距离接触吧!还有大家已经疯抢的雅思大师课、名企HR高管模拟面试......

7月2日(周日)14:00-18:00,我们在广州粤海喜来登酒店7楼宴会厅,相见!

最新文章
家庭医生签约服务健康知识库(一)
第一部分 科学健康观素养一、基本知识和理念(15条)1.【健康的定义】健康是指身体、心理和社会状态的完好状态,而不仅仅是没有
华为新款折叠屏手机开售后“秒光” 产业渗透率有望快速提升 媒体报道,12月6日,华为在南山全球旗舰店正式发售折叠屏手机MateX6,售价12999元起,此前已有超过116万人预约...
来源:雪球App,作者: 科创板日报,(https://xueqiu.com/9252950692/315917278)媒体报道,12月6日,华为在南山全球旗舰店正式
中信银行信用卡欠两万逾期两年多没还上该如何处理?
中信银行信用卡欠两万逾期两年多没还上怎么办小编导语随着信用卡的普及,越来越多的人选择使用信用卡进行消费。信用卡欠款逾期的
AI生成3D模型工具都有哪些?2023年AI生成器大盘点!
由于人工智能 (AI) 的快速发展3D 内容创作的未来也逐渐变得清晰AI 驱动的工具正在逐渐改变我们创建、交互和体验 3D 内容的方式,
如何利用2024年十大免费网站推广入口提升网站流量和品牌知名度?
在互联网时代,推广一个网站或业务需要通过多种渠道和入口来提高曝光度,增加流量。尤其是对于初创企业和小型网站来说,寻找合适
dwg用什么软件可以查看?dwg浏览器下载
本教程操作环境:windows7系统、DELL G3电脑。 6款可以打开dwg文件的软件看图纸DwgSeePlus是一款dwg文件浏览器,是专门为工程设
五大全站推广优化策略,助您网站流量激增秘诀大公开
全站推广标题优化五大秘诀,助您网站流量猛增。策略包括:精准关键词布局、吸引力标题设计、标题与内容一致性、多平台推广同步、
【学习教程系列】最通俗的 Python3 网络爬虫入门
很多朋友学习Python都是先从爬虫开始,其原因不外两方面: 其一Python对爬虫支持度较好,类库众多,其
工业富联涨0.86%,成交额20.91亿元,人气排名41位!后市是否有机会?附走势预测
12月11日,涨0.86%,成交额20.91亿元,换手率0.47%,总市值4436.50亿元。工业富联目前在新浪财经客户端A股市场人气排名第41名。