+ 我要发布
我发布的 我的标签 发现
浏览器扩展
斑点象@Edge

汉外平行语料库:北京大学计算语言研究所双语平行语料库、北京外国语大学双语平行语料库、南京农业大学典籍平行语料库

1 北京大学计算语言研究所双语平行语料库 该语料库为大型汉英、汉日双语语料库,包含汉英句子级对齐语料20万句对、汉日句子级对齐语料2万句对、汉英词汇级对齐语料1万对,旨在为机器翻译等应用系统的研发提供基础资源和标准的评测语料 。 1 北京外国语大学双语平行语料库 由王克非负责构建的汉英和汉日两个平行语料库目前仍在建设中。该语料库包括2000万字的日汉对译文本语料库和3000万字词的通用型汉英平行语料库两个部分。目前2000万字的日汉对译文本语料库的平行对应语料分为文学与非文学、汉译日和日译汉存放,做到段落级对齐,运用所研制的检索工具可对汉日语料做各种词语、短语、句型和搭配上的检索。通用型汉英平行语料库分为,“百科语料库”“翻译文本库”“双语语句库”以及“专科语料库”四个子库,目前3000万字词语料已基本做到句级对齐,其中2000万字词语料已完成最终校对、标注、双语链接。 2 南京农业大学典籍平行语料库 基于十三经、《战国策》、前四史等典籍及其所对应的白话文和英文翻译,南京农业大学王东波结合深度学习相应模型设计了句对齐的算法,实现了古文句子与白话文和英文的对齐,并对古文、白话文和英文进行了分词、词性和实体标注,形成了独具特色的典籍平行语料库 。
我的笔记
你可能想看的