推荐星级:
  • 1
  • 2
  • 3
  • 4
  • 5

机器翻译系统的平行语料支撑

更新时间:2026-03-15 12:13:01 大小:13K 上传用户:潇潇江南查看TA发布的资源 标签:机器翻译 下载积分:2分 评价赚积分 (如何评价?) 打赏 收藏 评论(0) 举报

资料介绍

平行语料作为机器翻译系统的核心基础资源,其质量、规模和覆盖范围直接决定了翻译模型的性能表现。在统计机器翻译和神经机器翻译的发展历程中,平行语料始终扮演着数据驱动的关键角色,为模型学习双语映射规律提供了底层支撑。

一、平行语料的定义与类型

平行语料是指包含源语言文本及其对应目标语言译文的双语语料集合,二者在语义层面构成等价关系。根据不同维度可划分为多种类型:

  • 按领域划分:通用领域(如新闻、文学作品)和专业领域(如医学、法律、技术文档),领域匹配度直接影响特定场景的翻译质量

  • 按规模划分:小型语料库(十万句对以下)、中型语料库(百万句对级别)和大型语料库(千万句对以上),神经翻译模型通常需要大规模数据支撑

  • 按对齐粒度划分:文档级对齐(整篇文档对应)、段落级对齐(段落对应)、句子级对齐(句子对应)和子句级对齐(短语或成分对应),其中句子级对齐是主流应用形式

  • 按来源划分:人工翻译语料(质量最高但成本昂贵)、官方双语文件(如政府白皮书、国际组织文件)、网络平行文本(如多语言网站、字幕文件)和机器翻译后编辑语料(成本与质量平衡的选择)

部分文件列表

文件名 大小
1773547775机器翻译系统的平行语料支撑.docx 13K

【关注B站账户领20积分】

全部评论(0)

暂无评论

上传资源 上传优质资源有赏金

  • 打赏
  • 30日榜单

推荐下载