推荐星级:
  • 1
  • 2
  • 3
  • 4
  • 5

欧盟Europarl语料库概述

更新时间:2026-03-15 12:22:51 大小:14K 上传用户:烟雨查看TA发布的资源 标签:语料库 下载积分:2分 评价赚积分 (如何评价?) 打赏 收藏 评论(0) 举报

资料介绍

Europarl语料库是由欧盟委员会资助开发的多语言平行语料库,主要收录欧洲议会1996年至2011年间的会议记录,涵盖21种欧盟官方语言。该语料库因规模庞大、语言对丰富及高质量的人工翻译,成为机器翻译、跨语言研究及自然语言处理领域的重要资源。

一、基本信息

1.1 语料来源

语料主要来源于欧洲议会公开的会议记录、辩论文本及相关文件,内容涉及政治、经济、法律、环境等领域,具有正式、严谨的语言风格。

1.2 语言覆盖

包含21种语言,主要语言对包括英语-法语、英语-德语、英语-西班牙语等,部分语言对数据量超过千万句对。

1.3 数据规模

截至最新版本,总句对数超过2亿,单语言文本总量达数十亿词,是目前应用最广泛的多语言平行语料库之一。

二、结构与特点

2.1 数据结构

  • 平行对齐:按句子级别对齐,支持多语言间的直接比对。

  • 层级组织:按年份、会议主题、语言对分类,便于定向检索。

  • 元数据:包含文本来源、日期、发言人等背景信息。

2.2 核心特点

  • 高质量翻译:由专业译员完成,符合欧盟官方语言规范。

  • 领域多样性:覆盖政治、法律、经济等多领域术语。

部分文件列表

文件名 大小
欧盟Europarl语料库概述.docx 14K

【关注B站账户领20积分】

全部评论(0)

暂无评论

上传资源 上传优质资源有赏金

  • 打赏
  • 30日榜单

推荐下载