推荐星级:
  • 1
  • 2
  • 3
  • 4
  • 5

THUCNews新闻语料库简介

更新时间:2026-03-15 12:24:01 大小:14K 上传用户:烟雨查看TA发布的资源 标签:语料库 下载积分:2分 评价赚积分 (如何评价?) 打赏 收藏 评论(0) 举报

资料介绍

THUCNews是由清华大学自然语言处理实验室(THUNLP)构建的大规模中文新闻语料库,是中文自然语言处理领域广泛使用的基准数据集之一。该语料库主要面向文本分类、情感分析、主题建模等任务,为相关研究提供了高质量的标注数据支持。

语料库基本信息

数据来源

THUCNews的文本数据主要来源于新浪新闻等主流新闻媒体,涵盖了2005年至2011年间的新闻 articles。数据经过严格筛选和去重处理,确保文本质量和内容多样性。

规模与类别

该语料库包含约14个新闻类别,具体包括:

  • 体育(如足球、篮球等赛事报道)

  • 娱乐(明星动态、影视资讯等)

  • 家居(装修、家具、生活技巧等)

  • 房产(房地产政策、市场动态等)

  • 教育(教育政策、校园新闻等)

  • 时尚(服装、美妆、潮流趋势等)

  • 时政(国内政治、国际新闻等)

  • 游戏(电子竞技、游戏评测等)

  • 科技(科技产品、技术突破等)

  • 财经(股市、金融政策等)

  • 证券(股票、债券市场信息等)

  • 星座(星座运势、命理分析等)

  • 社会(社会事件、民生话题等)

  • 彩票(彩票开奖信息、玩法介绍等)

部分文件列表

文件名 大小
THUCNews新闻语料库简介.docx 14K

【关注B站账户领20积分】

全部评论(0)

暂无评论

上传资源 上传优质资源有赏金

  • 打赏
  • 30日榜单

推荐下载