您现在的位置是：首页 > 技术资料 > 基于Python的豆瓣图书评论数据获取与可视化分析

推荐星级：

基于Python的豆瓣图书评论数据获取与可视化分析

更新时间：2019-12-24 16:30:45 大小：963K 上传用户：songhuahua 查看TA发布的资源 标签：python 数据获取 下载积分：1分评价赚积分（如何评价?）打赏收藏评论(0) 举报

资料介绍

利用Python从豆瓣书评页面中获取图书相关数据,通过数据清洗、提取,把图书名称、作者、出版社、评论分数、评价人数等关键信息保存到MySQL数据库存储,并对评论分数、评价人数等进行可视化分析。实验结果表明,此方法可以快捷、有效地对豆瓣图书评论数据进行分析。

部分文件列表

文件名	大小
基于Python的豆瓣图书评论数据获取与可视化分析.pdf	963K

立即下载

【关注公众号领20积分】

部分页面预览

（完整内容请下载后查看）

第 21 卷第 4 期

2018 年 12 月

沙洲职业工学院学报

Journal of Shazhou Professional Institute of Technology

Vol. 21, No.4

Dec. , 2018

基于Python的豆瓣图书评论数据获取与可视化分析

周洪斌

（沙洲职业工学院，江苏张家港 215600）

摘

要：利用 Python 从豆瓣书评页面中获取图书相关数据，通过数据清洗、提取，把图书名称、作者、出版社、评论分数、

评价人数等关键信息保存到 MySQL 数据库存储，并对评论分数、评价人数等进行可视化分析。实验结果表明，此方法可

以快捷、有效地对豆瓣图书评论数据进行分析。

关键词：Python；图书评论；数据分析

中图分类号：TP391

文献标识码：A

文章编号：1009-8429(2018)04-0001-06

Data Acquisition and Visual Analysis on Douban Book Review

Based on Python

Zhou Hongbin

( Shazhou Professional Institute of Technology, Zhangjiagang 215600, Jiangsu, China )

Abstract: In this paper, Python is used to obtain the book-related data from Douban book review page. Through

data cleaning and extraction, key information such as book name, author, publishing house, comment score and

numbers of evaluation are stored in MySQL database, and the review scores and numbers of evaluation are

analyzed visually. Experimental results show that this method can quickly and effectively analyze Douban book

review.

Key words: Python; book review; data analysis

引言

豆瓣读书已成为国内信息全、用户数量大且非常活跃的专业读书网站，专注于为用户提供全面且精

细化的读书服务。通过获取、分析豆瓣图书评论数据，可以对读者购书提供借鉴意义。采用 Python 可以

快速获取、分析大量的豆瓣书评数据，得出可靠、准确的评论结果。

1 相关技术简介

1.1 Python 简介

Python 语言具备易用、高效、可移植、可扩展等特性，已成为云计算、大数据、人工智能时代的首

[1]

选程序设计语言。 Python 语言已有 10 万多个第三方库（httpsꢁ//pypi.org/），形成了庞大的计算生态，涵盖

信息技术所有方向，如 requests、BeautifulSoup 库用于网络爬虫，re 用于正则表达式处理，sqlalchemy 用

于数据库操作，matplotlib 用于绘图。^[2]

1.2 Python 爬虫技术

requests 包用于抓取网页源代码。导入 requests 包后，可以用 requests.get()方法模拟 HTTP GET 方法发

出请求到服务器，然后通过 text 属性取得服务器响应返回的网页内容（源代码）。具体代码如下：

收稿日期：2018-10-30

基金项目：2016 年江苏省高等职业教育产教深度融合实训平台建设项目（201618）；

江苏省教育科学“十三五”规划青年专项重点课题（C-b/2016/03/17）。

作者简介：周洪斌（1981ꢀ），男，沙洲职业工学院电子信息工程系副教授。

周洪斌：基于 Python 的豆瓣图书评论数据获取与可视化分析

res = requests.get(url)

html = res.text

一般获得的网页内容数据比较复杂，可以使用 BeautifulSoup 进行网页解析，步骤如下：

（1）导入 BeautifulSoup 库

from bs4 import BeautifulSoup

（2）创建 BeautifulSoup 类对象

soup = BeautifulSoup(html.encode('utf-8'),"lxml")

（3）调用 BeautifulSoup 类对象的 select()等方法抓取指定数据

#抓取网页标题

data=soup.select(“html head title”)

1.3 Python 正则库

实际应用中，抓取到的数据可能较为复杂，如网页中的超链接、电子邮箱、电话号码等，需要用到

正则表达式进一步分析、提取数据。

要使用正则表达式，首先导入 re 包，再用 re 包提供的 compile()方法创建一个正则表达式对象，然后

可以用 findall()等方法查找符合正则表达式规则的字符串。如下面的代码用于查找电子邮件账户：

import re

regex = re.compile('[a-zA-Z0-9_.+-]+@[a-zA-Z0-9-]+\.[a-zA-Z0-9-.]+')

emails = regex.findall(html.text)

for email in emailsꢁ

print(email)

1.4 Python 操作数据库

sqlalchemy 提供了 SQL 工具包，是 Python 用来操作数据库的常用库。我们可以通过调用 sqlalchemy，

建立数据库操作模块 db.py，封装数据库查询和更新操作。具体步骤如下：

（1）导入用到的库

from sqlalchemy import create_engine

from sqlalchemy.orm import sessionmaker

（2）定义函数 db_conn()，用于建立数据库连接

# 数据库连接

def db_conn()ꢁ

conn_info = "mysql+pymysqlꢁ//rootꢁ"

engine = create_engine(conn_info, echo=False)

db_session = sessionmaker(bind=engine)

session = db_session()

return session

（3）定义 query_mysql()及 update_mysql()函数，分别用于数据查询以及更新操作

# 数据库查询

def query_mysql(sql_str)ꢁ

session = db_conn()

return session.execute(sql_str)

# 数据库更新

def update_mysql(update_sql)ꢁ

session = db_conn()

- 2 -

全部评论(0)

暂无评论

评论赚积分>>

上传资源上传优质资源有赏金

最新上传

打赏
30日榜单

13806677280 打赏1.00元 2天前

资料：SONY ICF SW77 维修手册
21下载积分打赏20.00元 3天前

用户：white工
Lzhf918@ 打赏10.00元 3天前

资料：海尔LS55H310G液晶电源板电路图
21ic下载打赏310.00元 3天前

用户：mulanhk
21ic下载打赏310.00元 3天前

用户：lanmukk
21ic下载打赏310.00元 3天前

用户：zhengdai
21ic下载打赏240.00元 3天前

用户：江岚
21ic下载打赏240.00元 3天前

用户：潇潇江南
21ic下载打赏210.00元 3天前

用户：gsy幸运
21ic下载打赏70.00元 3天前

用户：小猫做电路
21ic下载打赏120.00元 3天前

用户：jh0355
21ic下载打赏110.00元 3天前

用户：jh03551
21ic下载打赏70.00元 3天前

用户：liqiang9090
21ic下载打赏45.00元 3天前

用户：有理想666
21ic下载打赏20.00元 3天前

用户：w178191520
21ic下载打赏40.00元 3天前

用户：烟雨
21ic下载打赏20.00元 3天前

用户：eaglexiong
21ic下载打赏20.00元 3天前

用户：sun2152
21ic下载打赏20.00元 3天前

用户：xuzhen1
21ic下载打赏15.00元 3天前

用户：kk1957135547
21ic下载打赏15.00元 3天前

用户：w993263495

21ic下载打赏15.00元 3天前

用户：x15580286248
21ic下载打赏15.00元 3天前

用户：w1966891335
小猫做电路打赏830.00元 3天前

资料：Protel99SE 电路设计与仿真
gsy幸运打赏880.00元 3天前

资料：Protel99SE 电路设计与仿真
zhengdai 打赏730.00元 3天前

资料：Protel99SE 电路设计与仿真
21ic小能手打赏10.00元 3天前

资料：STM32数控Boost恒流恒压电源
21ic小能手打赏10.00元 3天前

资料：stm32电压表设计(数码管显示)
21ic小能手打赏5.00元 3天前

资料：STM32智能交流电检测
21ic小能手打赏5.00元 3天前

资料：51单片机的4路AD采集模块0-10V
21ic小能手打赏5.00元 3天前

资料：数电交通灯 Multisim 13.0 仿真程序（30-5-20）
21ic小能手打赏10.00元 3天前

资料：STM32单片机的视力保护器毕设
21ic小能手打赏10.00元 3天前

资料：STM32多功能虚拟信号分析仪示波器频谱仪经典设计资料
21ic小能手打赏15.00元 3天前

资料：STM32F103单片机智能门禁热释人体感应报警设计(全套)
21ic小能手打赏10.00元 3天前

资料：STM32单片机语音识别智能垃圾桶无线APP安全防疫设计
21ic小能手打赏10.00元 3天前

资料：51单片机智能老人防跌倒报警体温GSM短信上报
21ic小能手打赏5.00元 3天前

资料：stm32单片机的按键智能电子密码锁（源码+仿真+原理图+PCB+参考报告）
21ic小能手打赏5.00元 3天前

资料：STM32单片机智能手环脉搏心率计步器体温显示设计(全套)
21ic小能手打赏5.00元 3天前

资料：51单片机的简易数字示波器设计LCD12864液晶示波器电子套件（全套）
21ic小能手打赏5.00元 3天前

资料：stm32单片机的矩阵键盘按键检测显示Proteus仿真

基于Python的豆瓣图书评论数据获取与可视化分析

资料介绍

部分文件列表

部分页面预览

相关下载

全部评论(0)

热门标签

最新上传

热门下载

资料专题

推荐下载

专栏首页