2.网络上爬取相关的数据。
3.进行文本分析,生成词云。
4.对文本分析结果解释说明。
预期是首先完成的爬取所有科幻片的演员的名字,然后分析出哪些演员的频率高,得知他在该网站的电影中的热门程度
分析网站,看的电影的标题和连接放在
- 标签里,主要看代码部分的解释
爬取内容保存到数据库代码import requests
由于
- 标签里 的连接只是后面那部分,所以使用了一条循环,补全链接
for names in soup.select('dl'):
name = names.select('a')[0]['href']
addname = "http://www.80dyy.cc{}".format(name)
提取内容到数据库的代码
评论