前言 ?
大家早好、午好、晚好吖~
六月,秋秋发生大规模盗号事件,众说纷纭。
有说因为某习通买卖个人信息导致的,有说是因为点了图片中的网站导致中毒被盗的
还有说企鹅数据库被攻击导致账号被盗的,反正公说公有理婆说婆有理。
但是吧,人呐,一般都喜欢凑热闹,于是乎,我直接用Python把围脖爬了一遍,看他们争论的不亦乐乎,我开心极了~
准备工作
使用的是Python3.8
和 pycharm
编辑器
为什么我用的是3.8 而不是最新版呢?
很多刚开始学Python的兄弟喜欢下载新版本,在原有的认知里面就是觉得最新的自然就是最好的,但是,对于软件而言,越新的版本,问题越多,不稳定,还需要不断地修改不断地完善。
打个简单的比方,以LOL为例,每次版本刚更新,总是会爆出一些小bug,然后收集一段时间后,再通过小版本或者直接在线就更新了。
所以说软件并不是版本越新越好,这里我推荐的是Python3.8,目前最稳定的版本。
pycharm的话,pycharm2020以前的版本是没有中文版插件的,只能通过在网上找的插件安装,后面的版本都可以直接在pycharm上安装插件。
代码展示
import pprint
import re
import requests
import csv
import pandas as pd
源码、解答、教程加Q裙:261823976 点击蓝字加入【python学习裙】
# f = open('微博评论.csv', mode='a', encoding='utf-8', newline='')
# csv_writer = csv.DictWriter(f, fieldnames=[
# '用户',
# '地区',
# '评论',
# '日期',
# ])
# csv_writer.writeheader()
url = 'https://m.***.cn/comments/hotflow?id=4784937075214225&mid=4784937075214225&max_id_type=0'
headers = {
'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/101.0.0.0 Safari/537.36'
}
response = requests.get(url=url, headers=headers)
lis = []
for index in response.json()['data']['data']:
content = ''.join(re.findall('[\u4e00-\u9fa5]+', index['text']))
dit = {
'用户': index['user']['screen_name'],
'地区': index['source'].replace('来自', ''),
'评论': content,
'日期': index['created_at']
}
lis.append(dit)
# csv_writer.writerow(dit)
print(dit)
pd_data = pd.DataFrame(lis)
pd_data.to_excel('微博评论.xlsx')
- 6
- 7
- 8
- 9
- 10
- 11
- 12
- 13
- 14
- 15
- 16
- 17
- 18
- 19
- 20
- 21
- 22
- 23
- 24
- 25
- 26
- 27
- 28
- 29
- 30
- 31
效果
部分数据
不得不替这些被盗号得网友感到默哀,哈哈哈哈哈
尾语 ?
好了,我的这篇文章写到这里就结束啦!
有更多建议或问题可以评论区或私信我哦!一起加油努力叭(ง •_•)ง
喜欢就关注一下博主,或点赞收藏评论一下我的文章叭!!!