代码人生

热榜排行爬虫详解

作为一个爬虫必须摸不一样的鱼，平时大家怎么看热榜，今天爬一个热榜数据，咱就在ied中读热榜。还是一个乌龙事件听我细细道来网站地址

1，话不多说，今天图也不看了直接进入主题，打开网站首页抓个包

2，可见接口中有两个参数，第二个参数盲猜是请求时候的时间戳，第一个参数有点长不像是正常的时间戳，多翻几页发现第一个参数也是一个时间戳只是后面加了三个000，咱们就去掉三个零（这里多请求了几页没有发现翻页的变化规律）

2.1，第二个参数转换发现就是请求时间没错

2.2，第一个参数转换瞬间我这充满智慧的大脑里出现了无数想法（这是随机的）（这是文章发布时间）（文章发布时间放到翻页怎么获取呢）（这是网站反爬生成一堆时间戳映射到page上做翻页）（这是通过算法和请求时间做比较生成对应的page进行翻页）（。。。）然后我就去了后台看看查一下这个参数名

只一眼，并带着对这种小网站的看不起，直接到response中一检索果然。小网站哪有什么高端反爬

3，直接上代码，翻页就不再多谢，拿到参数之后可以自己向下补充了

headers = {
    'Accept': 'application/json, text/javascript, */*; q=0.01',
    'Accept-Language': 'zh-CN,zh;q=0.9',
    'Cache-Control': 'no-cache',
    'Connection': 'keep-alive',
    'Cookie': 'deviceId=web.eyJ0eXAiOiJKV1QiLCJhbGciOiJIUzI1NiJ9.eyJqaWQiOiJhNjNkZjYxZS00ODZhLTQzNTgtODNmMy1hNDlkMjdkMmI4ZmUiLCJleHBpcmUiOiIxNjY1MjIyMzY3MDAwIn0.eQF9za4cSq8huEESJPn0nDP3PUsDiVNZ4CM_fTAeWMg; Hm_lvt_03b2668f8e8699e91d479d62bc7630f1=1662630378',
    'Pragma': 'no-cache',
    'Referer': 'https://dig.chouti.com/',
    'Sec-Fetch-Dest': 'empty',
    'Sec-Fetch-Mode': 'cors',
    'Sec-Fetch-Site': 'same-origin',
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/100.0.4896.60 Safari/537.36',
    'X-Requested-With': 'XMLHttpRequest',
    'sec-ch-ua': '" Not A;Brand";v="99", "Chromium";v="100", "Google Chrome";v="100"',
    'sec-ch-ua-mobile': '?0',
    'sec-ch-ua-platform': '"Windows"',
}
import time
params = {
    'afterTime': '1681236005077000',
    '_': f'{int(time.time()*1000)}',
}

response = requests.get('https://dig.chouti.com/link/hot', params=params, headers=headers).json()['data']
next_afterTime = response[-1]['operateTime']
print(next_afterTime)
for res in response:
    title = res['title']
    url = res['url']
    print(title)
    yes = input()
    if yes == '1':
        print(url)

4，ok这样的话就只需要看到想看的题目就输入1返回url，就可以自行观赏了，跑一下

作者：小爬菜
链接：https://juejin.cn/post/7221704414511513661
来源：稀土掘金
著作权归作者所有。商业转载请联系作者获得授权，非商业转载请注明出处。

0

2023-05-16

0 个评论

要回复文章请先登录或注册

热榜排行爬虫详解

0 个评论

发起人