爬虫篇之JS逆向破解-编程学习网

爬虫中很重要的一个点就是JS的逆向破解加密，今天我们来浅析一下。

背景

先简单介绍一下为什么要有JS解密，目前大部分网页都是采用的前后端分离的方式，所以呢，爬虫的一般破解之道都是从后端接口来做文章，进行突破。

不过道高一尺，魔高一丈，网页开发会对API接口请求参数进行加密，来增加爬虫抓取的门槛。为此可以通过js逆向来分析破解加密方式，模拟浏览器发送请求获取接口数据。

当然，先说明，这篇文章并不是非常专业的JS解密，因为JS的解密涉及很多种，多种行为的解密，本文只是对其中一种情况进行简单的介绍。

来吧，让我们一起简单学习一下。

上面这个图是请求翻译的全过程。

我们能清晰的看到这是直接以表单的形式提交的数据到后端API层，然后API来执行翻译的作用。

接下来我们用python模拟以下这个过程。

一定要注意的是，请求头写全，包括cookie和user-agent这些，还有下面的params一定要按照网页中的来。

代码给到大家。

import requests
#请求头
headers = {
    "Accept": "application/json, text/javascript, **; q=0.01",
    "Accept-Encoding": "gzip, deflate",
    "Accept-Language": "zh-CN,zh;q=0.9",
    "Connection": "keep-alive",
    "Content-Length": "244",
    "Content-Type": "application/x-www-form-urlencoded; charset=UTF-8",
    "Cookie": "OUTFOX_SEARCH_USER_ID=-1506602845@10.169.0.82; JSESSIONID=aaaUggpd8kfhja1AIJYpx; OUTFOX_SEARCH_USER_ID_NCOO=108436537.92676207; ___rl__test__cookies=1597502296408",
    "Host": "fanyi.youdao.com",
    "Origin": "http://fanyi.youdao.com",
    "Referer": "http://fanyi.youdao.com/",
    "user-agent": appVersion,
    "X-Requested-With": "XMLHttpRequest",
}
def r(e):
    # bv
    t = md5(appVersion.encode()).hexdigest()
    # lts
    r = str(int(time.time() * 1000))
    # i
    i = r + str(random.randint(0,9))
    return {
        "ts": r,
        "bv": t,
        "salt": i,
        "sign": md5(("fanyideskweb" + e + i + "Ygy_4c=r#e#4EX^NUGUc5").encode()).hexdigest()
    }
def fanyi(word):
    data = r(word)
    params = {
        "i": word,
        "from": "AUTO",
        "to": "AUTO",
        "smartresult": "dict",
        "client": "fanyideskweb",
        "salt": data["salt"],
        "sign": data["sign"],
        "lts": data["ts"],
        "bv": data["bv"],
        "doctype": "json",
        "version": "2.1",
        "keyfrom": "fanyi.web",
        "action": "FY_BY_REALTlME",
    }
    response = requests.post(url=url,headers=headers,data=params)
    #返回json数据
    return response.json()
if __name__ == "__main__":
    while True:
        word = input("请输入要翻译的语句：")
        result = fanyi(word)
        #对返回的json数据进行提取，提取出我们需要的数据
        r_data = result["translateResult"][0]
        print(r_data[0]["src"])
        print(r_data[0]["tgt"])

文章详情

爬虫篇之JS逆向破解

背景

软考中级精品资料免费领

相关文章

猜你喜欢

爬虫篇之JS逆向破解

Python爬虫实战JS逆向AES逆向加密爬取

反爬篇 | 手把手教你处理 JS 逆向之 CSS 偏移

【Python爬虫----加密解密】爬虫JS逆向时Python的加密解密，编码（MD5,AES,DES,RSA,base64,UrlEncode等）

Python网络爬虫之js逆向之远程调用(rpc)免去抠代码补环境简介

python爬虫实战steam加密逆向RSA登录解析

python之js逆向功能演示详解

JavaScript逆向案例之如何破解登录密码

JS逆向之浏览器补环境图文详解

安卓逆向案例分析之蝉妈妈sign破解

一篇文章带你了解Python之Selenium自动化爬虫