文章详情

短信预约-IT技能 免费直播动态提醒

请输入下面的图形验证码

提交验证

短信预约提醒成功

怎么使用Excel和Python从互联网获取数据

2023-07-06 01:45

关注

这篇文章主要介绍“怎么使用Excel和Python从互联网获取数据”,在日常操作中,相信很多人在怎么使用Excel和Python从互联网获取数据问题上存在疑惑,小编查阅了各式资料,整理出简单好用的操作方法,希望对大家解答”怎么使用Excel和Python从互联网获取数据”的疑惑有所帮助!接下来,请跟着小编一起来学习吧!

一、构建测试用网站数据

通过Python Flask Web框架分别构建一个Web网站和一个Web API服务。

1.构建Web网站

新建一个名为“5-5-WebTable.py”的Python脚本,创建一个包含表格的简单网页。如果读者对构建方法不感兴趣,可跳过以下代码,直接执行脚本“5-5-WebTable.py”打开网站。

(1)安装flask包。

pip install flask

(2)构建包含表格的网页。

from flask import Flaskapp = Flask(__name__)# 创建Falsk Web应用实例# 将路由“/”映射到table_info函数,函数返回HTML代码@app.route('/')def table_info():return """HTML表格实例,用于提供给Excel和Python读取用户信息表姓名性别年龄小米女22………."""if __name__ == '__main__':app.debug = True# 启用调试模式app.run()# 运行,网站端口默认为5000

通过命令“python ./5-5-WebTable.py”启动网站,然后在浏览器中输入http://127.0.0.1:5000/,出现如图1所示的网页内容。

怎么使用Excel和Python从互联网获取数据

图1  使用Flask构建的测试网站

2.构建Web API服务

新建一个名为“5-5-WebAPI.py”的Python脚本,使用flask_restplus包构建Web API服务。如果读者对构建方法不感兴趣,可跳过以下代码,直接执行脚本“5-5-WebAPI.py”打开Web API服务。

(1)安装flask_restplus包。

pip install flask-restplus

(2)导入必要的库与初始化应用对象。

from flask import Flask# Api类是Web API应用的入口,需要用Flask应用程序初始化from flask_restplus import Api# Resource类是HTTP请求的资源的基类from flask_restplus import Resource# fields类用于定义数据的类型和格式from flask_restplus import fieldsapp = Flask(__name__)# 创建Falsk Web应用实例# 在flask应用的基础上构建flask_restplusApi对象api = Api(app, version='1.0',title='Excel集成Python数据分析-测试用WebAPI',description='测试用WebAPI', )# 使用namespace函数生成命名空间,用于为资源分组ns = api.namespace('ExcelPythonTest', description='Excel与Python Web API测试')# 使用api.model函数生成模型对象todo = api.model('task_model', {'id': fields.Integer(readonly=True, description='ETL任务唯一标识'),'task': fields.String(required=True,description='ETL任务详情')})

(3)Web API数据操作类,包含增、删、改、查等方法。

class TodoDAO(object):def __init__(self):self.counter = 0self.todos = []def get(self, id):for todo in self.todos:if todo['id'] == id:return todoapi.abort(404, "ETL任务 {} 不存在".format(id))def create(self, data):todo = datatodo['id'] = self.counter = self.counter + 1self.todos.append(todo)return todo# 实例化数据操作,创建3条测试数据DAO = TodoDAO()DAO.create({'task': 'ETL-抽取数据操作'})DAO.create({'task': 'ETL-数据清洗转换'})DAO.create({'task': 'ETL-数据加载操作'})

(4)构建Web API的路由映射。

HTTP资源请求类从Resource类继承,然后映射到不同的路由,同时指定可使用HTTP方法。

@ns.route('/')# 路由“/”对应的资源类为TodoList,可使用get方法和post方法进行请求class TodoList(Resource):@ns.doc('list_todos')# @doc装饰器对应API文档的信息@ns.marshal_list_with(todo)# @marshal_xxx装饰器对模型数据进行格式转换与输出def get(self):# 定义get方法获取所有的任务信息return DAO.todos@ns.doc('create_todo')@ns.expect(todo)@ns.marshal_with(todo, code=201)def post(self):# 定义post方法获取所有的任务信息return DAO.create(api.payload), 201# 路由/对应的资源类为Todo,可使用get、delete、put方法进行请求@ns.route('/')@ns.response(404, '未发现相关ETL任务')@ns.param('id', 'ETL任务ID号')class Todo(Resource):@ns.doc('get_todo')@ns.marshal_with(todo)def get(self, id):return DAO.get(id)@ns.doc('delete_todo')@ns.response(204, 'ETL任务已经删除')def delete(self, id):DAO.delete(id)return '', 204@ns.expect(todo)@ns.marshal_with(todo)def put(self, id):return DAO.update(id, api.payload)if __name__ == '__main__':app.run(debug=True, port=8000)# 启动Web API服务,端口为8000

(4)开启Web API服务。

通过命令“python ./5-5-WebAPI.py”启动Web API服务,在浏览器中输入“http://127.0.0.1:8000/”将出现如图5-23所示的Web API服务请求方法列表。

怎么使用Excel和Python从互联网获取数据

图2  WebAPI服务请求方法列表

2、抓取用网页数据

Excel可以通过“数据”选项卡下的“自网站”功能抓取网页数据。Python可以使用 requests 库、Beautiful Soup包、Scrapy框架抓取网页数据。

1.通过Excel抓取

单击“数据”→“自其他源”→“自网站”功能。Excel可读取的网页数据有局限:动态网页数据无法自动识别,非表格数据无法自动识别。

(1)单击“数据”→“自其他源”→“自网站”功能。

(2)确保在5.5.1节中编写的Web网站已经开启。

(3)输入网站URL地址“http://127.0.0.1:5000/”

单击“高级”按钮可配置更详细的HTTP请求信息,然后单击“确定”按钮,如图3所示。

怎么使用Excel和Python从互联网获取数据

图3  配置要读取网站的URL

(4)在“导航器”窗口中选择导入数据。

如图4所示,Excel自动识别网页中的表格数据,选择表名后单击“加载”按钮即可。

怎么使用Excel和Python从互联网获取数据

图4  Excel自动识别网页中的表格数据

2.使用Python抓取

下面演示使用requests库抓取整个网页中的数据,然后使用Beautiful Soup解析网页。读者可参考本书代码素材文件“5-5-web.ipynb”进行学习。

(1)通过requests读取网页数据。

import requests #导入requests包url ='http://127.0.0.1:5000/'strhtml= requests.get(url) #使用get方法请求网页数据

(2)通过Beautiful Soup解析网页。

from bs4 import BeautifulSoupsoup = BeautifulSoup(strhtml.text)# 将网页内容作为参数,创建soup对象table = soup.find('table')# 查找网页中的table元素table_body = table.find('tbody')# 查找table元素中的tbody元素data = []rows = table_body.find_all('tr')# 查找表中的所有tr元素for row in rows:# 遍历数据cols = row.find_all('td')cols = [ele.text.strip() for ele in cols]data.append([ele for ele in cols if ele])# 结果输出:[[],['小米', '女', '22'],['小明','男','23'],……

3、调用Web API服务

Excel可以通过“数据”选项卡下的“自网站”功能调用Web API服务。Python可以使用 requests 库、Beautiful Soup包、Scrapy框架调用Web API获取数据。

1.使用Excel调用

(1)确保5.5.1节中编写的Web API服务已经开启。

(2)输入Web API方法对应的URL:http://127.0.0.1:8000/ExcelPythonTest/。

(3)处理返回的数据。

调用Web API服务后数据以JSON格式返回,按照5.4.3小节中介绍的方法处理JSON数据。

2.使用Python调用

使用requests库调用Web API方法,然后对返回的JSON数据进行处理,读者可参考本书代码素材文件“5-5-api.ipynb”进行学习。

import requests#导入requests包url ='http://127.0.0.1:8000/ExcelPythonTest/'strhtml= requests.get(url)#使用get方法获取网页数据import pandas as pdframe= pd.read_json(strhtml.text)#使用Pandas包中的read_json函数print(frame)#结果输出:id task0 1 ETL-抽取数据操作1 2 ETL-数据清洗转换2 3 ETL-数据加载操作

4、两种方法对比

表1所示为Excel和Python抓取互联网数据方法的对比。需要注意Excel从互联网抓取数据的功能并不完善。

表1   Excel和Python抓取互联网数据方法对比

怎么使用Excel和Python从互联网获取数据

到此,关于“怎么使用Excel和Python从互联网获取数据”的学习就结束了,希望能够解决大家的疑惑。理论与实践的搭配能更好的帮助大家学习,快去试试吧!若想继续学习更多相关知识,请继续关注编程网网站,小编会继续努力为大家带来更多实用的文章!

阅读原文内容投诉

免责声明:

① 本站未注明“稿件来源”的信息均来自网络整理。其文字、图片和音视频稿件的所属权归原作者所有。本站收集整理出于非商业性的教育和科研之目的,并不意味着本站赞同其观点或证实其内容的真实性。仅作为临时的测试数据,供内部测试之用。本站并未授权任何人以任何方式主动获取本站任何信息。

② 本站未注明“稿件来源”的临时测试数据将在测试完成后最终做删除处理。有问题或投稿请发送至: 邮箱/279061341@qq.com QQ/279061341

软考中级精品资料免费领

  • 历年真题答案解析
  • 备考技巧名师总结
  • 高频考点精准押题
  • 2024年上半年信息系统项目管理师第二批次真题及答案解析(完整版)

    难度     807人已做
    查看
  • 【考后总结】2024年5月26日信息系统项目管理师第2批次考情分析

    难度     351人已做
    查看
  • 【考后总结】2024年5月25日信息系统项目管理师第1批次考情分析

    难度     314人已做
    查看
  • 2024年上半年软考高项第一、二批次真题考点汇总(完整版)

    难度     433人已做
    查看
  • 2024年上半年系统架构设计师考试综合知识真题

    难度     221人已做
    查看

相关文章

发现更多好内容

猜你喜欢

AI推送时光机
位置:首页-资讯-后端开发
咦!没有更多了?去看看其它编程学习网 内容吧
首页课程
资料下载
问答资讯