Python爬虫如何爬取保存数据

2024-06-30 02:03:15 浏览次

关于这个问题，Python爬虫可以使用以下方法来爬取和保存数据：

1. 使用requests库发送HTTP请求获取网页内容。

2. 使用BeautifulSoup库对网页内容进行解析和提取数据。

3. 使用正则表达式对网页内容进行匹配和提取数据。

4. 使用pandas库将数据保存为CSV、Excel等格式。

5. 使用数据库（如MySQL、SQLite）保存数据。

请注意，爬取网页数据时需要遵守相关法律法规和网站的使用条款，同时要尊重网站的隐私政策和robots.txt规定。

直接提取会报错，把array数组转换成list，即可提取，使用numpy转换

Numpy对象是数组，称为ndarray 维度(dimensions)称作轴(axes),轴的个数叫做秩(rank)。注：有几级中括号就有几个维度

ndarray.shape 例如一个2排3列的矩阵，它的shape属性是(2,3)

ndarray.size 数组元素的总个数

ndarray.dtype 元素类型，NumPy提供自己的数据类型

ndarray.itemsize 数组中每个元素的字节大小

empty 只分配内存空间不填充任何值

eye 创建N*N单位矩阵(对角线为1)

三、数组和标量之间的运算

numpy数组的一个特点，不用编写循环就可对数据执行批量运算，这通常称作矢量化(vectorization)。

四、基本的索引和切片

numpy数组的索引是一个内容丰富的主题，因为选取数据子集或单个元素的方式有很多。这里我仅详细介绍常用的方法，对于高级功能的方式我列举名称，读者可以等到要用的时候自行查阅资料。