百度360必应搜狗淘宝本站头条
当前位置:网站首页 > 技术教程 > 正文

python爬虫25 | 爬取的数据怎么保存?CSV了解一下

mhr18 2025-04-07 16:12 26 浏览 0 评论

大家好

我是小帅b

是一个练习时长两年半的练习生

喜欢

唱!

跳!

rap!

篮球!

敲代码!

装逼!

不好意思

我又走错片场了

接下来的几篇文章

小帅b将告诉你

如何将你爬取到的数据保存下来

有文本文件、redis、数据库(MySQL、MangoDB)等的存储方式

今天先说说

CSV

什么是 CSV?

怎么玩?

牛逼么?

那么接下来就是

学习 Python 的正确姿势

CSV 是一个文本文件来的

有点像 excel

也就是它是以一定的表格的格式来展示数据的

我们通常会使用逗号(,)来对每一个单元数据进行分割

分隔符不止是逗号

也可以是制表符(tab)、冒号(:)、分号(;)

比如我们要来表示一个表格中的数据

就可以这样





第1列的名称,第2列的名称,第3列的名称第1行第1格的数据,第1行第2格的数据,第1行第3格的数据第2行第1格的数据,第2行第2格的数据,第2行第3格的数据...

这就是 CSV 的格式

有啥好处呢

说 3 点足以

它支持存储比较大量的数据

我们可以非常方便地利用它进行数据的导入或者导出到电子表格或者数据库

所有支持文本文件的输入输出的编程语言(比如我们的 python),都可以直接操作使用 CSV 文件。

了解什么是 CSV 之后

接下来小帅b会告诉你怎么使用 python 去存储数据到 CSV 文件中

代码走起

我们导入 CSV 这个库

通过 csv.DictWriter 获取 writer 对象

然后就可以写入了

具体看下代码











import csv
with open('xiaoshuaib.csv', mode='w') as csv_file:    fieldnames = ['你是谁', '你几岁', '你多高']    writer = csv.DictWriter(csv_file, fieldnames=fieldnames)
    writer.writeheader()    writer.writerow({'你是谁': '小帅b', '你几岁': '18岁', '你多高': '18cm'})    writer.writerow({'你是谁': '小帅c', '你几岁': '19岁', '你多高': '17cm'})    writer.writerow({'你是谁': '小帅d', '你几岁': '20岁', '你多高': '16cm'})

我们这里以字典的方式写入数据到 xiaoshuaib.csv 这个文件中

运行之后

可以看到多了一个文件

打开看看

可以看到

我们的数据就被写进来了

说:是高还是长?

再给大家介绍一个库

pandas

它可以更加方便的操作 CSV 文件

我们先安装一下 pandas


pip install pandas

安装完之后

我们用 pandas 来读取一下我们刚存储的 xiaoshuaib.cvs 文件




import pandasxiaoshuaib = pandas.read_csv('xiaoshuaib.csv')print(xiaoshuaib)

打印结果是这样的

是不是又方便又好看呢

用 pandas 来存储 CSV 数据也是很简单的

一个方法就搞定

to_csv









import pandas as pd
b = ['小帅b', '小帅c', '小帅d']c = ['18岁', '19岁', '20岁']d = ['18cm', '17cm', '16cm']
df = pd.DataFrame({'你是谁' : b, '你几岁' : c, '你多高' : d})df.to_csv("xsb.csv", index=False, sep=',')

运行一下

ok

以上就是对 CSV 的主要操作

当你把数据爬取下来的时候

可以使用这招试试把数据存储下来

好了

那么我们下篇再见

peace


点个赞啊~~(破音)

相关推荐

【推荐】一个开源免费、AI 驱动的智能数据管理系统,支持多数据库

如果您对源码&技术感兴趣,请点赞+收藏+转发+关注,大家的支持是我分享最大的动力!!!.前言在当今数据驱动的时代,高效、智能地管理数据已成为企业和个人不可或缺的能力。为了满足这一需求,我们推出了这款开...

Pure Storage推出统一数据管理云平台及新闪存阵列

PureStorage公司今日推出企业数据云(EnterpriseDataCloud),称其为组织在混合环境中存储、管理和使用数据方式的全面架构升级。该公司表示,EDC使组织能够在本地、云端和混...

对Java学习的10条建议(对java课程的建议)

不少Java的初学者一开始都是信心满满准备迎接挑战,但是经过一段时间的学习之后,多少都会碰到各种挫败,以下北风网就总结一些对于初学者非常有用的建议,希望能够给他们解决现实中的问题。Java编程的准备:...

SQLShift 重大更新:Oracle→PostgreSQL 存储过程转换功能上线!

官网:https://sqlshift.cn/6月,SQLShift迎来重大版本更新!作为国内首个支持Oracle->OceanBase存储过程智能转换的工具,SQLShift在过去一...

JDK21有没有什么稳定、简单又强势的特性?

佳未阿里云开发者2025年03月05日08:30浙江阿里妹导读这篇文章主要介绍了Java虚拟线程的发展及其在AJDK中的实现和优化。阅前声明:本文介绍的内容基于AJDK21.0.5[1]以及以上...

「松勤软件测试」网站总出现404 bug?总结8个原因,不信解决不了

在进行网站测试的时候,有没有碰到过网站崩溃,打不开,出现404错误等各种现象,如果你碰到了,那么恭喜你,你的网站出问题了,是什么原因导致网站出问题呢,根据松勤软件测试的总结如下:01数据库中的表空间不...

Java面试题及答案最全总结(2025版)

大家好,我是Java面试陪考员最近很多小伙伴在忙着找工作,给大家整理了一份非常全面的Java面试题及答案。涉及的内容非常全面,包含:Spring、MySQL、JVM、Redis、Linux、Sprin...

数据库日常运维工作内容(数据库日常运维 工作内容)

#数据库日常运维工作包括哪些内容?#数据库日常运维工作是一个涵盖多个层面的综合性任务,以下是详细的分类和内容说明:一、数据库运维核心工作监控与告警性能监控:实时监控CPU、内存、I/O、连接数、锁等待...

分布式之系统底层原理(上)(底层分布式技术)

作者:allanpan,腾讯IEG高级后台工程师导言分布式事务是分布式系统必不可少的组成部分,基本上只要实现一个分布式系统就逃不开对分布式事务的支持。本文从分布式事务这个概念切入,尝试对分布式事务...

oracle 死锁了怎么办?kill 进程 直接上干货

1、查看死锁是否存在selectusername,lockwait,status,machine,programfromv$sessionwheresidin(selectsession...

SpringBoot 各种分页查询方式详解(全网最全)

一、分页查询基础概念与原理1.1什么是分页查询分页查询是指将大量数据分割成多个小块(页)进行展示的技术,它是现代Web应用中必不可少的功能。想象一下你去图书馆找书,如果所有书都堆在一张桌子上,你很难...

《战场兄弟》全事件攻略 一般事件合同事件红装及隐藏职业攻略

《战场兄弟》全事件攻略,一般事件合同事件红装及隐藏职业攻略。《战场兄弟》事件奖励,事件条件。《战场兄弟》是OverhypeStudios制作发行的一款由xcom和桌游为灵感来源,以中世纪、低魔奇幻为...

LoadRunner(loadrunner录制不到脚本)

一、核心组件与工作流程LoadRunner性能测试工具-并发测试-正版软件下载-使用教程-价格-官方代理商的架构围绕三大核心组件构建,形成完整测试闭环:VirtualUserGenerator(...

Redis数据类型介绍(redis 数据类型)

介绍Redis支持五种数据类型:String(字符串),Hash(哈希),List(列表),Set(集合)及Zset(sortedset:有序集合)。1、字符串类型概述1.1、数据类型Redis支持...

RMAN备份监控及优化总结(rman备份原理)

今天主要介绍一下如何对RMAN备份监控及优化,这里就不讲rman备份的一些原理了,仅供参考。一、监控RMAN备份1、确定备份源与备份设备的最大速度从磁盘读的速度和磁带写的带度、备份的速度不可能超出这两...

取消回复欢迎 发表评论: