data:image/s3,"s3://crabby-images/fc533/fc533af01f74edf4243d0c0f698d0ac67c7d0541" alt="Python+Office:轻松实现Python办公自动化"
3.1 数据的读取
在分析数据之前,需要准备“食材”,也就是数据,主要包括商品的属性数据、客户的订单数据、客户的退单数据等。本节将介绍Python读取本地离线数据、Web在线数据、数据库数据等各种存储形式的数据。
3.1.1 读取本地离线数据
1.读取.txt格式的数据
使用Pandas库中的read_table()函数,Python可以直接读取.txt格式的数据,代码如下:
data:image/s3,"s3://crabby-images/6fbb9/6fbb912eb6628c7575d0e93b9f55f0e5196cc66d" alt="img"
在JupyterLab中运行上述代码,输出结果如下所示。
data:image/s3,"s3://crabby-images/ccfc4/ccfc4c17a055f954157db9ac1dd58d1331a23094" alt="img"
2.读取.csv格式的数据
使用Pandas库中的read_csv()函数,Python可以直接读取.csv格式的数据,代码如下:
data:image/s3,"s3://crabby-images/aa47a/aa47af24ee52220d5dacaf1c7e342e18e3ee7d6f" alt="img"
在JupyterLab中运行上述代码,输出结果如下所示。
data:image/s3,"s3://crabby-images/07243/072430fc1a16a5e16ee4f7b6af54d54aafb0d2fb" alt="img"
3.读取Excel文件数据
使用Pandas库中的read_excel()函数,Python可以直接读取Excel文件数据,代码如下:
data:image/s3,"s3://crabby-images/7756e/7756e6dbc8a80ed9c00c6d94d52a0f459099955d" alt="img"
在JupyterLab中运行上述代码,输出结果如下所示。
data:image/s3,"s3://crabby-images/b2568/b2568a988df3d7bfe71b8f82833e2e6f4807470c" alt="img"
3.1.2 读取Web在线数据
Python可以读取Web在线数据,这里选取的数据集是UCI上的红酒数据集,该数据集是对意大利同一地区种植的葡萄酒进行化学分析的结果,这些葡萄酒来自3个不同的品种,分析确定了3种葡萄酒中每种葡萄酒含有的13种成分的数量。不同种类的酒品,它的成分也会有所不同,通过对这些成分的分析就可以对不同的特定的葡萄酒进行分类分析,原始数据集共有178个样本数、3种数据类别,每个样本有13个属性。
Python读取红酒在线数据集的代码如下:
data:image/s3,"s3://crabby-images/6cd5f/6cd5fafc0432deb928cf78c76d2c22fe49447b41" alt="img"
在JupyterLab中运行上述代码,输出结果如下所示。
data:image/s3,"s3://crabby-images/abad9/abad9cc35ec783dc41d6167ea526d6b140fe5df8" alt="img"
3.1.3 读取常用数据库中的数据
1.读取MySQL数据库中的数据
Python可以直接读取MySQL数据库中的数据,连接之前需要安装pymysql库。例如,统计汇总数据库orders表中2020年不同类型商品的销售额和利润额,代码如下:
data:image/s3,"s3://crabby-images/d7581/d7581cbdac813bd7c92f5fda1aa1258fea3f6cdf" alt="img"
在JupyterLab中运行上述代码,输出结果如下所示。
data:image/s3,"s3://crabby-images/71d95/71d95f63791ad68f8c5223720aa8039b7ea7b041" alt="img"
2.读取SQL Server数据库中的数据
Python可以直接读取SQL Server数据库中的数据,连接之前需要安装pymssql库。例如,查询数据库orders表中2020年利润额在400元以上的所有订单,代码如下:
data:image/s3,"s3://crabby-images/b6b4b/b6b4b7ab541ab65727d1ed4ebc9aaeea78b784dc" alt="img"
在JupyterLab中运行上述代码,输出结果如下所示。
data:image/s3,"s3://crabby-images/ee77f/ee77f31810ea9c37af183d51af5149e461369da4" alt="img"