Pandas中怎么实现SQL查询数据操作

184次阅读

共计 3092 个字符，预计需要花费 8 分钟才能阅读完成。

本篇文章给大家分享的是有关 Pandas 中怎么实现 SQL 查询数据操作，丸趣 TV 小编觉得挺实用的，因此分享给大家学习，希望大家阅读完这篇文章后可以有所收获，话不多说，跟着丸趣 TV 小编一起来看看吧。

1. 选择行

SELECT * FROM

如果要选择整个表，只需调用表的名称：

# SQL SELECT * FROM table_df # Pandas table_df

SELECT a, b FROM

如果要从表中选择特定列，请在双括号中列出要的列：

# SQL SELECT column_a, column_b FROM table_df # Pandas table_df[[column_a ,  column_b]]

SELECT DISTINCT

只需使用 .drop\u duplicates() 即可获得不同的值：

# SQL SELECT DISTINCT column_a FROM table_df # Pandas table_df[column_a].drop_duplicates()

SELECT a as b

如果要重命名列，请使用 .rename()：

# SQL SELECT column_a as Apple, column_b as Banana FROM table_df # Pandas table_df[[column_a ,  column_b]].rename(columns={ column_a :  Apple ,  column_b : Banana})

SELECT CASE WHEN

对于 SELECT CASE WHEN 的等效项，可以使用 np.select()，其中首先指定每个选项的选择和值。

# SQL SELECT CASE WHEN column_a   30 THEN  Large  WHEN column_a  = 30 THEN  Small  END AS Size FROM table_df # Pandas conditions = [table_df[ column_a] 30, table_df[column_b] =30] choices = [Large ,  Small] table_df[Size] = np.select(conditions, choices)

2. 组合表格

INNER/LEFT/RIGHT JOIN

只需使用 .merge() 来连接表，就可以使用“how”参数指定它是 LEFT、RIGHT、INNER 或者 OUTER 联接。

# SQL SELECT * FROM table_1 t1 LEFT JOIN table_2 t1 on t1.lkey = t2.rkey # Pandas table_1.merge(table_2, left_on= lkey , right_on= rkey , how= left)

UNION ALL

只需使用 pd.concat()：

# SQL SELECT * FROM table_1 UNION ALL SELECT * FROM table_2 # Pandas final_table = pd.concat([table_1, table_2])

3. 筛选表

SELECT WHERE

在筛选数据帧时，与在 SQL 中使用 WHERE 子句的方式相同时，只需在方括号中定义条件：

# SQL SELECT * FROM table_df WHERE column_a = 1 # Pandas table_df[table_df[ column_a] == 1]

SELECT column_a WHERE column_b

如果要从表中选择某个列并筛选其他列，请按照以下格式操作：

# SQL SELECT column_a FROM table_df WHERE column_b = 1 # Pandas table_df[table_df[ column_b]==1][column_a]

SELECT WHERE AND

如果要按多个条件进行筛选，只需将每个条件换在括号中，并使用分隔每个条件。

# SQL SELECT * FROM table_df WHERE column_a = 1 AND column_b = 2 # Pandas table_df[(table_df[ column_a]==1)   (table_df[ column_b]==2)]

SELECT WHERE LIKE

SQL 中的 LIKE 等效项是 .str.contains()。如果要应用大小写不敏感，只需在参数中添加 case=False。

# SQL SELECT * FROM table_df WHERE column_a LIKE  %ball%  # Pandas table_df[table_df[ column_a].str.contains(ball)]

SELECT WHERE column IN()

SQL 中 IN() 的等效项为 .isin()。

# SQL SELECT * FROM table_df WHERE column_a IN(Canada ,  USA) # Pandas table_df[table_df[ column_a].isin([Canada ,  USA])]

4. 排序值

ORDER BY one column

在 SQL 中，ORDER BY 的等同于 .sort_values()。使用 ascending 参数指定是按升序还是降序对值排序，默认值与 SQL 一样升序。

# SQL SELECT * FROM table_df ORDER BY column_a DESC # Pandas table_df.sort_values(column_a , ascending=False)

ORDER BY multiple columns

如果要按多个列排序，可以列出括号中的列，并在括号中的“ascending”参数中指定排序方向。请确保遵循列出的列的相应顺序。

# SQL SELECT * FROM table_df ORDER BY column_a DESC, column_b ASC # Pandas table_df.sort_values([column_a ,  column_b], ascending=[False, True])

5. 聚合函数

COUNT DISTINCT

聚合函数有一个通用模式。

要复制 COUNT DISTINCT，只需使用 .groupby() 和.nunique()。

# SQL SELECT column_a, COUNT DISTINCT(ID) FROM table_df GROUP BY column_a # Pandas table_df.groupby(column_a)[ID].nunique()

SUM

# SQL SELECT column_a, SUM(revenue) FROM table_df GROUP BY column_a # Pandas table_df.groupby([column_a ,  revenue]).sum()

AVG

# SQL SELECT column_a, AVG(revenue) FROM table_df GROUP BY column_a # Pandas table_df.groupby(column_a)[revenue].mean()

以上就是 Pandas 中怎么实现 SQL 查询数据操作，丸趣 TV 小编相信有部分知识点可能是我们日常工作会见到或用到的。希望你能通过这篇文章学到更多知识。更多详情敬请关注丸趣 TV 行业资讯频道。

正文完

发表至：数据库

2023-08-03

转载说明：除特殊说明外本站除技术相关以外文章皆由网络搜集发布，转载请注明出处。

mysql视图的作用有哪些

MAN备份FORMAT格式中%的含义是什么

PostgreSQL中Review PG的Optimizer机制如何优化函数

MongoDB分片在部署与维护管理中常见的事项有哪些

SQL Server中怎么为索引添加注释信息