尚硅谷大模型技术之高频面试题
版本:V2.1.9
核心技术 / 数据分析

数据分析

4 个问题

Pandas相关#

QPandas 的主要数据结构是什么?#

其主要数据结构是 Series 和 DataFrame。其中 Series 是带标签索引的一维数组。DataFrame 为二维结构,类似电子表格或 SQL 表,含行列信息,不同列可存不同数据类型。

Q怎样处理 DataFrame 中的缺失值?#

常用 dropna 或 fillna 方法。dropna 可删除含缺失值的行或列,fillna 能用指定值或统计量(均值、中位数等)填充缺失值,像 df.fillna(df.mean()) 可用列均值填充。

Qgroupby 函数的用法是什么?#

groupby 按特定标准分组数据,再针对各分组单独执行函数。如按 “category” 列分组求其他列和,可写成 df.groupby('category').sum(),也能传入自定义聚合函数(如sum\mean\count等)达成复杂计算。

Qiloc 和 loc 的区别是什么?#

loc 依据标签选取数据,iloc 基于整数索引选取数据。比如 df.loc['row_label', 'col_label'] 用行列标签取值,df.iloc[0, 1] 选取第 1 行第 2 列的数据。