1.1.1导入数据
1.1.2对数据模块进行逐块读取
【思考】什么是逐块读取?为什么要逐块读取呢?
逐块读取:有chunksize参数可以进行逐块加载。它的本质就是将文本分成若干块,每次处理chunksize行的数据,最终返回一个TextParser对象,对该对象进行迭代遍历,可以完成逐块统计的合并处理。
这里查询到pandas的read_csv()提供了chunk分块读取能力
chunk用法: (这里以一千行为一个数据模块)
方法一:for循环
方法二:get_chunk()
1.1.3修改表头和索引
#df1 = pd.read_csv('train.csv')函数默认情况下,会把数据内容的第一行默认为字段名标题。
这里以修改一段英文表头为中文为实例
思路是我们给它加列名或者让它以为没有列索引
df1让它以为没有列索引
df2我们给它传递一个列表,里面是列表头名
打印出来就是这样
1.2.1查看数据基本信息
这里查到有多个函数可以使用
1.2.2观察表格前10行和后15行数据
1.2.4判断数据是否为空,为空的地方返回True,其余地方返回False
1.3保存数据
1.4pandas数据类型:Datafrmae和Series
series
Series 是 Pandas 中的一种基本数据结构,类似于一维数组或列表,但具有标签(索引),使得数据在处理和分析时更具灵活性。
pandas.Series( data, index, dtype, name, copy)
data:一组数据(ndarray 类型)。
index:数据索引标签,如果不指定,默认从 0 开始。
dtype:数据类型,默认会自己判断。
name:设置名称。
copy:拷贝数据,默认为 False。
从上图可知,如果没有指定索引,索引值就从 0 开始,我们可以根据索引值读取数据:
我们还可以指定索引:pd.Series(a, index = ["x", "y", "z"]) 使用series的index参数
我们也可以使用键值对来创建series:
Dataframe
Dataframe 是一个表格型的数据结构,它含有一组有序的列,每列可以是不同的值类型(数值、字符串、布尔型值)。Dataframe 既有行索引也有列索引,它可以被看做由 Series 组成的字典(共同用一个索引)。
列和行: 由多个列组成,每一列都有一个名称,可以看作是一个 。同时, 有一个行索引,用于标识每一行。
二维结构: 是一个二维表格,具有行和列。可以将其视为多个 对象组成的字典。
列的数据类型: 不同的列可以包含不同的数据类型,例如整数、浮点数、字符串等。
pandas.Dataframe( data, index, columns, dtype, copy)参数说明
data:一组数据(ndarray、series, map, lists, dict 等类型)。
index:索引值,或者可以称为行标签。
columns:列标签,默认为 RangeIndex (0, 1, 2, …, n) 。
dtype:数据类型。
copy:拷贝数据,默认为 False。
dataframe创建
1.4.3查看Dataframe数据的每行每列的名称
Pandas 可以使用 loc 属性返回指定行的数据,如果没有设置索引,第一行索引为 0,第二行索引为 1......
直接使用 表单名[colum值] 可以获取某列的数值:
还可以使用条件获取指定要求的物品信息:
1.4.5过指定标签名称和相应的标签名称来删除行或列
下面来删除B,C列:使用
df.drop(['B', 'C'], axis=1)
或者
df.drop(columns=['B', 'C'])
变成:
A D 0 0 3 1 4 7 2 8 11
删除行:
df.drop([0, 1]) 变成: A B C D 2 8 9 10 11
如果想要完全的删除你的数据结构,使用inplace=True
比如:
df.drop(columns=['B', 'C'],inplac=True)
1.5.2使用交集和并集操
1.5.3查看具体数据值
方法一:iloc()
访问索引
访问切片
标量访问
列表访问
方法2:loc()
单个标签:这会将该行作为 Series 返回。
标签列表:返回一个dataframe
1.6.1利用pandas对数据进行排序
创建dataframe
让行索引为'a'的一列进行升序排序
sort_value(by, *, axis=0, ascending=True, inplace=False, kind='quicksort', na_position='last', ignore_index=False, key=None)这边是sort_value()函数的参数
注意:ascending为False时按照降序排列,为True时按升序排列
按照某第五行行进行排序
将行索引升序排列
让列索引升序排序
让列索引降序排序