热门推荐
1.1pandas的各种数据及其操作
2024-12-31 23:24

1.1.1导入数据

 

1.1.2对数据模块进行逐块读取

【思考】什么是逐块读取?为什么要逐块读取呢

逐块读取:有chunksize参数可以进行逐块加载。它的本质就是将文本分成若干块,每次处理chunksize行的数据,最终返回一个TextParser对象,对该对象进行迭代遍历,可以完成逐块统计的合并处理。

这里查询到pandas的read_csv()提供了chunk分块读取能力

chunk用法:        (这里以一千行为一个数据模块)

        方法一:for循环

 

        方法二:get_chunk()

 

1.1.3修改表头和索引

#df1 = pd.read_csv('train.csv')函数默认情况下,会把数据内容的第一行默认为字段名标题。

这里以修改一段英文表头为中文为实例

思路是我们给它加列名或者让它以为没有列索引

 

df1让它以为没有列索引

df2我们给它传递一个列表,里面是列表头名

打印出来就是这样

1.2.1查看数据基本信息

这里查到有多个函数可以使用

 

 1.2.2观察表格前10行和后15行数据

 

1.2.4判断数据是否为空,为空的地方返回True,其余地方返回False

 

1.3保存数据

 
 

1.4pandas数据类型:Datafrmae和Series

series

Series 是 Pandas 中的一种基本数据结构,类似于一维数组或列表,但具有标签(索引,使得数据在处理和分析时更具灵活性。

pandas.Series( data, index, dtype, name, copy)
  • data:一组数据(ndarray 类型)。

  • index:数据索引标签,如果不指定,默认从 0 开始。

  • dtype:数据类型,默认会自己判断。

  • name:设置名称。

  • copy:拷贝数据,默认为 False。

 
 

从上图可知,如果没有指定索引,索引值就从 0 开始,我们可以根据索引值读取数据

 

我们还可以指定索引:pd.Series(a, index = ["x", "y", "z"])   使用series的index参数

 

我们也可以使用键值对来创建series

 
 

Dataframe

Dataframe 是一个表格型的数据结构,它含有一组有序的列,每列可以是不同的值类型(数值、字符串、布尔型值)。Dataframe 既有行索引也有列索引,它可以被看做由 Series 组成的字典(共同用一个索引)。

  • 列和行  由多个列组成,每一列都有一个名称,可以看作是一个 。同时, 有一个行索引,用于标识每一行。

  • 二维结构  是一个二维表格,具有行和列。可以将其视为多个  对象组成的字典。

  • 列的数据类型 不同的列可以包含不同的数据类型,例如整数、浮点数、字符串等。

pandas.Dataframe( data, index, columns, dtype, copy)

参数说明

  • data:一组数据(ndarray、series, map, lists, dict 等类型)。

  • index:索引值,或者可以称为行标签。

  • columns:列标签,默认为 RangeIndex (0, 1, 2, …, n) 。

  • dtype:数据类型。

  • copy:拷贝数据,默认为 False。

dataframe创建

 

1.4.3查看Dataframe数据的每行每列的名称

Pandas 可以使用 loc 属性返回指定行的数据,如果没有设置索引,第一行索引为 0,第二行索引为 1......

 

直接使用   表单名[colum值]  可以获取某列的数值

 

还可以使用条件获取指定要求的物品信息: 

 

1.4.5过指定标签名称和相应的标签名称来删除行或列

 

下面来删除B,C列:使用

df.drop(['B', 'C'], axis=1) 

或者

df.drop(columns=['B', 'C'])
变成
   A   D
0  0   3
1  4   7
2  8  11

删除行

df.drop([0, 1])

变成
   A  B   C   D
2  8  9  10  11

如果想要完全的删除你的数据结构,使用inplace=True

比如

df.drop(columns=['B', 'C'],inplac=True)

 1.5.2使用交集和并集操

1.5.3查看具体数据值

 

方法一:iloc) 

访问索引

 

访问切片

 

标量访问

 

列表访问

 

方法2:loc

 

单个标签:这会将该行作为 Series 返回。

 

标签列表:返回一个dataframe

 
 

1.6.1利用pandas对数据进行排序

创建dataframe

 

让行索引为'a'的一列进行升序排序

 sort_valueby, *, axis=0, ascending=True, inplace=False, kind='quicksort', na_position='last', ignore_index=False, key=None)这边是sort_value()函数的参数

 

注意:ascending为False时按照降序排列,为True时按升序排列

按照某第五行行进行排序

 

将行索引升序排列

 

让列索引升序排序

 

让列索引降序排序


    以上就是本篇文章【1.1pandas的各种数据及其操作】的全部内容了,欢迎阅览 ! 文章地址:http://fabua.ksxb.net/quote/5260.html 
     动态      相关文章      文章      同类文章      热门文章      栏目首页      网站地图      返回首页 海之东岸资讯移动站 http://fabua.ksxb.net/mobile/ , 查看更多