一、基本概念
dataframe是Pandas中的一种数据结构,可以看作是由不同类型的列组成的表格,每列可以是不同的类型(整数、浮点数、字符串等)。而json是一种轻量级的数据交换格式,常用于Web前端与后端进行数据传输,其支持多种数据类型,包括字符串、数字、对象、数组等。
dataframe转json就是将dataframe中的数据转换为json格式,以方便应用程序的数据传输、处理和存储。
二、数据转换方法
有多种方法可以将dataframe转为json格式,常用的方法有以下几种:
1. to_json()
to_json()是pandas中用于将dataframe转为json格式的函数,其语法如下:
df.to_json(path_or_buf=None, orient=None, date_format=None,
double_precision=10, force_ascii=True,
date_unit='ms', default_handler=None,
lines=False, compression='infer',
index=True, **kwds)
参数解释:
- path_or_buf:写入文件的文件路径或文件类型,默认为None。
- orient:转换方式。'split', 'records', 'index', 'columns', 'values'。
- date_format:日期格式。
- double_precision:设定浮点数精度,默认为10。
- force_ascii:强制ASCII编码。
- date_unit:设定日期单位,支持'd','s','ms','us','ns'。
- default_handler:默认处理方式。
- lines:按行输出。
- compression:设定压缩格式,支持'gzip'和'bz2'。
- index:将索引写入json文件中。
- kwds:其他参数。
示例:
>>> import pandas as pd
>>> data = {'name': ['Tom', 'Jack', 'Steve'], 'age': [25, 18, 36]}
>>> df = pd.DataFrame(data)
>>> df.to_json("dataframe.json")
以上代码将dataframe写入到dataframe.json文件中。
2. json_normalize()
json_normalize()是pandas中用于将json格式数据转换为dataframe格式的函数,也可以用于将嵌套的json转为dataframe。在此同时我们可以利用to_json()来实现dataframe转json,其语法如下:
pd.json_normalize(data, record_path=None, meta=None,
meta_prefix=None, record_prefix=None,
errors='raise', sep='.')
参数解释:
- data:待转化的json文件。
- record_path:数据记录路径。
- meta:与记录数据合并的元数据。
- meta_prefix:将meta附加到列名前缀。
- record_prefix:将record附加到列名前缀。
- errors:错误处理方式。
- sep:记录路径分隔符。
示例:
>>> import json
>>> from pandas.io.json import json_normalize
>>> with open('dataframe.json', 'r') as f:
data = json.load(f)
>>> df = json_normalize(data)
>>> result = df.to_json(orient="records")
以上代码将dataframe.json文件中的数据读入data中,利用json_normalize()函数将数据转成dataframe的形式,最后利用to_json()函数将data转成json格式的数据。
3. DataFrame.T.to_dict() + json.dumps()
此方法需要先将dataframe进行转置,进而用to_dict()方法转为字典类型,再用json.dumps()转为json格式。其语法如下:
>>> import json
>>> df.T.to_dict().values()
>>> json.dumps(df.T.to_dict().values())
示例:
>>> import pandas as pd
>>> import json
>>> data = {'name': ['Tom', 'Jack', 'Steve'], 'age': [25, 18, 36]}
>>> df = pd.DataFrame(data)
>>> result = json.dumps(df.T.to_dict().values())
结果是一个JSON数组。这里,我们转换后的JSON字典中,用列名做为字典的key,列作为值。当然,这也取决于DataFrame所传入的数据格式。
三、实例演示
下面给出一个更完整的演示例子,包括dataframe转json和json转dataframe,和一些基本操作。
>>> import pandas as pd
>>> import json
# 创建dataframe
>>> data = {'name': ['Tom', 'Jack', 'Steve'], 'age': [25, 18, 36]}
>>> df = pd.DataFrame(data)
# dataframe转json
>>> json_str = df.to_json(orient='records')
>>> json_data = json.loads(json_str)
>>> print(json_data)
# json转dataframe
>>> new_df = pd.DataFrame.from_records(json_data)
>>> print(new_df)
# 写入json文件
>>> with open('dataframe.json', 'w') as f:
f.write(json_str)
# 读取json文件
>>> with open('dataframe.json', 'r') as f:
json_data = json.load(f)
>>> new_df = pd.DataFrame.from_records(json_data)
>>> print(new_df)
四、总结
dataframe转json是一个比较常见的操作,有多种方法可以实现,我们可以根据具体的需求和数据格式选择最合适的方法。希望本文能给读者带来一些帮助。