json 示例_Spark SQL - JSON数据集

论坛 期权论坛 编程之家     
选择匿名的用户   2021-6-2 15:43   72   0

Spark SQL可以自动捕获JSON数据集的模式,并将其作为DataFrame加载。 可以使用SQLContext.read.json()对String或JSON文件的RDD进行此转换。Spark SQL提供了一个选项,用于查询JSON数据以及自动捕获用于读取和写入数据的JSON模式。 Spark SQL了解JSON数据中的嵌套字段,并允许用户直接访问这些字段,而无需任何显式转换。让我们考虑一个名为employee.json的文本文件中的员工记录示例。 使用以下命令创建DataFrame(df)。使用以下内容读取一个名为employee.json的JSON文档,并根据JSON文档中的模式生成一个表。

employee.json - 将此文件放在当前scala>指针所在的目录中。

418cb6187099fd7217434bc038dd9533.png

让我们对给定的数据执行一些数据帧操作。DataFrame操作
DataFrame为结构化数据操作提供了一个领域特定的语言。 这里我们包括使用DataFrames的结构化数据处理的一些基本示例。
按照以下步骤执行DataFrame操作 - 阅读JSON文档
首先,我们必须读取JSON文档。 基于此,生成名为dfs的DataFrame。
使用以下命令读取名为employee.json的JSON文档,其中包含字段 - id,name和age。 它创建一个名为dfs的DataFrame。

841b30f19ae1e7b40d2df262eda0f98d.png

输出: 字段名称自动从employee.json中获取。

38002d8f15afe3b4a603d29db108d800.png

使用printSchema方法

如果要查看DataFrame的Structure(Schema),请使用以下命令。

195912bc20a76729494f0abfbb98dbff.png

输出

ab6b90c02e326b947ece559510089485.png

显示数据

如果要在DataFrame中显示数据,请使用以下命令。

d2a04e9b2eb3745efb321351d8c51b3b.png

输出:您可以以表格格式查看员工数据

d2f92d09a4243ebd34dacef2365f0ab5.png

然后我们可以运行不同的SQL语句。用户可以以最小的努力将数据迁移到JSON格式,而不管数据源的来源。

分享到 :
0 人收藏
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

积分:3875789
帖子:775174
精华:0
期权论坛 期权论坛
发布
内容

下载期权论坛手机APP