博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
spark(三)spark sql
阅读量:5011 次
发布时间:2019-06-12

本文共 547 字,大约阅读时间需要 1 分钟。

一、DataFrame

     1、DataFrame是组织成命名列的数据的分布式集合,类似于关系型数据库的一张表,如果没有列名就等于RDD,如果有列名,就是DataFrames

     DataFrames可以从各种各样的构建,例如:结构化数据文件(JSON文件,xml文件),Hive中的表,外部数据库或现有RDD。

     2、DataFrame如何使用

        park-shell --master local [2]

      scala> val df=sqlContext.read.json("hdfs://myha01/people.json")

       df.show()    

       scala> df.sql("select * from people");

    3、RDD转换成为DataFrame

       第一种:反射的方式

      我们是要提前知道RDD数据格式

       第二种:编程的方式

二、1、load

      2、save

补充:

Text 是行存储

rcfile  列存储

orcfile 列存储(rcfile的优化)  

在大数据中喜欢用orcfile列存储  原因:查询速度比较快  

sqlContext.read.load() 默认是parquet格式

   

      

转载于:https://www.cnblogs.com/liuwei6/p/6675230.html

你可能感兴趣的文章
黑寡妇黄飞鸿
查看>>
leetcode 217 Contains Duplicate 数组中是否有重复的数字
查看>>
The Ctrl & CapsLock `problem'
查看>>
MyBatis学习总结(二)——使用MyBatis对表执行CRUD操作
查看>>
linux故障判断
查看>>
Leetcode 23. Merge k Sorted Lists(python)
查看>>
Java进阶知识点6:并发容器背后的设计理念 - 锁分段、写时复制和弱一致性
查看>>
Makefile ===> Makefile 快速学习
查看>>
face detection[HR]
查看>>
java性能调优工具
查看>>
C# 其他的Url 文件的路径转化为二进制流
查看>>
cmake使用
查看>>
ios7上隐藏status bar
查看>>
构造方法和全局变量的关系
查看>>
python3基础05(有关日期的使用1)
查看>>
ArrayList的使用方法
查看>>
面向对象高级
查看>>
Bitwise And Queries
查看>>
打印Ibatis最终的SQL语句
查看>>
HBase之八--(3):Hbase 布隆过滤器BloomFilter介绍
查看>>