博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
RDD、DataFrame、DataSet、SQLContext,HiveContext
阅读量:5826 次
发布时间:2019-06-18

本文共 682 字,大约阅读时间需要 2 分钟。

  hot3.png

RDD

spark最基础的分布式数据集,RDD提供了很多api来操作这个数据集中的数据,Rdd中的每一列没有scheme,没有标识。

DataFrame

spark的高级抽象,在RDD的分布式数据集上,加上了scheme的信息,每一列都有标识,标识这一列的名称和类型。提供了更多的api,这些api能实现类似sql的操作,底层实现还是RDD

DataSet

DataSet结合了RDD和DataFrame的优点, 并带来的一个新的概念Encoder

当序列化数据时, Encoder产生字节码与off-heap进行交互, 能够达到按需访问数据的效果, 而不用反序列化整个对象。在spark2.0中,DataFrame能无缝转换成DataSet

SQLContext

可以使用.sql()方法,直接查询表中的数据,将返回的数据封装成DataFrame,SQLContext中维护一套表,其实底层就是DataFrame,这个sql可以直接对表中的数据做SQL操作。sqlContext能从不同的数据源加载数据,将数据转换成DataFrame,也能将DataFrame转换成sqlContext自身中的表,使用sql来操作数据。

HiveContext

hiveContext继承自SQLContext,除了SQLContext中的功能之外,还具有直接操作hive库中表的数据,和HQL兼容。如果访问hive库,需要将hive-site.xml复制到spark的conf下。

参考:

转载于:https://my.oschina.net/cjun/blog/655263

你可能感兴趣的文章
【阿里云文档】常用文档整理
查看>>
java中的Volatile关键字
查看>>
前端自定义图标
查看>>
sqlserver 取取月初月末和月份间隔
查看>>
Vagrant的一个BUG - 不支持'change_host_name'
查看>>
实验二
查看>>
独立开发一个云(PaaS)的核心要素, Go, Go, Go!!!
查看>>
MyBatis使用DEMO及cache的使用心得
查看>>
网站文章如何能自动判定是抄袭?一种算法和实践架构剖析
查看>>
【OpenCV学习】滚动条
查看>>
ofo用科技引领行业进入4.0时代 用户粘性连续8个月远甩摩拜
查看>>
乐信Q2季报图解:调整后净利过5亿 同比增长776%
查看>>
兰州青年志愿者“中西合璧”玩快闪 温暖旅客回家路
查看>>
计划10年建10万廉价屋 新西兰政府:比想象中难
查看>>
甘肃发首版《3D打印职业教育教材》:校企合作育专才
查看>>
韩国国会议员涉嫌投机炒房 检方称已立案调查
查看>>
李娜入选国际网球名人堂 成亚洲第一人
查看>>
为找好心人抚养孩子 浙江一离婚父亲将幼童丢弃公园
查看>>
晚婚晚育 近20年巴西35岁以上孕妇增加65%
查看>>
读书:为了那个美妙的咔哒声
查看>>