大數據

hdfs dfsadmin -fetchImage

hdfs dfsadmin -fetchImage

破棉襖
Hadoop
2019-08-21 20:10

SparkStreaming 的使用與總結

一.DStream 整合RDD1.官網算子 2.使用案例生產中使用多的是一個文件中有很多域名,另一個中是黑名單,要進行剔除 數據一:日志信息 DStream domain,traffic xinlang.com xinlang.com baidu.com 數據二:已有的文件 黑名單 RDD domain baidu.c

yunqiublog
Spark
2019-08-21 14:27

大數據采集:fillna函數

大數據采集fillna函數(空白值的填充)1.為什么用fillna函數 在數據確實比較多的情況下可以直接濾除,而缺失數據比較少的時候,進行數據填充是很有必要的。 因此掌握fillna函數的用法就很重要,他就是解決如何處理一個DataFrame中的Nan值? 2.以下是它最簡單的2個用法(沒耐心的朋友,只需要看完這2個也夠你用了): 1.空白值替換為缺省值:df = df.fillna(0) &nb

阿布多abu
數據分析
2019-08-19 16:59

Spark SQL外部數據源與實現機制

一.數據解釋與雜項1.External Data Source API 外部數據源2.json也有些弊端例如你第一次讀的是 id:1,name:xxx 第二次 id:1,name:xxx,session:222 這樣代碼就要改 還有數據類型如果你是 id:"xxx" 根本不行 3.常用外部數據源FileSystem:HDFS,Hbase,S3,OSS 等 HDFS 與 mysq

yunqiublog
Spark
2019-08-14 10:48

網易財報下的悲喜交加

未來人工智能的發展將帶給在線教育一個足夠大的舞臺,也必將帶給網易全新的轉變

韭菜財經
數據挖掘
2019-08-13 16:59

Spark SQL中的RDD與DataFrame轉換

一.第一種方式RDD轉化為DataFrame1.官網 2.解釋把schema信息全部定義在case class 類里面 3.代碼package core import org.apache.spark.sql.SparkSession import org.apache.spark.sql.types.StructType object Test { def main(ar

yunqiublog
Spark
2019-08-12 14:18

Spark SQL的官網解釋

一.官網位置1.位置 2.解釋官網位置 DataSet1.6出現的 SchemaRDD < 1.3 1.3版本前叫 SchemaRDD 1.3以后 叫DataFrame DataSet支持 Scala , JAVA 不支持python DataFrame 支持四種 JAVA,Scala.Python,R DataFrame:并不是spark sql獨創的,原來就有的,從

yunqiublog
Spark
2019-08-09 13:25

關系型數據庫全表掃描分片詳解

本文從數據分片的角度出發,具體介紹DBus在數據采集的過程中,運用了什么樣的分片策略和分片原理,以及過程中遇到的問題及解決方案。

宜信技術學院
可視化
2019-08-02 10:46

「數據治理那點事」系列之二:手握數據「戶口本」,數據治理肯定穩!

這篇文章主要從數據治理的基礎和核心之一:元數據入手,從以下幾個角度展開具體講解: 元數據概念 元數據的分布和采集 元數據的一些實際應用場景 一、元數據到底是個啥?如果我說:元數據(Meta Data),就是描述數據的數據。沒有技術背景加持的路人粉看到這句「繞口令」,內心可能會浮現這樣的想法: 簡單點,其實元數據相當于數據的戶口本。 戶口本是什么?它除了包含個人姓名、年齡、性

數瀾科技
數據挖掘
2019-07-31 10:45

“數據治理那點事”系列之一:那些年我們一起踩過的坑

大數據時代,數據成為社會和組織的寶貴資產,像工業時代的石油和電力一樣驅動萬物,然而如果石油的雜質太多,電流的電壓不穩,數據的價值豈不是大打折扣,甚至根本不可用不敢用,因此,數據治理是大數據時代我們用好海量數據的必然選擇。 但大家都知道,數據治理是一項長期而繁雜的工作,可以說是大數據領域中的臟活累活,很多時候數據治理廠商做了很多工作,客戶卻認為沒有看到什么成果。大部分數據治理咨詢項目都能交上一份讓

數瀾科技
數據挖掘
2019-07-31 10:11

windows sqlplus亂碼

windows sqlplus亂碼

flywiththewind
數據挖掘
2019-07-30 21:41

宜信開源|大數據可視洞察Davinci的安裝與配置攻略

Davinci既可作為公有云/私有云獨立使用,也可作為可視化插件集成到三方系統。用戶只需在可視化UI上簡單配置即可服務多種數據可視化應用,并支持高級交互/行業分析/模式探索/社交智能等可視化功能。

宜信技術學院
可視化
2019-07-30 14:44

快速部署DBus體驗實時數據流計算

快速部署DBus體驗實時數據流計算。

宜信技術學院
數據分析
2019-07-30 11:58

spark性能優化幾點注意

一.優化方向,序列化1.官網位置 2.解釋:默認用的是java序列化,但是會很慢,第二種很快,但是不一定能實現所有序列化 第二種,有些自定義類你需要在代碼中注冊(Kryo) 3.StorageLevel.MEMORY_ONLY) 方式存儲代碼 def main(args: Array[String]) { val sparkConf = new SparkConf().setMa

yunqiublog
Spark
2019-07-25 17:46

spark的計算器與廣播變量

一.計算器1.官網 2.解釋計數器只支持加,計算器字task里面 3.測試 4.結果截圖WEBUI 4.應用場景數據很多有的數據掛了,做數據質量監控用

yunqiublog
Spark
2019-07-25 15:35

Giraph源碼分析(一)— 啟動ZooKeeper服務

作者 | 白松 【注:本文為原創,引用轉載需與博主聯系?!? Giraph介紹:Apache Giraph is an iterative graph processing system built for high scalability. For example, it is currently used at Facebook to analyze the social graph for

數瀾科技
數據分析
2019-07-25 10:16

你的企業真的需要「數據中臺」嗎?

作者:鐵叫獸 一、如何理解數據中臺在解決你是否需要數據中臺這個問題之前,讓我們先理理它究竟是什么。 它是工具?是方法?還是組織架構?我的回答是:都不僅僅是。 數據中臺包括平臺、工具、數據、組織、流程、規范等一切與企業數據資產如何用起來所相關的。 企業所屬行業不同,經營策略不同,從而數據場景也千差萬別。再加上企業人員運用數據的能力參差不齊,這就導致了每一家企業的數據中臺都是獨一無二的,不是購

數瀾科技
數據挖掘
2019-07-25 10:14

Mann-Kendall算法用于金融品種長周期趨勢判斷和變點檢測,以及策略思路

之前在研究用機器學習庫Sci-kit做計算指標(特征值)和金融產品趨勢(分類)關系學習的時候,對于如何判斷趨勢,是直接使用當前之后5根k線close值做線性回歸,如果擬合的P值可信的直線斜率向上則是上漲,斜率向下則是下跌。具體代碼可以見之前我之前blog。在vnpy有個網友討論,為什么用這樣方法判斷趨勢的時候;我做了些搜索,才發現判斷一組時序隊列的趨勢并不是一個簡單的事情,雖然人眼看很直接,但是數

張國平
數據挖掘
2019-07-24 12:48

spark的基本算子使用和源碼解析

一.coalesce1.coalesce源碼2.coalesce解釋是窄依賴由多變少shuffer默認是false,要注意3.coalesce應用場景解決小文件,例如你如果開始有200個文件對應20分區,你極端情況下你過濾變長一個文件,你不能還用200個分區去裝吧用coalesce解決,主要就是把前面的壓縮一下,但是過濾完后你要用coalesce必須實現做預估4.上述的極端情況你如果是xxx.oa

yunqiublog
Spark
2019-07-23 21:54

Resolving archive.cloudera.com... failed: Temporary failure in name

阿里云云主機無法下載資源,Resolving archive.cloudera.com... failed: Temporary failure in name resolution.

hackeruncle
Hadoop
2019-07-23 17:18
 上一頁 1 2 3 4 5 6 下一頁
推薦課程
30岁的男人干啥赚钱快赚钱多 快中彩开奖号码 重庆时时计划专业版 酷喜乐彩铅怎么样 宁海期货配资 排三例五开奖结果 玩极速时时彩网址 上海天天彩选4走势图表座标 宁夏体彩十一选五手机版 吉林快三基本走势图片 涨停是什么意思