Articles of अपाचे स्पार्क

अपाचे स्पार्क डेटाफ्रेम में कॉलमेटेड कॉलम

हम डेटाफ्रेम में 2 कॉलम कैसे रोकते हैं? क्या स्पार्क एसक्यूएल में कोई फ़ंक्शन है जिसे हम डीएफ टेबल में 2 कॉलम को सम्मिलित करने के लिए उपयोग कर सकते हैं।

स्पार्क जॉब के लिए जार जोड़ें – स्पार्क-सबमिट करें

सच है … यह बहुत कुछ पर चर्चा की गई है। हालांकि जार / निष्पादक / ड्राइवर कॉन्फ़िगरेशन या विकल्पों में जार के संदर्भों में डुप्लिकेटिंग सहित बहुत सारी अस्पष्टता और कुछ जवाब दिए गए हैं … अस्पष्ट और / या छोड़े गए विवरण निम्नलिखित विकल्प के लिए अस्पष्टता, अस्पष्ट, और / या छोड़े गए […]

(क्यों) हमें कैश कॉल करने की आवश्यकता है या आरडीडी पर जारी रहना चाहिए

जब एक लचीला वितरित डेटासेट (आरडीडी) एक पाठ फ़ाइल या संग्रह (या किसी अन्य RDD) से बनाई गई है, तो क्या हमें "कैश" या "लगातार" कॉल करने के लिए स्पष्ट रूप से आरडीडी डेटा को स्मृति में संग्रहीत करने की आवश्यकता है? या क्या आरडीडी डाटा को डिस्ट्रीब्यूशन में वितरित तरीके से संग्रहीत किया जाता […]

अपाचे स्पार्क में निर्भरता समस्याओं का निराकरण

स्पार्क एप्लिकेशन बनाने और तैनात करते समय सामान्य समस्याएं हैं: java.lang.ClassNotFoundException । object x is not a member of package y संकलन त्रुटियों object x is not a member of package y java.lang.NoSuchMethodError इन्हें कैसे हल किया जा सकता है?

स्पार्क आरडीडी और / या स्पार्क डेटाफ़्रेम में डेटा को फिर से स्थानांतरित / पिवट करना

मेरे पास निम्न प्रारूप में कुछ डेटा है (या तो RDD या स्पार्क डेटाफ़्रेम): from pyspark.sql import SQLContext sqlContext = SQLContext(sc) rdd = sc.parallelize([('X01',41,'US',3), ('X01',41,'UK',1), ('X01',41,'CA',2), ('X02',72,'US',4), ('X02',72,'UK',6), ('X02',72,'CA',7), ('X02',72,'XX',8)]) # convert to a Spark DataFrame schema = StructType([StructField('ID', StringType(), True), StructField('Age', IntegerType(), True), StructField('Country', StringType(), True), StructField('Score', IntegerType(), True)]) df = sqlContext.createDataFrame(rdd, schema) मैं […]

स्पार्क के साथ पंक्ति में स्तंभ को स्थानांतरित करें

मैं अपनी तालिका के कुछ कॉलम को पंक्ति में स्थानांतरित करने की कोशिश कर रहा हूं I मैं पायथन और स्पार्क 1.5.0 का उपयोग कर रहा हूँ। यहां मेरी प्रारंभिक सारणी है: +—–+—–+—–+——-+ | A |col_1|col_2|col_…| +—–+——————-+ | 1 | 0.0| 0.6| … | | 2 | 0.6| 0.7| … | | 3 | 0.5| […]

स्पार्क एसक्यूएल में यूज़र-डिफ़ाइंड कुल फ़ंक्शन को कैसे परिभाषित और इस्तेमाल किया जाए?

मुझे स्पार्क एसक्यूएल में एक यूडीएफ कैसे लिखना है: def belowThreshold(power: Int): Boolean = { return power < -40 } sqlContext.udf.register("belowThreshold", belowThreshold _) क्या मैं एक समान कार्य को परिभाषित करने के लिए कुछ ऐसा कर सकता हूँ? यह कैसे किया जाता है? संदर्भ के लिए, मैं निम्नलिखित SQL क्वेरी को चलाने के लिए चाहता […]

एचडीएफएस के बजाय स्थानीय फाइल को कैसे लोड करें

मैं महान स्पार्क ट्यूटोरियल का पालन ​​कर रहा हूँ इसलिए मैं README.md को लोड करने के लिए 46 मीटर पर कोशिश कर रहा हूँ। README.md लेकिन मैं क्या कर रहा हूँ में विफल यह है: $ sudo docker run -i -t -h sandbox sequenceiq/spark:1.1.0 /etc/bootstrap.sh -bash bash-4.1# cd /usr/local/spark-1.1.0-bin-hadoop2.4 bash-4.1# ls README.md README.md bash-4.1# ./bin/spark-shell […]

स्पार्क-सीएसवी का उपयोग करके एकल सीएसवी फाइल लिखें

मैं https://github.com/databricks/spark-csv का उपयोग कर रहा हूँ, मैं एक सीएसवी लिखने की कोशिश कर रहा हूं, लेकिन सक्षम नहीं है, यह एक फ़ोल्डर बना रहा है एक स्काला फ़ंक्शन की आवश्यकता है जो पथ और फ़ाइल नाम की तरह पैरामीटर लेगा और उस सीएसवी फ़ाइल को लिख सकता है।

MySQL GROUP_CONCAT कुल फ़ंक्शन के लिए SPARK SQL प्रतिस्थापन

मेरे पास दो स्ट्रिंग टाइप कॉलम (उपयोगकर्ता नाम, मित्र) की मेज है और प्रत्येक यूजरनेम के लिए, मैं इसे एक पंक्ति में सभी दोस्तों को इकट्ठा करना चाहता हूं, स्ट्रिंग ('username1', 'दोस्तों 1, मित्रों 2, दोस्तों 3') के रूप में संमिलित किया गया है। मुझे पता है कि MySQL GROUP_CONCAT द्वारा करता है, क्या ऐसा […]

दिलचस्प पोस्ट
गोलाकार कोनों के साथ संपादन टेक्स्ट कैसे बनाएं? GetImageData () त्रुटि को ठीक कैसे करें कैनवास को क्रॉस-मूल डेटा से दूषित कर दिया गया है? क्या मैं WKWebView द्वारा उपयोग की जाने वाली कुकी सेट कर सकता हूं? एक्सएमएल सीरियललाइज़ेशन और इनहेराईटेड टाइप स्थिर और कम्पाइलर अनुकूलन सी ++ में सी ++ में "ऑब्जेक्ट वापस" कैसे करें? जर्सी के साथ जेएक्स-आरएस का उपयोग कर कॉरस को कैसे संभालना है SQLite: केवल पढ़ने के लिए डेटाबेस मैं HTML <select> तत्व के लिए डिफ़ॉल्ट मान कैसे सेट कर सकता हूं? PHP चेतावनी: पोस्ट की गई सामग्री -878294 बाइट की लंबाई अज्ञात में 8388608 बाइट्स की सीमा से अधिक है लाइन 0 <Div> भरण <td> ऊंचाई कैसे करें पुराने डेटा को खोए बिना फाइलऑप्टस्ट्रस्ट के साथ डेटा कैसे लिख सकता है? जावास्क्रिप्ट isDOM है – आप कैसे जांच करते हैं कि जावास्क्रिप्ट ऑब्जेक्ट एक डोम ऑब्जेक्ट है? '+' के साथ एक स्ट्रिंग में सभी रिक्त स्थान बदलें \ N से छुटकारा पा रहा है जब .readlines ()