Articles of अपाचे स्पार्क

मैं स्पर्क डेटाफ्रेम में एक नया कॉलम कैसे जोड़ूं (PySpark का प्रयोग कर रहा हूँ)?

मेरे पास स्पार्क डेटाफ़्रेम है (PySpark 1.5.1 का प्रयोग करके) और एक नया कॉलम जोड़ना चाहते हैं। मैंने बिना किसी सफलता के निम्नलिखित कोशिश की है: type(randomed_hours) # => list # Create in Python and transform to RDD new_col = pd.DataFrame(randomed_hours, columns=['new_col']) spark_new_col = sqlContext.createDataFrame(new_col) my_df_spark.withColumn("hours", spark_new_col["new_col"]) इसका उपयोग करते हुए एक त्रुटि भी मिली: […]

स्पार्क स्टैंडअलोन क्लस्टर में श्रमिक, निष्पादक, कोर क्या हैं?

मैं क्लस्टर मोड अवलोकन पढ़ता हूं और मैं अभी भी स्पार्क स्टैंडऑलोन क्लस्टर और समानांतरवाद में विभिन्न प्रक्रियाओं को नहीं समझ सकता। क्या कार्यकर्ता एक जेवीएम प्रक्रिया है या नहीं? मैंने bin\start-slave.sh और पाया कि यह कार्यकर्ता को उत्पन्न कर रहा है, जो वास्तव में एक जेवीएम है उपरोक्त लिंक के अनुसार, एक निष्पादक एक […]

यह निर्धारित करने के लिए कि क्या ऑब्जेक्ट PySpark में एक मान्य कुंजी-मूल्य जोड़ी है

अगर मेरे पास एक आरडीडी है, तो मैं कैसे समझूंगा कि डेटा कुंजी में है: मान प्रारूप? वहाँ एक तरह से खोजने का एक तरीका है – कुछ प्रकार (ऑब्जेक्ट) मुझे एक वस्तु का प्रकार बताता है मैंने print type(rdd.take(1)) की कोशिश की, लेकिन यह केवल <type 'list'> कहता है मान लें कि मेरे पास […]

PySpark की कम करने के लिए एक कुंजी के रूप में एक सूची बाइक

मैं प्रारूप के डेटा पर (([a,b,c], 1), ([a,b,c], 1), ([a,d,b,e], 1), … paspark) के कम से कम समारोह को कॉल करने का प्रयास कर रहा हूं (([a,b,c], 1), ([a,b,c], 1), ([a,d,b,e], 1), … ऐसा लगता है कि pyspark सामान्य कुंजी में कुंजी के रूप में एक सरणी को स्वीकार नहीं करेगा, बस आवेदन करने से […]

Stdout पर println () खोने चिंगारी

मेरे पास निम्न कोड है: val blueCount = sc.accumulator[Long](0) val output = input.map { data => for (value <- data.getValues()) { if (record.getEnum() == DataEnum.BLUE) { blueCount += 1 println("Enum = BLUE : " + value.toString() } } data }.persist(StorageLevel.MEMORY_ONLY_SER) output.saveAsTextFile("myOutput") फिर नीले रंग की संख्या शून्य नहीं है, लेकिन मुझे कोई प्रिंटलाइन नहीं मिला […]

स्पार्क SQL क्वेरी बनाम डेटाफ्रेम फ़ंक्शन

स्पार्क के साथ अच्छा प्रदर्शन करने के लिए मैं सोच रहा हूं कि SQL क्वेंटेक्टेस के जरिए एसक्यूएल क्वेरी का उपयोग करना अच्छा है या अगर डीफ.सैक्ट () जैसे डेटाफ़्रेम फ़ंक्शन के जरिए प्रश्न करना बेहतर है। कोई उपाय? 🙂

स्पर्क स्पार्क-सबमिट करें –जर्स आर्गमेंट्स कोमा सूची चाहिए, कैसे जार की एक निर्देशिका घोषित करने के लिए?

स्पार्क डॉक्स में आवेदन सबमिट करने में, 1.6.0 और पूर्व के रूप में , यह स्पष्ट नहीं है कि –जर्स तर्क कैसे निर्दिष्ट करें, क्योंकि यह जाहिरा तौर पर एक बृहदान्त्र से अलग नहीं वर्गपथ है जो कि निर्देशिका विस्तार नहीं है। डॉक्स का कहना है कि "आपके आवेदन और सभी निर्भरता सहित बंडल जार […]

अलग-अलग कॉल और नक्शा एक साथ स्पार्क पुस्तकालय में एनपीई फेंकता है

मैं अनिश्चित हूँ कि यह एक बग है, इसलिए यदि आप ऐसा कुछ करते हैं // d:spark.RDD[String] d.distinct().map(x => d.filter(_.equals(x))) आपको एक जावा एनपीई मिलेगा हालांकि यदि आप distinct होने के तुरंत बाद collect करते हैं, तो सभी ठीक होंगे। मैं स्पार्क 0.6.1 का उपयोग कर रहा हूँ।

स्पार्क मिल्ब अजीब संख्या या NaN की भविष्यवाणी करता है

मैं अपाचे स्पर्क के लिए नया हूँ और कुछ डेटा का अनुमान लगाने के लिए मशीन सीखने की लाइब्रेरी का उपयोग करने की कोशिश कर रहा हूं। मेरा डेटासेट अभी लगभग 350 अंक है। यहां उन 7 अंक हैं: "365","4",41401.387,5330569 "364","3",51517.886,5946290 "363","2",55059.838,6097388 "362","1",43780.977,5304694 "361","7",46447.196,5471836 "360","6",50656.121,5849862 "359","5",44494.476,5460289 यहां मेरा कोड है: def parsePoint(line): split = map(sanitize, […]

स्पार्क डेटाफ़्रेम से नेस्टेड कॉलम को छोड़ना

मेरे पास स्कीमा के साथ एक DataFrame root |– label: string (nullable = true) |– features: struct (nullable = true) | |– feat1: string (nullable = true) | |– feat2: string (nullable = true) | |– feat3: string (nullable = true) जबकि, मैं डेटा फ्रेम का उपयोग करके फ़िल्टर करने में सक्षम हूं val data […]

दिलचस्प पोस्ट
मैं किसी iPhone एप्लिकेशन से मेल कैसे भेज सकता हूं एक 403 प्राप्त करना – Google सेवा खाते के लिए निषिद्ध + ऑपरेटर के साथ जावा स्ट्रिंग समाकलन एन्क्रिप्ट करना app.config फ़ाइल रन और फ़ंक्शन संरचना पायथन में स्ट्रिंग को विभाजित और पार्स कैसे कर सकता हूं? मैं C ++ में एक साधारण क्यूटी कंसोल अनुप्रयोग कैसे बना सकता हूं? पायथन की स्ट्रिंग का उपयोग करें। Replace बनाम re.sub मैं अपने आवेदन की मूल प्रक्रिया के पीआईडी ​​कैसे प्राप्त कर सकता हूं स्क्रॉल करने पर, संभवतः जावास्क्रिप्ट और सीएसएस का उपयोग करते हुए मैं पहली पंक्ति और तालिका का पहला कॉलम कैसे लॉक कर सकता हूं? PHP के साथ एक XQuery निष्पादित करें बहु-लाइन कमांड कैसे दर्ज करें? जावा 8 में कार्यात्मक इंटरफेस का क्या उपयोग है? डाउनलोड करने के लिए phpexcel मैं एक नई सरणी के रूप में दो सरणियों के बीच का अंतर कैसे प्राप्त करूं?