समूहीकृत डेटा सांख्यिकी में इस्तेमाल किया जाने वाला एक शब्द है जिसका उपयोग ऐसे डेटा का वर्णन करने के लिए किया जाता है जिसे समूहों या श्रेणियों में व्यवस्थित किया गया है। ऐसा अक्सर डेटा को सरल बनाने, उसका विश्लेषण करना आसान बनाने और डेटा सेट के भीतर पैटर्न या रुझानों की पहचान करने के लिए किया जाता है।
डेटा को समूहीकृत करना विभिन्न सांख्यिकीय विश्लेषणों में सहायक हो सकता है क्योंकि यह डेटा की जटिलता को कम करता है, जिससे इसे देखना और व्याख्या करना आसान हो जाता है। यह विशेष रूप से तब उपयोगी होता है जब डेटा बिंदुओं के एक बड़े समूह से निपटना होता है जो मूल्यों की एक विस्तृत श्रृंखला में फैले होते हैं। डेटा को समूहीकृत करके, आप इसके वितरण और केंद्रीय प्रवृत्तियों की बेहतर समझ प्राप्त कर सकते हैं।
समूहीकृत डेटा के दो मुख्य प्रकार हैं:
कच्चे डेटा से समूहीकृत डेटा बनाने के लिए, इन चरणों का पालन करें:
समूहीकृत डेटा को दर्शाने के कई तरीके हैं, जिनमें फ़्रीक्वेंसी टेबल, हिस्टोग्राम और बार चार्ट शामिल हैं। प्रत्येक विधि डेटा का एक दृश्य प्रतिनिधित्व प्रदान करती है, जिससे इसका विश्लेषण करना आसान हो जाता है।
आवृत्ति तालिका समूहीकृत डेटा प्रदर्शित करने का एक सरल तरीका है। यह अंतराल और प्रत्येक अंतराल में आने वाले डेटा बिंदुओं (आवृत्ति) की संख्या दिखाता है। उदाहरण के लिए, छात्रों की ऊँचाई पर समूहीकृत डेटा के लिए एक आवृत्ति तालिका इस तरह दिख सकती है:
ऊंचाई अंतराल (सेमी) | आवृत्ति |
---|---|
150-159 | 5 |
160-169 | 8 |
170-179 | 7 |
180-189 | 2 |
समूहीकृत आंकड़ों के साथ, आप अभी भी केंद्रीय प्रवृत्ति के मापों की गणना कर सकते हैं, जैसे कि माध्य, माध्यिका और बहुलक, लेकिन विधियां थोड़ी भिन्न हैं।
समूहीकृत डेटा का माध्य: माध्य (या औसत) का अनुमान प्रत्येक अंतराल के मध्यबिंदु को उस अंतराल की आवृत्ति से गुणा करके, इन उत्पादों को जोड़कर, और फिर डेटा बिंदुओं की कुल संख्या से विभाजित करके लगाया जा सकता है। सूत्र इस प्रकार दिया गया है:
\( \textrm{अर्थ} = \frac{\sum(\textrm{मध्य} \times \textrm{आवृत्ति})}{\textrm{कुल आवृत्ति}} \)समूहीकृत डेटा का माध्यिका: माध्यिका वह मान है जो डेटा को दो बराबर भागों में विभाजित करता है। समूहीकृत डेटा में माध्यिका ज्ञात करने के लिए, आपको वह अंतराल ज्ञात करना होगा जिसमें मध्य मान(मान) शामिल हों। इसमें अक्सर संचयी आवृत्ति का उपयोग करना शामिल होता है।
समूहीकृत डेटा का बहुलक: बहुलक डेटा सेट में सबसे अधिक बार आने वाला मान है। समूहीकृत डेटा के लिए, बहुलक उच्चतम आवृत्ति वाला अंतराल है।
छात्रों की ऊंचाई के लिए पहले बताई गई आवृत्ति तालिका पर विचार करें। औसत ऊंचाई की गणना करने के लिए, पहले प्रत्येक अंतराल के लिए मध्यबिंदुओं की पहचान करें:
इसके बाद, प्रत्येक मध्यबिंदु को संगत आवृत्ति से गुणा करें और इन उत्पादों को जोड़ें:
\( \textrm{उत्पादों का योग} = (154.5 \times 5) + (164.5 \times 8) + (174.5 \times 7) + (184.5 \times 2) \)फिर, माध्य ज्ञात करने के लिए उत्पादों के योग को कुल आवृत्ति से विभाजित करें:
\( \textrm{औसत ऊंचाई} = \frac{\textrm{उत्पादों का योग}}{\textrm{कुल आवृत्ति}} \)यह गणना छात्रों की औसत ऊंचाई का अनुमान देती है।
समूहीकृत डेटा सांख्यिकीय विश्लेषण में महत्वपूर्ण भूमिका निभाता है, क्योंकि यह शोधकर्ताओं और विश्लेषकों को निम्नलिखित कार्य करने में सक्षम बनाता है:
यद्यपि समूहीकृत डेटा विश्लेषण के लिए लाभदायक है, फिर भी इसकी कुछ सीमाएँ हैं:
समूहीकृत डेटा सांख्यिकी में एक शक्तिशाली उपकरण है, जो बड़े डेटा सेट को प्रबंधित और विश्लेषण करने का एक तरीका प्रदान करता है। डेटा को समूहीकृत करने, आवृत्ति तालिकाएँ बनाने और समूहीकृत डेटा के लिए केंद्रीय प्रवृत्ति के उपायों की गणना करने के तरीके को समझकर, विश्लेषक अपने डेटा के भीतर पैटर्न और रुझानों में मूल्यवान अंतर्दृष्टि प्राप्त कर सकते हैं। अपनी सीमाओं के बावजूद, समूहीकृत डेटा सांख्यिकी के क्षेत्र में एक आवश्यक अवधारणा बनी हुई है, जो अधिक कुशल और सार्थक विश्लेषण को सक्षम बनाती है।