આ ડિજિટલ યુગમાં આપણા સહુનું જીવન ડેટા વિના કલ્પી શકાય તેમ છે ? મૂળ સ્વરૂપમાં રહેલહકીકતો કે અવલોકનોને આપણે ડેટા કહીએ છીએ, દા. ત. 16, 38, વૈશાખનંદન, 850 વગેરે. ડેટા સીધી રીતે ઉપયોગી નથી હોતા. તેના પર ગાણિતીક કે આંકડાકીય પ્રક્રિયા કરવી પડે છે અને તેના આધારે માહિતીનું નિર્માણ થાય છે. ઉપર દર્શાવેલા ડેટા વિશે એમ કહેવામાં આવે કે તારીખ 23મી ડિસેમ્બર, 2019ના રોજ રાતે બે વાગ્યે અમદાવાદમાં તાપમાન 16 ડિગ્રી હતું જ્યારે બપોરે બે વાગ્યે 38 ડિગ્રી હતું, વૈશાખાનંદન એ મકાનનું નામ છે, માણસા માર્કેટ યાર્ડમાં 850 રૂપિયા એ પાંચ મણ બટાકાનો ખરીદ ભાવ છે તો આ માહિતી લોકો માટે અર્થસભર બને છે. માહિતીના આધારે નિર્ણય લઈ શકાય છે અને માહિતીનું નિર્માણ કરવા માટે ડેટાની જરૂર પડે છે. આમ ડેટા એ ડિજિટલ પદ્ધતિઓ માટે કાચા માલ સમાન છે.
માહિતીનું સતત અર્થઘટન કરીને વ્યક્તિ જ્ઞાન (Knowledge) મેળવી શકે છે. દા. ત. ચીજવસ્તુઓનું ઉત્પાદન કરતી કંપનીના પરચેઝ મેનેજરને જરૂરી કાચા માલની ક્યારે કેટલા પ્રમાણમાં તથા ક્યાંથી ખરીદી કરવી તે અંગેનું જ્ઞાન હોવું જ જોઈએ. દેશના કોઈ પણ ખૂણે આવેલા ખેડૂતને આવનારી સિઝન માટે પોતાના ખેતરમાં કયા પાકનું ઉત્પાદન લેવું જોઈએ તે અંગેનું જ્ઞાન હોવું જોઈએ. જ્ઞાન અને ડહાપણ બંને વચ્ચે તફાવત છે. પોતાના ખેતરમાં કપાસનું વાવેતર કર્યું હોય અને તેને એકાદ-બે દિવસમાં જ સિંચાઈની તાતી જરૂર હોય, છતાં પણ ખેડૂત પોતાના ડહાપણને આધારે સ્થાનિક હવામાનને ધ્યાનમાં રાખીને સિંચાઈ ન કરે એવું બને. અહીં સ્થાનિક હવામાન તથા અન્ય પરિબળોના આધારે ખેડૂતને તેનું શાણપણ કે ડહાપણ (Wisdom) એ પણ દર્શાવતું હોય કે ભલેને વરસાદની આગાહી નથી પણ બે-ચાર દિવસમાં જ આ વિસ્તારમાં વરસાદ થવાની વકી છે. એક જ પ્રકારના તાવથી પીડાતા દર્દીઓને ડૉકટર માત્ર એક જ પ્રકારની દવા ના પણ આપે. કેમ કે ડૉકટર તેના દર્દીની શારીરિક ક્ષમતા તેમ જ ભૂતકાળમાં તે દર્દીને આપવામાં આવેલી તમામ તબીબી સારવારોથી વાકેફ હોય છે અને તે ડૉકટરનું ડહાપણ છે. એ સ્પષ્ટ છે કે જ્ઞાન મેળવતા ઘણો સમય લાગે છે જ્યારે ડહાપણ એ તો જ્ઞાનનો પણ સારાંશ છે અને તે માટે વ્યક્તિની પોતાની બૌદ્ધિક કક્ષા, તેની નૈસર્ગિક શક્તિઓ તેમ જ તેની કોઠાસૂઝ પણ મહત્ત્વનાં પરિબળ છે.અહીંસહજ રીતે જ પ્રશ્નો થાય કે શું સતત ડેટા મેળવતી વ્યક્તિ જ્ઞાની ના બની શકે ? મબલખ ડેટાનો સંગ્રહ ધરાવતા કૉમ્પ્યુટરો તેના આધારે જ્ઞાન તથા ડહાપણનું નિર્માણ કરીને વિવિધ પ્રકારની આગાહીઓ ના કરી શકે ? આવા પ્રશ્નોનો જવાબ મેળવવા માટે ડેટા એનાલિસિસ, બિગ ડેટા એનાલિટિક્સ, મશીન લર્નિંગ, ડીપ લર્નિગ, આર્ટિફિશિયલ લર્નિંગ વગેરે વિષયો વિશે ઊંડાણથી સમજણ હોવી જરૂરી છે.
માધ્યમિકશાળામાં વિવિધ સંખ્યા પદ્ધતિઓ શીખવાડવામાં આવે છે, દસ અંકી, દ્વિઅંકી, આઠ અંકી વગેરે. દસ અંકી સંખ્યા પદ્ધતિમાં 0થી શરૂ કરીને 9 સુધીના દસ અંક છે, જ્યારે દ્વિઅંકી પદ્ધતિમાં બે જ અંક છે 0 તથા 1. કૉમ્પ્યુટર પદ્ધતિમાં ડેટાના સંગ્રહ માટે દ્વિઅંકી પદ્ધતિનો ઉપયોગ થાય છે. અહીં ૦અથવા 1ને બીટ કહેવામાં આવે છે જ્યારે આઠ બીટના સમૂહને બાઈટ કહેવામાં આવે છે. કૉમ્પ્યુટરની ડેટા સંગ્રહશક્તિ તેમ જ તેની ગણતરી કરવાની ઝડપને બાઇટના સંદર્ભમાં માપવામાં આવે છે. સાવ સાદી રીતે કહીએ તો એક બાઈટમાં એક અંક અથવા અક્ષરનો સંગ્રહ કરી શકાય.વિસ્તારથી કહીએ તો આઠ બીટ ધરાવતા એક બાઈટમાં 28એટલે કે 256 જેટલીસંખ્યા સંગ્રહી શકાય.
દ્વિઅંકી પદ્ધતિમાં 0થી શરૂઆત થાય છે માટે (28– 1) = 255. આ રીતે એક બાઈટમાં 0થી 255 સુધીની ધન સંખ્યા સંગ્રહી શકાય છે. જો ઋણ સંખ્યાનો સંગ્રહ કરવો હોય તો એક બાઈટમાં -128 થી શરૂ કરીને +127 સુધીની સંખ્યા સંગ્રહી શકાય છે. આમ, એક બાઇટમાં ત્રણ અંક ધરાવતી સંખ્યાનો સંગ્રહ કરી શકાય છે.ડેટા સંકોચનનો ઉપયોગ કરીને એક જ બાઇટમાં એકથી વધુ અક્ષરો પણ સંગ્રહી શકાય છે. એક કિલો બરાબર એક હજાર ગ્રામ થાય, પરંતુ કૉમ્પ્યુટરમાં એક કિલો બાઈટ (KB) બરાબર 1024(210) બાઈટ થાય.તે જ રીતે1 MB = 1024KB, 1 GB = 1024MB, તથા 1 TB = 1024GB. આ એકમનો ઉપયોગ કૉમ્પ્યુટરની સંગ્રહશક્તિ માપવા માટે થાય છે. આ વિશે વિસ્તારથી જાણવા માટે કૉમ્પ્યુટર ઑર્ગેનાઈઝેશન વિષયની વિસ્તારથી ચર્ચા કરવી પડે.
મૂળ વાત પર પાછા આવીએ તો, કોઈ પણ વ્યક્તિ કે સંસ્થા પોતાના મોબાઇલ ફોન કે કૉમ્પ્યુટર પર દરરોજ વિવિધ પ્રકારના સંદેશાઓ, અહેવાલો, ઇમેઇલ, ઑડિયો-વિડીયો વગેરે પ્રકારની ફાઇલો મેળવતી હોય છે. તેનો સંગ્રહ કરવાને કારણે મર્યાદિત સંગ્રહશક્તિ ધરાવતું મેમરી એકમ ભરાઈ જાય છે અને તેમાંથી ઉપયોગમાં ના લેવામાં આવતી હોય તેવી ફાઇલો ભૂંસી નાખવી પડે છે. અત્યારના સમયમાં વેપારધંધા, વિજ્ઞાન, આરોગ્ય, હવામાન, રાજકારણ, મનોરંજન, ખેલકૂદ તેમ જ સરકારી કેવ્યક્તિગત વગેરે પ્રકારના ડેટાનું વિપુલ પ્રમાણમાં નિર્માણ થતું રહે છે. એક અનુમાન મુજબ 2020 સુધીમાં દર વ્યક્તિદીઠ દર સેકંડે 1.7MB જેટલો ડેટા તૈયાર થશે. IBMકંપનીના તારણ મુજબ વિશ્વમાં અત્યારે જેટલા પણ ડેટા છે તેમાંથી નેવું ટકા ડેટા છેલ્લા બે વર્ષમાં જ તૈયાર થયા છે. તો આવનારાં વર્ષો તેમ જ દાયકામાં શું સ્થિતિ હશે ?
છેલ્લા કેટલાંક વર્ષોથી ડેટાની સાથે ‘બિગ ડેટા’પદ પ્રચલિત બન્યું છે. બિગ ડેટા એટલે એવા ડેટા જેની લાક્ષણિકતા નીચે મુજબની છે અને તેમાં પાંચ મુખ્ય V સંકળાયેલા છે
1. કદ(Volume):ઉપર દર્શાવ્યું છે તેમ વિપુલ માત્રામાં સતત રચાતા જતા ડેટા. તેનું કદ પણ વધી રહ્યું છે. દા. ત. મશીનોમાં લગાવેલાં સેન્સરો, ટ્રાફિક સિગ્નલો પર મૂકેલા કૅમૅરા, સોશિયલ મિડિયા એપ્લિકેશન દ્વારા સતત મોકલવામાં આવતા સંદેશા તથા ઑડિયો-વિડિયો ફાઇલો વગેરે. તેના કારણે કૉમ્પ્યુટરો પરની સંગ્રહશક્તિ પણ ઓછી સાબિત થઈ રહી છે.
2. વિવિધતા (Variety):વિવિધ પ્રકારના ડેટાનું નિર્માણ થઈ રહ્યું છે, જેમ કે લખાણ, સંખ્યા ચિત્રો, ઑડિયો, વિડિયો વગેરે પ્રકારના ડેટા. અહીં કેટલાક ડેટાને પોતાનું માળખું હોય છે જેમ કે કર્મચારીઓ કે ઉત્પાદિત ચીજવસ્તુ અંગેની માહિતી અને તેનું માળખું. જ્યારે કેટલાક પ્રકારના ડેટાને માળખું નથી હોતું, જેમ કે સંદેશાઓ, ઇમેઇલ વગેરે.
3. વેગ (Velocity): ડેટા નિર્માણનો વેગ સતત વધતો રહ્યો છે. સેન્સર, ટ્રાફિક સિગ્નલ પરના કૅમૅરા, તહેવારો દરમ્યાન લાખો કે કરોડો ગ્રાહકો દ્વારા ઇકોમર્સ વેબ સાઇટ પરથી કરવામાં આવતી ખરીદી વગેરેને કારણે ધસમસતા પાણીની માફક આવતા રહેતા ડેટાનો વેગ સતત વધતો ગયો છે.
4. સચ્ચાઈ (Veracity):વિપુલ માત્રામાં આવતા રહેતા ડેટામાં સચ્ચાઈ ના હોય તો તેના આધારે ખોટી માહિતી તૈયાર થશે. ડેટામાં જે પણ ખોટું હોય અથવા અધૂરું હોય તે બધું જ ગાળી-ચાળીનેતેમ જ તેને સુધારીને મૂકવું અનિવાર્ય છે અને તો જ ડેટા વિશ્વાસપાત્ર બને છે.
5. મૂલ્ય (Value): ડેટાની ઉપયોગિતા કેટલી છે અને કેટલા અંશે ડેટાના આધારે સાચા નિર્ણયો લઈ શકાય છે તે પરથી ડેટાનું મૂલ્ય સાબિત થાય છે.
બિગ ડેટાની લાક્ષણિકતાઓમાં Variability તેમ જ અન્ય V ઉમેરાતા ગયા છે. બિગ ડેટાની લાક્ષણિકતાઓને જોતાંસંસ્થા સંચાલન તેમ જ નિર્ણય લેવા માટે માહિતી મેળવવા માટે અનેક પ્રશ્નોઉપસ્થિત થાય છે, જેમ કેશું વિપુલ માત્રામાં સતત વેગથી આવતા રહેતા ડેટા પર પ્રક્રિયા કરવા માટે પૂરતા કર્મચારીઓ ઉપલબ્ધ છે ખરા ? ડેટા પર જરૂરી તેમ જ સમયસર પ્રક્રિયા કરવા માટે કર્મચારીઓકાર્યક્ષમ છેખરા? ડેટામાં રહેલા ખોટાં કે અપૂર્ણ તથ્યોને કેવી રીતે ઝડપથી ગાળી શકાય?
એક જ પ્રકારના ડેટા અને એક જ ફાઇલ કે ડેટાબેઝ પર પ્રક્રિયા કરીને માહિતી તૈયાર કરવાના ખ્યાલને ડેટા એનાલિસિસ કહેવામાં આવે છે. એકસેલ જેવી સ્પ્રેડશીટ કે માયએસક્યુએલ કે એકસેસ જેવા ડેટાબેઝનો ઉપયોગ કરીને જરૂર મુજબ પ્રૉગ્રામિંગ કરવાની પ્રક્રિયાને ડેટા એનાલિસિસ કહેવામાં છે. પરંતુ બિગ ડેટાની લાક્ષણિકતાઓ જોતાં બિગ ડેટા એનાલિટિક્સને આ રીતે મૂકી શકાય.
બિગ ડેટાના સંગ્રહ તથા તેને વાંચવા માટે, તેની પર ગણતરી કે સરખામણી કરવા માટે, બિનજરૂરી ડેટાને ગાળી નાખવા માટે, તેનું વર્ગીકરણ કરવા માટેજરૂરી ટેકનોલૉજી, આર્કિટેકચર તથા ફ્રેમવર્ક તથા બિગ ડેટા પર જટિલ પ્રક્રિયાઓ કરવા માટેના આલ્ગોરિધમ વગેરેનો સમાવેશ બિગ ડેટા એનાલિટિક્સમાં થાય છે.