સુવિખ્યાત ગણિતશાસ્ત્રી રિચાર્ડ હૅમિંગનું પ્રદાન કૉમ્પ્યુટર એન્જિનીયરીંગ તથા ટેલિકૉમ્યુનિકેશન ક્ષેત્રે નોંધપાત્ર છે. તેમણે 1950માં હૅમિંગ કોડની શોધ કરી હતી, જેની મદદથી ટેલિકૉમ્યુનિકેશનના ક્ષેત્રે ડેટા પ્રત્યાયન વખતે એક બીટની ભૂલ સુધારી શકાય છે તથા બે બીટ સુધીની ભૂલને શોધી શકાય છે. તેમનું એક જાણીતું વાક્ય છે :
“કૉમ્પ્યુટીંગનો સાચો ઉદ્દેશ સંખ્યાઓ નહીં પણ તેમાંથી આપણને શું સૂઝે છે તે અંગેનો છે.”
સાદા સ્વરૂપે રહેલી હકીકતો કે અવલોકનોને ડેટા કહેવામાં આવે છે, જેના પર પ્રક્રિયા કરીને માહિતી તૈયાર કરવામાં આવે છે. માહિતીનો ઉપયોગ કરીને યોગ્ય નિર્ણય લઈ શકાય છે. માહિતી પર વિસ્તારથી વિશ્લેષણ કરીને સારરૂપે જ્ઞાન મેળવી શકાય છે, જેને ઉપરના વિધાનમાં સૂઝ સાથે સરખાવી શકાય. પણ ડેટા પરથી જ્ઞાન સુધી પહોંચવાની પ્રક્રિયા શું સરળ છે ? ડેટાને કેવી રીતે ચકાસી તથા તપાસીને તેનો અભ્યાસ કરી શકાય ? તે અંગે વિચાર કેવી રીતે થઈ શકે તેમ જ ડેટાથી જ્ઞાન સુધી પહોંચવાની સમગ્ર પ્રક્રિયા કેવી રીતે શીખી શકાય ?
એક જ પ્રકારના ડેટા પર પ્રક્રિયા કરીને માહિતી તૈયાર કરવાના ખ્યાલને ડેટા એનાલિસિસ કહેવામાં આવે છે. ડેટા એનાલિસિસ માટે ડેટાબેઝ મેનેજમેન્ટ સિસ્ટમ, ડેટા વેરહાઉસ, ઑનલાઇન એનાલિટિકલ પ્રોસેસીંગ (OLAP), ડેટા માઇનીંગ તથા નૉલેજ ડિસ્કવરી એ અગત્યના ઘટકો છે. સંગઠ્ઠિત સ્વરૂપે કૉમ્પ્યુટરમાં સંગ્રહ કરવામાં આવેલા ડેટાના સમૂહને ડેટાબેઝ કહેવામાં આવે છે. ડેટાનું સંગઠ્ઠન કોઈ એક ડેટા મોડલના આધારે નક્કી કરવામાં આવે છે. નેટવર્ક, હાયરારકીકલ તથા રીલેશનલ એ વિવિધ ડેટા મોડલ છે, જેના આધારે ડેટાનું તાર્કિક સંગઠ્ઠન નક્કી કરવામાં આવે છે. ત્રણ ડેટા મોડલ પૈકી રીલેશનલ ડેટા મોડલનો ખાસ કરીને ધંધાકીય વિનિયોગો માટે સવિશેષ ઉપયોગ થાય છે. તાજેતરમાં NoSQL ડેટા મોડલ વધુ ને વધુ પ્રચલિત થતું જાય છે.
ડેટાબેઝ મેનેજમેન્ટ સિસ્ટમ એ સૉફ્ટવેર છે, જેની મદદથી કોઈ એક ડેટા મોડલના આધારે કૉમ્પ્યુટર પર ડેટાબેઝનો સંગ્રહ કરવામાં આવે છે, Structured Query Language (SQL) જેવી ભાષાની મદદથી ડેટાબેઝને વાંચી શકાય છે, રેકોર્ડને લખવા, સુધારવા કે ભૂંસવા જેવી ક્રિયા કરી શકાય છે તથા લેવડદેવડના ભાગરૂપ વિવિધ ટ્રાન્ઝેકશન પર પ્રક્રિયા કરી શકાય છે. ઑનલાઇન પદ્ધતિઓ જેવી કે બૅન્કિંગ, બસ – રેલવે કે એર ટિકિટ બુકીંગ, શેરબજાર, કોમોડિટી માર્કેટ, ટેલિફોન એક્સચેન્જ વગેરેમાં ટ્રાન્ઝેકશન એ મુખ્ય બાબત છે. અહીં ગ્રાહક દ્વારા શરૂ કરવામાં આવેલ લેવડદેવડની ક્રિયા કાં તો સંપૂર્ણ રીતે સફળ થવી જોઈએ અથવા તો તેને નકારી દેવી જોઈએ. દા. ત. ગ્રાહકના એક ખાતામાંથી રકમ ઉધારાઈ જાય પણ અન્ય ખાતામાં જમા ના થાય તો તે ના ચાલે. માટે જ ઑનલાઇન ટ્રાન્ઝેકશન પ્રોસેસિંગ માટે ડેટાબેઝ મેનેજમેન્ટ સિસ્ટમે તમામ જરૂરી સવલતો પૂરી પાડવી પડે છે.
કોઈ પણ કંપનીમાં તેની જરૂરિયાત મુજબ એકથી વધુ ડેટાબેઝ હોવાના, દા. ત. ખરીદીના રેકોર્ડ અંગેનો ડેટાબેઝ, વસ્તુઓ તથા કાચા માલ અંગેનો અલગ ડેટાબેઝ, કર્મચારીઓ અંગેની માહિતી ધરાવતો એક અલગ ડેટાબેઝ વગેરે. દરેક ડેટાબેઝ પર આગવી પ્રક્રિયા કરી શકાય છે, પરંતુ કંપનીના સંચાલન માટે એવી માહિતીની જરૂર પડતી હોય જેમાં અનેક ડેટાબેઝને સાંકળી લેવા પડતા હોય છે. હેલ્થકેરના સંદર્ભમાં વાત કરીએ તો દર્દીઓ અંગેના ડેટા, તેમની પર થતી સારવાર અંગેના ડેટા, હોસ્પિટલની દવાની દુકાનમાંથી દર્દીઓને આપવામાં આવેલી વિવિધ દવાઓ, દર્દીઓ પર થયેલા ઓપરેશનો તથા તે અંગેની સારવાર અંગેના ડેટા વગેરે. હવે હોસ્પિટલની સંચાલન સમિતિએ દર્દીઓને કેવા વીમા લેવા તે અંગે સચોટ ભલામણ કરવી હોય અથવા તેમને તેમની તબિયતની સંભાળ માટે ચોક્કસ ભલામણો કરવી હોય તો વિવિધ ડેટાબેઝને સંકલિત કરીને જ રિપોર્ટ તૈયાર કરી શકાય. વિવિધ સ્થાને અને સ્વરૂપે રહેલા ડેટાબેઝને સંકલિત કરી, ડેટાની ગુણવત્તા સુધારવા માટે જરૂર મુજબ ડેટાને ગાળીને એક જ સ્થાને મૂકવાની પદ્ધતિને ડેટા વેરહાઉસ કહેવામાં આવે છે. આવા એક જ સ્થાને રહેલા ડેટા વેરહાઉસનો ઉપયોગ કરીને એનાલિસિસ માટેના રિપોર્ટ તૈયાર કરવાનું સરળ બને છે.
પણ કૉમ્પ્યુટરનો આવિષ્કાર થયો તે પહેલાં માણસો શું જાતે ડેટા પર કોઈ પ્રક્રિયા કે એ વિશે એનાલિસિસ નહોતા કરી શકતા ? સદીઓના ઇતિહાસ દરમ્યાનની ઘટનાઓ કે તેના દસ્તાવેજોના અભ્યાસમાંથી માણસો શીખતા આવ્યા છે. ગ્રહો કે ખગોળશાસ્ત્રના અભ્યાસની મદદથી વાતાવરણ વિશે જાણકારી મેળવી શકતા. ગામડામાં રહેલા જાણકાર કે કોઠાસૂઝ ધરાવનાર ખેડૂતો પાસે વાતાવરણની ખેતી પર થનારી અસરો વિશે જ્ઞાન હોય છે. આવી પરંપરાગત પદ્ધતિઓની મદદથી કેટલાક અંશે જ્ઞાન મેળવી શકાતું પણ અત્યારના સમયમાં તે અપૂરતું તેમ જ અયોગ્ય ગણાશે, કેમ કે આજે આપણે એવી સ્થિતિમાં જીવીએ છીએ જ્યાં વિશાળ કદમાં વિવિધ સ્વરૂપે અત્યંત વેગથી આપણી સમક્ષ ડેટા આવી રહ્યા છે. તેથી આ અંગેનું પદ્ધતિસરનું જ્ઞાન હોવું જરૂરી છે, જેના માટે આપણે ફિલોસૉફી, વિજ્ઞાન, આંકડાશાસ્ત્ર, કૃત્રિમ બુદ્ધિમત્તા વગેરે શાસ્ત્રો શીખવા પડે છે.
ફિલોસોફી તથા વિજ્ઞાનની મદદથી આપણે ભૂતકાળમાં જે અંગે જાણકારી ન હતી તેવી અગત્યની માહિતી મેળવી શકીએ છીએ, તર્કનો ઉપયોગ કરીને સાતત્ય ધરાવતી હોય તેવી માહિતીને પ્રસ્થાપિત કરી શકીએ છીએ, અખતરા કે પ્રયોગો કરીને તેની ચકાસણી કરી શકીએ છીએ, તેમ જ વ્યક્તિગત જ્ઞાનના આધારે અયોગ્ય માહિતીને ખોટી સાબિત કરી શકીએ છીએ.
કૉમ્પ્યુટરનો આવિષ્કાર થયા પછી ડેટા એનાલિસિસ સરળ બનવા લાગ્યું. આ દિશામાં આગળ જતાં ડેટા માઇનીંગ વિષયનો ઉદય થયો. સરળ શબ્દોમાં કહીએ તો વિશાળ કદના ડેટામાં ગર્ભિત રીતે છુપાયેલી પણ અગાઉ ક્યારેય તેના વિશે જાણકારી ન હોય તેવી ઉપયોગી માહિતીને શોધી કાઢવાની પ્રક્રિયાને ડેટા માઇનીંગ કહેવામાં આવે છે. અહીં, વિશાળ કદના ડેટા પર તપાસ તથા વિશ્લેષણ કરીને ડેટામાં છુપાયેલ અર્થસભર ઢબ (Patterns), નમૂનાઓ કે સ્વરૂપોને શોધવામાં આવે છે.
ડેટા માઇનીંગ વિષય બીજા અન્ય વિષયો જેવા કે ડેટાબેઝ સિસ્ટમ, આંકડાશાસ્ત્ર, પેટર્ન રેકોગ્નિશન, મશીન લર્નિંગ, માહિતી વિજ્ઞાન, આર્ટિફિશિયલ ઇન્ટેલીજન્સ (AI), વિઝ્યુલાઈઝેશન વગેરે વિષયો પર આધારિત છે. ડેટા માઇનીંગના બે મુખ્ય ઉદ્દેશ છે :
ડેટામાંથી માણસો સમજી શકે તેવી ઢબ, નમૂના કે સ્વરૂપો શોધી કાઢીને વર્ણન કરવું.
એક કે તેથી વધુ ચલ (Variable)નો ઉપયોગ કરીને અન્ય અજાણ્યા ચલની ભાવિ કિંમતો વિશે આગાહી કરવી.
આના કારણે આપણને એવી માહિતી મળી આવે છે કે જે મૂળ ડેટાને વાંચવા છતાં આપણને સહજ રીતે ના મળી હોત. ઉપર થયેલી ચર્ચાના ઉદાહરણ સ્વરૂપે આપણે નીચે મુજબ જણાવી શકીએ :
કોઈ એક પાક જેમ કે કપાસના જીવાત નિયંત્રણ માટે ભલામણો તૈયાર કરવી હોય તો તે માટે ડેટાબેઝ મેનેજમેન્ટ પદ્ધતિનો આધાર લઈને રિપોર્ટ તૈયાર કરી શકાય. પરંતુ જે તે સ્થળના વાતાવરણના પરિબળોના આધારે કપાસ માટે કઈ કઈ જીવાતોનો પ્રશ્ન ઊભો થાય તે જાણવા માટે અથવા તો કોઈ એક ચોક્કસ ભૌગોલિક સ્થળ – ગામ કે તાલુકા ખાતે ભૂતકાળમાં વર્ષો કે દાયકાઓ દરમ્યાન લેવાયેલા પાકના ડેટા આધારે ભવિષ્યમાં તે જ સ્થળે તેવા પાકનું કેટલું ઉત્પાદન થશે તે જાણવા માટે ડેટા માઇનીંગની જરૂર પડશે. આ માટે, ડેટા માઇનીંગના વિવિધ પાસાં અંગે ચર્ચા જરૂરી છે.