વિશાળ કદના ડેટામાં ગર્ભિત રીતે છુપાયેલી અને અજાણી છતાં એવી ઉપયોગી માહિતી શોધી કાઢવાની પ્રક્રિયાને ડેટા માઇનીંગ કહે છે. જેમ પહાડો કે રેતીનું ખોદકામ કરીને સોનું શોધી કાઢવામાં આવે છે, તેવી જ રીતે ડેટાનું ડિજિટલી ખોદકામ કરીને જ્ઞાન શોધવામાં આવે છે. આપણે પહાડ કે રેતીનું ખોદકામ કરવાનાં ક્ષેત્રોને સોનાની ખાણો કહીએ છીએ, તેવી જ રીતે ‘ડેટાના ખોદકામથી મળેલી જ્ઞાનની ખાણો’ કહેવું જોઈએ.
ડેટા માઇનીંગનો મુખ્ય આશય વિશાળ કદના ડેટા પર તપાસ તથા વિશ્લેષણ કરીને ડેટામાં છુપાયેલ અર્થસભર ઢબ કે સ્વરૂપોને શોધવાનો છે જેથી આપણને એવી માહિતી મળે કે જે મૂળ ડેટાને વાંચવા છતાં આપણને સહજ રીતે ના મળી હોત. દા. ત. બૅન્ક વર્ષોથી પોતાના ગ્રાહકોને ધિરાણ આપતી હોય છે. તેની પાસે ગ્રાહકની ઉંમર, આવક, ક્રેડિટ કાર્ડ દ્વારા કરવામાં આવેલી ખરીદી, ઑનલાઇન ખરીદી માટે કરેલી ચૂકવણી, તેણે લીધેલી લોન અને ચૂકવવામાં આવેલા હપ્તા જેવી વિવિધ પ્રકારની માહિતી હોય છે. તદુપરાંત, નવા ગ્રાહકો બૅન્કમાં ખાતાં પણ ખોલાવતાં હોચ છે. કોઈ ગ્રાહક લોન માટે અરજી કરે ત્યારે તેવા ગ્રાહકને ધિરાણ આપતાં પહેલાં બૅન્ક સામે અનિયમિત ચૂકવણીથી શરૂ કરીને ધિરાણ ડૂબવાના સુધીના કયાં જોખમો છે તેની આગાહી કરી શકાય છે. બૅન્કે તેના અનેક ગ્રાહકો પૈકી કયા કયા ગ્રાહકોને ધિરાણ માટેની કઈ કઈ સ્કીમની જાણ અથવા ભલામણ કરવી જોઈએ.
ઇકોમર્સની વેબસાઇટ કે મોબાઇલ એપ દ્વારા કંપનીઓ પોતાની વિવિધ વસ્તુઓ વેચે છે. ડેટા માઇનીંગની મદદથી ઇકોમર્સ કંપની શોધી શકે છે કે કઇ કંપનીએ અચાનક જ પોતાની વસ્તુનું પૅકિંગ બદલી નાખ્યું છે અથવા તો અગાઉનાં વર્ષોની સરખામણીએ આ સમયગાળા દરમ્યાન કઈ કઈ વસ્તુઓના વેચાણમાં ઘરખમ વધારો કે ઘટાડો (ટકા કે રકમના સંદર્ભમાં) જોવા મળ્યો છે. વિવિધ વિષયોને લગતા ડેટા પર પ્રક્રિયા તેમ જ તે માટે એકથી વધુ વિષયની જાણકારી જરૂરી હોવાને કારણે ડેટા માઇનીંગ એ ખરા અર્થમાં આંતરશાખાકીય વિષય છે.
ડેટા માઇનીંગ વિષયને નૉલેજ ડિસ્કરવરી ફ્રોમ ડેટા (KDD) તરીકે પણ ઓળખવામાં આવે છે. જો કે અહીં ડેટા માઇનીંગ સમગ્ર પ્રક્રિયાનો એક ભાગ છે, જે નીચે મુજબ દર્શાવેલ છે :
* ડેટાને સાફ કરવા - અહીં ડેટાબેઝમાંથી બિનજરૂરી કે અસ્પષ્ટ ડેટાને દૂર કરવામાં આવે છે.
* ડેટાનું સંકલન - વિવિધ ડેટાબેઝમાંથી ડેટાનું સંકલન કરવું
* ડેટાની પસંદગી - વિશ્લેષણ માટે જરૂરી હોય તેટલા જ ડેટાને પસંદ કરવા
* ડેટાનું રૂપાંતર - ડેટા માઇનીંગની વિવિધ ક્રિયાઓ સરળતાથી થઈ શકે તે માટે ડેટાનું રૂપાંતર
* ડેટા માઇનીંગ
* રસ મુજબના નમૂનાઓ કે પેટર્નને શોધી કાઢવા કે જે જ્ઞાન દર્શાવતા હોય
* જ્ઞાનની રજૂઆત - સામાન્ય માણસ સરળતાથી સમજી શકે તે માટે ચિત્રાત્મક કે ગ્રાફિક્સ સ્વરૂપે જ્ઞાનને દર્શાવવા માટે વિઝ્યુલાઈઝેશનનાં વિવિધ સાધનોનો ઉપયોગ
આપણી સમક્ષ વિવિધ સ્વરૂપ, માળખું તેમ જ અર્થ ધરાવતા ડેટા આવી રહ્યા છે, જેમ કે
* રીલેશનલ ડેટા મોડલ આધારિત રીલેશનલ ડેટા, વિવિધ ડેટાબેઝ પરથી સંકલિત કરીને તૈયાર કરેલા ડેટા વેરહાઉસ, આર્થિક વ્યવહારોને લગતા ટ્રાન્ઝેકશન ડેટા.
* વિવિધ એપ્લિકેશન દ્વારા તૈયાર થતા સમયબદ્ધ તથા શ્રેણીબદ્ધ ડેટા જેવા કે વર્ષો કે દાયકાઓની માહિતી ધરાવતા ઐતિહાસિક ડેટા, સ્ટોક એક્સચેન્જના ડેટા, બાયોલોજિકલ સિકવન્સના ડેટા
* પ્રવાહના સ્વરૂપે આવતા ડેટા : સેન્સર, સીસીટીવી, ટ્રાફિક સિગ્નલ પર મૂકેલા કેમેરા વગેરે દ્વારા સતત આવતા ડેટા
* ભૌગોલિક અથવા સ્થળલક્ષી ડેટા : ISRO દ્વારા ભુવન (Bhuvan), ઓપનસ્ટ્રીટમૅપ, ગુગલ વગેરે પૂરા પાડવામાં આવતા ઑનલાઇન નકશાઓ
* ગ્રાફ તથા નેટવર્ક ડેટા : સોશિયલ મીડિયા કે નેટવર્ક દ્વારા તૈયાર થતા ડેટા,
* વૅબ દ્વારા પૂરા પાડવામાં આવતા ડેટા
* એન્જિનિયરિંગ ડિઝાઇનને લગતા ડેટા : મશીનો અથવા મકાનોની ડિઝાઇન, ઇલેકટ્રોનિક સર્કિટ વગેરે
* હાયપરટેક્સ્ટ કે મલ્ટીમીડિયા ડેટા : ટેકસ્ટ, ઇમેજ, ઑડિયો, વીડિયો વગેરે
આવા વિવિધ સ્વરૂપના તેમ જ અલગ અલગ અર્થ ધરાવતા ડેટા પર ખોદકામ કેવી રીતે કરવું જેથી અર્થસભર ઢબ કે પેટર્ન શોધી શકાય ?
ડેટા માઇનીંગના બે મુખ્ય પ્રકાર છે - વર્ણાનાત્મક તથા ભાવિસૂચક. વર્ણાનાત્મક માઇનીંગ હેઠળ ડેટાની લાક્ષણિકતાઓને શોધવામાં આવે છે, જ્યારે ભાવિસૂચક માઇનીંગ હેઠળ ગાણિતિક તથા આંકડાકીય પદ્ધતિઓનો ઉપયોગ કરીને આગાહી કરવામાં આવે છે, જેમાં વર્ગીકરણ, આગાહી, નિયત સંબંધ (Regression) તથા ટાઇમ સીરીઝ એનાલિસિસ રીતોનો સમાવેશ થાય છે. જ્યારે વર્ણનાત્મક ડેટા માઇનીંગ હેઠળ ક્લસ્ટરીંગ, સમરાઇઝેશન, એસોસિયેશન નિયમો તથા સિકવન્સિયલ પેટર્ન ડિસ્કવરી વગેરે રીતોનો સમાવેશ થાય છે.
કોઈ પણ કંપની સંચાલનું મુખ્ય કાર્ય તો તેના ધંધાને અનુરૂપ તેમ જ સચોટ નિર્ણય લેવાનું છે. પોતાના ગ્રાહકો તથા પોતાના વ્યવસાયને તથા સંલગ્ન તમામ પાસાંને વધારે ને વધારે સારી રીતે ઓળખતા રહેવાનું છે. આ તમામ માટે ડેટા એ કાચી સામગ્રી છે કેમ કે વાસ્તવિક જગતને રજૂ કરે છે. ડેટાના આધારે નિર્ણય લેતી વખતે ડેટામાં રહેલી ભૂલો કે ત્રૂટિઓ, છેતરપિંડીઓ, તેમ જ અસંગતતા શોધવાનું અગત્યનું છે. તેમ કરવામાં ના આવે તો કંપની દ્વારા લેવામાં આવતા નિર્ણયો ખોટા સાબિત થાય, નફા બદલે નુકસાન થાય તથા કંપનીની પ્રતિષ્ઠા ખરડાય તે વધારામાં.
વિશાળ કદમાં સતત આવી રહેલા ડેટા ત્યારે જ ઉપયોગી બને છે જ્યારે તેમાં રહેલી ગુપ્ત ઢબ કે પેટર્ન તથા અંદરોદર રહેલા સંબંધોને શોધી શકાય. શહેરોમાં જાહેર સ્થળોએ વધતી જતી ગુનાખોરીને ડામવા માટે પોલીસતંત્રએ આ જાણવું જરૂરી છે કે કયા સમય દરમ્યાન, કયા કયા સ્થળે, કેવા કેવા સંજોગો હેઠળ વધુ ગુનાઓ જોવા મળે છે. તેના આધારે પોલીસ કર્મચારીઓને તેના આધારે કામગીરી સોંપવામાં આવે તો પોલીસતંત્ર ગુનાઓ થાય તે પહેલાં જ ગુનેગારોને પકડી શકે. અમેરિકાના જાણીતા સ્ટોર ટાર્ગેટે ડેટા આધારિત એવા નિયમો તૈયાર કર્યા છે કે જેના આધારે ખ્યાલ આવી જાય કે તેના મહિલા ગ્રાહકો સગર્ભા છે કે નહીં. તેના આધારે સગર્ભા મહિલાઓને ભવિષ્યમાં જરૂર પડનારી તમામ ચીજવસ્તુઓ ખરીદવા અંગે તેમ જ તે માટે ખાસ વેચાણ વળતરની સ્કીમની અગાઉથી જાણકારી આપી દે. આવા પ્રકારના કાર્યો માટે ડેટા માઇનીંગનો સવિશેષ ઉપયોગ કરવામાં આવે છે.