داده تاریک (Dark Data)، یکی از تازهترین مباحث در مقوله دادههای بزرگ و تجزیه و تحلیل آنها است و تلاش میکند به پرسش بالا پاسخ دهد؛ مبحثی که اگر به درستی شناخته و به کار گرفته شود، نه تنها میتواند منبع درآمد مناسبی برای سازمانها و شرکتهای بزرگ باشد؛ بلکه از یک سو میتواند باعث تحرک و رونق شرکتهای فنی مرتبط با بیگ دیتا، پردازش و تجزیهوتحلیل، دادهکاوی و ذخیرهسازی دادهها شود و از سوی دیگر، میتواند اطلاعات بسیار مناسبی را برای شناخت رفتار کاربران در اندازههای بزرگ، در اختیار اقتصاددانان، جامعه شناسان، روانشناسان اجتماعی و برنامهریزان شهری قرار دهد.
دارک دیتا چیست؟
تعریف موسسه گارتنر از دارک دیتا چنین است: «اطلاعاتی که یک سازمان در طول فعالیت عادی خود، گردآوری، پردازش و ذخیرهسازی کرده است و جزیی از داراییهای آن به حساب میآید؛ اما نتوانسته است برای مقاصد دیگری از آنها استفاده کند».
عدهای در تعریف دارک دیتا، بر نقش آن در تصمیمگیریهای سازمانها و راهبردهای آنان در آینده، تاکید می کنند. سازمانهای بزرگی مانند تامین اجتماعی و سایر موسسات بیمهای، سازمان فنی حرفهای، آموزش و پرورش، بانکها، شرکت های ارائهکننده خدمات تلفن ثابت و همراه و تعداد زیادی از موسسات دیگر با این مبحث مرتبط هستند. یکی از این سازمانها را در نظر بگیرید. این سازمان در جهت انجام کارهای عادی خود در طول یک سال، با دهها و بلکه صدها هزار انسان سر و کار دارد و به نوعی، اطلاعات آنها را در جایی ذخیره میکند؛ اما در بسیاری از موارد، به غیر از همان استفاده اولیه از این اطلاعات، هیچگونه استفاده دیگری از این دادهها صورت نمی گیرد.
نه تنها در ایران، بلکه آنچنان که متخصصان امر میگویند، در بسیار از کشورهای دنیا، اغلب دادههای سازمانهای بزرگ را باید در شمول دارک دیتا تلقی کرد؛ اگرچه بخشی از این داده شاید، جزء حریم خصوصی مردم باشد و استفاده از آنها چه به لحاظ قانونی و چه به لحاظ اخلاقی، مجاز نباشد؛ اما بخشهای دیگری از آنها میتواند، در مقاصد پژوهشی و بررسیهای اجتماعی و راهبردهای کلان اقتصادی، مورد استفاده قرار گیرد. یکی از مشکلات مربوط به این دادهها، ذخیرهسازی و امن نگه داشتن آنهاست که هزینه بالایی طلب میکند و این در حالی است که در بسیاری از موارد، هنوز ارزش این داده ها مشخص نشده است. دارک دیتا، نوعا بدون ساختار، بدون برچسب و دستنخورده، در درون انبارههای ذخیرهسازی یافت میشود و عموما تجزیه و تحلیل نشده است. این دادهها شبیه بیگدیتاها هستند؛ با این تفاوت که ارزش آن ها عمدتا توسط سازمان یا مدیران آیتی، مورد غفلت قرار گرفته است. اغلب دادههای تاریک، بهگونهای ذخیره شدهاند که برای تجزیه و تحلیل دشوار، پیچیده و پرهزینه هستند؛ همچنین این دادهها میتوانند اطلاعاتی را شامل شوند که توسط خود شرکت تهیه نشدهاند و خارج از سازمان، توسط مشتریان یا شرکا ذخیره شدهاند.
با رشد نمایی دادههای ساختیافته، نیمهساختیافته و بدون ساختار در سازمانها، دارک دیتا به معنای دادههای عملیاتی در نظر گرفته میشود که میتواند قابلیت تجزیه وتحلیل را پیدا کند؛ اگر شرکتها ارزش این دادهها را بدانند، میتوانند از آنها به عنوان فرصتی برای افزایش درآمد یا کاهش هزینههای داخلی خود، استفاده کنند. بعضی از دادههایی که میتوانند در این دسته قرار بگیرند، شامل این موارد هستند: فایلهای لاگسرور که کلیدهای رفتاری بازدیدکنندگان وبسایتها را ارائه میدهند، جزییات ضبط شده تماسهای تلفنی که احساسات و عواطف مشتریان را نشان میدهد یا دادههای مربوط به موقعیتهای مکانی دارندگان موبایل، که الگوهای ترافیکی را آشکار میکنند؛ همچنین دارک دیتا میتواند برای توصیف دادههایی به کار رود که مدتهاست در دسترس نیستند؛ زیرا روی وسایلی ذخیره شدهاند که منسوخ شدهاند.
انواع دارک دیتا
1. داههایی که به تازگی جمعآوری نشدهاند.
2. دادههایی که جمعآوری شدهاند؛ اما دسترسی به آنها در زمان و در جای مناسب دشوار است.
3. دادههایی که جمعآوری شدهاند و در دسترس هستند، اما هنوز پردازش نشدهاند.
شاید بتوان به این سه دسته از دادهها، نوع چهارمی را نیز افزود که شامل دادههایی میشود که سازمانها هر روز آنها را تولید میکنند؛ اما در جایی ذخیره نمیکنند.
داده تاریک برخلاف ماده تاریک، این ظرفیت را دارد که پرتو نوری برآن افکنده شود و سرمایهگذاری مجددی روی آن انجام شود؛ در واقع موضوع اصلی این است که چگونه میتوان با استفاده از روشهای علمی و بر اساس روش فایده- هزینه، پیچیدگیها و رمز و راز اطراف داده تاریک را حذف کرد و آن را برای استفاده و سرمایهگذاری مجدد آماده کرد.
ارزش داده تاریک
اولین چالشی که داده تاریک در مقابل ما میگذارد، تعیین ارزش واقعی آن است؛ البته اگر اساساً ارزشی داشته باشد؛ در هر صورت مقداری از داده، تاریک باقی میماند؛ زیرا سازمانها اساسا نمیدانند که این دادهها چه هستند. از بین بردن آنها ممکن است خطر بزرگی در بر داشته باشد؛ اما تحلیل آنها نیز هزینهبر است. برآورد این هزینه، برای کاری که ارزش آن نامشخص است، سخت است. مساله مهم این است که سازمان باید دلیلی داشته باشد که به سرعت و با هزینه متناسب، دادهها را مرتب کند، ساختار دهد و تحلیل کند؛ در واقع باید به این مهم برسیم که دارک دیتا اتفاقی نیست که تنها یک بار میافتد. در اولین قدم برای درک ارزش دارک دیتا، باید مشخص کنیم که این دادهها شامل چه اطلاعاتی هستند، کجا نگهداری میشود و وضعیت فعلی آنها، به لحاظ زمانی که از آنها گذشته، چگونه است. برای رسیدن به این نقطه، به این موارد نیاز داریم:
تجزیه و تحلیل داده برای درک اینکه، در حال حاضر میزان آن چقدر است، کجاست و همچنین به لحاظ اینکه ساختاریافته، بدون ساختار یا نیمهساختیافته است.
طبقهبندی داده برای اینکه قابل فهم باشد و همچنین از هر نوع داده چه مقدار داریم و طبیعت کلی اطلاعات، شامل کدام نوع است و مواردی مانند سن داده و … .
دستهبندی اطلاعات بر این مبنا که بعدا چه اتفاقی برای آنها میافتد؛ آرشیو میشوند؛ نابود میشوند یا به مطالعه عمیق احتیاج دارند. وقتی تصمیم گرفتیم، میتوانیم هر گروه را به خانه مناسب آن ارسال کنیم تا آن دسته از دادههایی که به مطالعه بیشتر نیاز دارند را پیدا کنیم. هنگامی که زمینه مرتبط با اطلاعات را پیدا کردیم، حالا باید روی دادههایی که ممکن است بینشی به ما بدهند، تمرکز کنیم. در این صورت تصویر بزرگتری از رابطه این اطلاعات با سازمان خود خواهیم داشت و میتوانیم سیاستهای کاری خود را در مورد این اطلاعات به گونهای تنظیم کنیم که از وزن و بار داه تاریک کاسته و امکان استفاده از آن فراهم شود.
آینده داده تاریک
شاید برای شرکتهایی که تازه شروع به فعالیت میکنند، در کوتاه مدت، موضوع دادههای تاریک خیلی مهم نباشد. آنها دادههای تازه خود را تولید میکنند؛ اما در گذر زمان یک روز متوجه میشوند که انبوهی از دادهها که نمیدانند چیست، در انبارههای خود ذخیره کردهاند و نمیدانند با آنها چه کنند. اینجاست که باید به سراغ افراد و شرکتهایی بروند که این توانایی را دارند که بتوانند از دادههای تاریک ارزش بیافرینند.
بسیاری از متخصصان حوزه بیگ دیتا و دادهکاوی، باید خود را برای این حوزه جدید آماده کنند. حوزهای که این بار چیزهای باارزش را، از دل تاریکیها بیرون میکشد؛ البته تعدادی از صاحب نظران این حوزه، پرداختن به دادههای تاریک را خطرناک میدانند. عمده این خطرات، مشکلات قانونی و آلودگی اطلاعاتی و مسائل اخلاقی هستند که در آینده به آن ها خواهم پرداخت؛ بدیهی است، بحثهایی که در این مقاله در جهت استفاده از داده تاریک به آنها اشاره کردیم، با در نظر داشتن مباحث قانونی و اخلاقی بوده است. دادههایی از این دست، جزء داراییهای هر سازمان به حساب میآیند و تصمیم گیری در مورد استفاده یا عدم استفاده از آنها، تنها برعهده مالک آن و با رعایت موازین قانونی و اخلاقی، مجاز است.
چه کسانی با دارک دیتا سر وکار دارند؟
1. شرکتها و سازمانهایی که با حجم زیادی از اطلاعات کارمندان، مشتریان و سرمایهگذاران در ارتباط هستند؛ مانند شرکتهای بیمه، خودروسازی، لیزینگ، هولدینگ، بانکها، آموزش و پرورش، دانشگاههای بزرگ و وزارتخانهها.
2. وب سایتهایی که در کار خرید فروش کالا و خدمات هستند یا وبسایتهای خبری و محتوایی که با مخاطبان زیادی سروکار دارند.
3. شرکتهای کامپیوتری که در کار هوش مصنوعی، دیتا ماینینگ بیگدیتا
و ذخیرهسازی دادهها هستند.
4. شرکتهایی که در کار ساخت و یا ارائه دیتاسنتر و دیگر ابزارهای شبکه هستند .
5. شرکتهایی که ارائهدهنده خدمات تلفن همراه، اینترنت موبایل، هاستینگ، دامنه و … هستند.
6. متخصصان هوش مصنوعی، بیگدیتا، شبکه، مدیران آیتی شرکتها و سازمانهای بزرگ.
جمعبندی: مزایا و معایب
شاید کمتر کسی فکر کند که اطلاعات خاموش و تاریک نهفته در دل دیسکهای فشرده، هاردیسکها و انبارههای ذخیرهسازی سازمانهای بزرگ، میتوانند راهگشای بعضی از مشکلات جوامع امروزی باشند؛ همچنین میتوانند به وجودآورنده ارزشهای مالی برای سازمانها و رونقدهنده کسبوکار شرکتهای فناوری در حوزه شبکه و دیتا باشند؛ اما این واقعیتی است که در جوامع پیشرفته، به یک کسب وکار پررونق و تاثیرگذار تبدیل میشود؛ در عین حال، اگر این کار توسط افراد دارای صلاحیت و با رضایت مالک آن صورت نگیرد، میتواند مشکلات بزرگی را برای افراد و سازمانها پدید آورد. در این مقاله سعی کردیم توجه سه دسته مخاطب را به یک موضوع تازه جلب کنیم: اول شرکتها و سازمانهای بزرگ که صاحب دارکدیتا هستند؛ دوم شرکتهای تخصصی و افراد متخصصی که توانایی خوانش، پردازش مجدد، تجزیه و تحلیل و کشف معانی تازه از چنین دادههایی را دارند و در نهایت افراد و موسسات علاقه مند به مباحث اقتصادی و اجتماعی، که احتمالا میتوانند در مبحث دارک دیتا، منافعی را برای جامعه بیابند.