دریاچه داده چیست؟
لینك بگیر دات كام: با بیان ساده، مفهوم دریاچه داده را می توان اینگونه توضیح داد كه اگر انبار داده را مشابه یك بطری آب تصفیه شده، بسته بندی شده و آماده مصرف در نظر بگیریم، دریاچه داده (همانند نام آن) دریاچه ای است كه آب از منابع مختلف ( آب باران، چشمه ها، رودها یا منابع دیگر) در آن سرازیر شده و افراد می توانند از آب دریاچه برای شنا، آشامیدن یا حتی نمونه برداری! استفاده كنند.
به گزارش لینك بگیر دات كام به نقل از ایسنا، امروزه داده ها بسیار سریع در حال شكل گیری هستندف داده هایی كه توسط وب سایت ها، صفحات شبكه های اجتماعی و غیره تولید می شوند. كارشناسان بر این عقیده هستند كه رشد حجم بالای داده ها سبب شده تا مدلهای ذخیره سازی و تحلیل های مبتنی بر كامپیوتر های منفرد، پاسخ گوی آن ها نباشند. از جانب دیگر عوامل متعددی سبب شده تا مدل انبار داده سنتی به صورت جدی به چالش كشیده شود.
در این راستا مفاهیم دریاچه داده و دریاچه اطلاعات امنیتی تخصصی و نسبتاً جدید هستند؛ یك دریاچه داده یك مخزن طراحی شده برای ذخیره مقادیر زیادی از داده ها در شكل بومی است. بر مبنای اطلاعات سایت پلیس فتا، این داده ها می توانند ساختار بندی شده، نیمه ساختار یافته یا بدون ساختار و شامل جداول، فایل های متنی، لاگ سیستم و بیشتر باشند.
این واژه توسط جیمز دیكسون، CTO، یك شركت نرم افزاری هوش تجاری، به كار گرفته شد و هدف از آن تولید یك مخزن بزرگ است كه مقادیر گسترده ای از داده ها را می توان در آن ریخت. كاربران كسب وكار تماماً می توانند وارد دریاچه داده ها شوند و نوع اطلاعاتی كه برای كاربرد آن ها نیاز دارند را دریافت كنند. این مفهوم با انفجار داده های ماشینی و كاهش سریع هزینه ذخیره سازی به محبوبیت رسید.
در صورتی كه بخواهیم تفاوت های رویكرد دریاچه داده و انبار داده در تحلیل داده ها را بیان نماییم، می توانیم با عنایت به آنچه كه در بعضی از سایت های تخصصی این حوزه در تعریف این مفهوم مطرح شده، به موارد زیر بعنوان تفاوت های اساسی اشاره كنیم:
داده ها كاملاً در دریاچه داده قرار می گیرند و از هیچ داده ای صرف نظر نمی گردد. این رویكرد برخلاف رویكرد انبار داده در ذخیره سازی و پالایش داده هاست كه در آن تنها اطلاعاتی در انبار داده قرار می گیرد كه بتواند در تحلیل ها مورد استفاده قرار گیرد.
داده های پایین ترین سطوح (مثلاً توضیحات یك فرد در یك مقاله یا یك وب سایت) بدون تغییر یا با حداقل تغییرات به دریاچه داده منتقل می شوند كه این مهم، برخلاف رویكرد انبار داده است كه تبدیل و تغییر (Transformation) یكی از پیش فرض های اساسی و اولیه ورود اطلاعات به آن به حساب می آید.
بر این اساس در مثال قبل ممكن است برای ذخیره سازی توضیحات یك فرد در یك مقاله یا وب سایت با مدل انبار داده تنها به استخراج كلید واژه ها از توضیحات و ذخیره سازی آن در یك جدول بانك اطلاعاتی بسنده كرد. در دریاچه داده توضیحات فرد، نحوه پیمایش یك سایت توسط كاربر و اطلاعات سنسورهایی كه توسط دستگاه ها تولید شده است، بدون توجه به منبع و ساختار ذخیره می شوند.
این رویكرد ذخیره سازی داده ها كه در آن داده، بدون توجه به ساختار و منبع ذخیره می شود، اصطلاحاً «خواندن با ساختار» (Schema On Read) نامیده می گردد. این نگاهی متفاوت از ذخیره سازی داده ها در انبار داده است كه در آن، ابتدا ساختاری كه داده ها باید در آن قرار گیرد طراحی می گردد و سپس داده ها در ساختار قرار می گیرند كه به آن نوشتن با ساختار (Schema On Write) گفته می گردد.
نزدیك به ۸۰ درصد از استفاده كنندگان از اطلاعات در بیشتر سازمان ها، استفاده كنندگان عملیاتی محسوب می شوند. نیاز این دسته از كاربران این است كه گزارش ها و شاخص های مورد نیاز خویش را مشاهده كنند. این موارد معمولاً دارای ساختاری از پیش تعریف شده هستند و رویكرد انبار داده به علت ساخت یافته بودن اطلاعات، برای این دسته از كاربران قابل درك و استفاده است.
درصد كمی از كاربران سازمان ها نیازمند تحلیل های عمیق و پیچیده بر روی داده ها هستند. دانشمندان و تحلیل گران داده (Data Scientists) جزو این دسته از كاربران قرار می گیرند. این گروه از كاربران، از انواع داده های ساخت یافته یا ساخت نیافته و ابزارهای تجزیه و تحلیل پیشرفته بر روی داده ها مانند داده كاوی، متن كاوی، تحلیل آماری، مدلهای پیش بینی كننده، تحلیل جریان پیمایش یك سایت و روش های مشابه استفاده می نمایند.
اما معمولا ۱۰ درصد از كاربران یك سازمان نیاز به تجزیه و تحلیل عمیق داده ها پیدا می كنند. این دسته از كاربران می توانند از انبار داده برای تجزیه و تحلیل های مورد نیاز خود استفاده كنند اما گاهی اوقات، نیاز به دسترسی به منبع اصلی داده مورد نیاز است و كاربران ناچارند به داده ها در سیستم های تولیدكننده آن رجوع كنند.
با توجه به اینكه در فرآیند تحلیل های پیشرفته، تحلیل گر از قبل، درباره اینكه چه خصوصیت ها یا داده هایی موردنیاز هستند و از كدام یك باید صرف نظر شود آگاه نیست، رویكرد خواندن با ساختار (Schema On Read) و عدم حذف یا تبدیل اطلاعات بهتر می تواند به نیاز تحلیلیِ این دسته از كاربران پاسخ دهد.
در هر حال تفاوت های كلیدی بین دریاچه های داده و انبارهای داده وجود دارد كه به صورت سنتی برای تحلیل داده ها مورد استفاده قرار گرفته اند. اول، انبارهای داده برای داده های ساختار یافته طراحی شده اند. یك واقعیت اینكه دریاچه های داده یك طرح را به داده ها تحمیل نمی كنند. در عوض، زمانی كه داده ها خوانده شده و یا از دریاچه داده ها بیرون كشیده می شوند، طرح مورد استفاده قرار می گیرد. در نهایت، دریاچه های داده در محبوبیت با افزایش داده های دانشمندان، كه تمایل به كار بیشتر در یك تبلیغ دارند، نسبت به تحلیل گران كسب و كار قبلی، رشد كرده اند.
5.0 / 5
5066
این مطلب را می پسندید؟
(1)
(0)
تازه ترین مطالب مرتبط
نظرات بینندگان در مورد مطلب دریاچه داده چیست؟