بهگفته کایل کروان، یکی از بنیانگذاران و مدیرعامل پلتفرم مشاهدهپذیری داده بیگآی، تعداد کمی از شرکتها منابع مورد نیاز برای توسعه ابزارهایی مانند مشاهدهپذیری دادهها در مقیاسهای کلان را دارند.
بهگفته کایل کروان
[1]، یکی از بنیانگذاران و مدیرعامل پلتفرم مشاهدهپذیری داده بیگآی
[2]، تعداد کمی از شرکتها منابع مورد نیاز برای توسعه ابزارهایی مانند مشاهدهپذیری دادهها در مقیاسهای کلان را دارند. در نتیجه، بسیاری از شرکتها اساساً چشم خود را بر حقایق میبندند و وقتی مشکلی پیش میآید به جای رسیدگی به کیفیت دادهها، فقط واکنش نشان میدهند. این در حالی است که هزینه پاکسازی داده برای کسب و کارها به مراتب بیشتر از ایجاد منطقهای امن و جلوگیری از آلوده شدن به دادههای کثیف است. درواقع اعتماد به دادهها یک چارچوب قانونی برای مدیریت دادههای به اشتراک گذاشته شده ارائه میدهد. این مهم، همکاریها را از طریق قوانین مشترک برای امنیت دادهها، حریم خصوصی و محرمانه بودن ارتقا میدهد و سازمانها را قادر میسازد تا به طور ایمن منابع داده خود را در مرکز مشترک دادهها به هم متصل کنند.
در این راستا شرکت بیگآی مهندسان داده، تحلیلگران، دانشمندان و سهامداران را گرد هم میآورد تا به دادهها اعتماد ایجاد کند. پلتفرم بیگآی به شرکتها کمک میکند تا نظارت و تشخیص ناهنجاریها را خودکار کرده و یک قرارداد سطح خدمات
[3](SLA) ایجاد کنند تا از کیفیت داده و خطوط انتقال آن اطمینان حاصل کنند. درواقع تیمهای داده میتوانند با دسترسی کامل به واسط برنامهنویسی
[4](
API)، یک رابط کاربر پسند و سفارشیسازی خودکار و در عین حال انعطافپذیر، بر کیفیت دادهها نظارت کرده، به طور فعال مشکلات را شناسایی و حل نموده و اطمینان حاصل کنند که هر کاربر میتواند به دادهها اعتماد کند.
تجربه اوبر[5]
ایده تشکیل بیگآی از آنجا نشأت گرفت که دو عضو اولیه تیم داده در اوبر یعنی کروان و گریاژنف
[6] (بنیانگذار و مدیر ارشد فناوری بیگآی) تصمیم گرفتند از آنچه در مقیاس اوبر یاد گرفتهاند برای ایجاد ابزارهای اجاره نرمافزار
[7] با قابلیت استقرار آسانتر برای مهندسین داده استفاده کنند. کروان یکی از اولین دانشمندان داده اوبر و اولین مدیر محصول ابرداده بود. گریازنوف نیز یک مهندس در سطح کارکنان بود که انبار دادهای در اوبر را مدیریت کرد و چندین ابزار و چارچوب مهندسی داده داخلی را توسعه داد. آنها متوجه شدند که تیمهایشان ابزارهایی را برای مدیریت منابع دادههای عظیم اوبر میسازند و هزاران کاربر داخلی داده از آنچه برای اکثر تیمهای مهندسی داده در دسترس بود بسیار جلوتر هستند. باید توجه داشت که نظارت و شناسایی خودکار مسائل مربوط به قابلیت اطمینان در هزاران جدول انبارهای داده، کار سادهای نیست. شرکتهایی مانند داکر
[8] و بیگآی از کلابهوس
[9] استفاده میکنند تا فرایند تجزیهوتحلیل و یادگیری ماشین خود را بهطور مستمر ادامه دهند.
یک میدان در حال رشد
درواقع کروان و گریاژنف با تأسیس بیگآی در سال 2019، مشکل رو به رشدی را تشخیص دادند که شرکتها در به کارگیری دادهها در موارد استفاده با بازگشت سرمایه بالا مانند گردش کار عملیات، محصولات و خدمات مبتنی بر یادگیری ماشین، تصمیمگیری مبتنی بر هوش تجاری و تجزیه و تحلیل استراتژیک با آن مواجه هستند. نکته قابل توجه آنکه، برخلاف وجود چندین شرکت فعال در فضای مشاهدهپذیری دادهها در سال 2021، بیگآی با ارائه قابلیت ارزیابی خودکار کیفیت دادههای مشتری با بیش از 70 معیار منحصر به فرد کیفیت داده، خود را از آن مجموعه جدا کرد. این معیارها با هزاران مدل تشخیص ناهنجاری جداگانه آموزش داده میشوند تا اطمینان حاصل شود که مشکلات کیفیت داده - حتی سختترین آنها - هرگز از سوی مهندسان داده بدون پاسخ نخواهد ماند.
این روند روبهرشد همچنان ادامه دارد بهنحویکه در سال گذشته، حداقل ۱۰ شرکت نوپای مشاهدهپذیری دادهها که گردشهای مالی قابل توجهی را اعلام کردند، وارد صحنه شدند. کروان پیشبینی کرد که امسال نیز روند توجه و اولویتدهی به فرایند مشاهدهپذیری دادهها با رشد مواجه خواهد بود، زیرا آنها به دنبال متعادلکردن تقاضای مدیریت دستگاههای پیچیده با نیاز به اطمینان از کیفیت داده و قابلیت اطمینان انتقال آن هستند.
خلاصه راه حل
از جمله ویژگیهای بیگآی این است که افراد نمیتوانند خودشان الگوریتمهای نرمافزاری را تغییر دهند. همچنین، این شرکت از مدلهای اختصاصی خودش برای تشخیص ناهنجاریهای مختلف دادهها استفاده میکند. درواقع هرچند بیگآی یکی از طرفداران بزرگ (پروپاقرص) رویکردهای بهاصطلاح متن باز
[10] است، اما تصمیم گرفته تا گزینههای خود را برای دستیابی به اهداف عملکرد تعیینشده داخلی توسعه دهد. علاوهبراین، یادگیری ماشین در چند مسئله کلیدی استفاده میشود تا ترکیبی منحصربهفرد از معیارها را در هر جدول در منابع داده متصل مشتری به ارمغان بیاورد. مدلهای تشخیص ناهنجاری بر روی هر یک از آن معیارها برای تشخیص رفتار غیرعادی آموزش داده شدهاند. البته برخی از ویژگیهای درجه سازمانی مانند کنترل دسترسی کامل مبتنی بر نقش هنوز در نقشه راه هستند و عملیاتی نشدهاند.
علاوهبر آنچه بیان گردید، سه ویژگی داخلی به طور خودکار مسائل مربوط به کیفیت دادهها را شناسایی کرده و ضمن اعلام هشدار، قرارداد سطح خدمات کیفیت داده را فعال میکند: نخست، دلتا
[11]، مقایسه و اعتبارسنجی چند نسخه از هر مجموعه داده را آسان میکند؛ ویژگی بعدی، هشدارهای متعدد را در یک جدول زمانی واحد با زمینه ارزشمند در مورد مسائل مرتبط با هم قرار میدهد. این باعث میشود که مستندسازی اصلاحات گذشته و بالابردن کیفیت و وضوح آسانتر شود؛ و سومی، داشبورد، نمای کلی از سلامت دادهها را ارائه میدهد و به شناسایی نقاط مهم کیفیت دادهها، بستن شکافها در پوشش نظارت و تعیین کمیت ارتقای یک تیم در قابلیت اطمینان کمک میکند.
همه این ویژگیها بدین خاطر پیشبینی و طراحی شده که مشاهدهپذیری دادهها، مستلزم آگاهی دائمی و کاملی است از آنچه درون همه جداول و خطوط انتقال داده اتفاق میافتد. این شبیه به همان چیزی است که تیمهای مهندسی قابلیت اطمینان سایت و
DevOps[12] از آن برای کارکردن برنامهها و زیرساختها در شبانهروز استفاده میکنند. اما این قابلیت برای دنیای مهندسی داده و علم داده دوباره مورد توجه قرار گرفته است.
درحالیکه کیفیت دادهها و قابلیت اطمینان دادهها برای چندین دهه یک موضوع چالشی به شمار میرفته است، اما در حال حاضر برنامههای کاربردی داده برای تعداد زیادی از کسبوکارهای پیشرو بسیار مهم هستند، چراکه هرگونه ازدستدادن، قطع یا تخریب دادهها میتواند بهسرعت منجر به ازدستدادن مشتریان و درنتیجه کاهش درآمد شود. درواقع، بدون مشاهدهپذیری دادهها، فروشندههای داده باید دائماً به مسائل مربوط به کیفیت داده واکنش نشان دهند و مجبورند هنگام استفاده از دادهها، آنها را درگیر کنند. راهحل بهتر، شناسایی پیشگیرانه مسائل و رفع علل ریشهای است.
چگونه اعتماد بر دادهها تأثیر میگذارد؟
نکته قابلتوجه اینکه عمدتاً مشکلات بهوسیله ذینفعان مانند مدیرانی که به پیشخوان غالباً خراب خود اعتماد ندارند، کشف میشوند. همچنین بعید نیست که کاربران خودشان نتایج گیجکنندهای را از مدلهای یادگیری ماشین حین کار با محصول دریافت کنند. ازاینرو، اگر به مهندسان داده زودتر هشدار داده شود، همیشه یک قدم از مسائل جلوتر بوده و بهتر میتوانند مشکلات را برطرف کنند و از تأثیرات منفی تجاری آن جلوگیری کنند.
این فناوری با چه چالشهایی روبروست؟
اما این فناوری با چالشهایی در رابطه با کشف و مدیریت دادهها، ردیابی و مدیریت هزینه، کنترلهای دسترسی نحوه مدیریت تعداد روزافزون پرسوجوها، مسائل داشبوردها و ویژگیها و مدلهای آنها روبهروست. البته قابلیت اطمینان و زمان بهروزرسانی، مهمترین چالشهایی هستند که بسیاری از تیمهای
DevOps مسئولیت آنها را بر عهده دارند. اما آنها اغلب با جنبههای دیگری مانند سرعت توسعهدهنده و ملاحظات امنیتی نیز همراه هستند. در این دو حوزه، مشاهدهپذیری دادهها، تیمهای داده را قادر میسازد تا بدانند که آیا دادهها و خطوط دادهشان بدون خطا هستند یا خیر.
در این رابطه کروان معتقد است که سیستمهای قابلمشاهده مؤثر دادهها باید در جریان کار تیم داده ادغام شوند. این مسئله به آنها امکان میدهد تا به جای واکنش مداوم به مسائل داده و خاموشکردن آتش دادهها، روی رشد پلتفرمهای داده خود تمرکز کنند. بااینحال، یک سیستم مشاهدهپذیری داده با تنظیم ضعیف، میتواند منجر به امید و اعتماد کاذب شود. یک سیستم داده موثر همچنین باید با تطبیق خودکار با تغییرات کسبوکار، بخش زیادی از تعمیر و نگهداری را از آزمایش مسائل مربوط به کیفیت دادهها حذف کند. بااینحال، یک سیستم مشاهدهپذیری دادهای که بهینه نشده، ممکن است تغییرات در کسبوکار را اصلاح نکند یا برای تغییرات کسبوکار بیشازحد تصحیح انجام دهد که نیاز به تنظیم دستی دارد و البته این امر میتواند زمانبر باشد.
برگرفته از:
پیوند منبع
مهدی رعایائی (پژوهشگر میانرشتهای فضای مجازی)، محسن رعایائی (پژوهشگر میانرشتهای فضای مجازی)
گروه مطالعات اخلاقی فضای مجازی
[3] :Service Level Agreement یک قرارداد دو جانبه بین خدمت دهنده و خدمت گیرنده است که براساس توافق و به منظور تضمین پارامترهای کیفیت خدمات توافق شده منعقد میشود.
[4] واسط بین یک کتابخانه یا سیستمعامل و برنامههایی است که از آن تقاضای سرویس میکنند.
[12] ترکیبی از فلسفهها، شیوهها و ابزارهای فرهنگی است که توانایی سازمان را برای ارائه برنامهها و خدمات با سرعت بالا افزایش میدهد.