• چالش اخلاقی بزرگ مشاهده‌پذیری داده‌ها: ایجاد اعتماد در مقیاس‌های کلان

      چالش اخلاقی بزرگ مشاهده‌پذیری داده‌ها: ایجاد اعتماد در مقیاس‌های کلان

      چالش اخلاقی بزرگ مشاهده‌پذیری داده‌ها: ایجاد اعتماد در مقیاس‌های کلان

      به‌گفته کایل کروان، یکی از بنیانگذاران و مدیرعامل پلتفرم مشاهده‌پذیری داده بیگ‌آی، تعداد کمی از شرکت‌ها منابع مورد نیاز برای توسعه ابزارهایی مانند مشاهده‌پذیری داده‌ها در مقیاس‌های کلان را دارند.

      به‌گفته کایل کروان[1]، یکی از بنیانگذاران و مدیرعامل پلتفرم مشاهده‌پذیری داده بیگ‌آی[2]، تعداد کمی از شرکت‌ها منابع مورد نیاز برای توسعه ابزارهایی مانند مشاهده‌پذیری داده‌ها در مقیاس‌های کلان را دارند. در نتیجه، بسیاری از شرکت‌ها اساساً چشم خود را بر حقایق می‌بندند و وقتی مشکلی پیش می‌آید به جای رسیدگی به کیفیت داده‌ها، فقط واکنش نشان می‌دهند. این در حالی است که هزینه پاک‌سازی داده‌ برای کسب و کارها به مراتب بیشتر از ایجاد منطقه‌ای امن و جلوگیری از آلوده شدن به داده‌های کثیف است. درواقع اعتماد به داده‌ها یک چارچوب قانونی برای مدیریت داده‌های به اشتراک گذاشته شده ارائه می‌دهد. این مهم، همکاری‌ها را از طریق قوانین مشترک برای امنیت داده‌ها، حریم خصوصی و محرمانه بودن ارتقا می‌دهد و سازمان‌ها را قادر می‌سازد تا به طور ایمن منابع داده خود را در مرکز مشترک داده‌ها به هم متصل کنند.

      در این راستا شرکت بیگ‌آی مهندسان داده، تحلیلگران، دانشمندان و سهامداران را گرد هم می‌آورد تا به داده‌ها اعتماد ایجاد کند. پلتفرم بیگ‌آی به شرکت‌ها کمک می‌کند تا نظارت و تشخیص ناهنجاری‌ها را خودکار کرده و یک قرارداد سطح خدمات [3](SLA) ایجاد کنند تا از کیفیت داده و خطوط انتقال آن اطمینان حاصل کنند. درواقع تیم‌های داده می‌توانند با دسترسی کامل به واسط برنامه‌نویسی [4](API)، یک رابط کاربر پسند و سفارشی‌سازی خودکار و در عین حال انعطاف‌پذیر، بر کیفیت داده‌ها نظارت کرده، به طور فعال مشکلات را شناسایی و حل نموده و اطمینان حاصل کنند که هر کاربر می‌تواند به داده‌ها اعتماد کند.

      تجربه اوبر[5]
      ایده تشکیل بیگ‌آی از آنجا نشأت گرفت که دو عضو اولیه تیم داده در اوبر یعنی کروان و گریاژنف[6] (بنیان‌گذار و مدیر ارشد فناوری بیگ‌آی) تصمیم گرفتند از آنچه در مقیاس اوبر یاد گرفته‌اند برای ایجاد ابزارهای اجاره نرم‌افزار[7] با قابلیت استقرار آسان‌تر برای مهندسین داده استفاده کنند. کروان یکی از اولین دانشمندان داده اوبر و اولین مدیر محصول ابرداده بود. گریازنوف نیز یک مهندس در سطح کارکنان بود که انبار داده‌ای در اوبر را مدیریت کرد و چندین ابزار و چارچوب مهندسی داده داخلی را توسعه داد. آن‌ها متوجه شدند که تیم‌هایشان ابزارهایی را برای مدیریت منابع داده‌های عظیم اوبر می‌سازند و هزاران کاربر داخلی داده از آنچه برای اکثر تیم‌های مهندسی داده در دسترس بود بسیار جلوتر هستند. باید توجه داشت که نظارت و شناسایی خودکار مسائل مربوط به قابلیت اطمینان در هزاران جدول انبارهای داده، کار ساده‌ای نیست. شرکت‌هایی مانند داکر[8] و بیگ‌آی از کلاب‌هوس[9] استفاده می‌کنند تا فرایند تجزیه‌وتحلیل و یادگیری ماشین خود را به‌طور مستمر ادامه دهند.

      یک میدان در حال رشد
      درواقع کروان و گریاژنف با تأسیس بیگ‌آی در سال 2019، مشکل رو به رشدی را تشخیص دادند که شرکت‌ها در به کارگیری داده‌ها در موارد استفاده با بازگشت سرمایه بالا مانند گردش کار عملیات، محصولات و خدمات مبتنی بر یادگیری ماشین، تصمیم‌گیری مبتنی بر هوش تجاری و تجزیه و تحلیل استراتژیک با آن مواجه هستند. نکته قابل توجه آنکه، برخلاف وجود چندین شرکت فعال در فضای مشاهده‌پذیری داده‌ها در سال 2021، بیگ‌آی با ارائه قابلیت ارزیابی خودکار کیفیت داده‌های مشتری با بیش از 70 معیار منحصر به فرد کیفیت داده، خود را از آن مجموعه جدا کرد. این معیارها با هزاران مدل تشخیص ناهنجاری جداگانه آموزش داده می‌شوند تا اطمینان حاصل شود که مشکلات کیفیت داده - حتی سخت‌ترین آن‌ها - هرگز از سوی مهندسان داده بدون پاسخ نخواهد ماند.
      این روند روبه‌رشد همچنان ادامه دارد به‌نحوی‌که در سال گذشته، حداقل ۱۰ شرکت نوپای مشاهده‌پذیری داده‌ها که گردش‌های مالی قابل توجهی را اعلام کردند، وارد صحنه شدند. کروان پیش‌بینی کرد که امسال نیز روند توجه و اولویت‌دهی به فرایند مشاهده‌پذیری داده‌ها با رشد مواجه خواهد بود، زیرا آن‌ها به دنبال متعادل‌کردن تقاضای مدیریت دستگاه‌های پیچیده با نیاز به اطمینان از کیفیت داده و قابلیت اطمینان انتقال آن هستند.

      خلاصه راه حل
      از جمله ویژگی‌های بیگ‌آی این است که افراد نمی‌توانند خودشان الگوریتم‌های نرم‌افزاری را تغییر دهند. همچنین، این شرکت از مدل‌های اختصاصی خودش برای تشخیص ناهنجاری‌های مختلف داده‌ها استفاده می‌کند. درواقع هرچند بیگ‌آی یکی از طرف‌داران بزرگ (پروپاقرص) رویکردهای به‌اصطلاح متن باز[10] است، اما تصمیم گرفته تا گزینه‌های خود را برای دستیابی به اهداف عملکرد تعیین‌شده داخلی توسعه دهد. علاوه‌براین، یادگیری ماشین در چند مسئله کلیدی استفاده می‌شود تا ترکیبی منحصربه‌فرد از معیارها را در هر جدول در منابع داده متصل مشتری به ارمغان بیاورد. مدل‌های تشخیص ناهنجاری بر روی هر یک از آن معیارها برای تشخیص رفتار غیرعادی آموزش داده شده‌اند. البته برخی از ویژگی‌های درجه سازمانی مانند کنترل دسترسی کامل مبتنی بر نقش هنوز در نقشه راه هستند و عملیاتی نشده‌اند.

      علاوه‌بر آنچه بیان گردید، ‌سه ویژگی داخلی به طور خودکار مسائل مربوط به کیفیت داده‌ها را شناسایی کرده و ضمن اعلام هشدار، قرارداد سطح خدمات کیفیت داده را فعال می‌کند: نخست، دلتا[11]، مقایسه و اعتبارسنجی چند نسخه از هر مجموعه داده را آسان می‌کند؛ ویژگی بعدی، هشدارهای متعدد را در یک جدول زمانی واحد با زمینه ارزشمند در مورد مسائل مرتبط با هم قرار می‌دهد. این باعث می‌شود که مستندسازی اصلاحات گذشته و بالابردن کیفیت و وضوح آسان‌تر شود؛ و سومی، داشبورد، نمای کلی از سلامت داده‌ها را ارائه می‌دهد و به شناسایی نقاط مهم کیفیت داده‌ها، بستن شکاف‌ها در پوشش نظارت و تعیین کمیت ارتقای یک تیم در قابلیت اطمینان کمک می‌کند.

      همه این ویژگی‌ها بدین خاطر پیش‌بینی و طراحی شده که مشاهده‌پذیری داده‌ها، مستلزم آگاهی دائمی و کاملی است از آنچه درون همه جداول و خطوط انتقال داده اتفاق می‌افتد. این شبیه به همان چیزی است که تیم‌های مهندسی قابلیت اطمینان سایت و DevOps[12] از آن برای کارکردن برنامه‌ها و زیرساخت‌ها در شبانه‌روز استفاده می‌کنند. اما این قابلیت برای دنیای مهندسی داده و علم داده دوباره مورد توجه قرار گرفته است.
      درحالی‌که کیفیت داده‌ها و قابلیت اطمینان داده‌ها برای چندین دهه یک موضوع چالشی به شمار می‌رفته است، اما در حال حاضر برنامه‌های کاربردی داده برای تعداد زیادی از کسب‌وکارهای پیشرو بسیار مهم هستند، چراکه هرگونه ازدست‌دادن، قطع یا تخریب داده‌ها می‌تواند به‌سرعت منجر به ازدست‌دادن مشتریان و درنتیجه کاهش درآمد شود. درواقع، بدون مشاهده‌پذیری داده‌ها، فروشنده‌های داده باید دائماً به مسائل مربوط به کیفیت داده واکنش نشان دهند و مجبورند هنگام استفاده از داده‌ها، آن‌ها را درگیر کنند. راه‌حل بهتر، شناسایی پیشگیرانه مسائل و رفع علل ریشه‌ای است.
      چگونه اعتماد بر داده‌ها تأثیر می‌گذارد؟
      نکته قابل‌توجه اینکه عمدتاً مشکلات به‌وسیله ذینفعان مانند مدیرانی که به پیشخوان غالباً خراب خود اعتماد ندارند، کشف می‌شوند. همچنین بعید نیست که کاربران خودشان نتایج گیج‌کننده‌ای را از مدل‌های یادگیری ماشین حین کار با محصول دریافت کنند. ازاین‌رو، اگر به مهندسان داده زودتر هشدار داده شود، همیشه یک قدم از مسائل جلوتر بوده و بهتر می‌توانند مشکلات را برطرف کنند و از تأثیرات منفی تجاری آن جلوگیری کنند.

      این فناوری با چه چالش‌هایی روبروست؟
      اما این فناوری با چالش‌هایی در رابطه با کشف و مدیریت داده‌ها، ردیابی و مدیریت هزینه، کنترل‌های دسترسی نحوه مدیریت تعداد روزافزون پرس‌و‌جوها، مسائل داشبوردها و ویژگی‌ها و مدل‌های آن‌ها روبه‌روست. البته قابلیت اطمینان و زمان به‌روزرسانی، مهم‌ترین چالش‌هایی هستند که بسیاری از تیم‌های DevOps مسئولیت آن‌ها را بر عهده دارند. اما آن‌ها اغلب با جنبه‌های دیگری مانند سرعت توسعه‌دهنده و ملاحظات امنیتی نیز همراه هستند. در این دو حوزه، مشاهده‌پذیری داده‌ها، تیم‌های داده را قادر می‌سازد تا بدانند که آیا داده‌ها و خطوط داده‌شان بدون خطا هستند یا خیر.
      در این رابطه کروان معتقد است که سیستم‌های قابل‌مشاهده مؤثر داده‌ها باید در جریان کار تیم داده ادغام شوند. این مسئله به آن‌ها امکان می‌دهد تا به جای واکنش مداوم به مسائل داده و خاموش‌کردن آتش داده‌ها، روی رشد پلتفرم‌های داده خود تمرکز کنند. بااین‌حال، یک سیستم مشاهده‌پذیری داده با تنظیم ضعیف، می‌تواند منجر به امید و اعتماد کاذب شود. یک سیستم داده موثر همچنین باید با تطبیق خودکار با تغییرات کسب‌وکار، بخش زیادی از تعمیر و نگهداری را از آزمایش مسائل مربوط به کیفیت داده‌ها حذف کند. بااین‌حال، یک سیستم مشاهده‌پذیری داده‌ای که بهینه نشده، ممکن است تغییرات در کسب‌وکار را اصلاح نکند یا برای تغییرات کسب‌وکار بیش‌ازحد تصحیح انجام دهد که نیاز به تنظیم دستی دارد و البته این امر می‌تواند زمان‌بر باشد.

      برگرفته از:
      پیوند منبع

      مهدی رعایائی (پژوهشگر میان‌رشته‌ای فضای مجازی)، محسن رعایائی (پژوهشگر میان‌رشته‌ای فضای مجازی)
      گروه مطالعات اخلاقی فضای مجازی



      [1] Kyle Kirwan
      [2] Bigeye
      [3] :Service Level Agreement یک قرارداد دو جانبه بین خدمت دهنده و خدمت گیرنده است که براساس توافق و به منظور تضمین پارامترهای کیفیت خدمات توافق شده منعقد می‌شود.
      [4] واسط بین یک کتابخانه یا سیستم‌عامل و برنامه‌هایی است که از آن تقاضای سرویس می‌کنند.
      [5] Uber
      [6] Egor Gryaznov
      [7] SaaS
      [8] Docker
      [9] Clubhouse
      [10] open source
      [11] Deltas
      [12] ترکیبی از فلسفه‌ها، شیوه‌ها و ابزارهای فرهنگی است که توانایی سازمان را برای ارائه برنامه‌ها و خدمات با سرعت بالا افزایش می‌دهد.
      نظر کاربران
      نام:
      پست الکترونیک:
      شرح نظر:
      کد امنیتی:
       
آدرس: تهران، سعادت آباد، خیابان علامه شمالی، کوچه هجدهم غربی، پلاک 17
کد پستی: 1997987629
تلفن: 22073031
پست الکترونیک: info@csri.ac.ir