پیشرفتها در زمینه قدرت محاسبات و افزایش نمایی ظرفیت ذخیره سازی، به شرکتها و ارگانها این امکان را داده است که سامانههایی را توسعه بخشند که اطلاعات انبوهی را در خود ذخیرهسازی میکنند . در این سالها شاهد آن هستیم که جمع آوری دستی دادهها از اسناد کاغذی کاهش یافته و اسکنرها، دستگاههای بیومتریک، بارکدخوانها، کارتهای هوشمند، تلفنهای همراه، غبار هوشمند و رصد فعالیتهای آنلاین کاربران، وظیفهی جمعآوری دادهها را به عهده گرفتهاند. این دادهها، با بکارگیری فناوریها و فنونی جدید میتواند دانش و اطلاعات مفیدی را ایجاد کند.
الگوریتمهای دادهکاوی که معمولاً در سامانهها و فرآیندهای کشف اطلاعات
[1] عظیمتر به کار گرفته میشوند، ابزارهای تحلیلی خودکاری هستند که اخیراً رشد سریعی در استفاده از آنها دیده شده است. این الگوریتمها با ترکیب دانشهای مرتبط با آمار، پایگاه داده، یادگیری ماشین و تصویرسازی اطلاعات
[2]، تحلیل مجموعههای پیچیده و بزرگ داده را انجام میدهند. هدف آنها این است که روابط و الگوهایی را که سابقاً شناخته نشدهاند، در دادهها را آشکار شوند و قواعد جالبتوجهی را ارائه دهند که میتواند بینشی مفید و یا مزیتی رقابتی را فراهم نمایند. کار دادهکاوی و کشف اطلاعات به طور گسترده در دو طبقه دستهبندی میشود: توصیفی و پیشگویانه. کاوش توصیفی، ویژگیهای عمومی دادههایی را که در پایگاه داده ذخیره شدهاند، توصیف میکند. کاوش پیشگویانه، برای پیشبینی وضعیت آینده نتایجی از این دادهها را استخراج میکند. این نتایج که باید معیارهایی مانند دقت و فایده را برآورده کنند، تصمیمسازی کسب و کارهای خصوصی
[3] و سازمانهای عمومی را آسانتر میکنند. بدینترتیب، الگوریتمهای دادهکاوی برای تحلیل و پیشگویی به ابزارهایی قدرتمند تبدیل شدهاند و بدین گونه توقع میرود که یکی از مهمترین تکنولوژیها در آینده به شمار آید.
الگوریتمهای دادهکاوی، دادههای متنوع و موجود در پایگاههای داده را با هم ترکیب کرده کرده و پس از کاوش، میتوانند سلایق شخصی افراد، مشارکتشان در امور مختلف، اطلاعات اعتباری و سلامتشان و علایق سیاسی آنها را استنتاج کنند. همچنین با کاوش این الگوریتمها در کلاندادههایی مربوط به دادههایی خاص، مانند دادههای مربوط به مجرمین یا مشتریان یک کسب و کار، میتوان کلیشههای رفتاری آنان را استخراج نمود و از الگوهای به دست آمده برای بهبود راهبردهای پیشگیری از جرایم، بازاریابی و سیاستگذاری استفاده کرد.
مسائل اخلاقی دادهکاوی در کاوش دادههایی خاص به وجود میآید. شما هیچوقت کاوش یک شرکت در دادههای میزان تولید محصولش را قابل اعتراض نمیدانید. اما مثلاً هنگامی که کاوش بر روی دادههای کاربران اینترنتی یک کشور انجام میشود، این کار میتواند اعتراض عدهای از افراد را برانگیزد. مهمترین چالشهای اخلاقی این نوع کاوش از قرار زیر است:
حریم خصوصی
حریم خصوصی یک امر مطلق نیست؛ بلکه یک موضوع ادراکی است. یعنی این سوال که آیا حریم خصوصی یک فرد نقض شده است یا خیر، به این ارتباط دارد که آن فرد، نوع و میزان اطلاعات فاششدهاش را مناسب تلقی میکند یا خیر. بنابراین زمانی که اطلاعات مربوط به فرد، گردآوری میشوند، استفاده میشوند یا منتشر میشوند، این سوال از وی قابل پرسش است که آیا نوع و میزان اطلاعات فاششده مناسب است یا نه؛ بدین معنا، اولاً حریم خصوصی در این فرآیندها میتواند نقض شود و ثانیاً اگر حریم خصوصی یک ارزش تلقی میشود، پیشفرض این ارزشمند بودن این است که فرد از تمامی فرآیندهای مذکور رضایتمند و آگاه باشد؛ چرا که در غیر اینصورت امکان پرسش دربارهی نقض شدن/نشدن حریم خصوصی وجود ندارد.
در همین راستا، سازمان توسعه و همکاریهای اقتصادی مجموعهای از دستورالعملها را برای حفاظت از دادههای شخصی در سال 1980 تهیه کرده است. این دستورالعملها حق فرد را برای نظارت بر اطلاعات شخصیاش به رسمیت شناخته و مورد حمایت قرار میدهد. در این دستورالعملها آمده است که پیش از جمع آوری دادههای شخصی، دلیل آن برای افراد باید مشخص شود. همچنین، دادهها نمیتوانند برای هدف دیگری غیر از هدف شرح داده شده به هنگام گردآوری به کار روند. چالش مهمی که برای دادهکاوی مطرح است که این تکنولوژی ماهیتاً در برابر هر دوی این اصول قرار دارد. چرا که اولاً ارائهی تعریف دقیق از هدف دادهکاوی ممکن نیست؛ کاوش در میان مجموعهای -بعضاً به هم ریخته- از دادهها انجام میشود و هیچ هدف از پیش تعیینشدهای نمیتوان برای آن معین ساخت. ثانیاً معمولاً کاوش روی مجموعهای از دادههای جدید و قدیمی انجام میشود؛ دادههای قدیمیای که ممکن است فرد صاحب آن، رضایتی برای استفاده از آن دادهها برای اهداف جدید نداشته باشد. ثالثاً هیچ تضمینی وجود ندارد که دادههای فاششده در دادهکاوی را صاحبان آن دادهها مناسب تلقی کنند.
با وجود این چالشها، منافعی که دادهکاوی در بیشتر زمینهها مانند پژوهشهای مربوط به ژنوم انسانی، مبارزه با فرار مالیاتی، تسهیل تحقیقات جنایی و پژوهشهای پزشکی به وجود آورده است، باعث شده است تا طرفداران حریم خصوصی نتوانند قوانین محدودکنندهای را برای کاربرد ثانویهی دادههای شخصی به وجود بیاورند. با وجود این تلاشها، این نکته را نیز باید در نظر گرفت: از آنجایی که حریم خصوصی مسالهای مربوط به ادراک فردی است، راه حل مربوط به چالشهای آن، اگر برای یک فرد قابل پذیرش باشد، میتواند برای فردی دیگر غیرقابل پذیرش و ناکافی باشد. علاوه بر این، ساختارهای موجود نیز مقوم چالشها هستند؛ مثلاً یک شخص برای اعمال محدودیت برای دسترسی به اطلاعاتش، باید کنش فعالانه و اعتراضی داشته باشد؛ از طرفی دیگر، هیچگونه راهی برای فهمیدن این که چه میزانی از اطلاعات افراد در دست دولتها، شرکتها و سازمانها قرار دارد، وجود ندارد. به طور کلی یکی از چالشهای مهم برای حراست از حریم خصوصی، این است که تنها در قالب شکایات قضایی میتوان به آن پرداخت.
دقت دادهها
یکی دیگر از مهمترین چالشهای اخلاقی دادهکاوی این است که دادهها باید دقیق، کامل و به روز باشند. کافی است که حالتی را در نظر بگیریم که در طی فرآیند سیاستگذاری دربارهی تخصیص منابع در یک شهر، دادههایی که مربوط به افراد هستند و در دادهکاوی به کار گرفته میشوند، دقیق نباشند. در این صورت به راحتی میتوان عدم توازن منابع و بیعدالتی را متصور شد که نتیجهی عدم دقت در فرآیند دادهکاوی است. از عوامل مهم عدم دقت دادهها در فرآیندهای دادهکاوی، این است که منابع دادهها بسیار متنوع بوده و پایگاههای داده دربردارندهی انبوهی از دادههای بهمریخته هستند. از طرفی دیگر، با وجود پیشپالایش دادهها، بعضی از آنها را نمیتوان به عنوان یک دادهی دقیق در نظر گرفت. چرا که برخی از دادهها حاصل از رفتارهای غیرقابلپیشبینی افراد هستند و به همین خاطر تاریخ انقضای سریعی برای این دست از دادهها وجود دارد. این عوامل عدم دقت، هزینهی شناسایی و اصلاح موارد نادقیق را افزایش میدهد و کاوش را وارد مسیری میکند که نتیجهی آن ممکن است برای افراد زیانآور باشد.
امنیت پایگاه داده
یکی دیگر از چالشهای دادهکاوی که با حریم خصوصی همبستگی بسیاری دارد، مسئلهی امنیت پایگاه داده است. توسعه انبارهای داده، اهمیت امنیت پایگاههای داده را افزایش داده است. پیش از این، دادهها معمولاً در پایگاههای جداگانهای نگهداری میشدند و دسترسی به آن کنترل شده بود. امروزه انبارهای داده، دادهها را از منابع متعددی جمع آوری میکنند و بنابراین به هنگام بنا نهادن معیارهای امنیت، عوامل پیچیدهتری را باید در نظر گرفت. مسئلهی اصلی در این مورد این است که اگر دادهها در سطوح غربالی متفاوت قابل دسترسی باشد، امکان تجاوز به حریم خصوصی وجود دارد. برای همین معیارهای امنیتی جهت جلوگیری از فاش شدن اطلاعات حساس باید توسعه یابد.
امنیت پایگاه داده به طور مرسوم، با صدور مجوز از جانب صاحب داده، از دادهها حراست میکند؛ در حالی که از لحاظ امنیت، هیچ تمایزی میان دادههایی که در سطوح مختلف حساسیت قرار دارند، وجود ندارد. در مدلهای پیشرفتهتر، امنیت به شکلی چندسطحی برقرار میگردد- مثلاً دادهها در 4 سطح طبقهبندی میشوند؛ بدین شکل که درجهی امنیت بر اساس میزان محرمانگی دادهها، میان این سطوح پخش میشود. همچنین رمزگذاری و بازرسی نیز میتواند به میزان امنیت دادهها بیفزاید.
با این وجود، برخی پژوهشها نشان میدهند که کاوش در سطوح غیرحساستر میتواند دادههایی در سطوح حساستر را نتیجه بدهد؛ مثلاً کاوش در سطوح سوم میتواند دادههای سطح چهارم را نتیجه بدهد. بر این اساس راهکارهایی را برای جلوگیری از چنین استفادههای نابجا میتوان ارائه داد:
- با محدود کردن کاوش در یک سطح امنیتی، میتوان از استنتاج دادههای حساستر جلوگیری کرد.
- با ورود اختلال کنترلشده به دادهها، میتوان نتایج کاوش غیرمجاز را منحرف کرد و از دسترسی به دادههای حساستر جلوگیری نمود.
- با ورود ناپایداری به دادهها، میتوان نتایج کاوش غیرمجاز را از معناداری تهی کرد.
- با حذف ویژگیهای شناساگر دادهها، میتوان از امکان شناسایی دادههای حساستر را از بین برد.
- با افزودن داده به روشهای نامشهود و بدون تغییر در میزان مفید بودن دادهها، میتوان امکان نتیجهبخشی کاوش غیر مجاز را از میان برد.
کلیشهسازی
چالش آخری که به آن میپردازیم، چالش کلیشهسازی در دادهکاوی است. الگوهایی که در دادهکاوی یافت میشوند، نمایهها، ویژگیها یا رفتارهایی را به افراد نسبت میدهند. مثلاً دادههای مختلفی که توسط شرکتهایی مانند گوگل رصد میشود، میتواند الگوهای ارتباط اجتماعی و تصمیمگیریهای مالی کاربران خود را استنتاج کرده و بر اساس این نتیجهگیریها، افراد را ذیل گروههای مختلف با ویژگیهای خاص طبقهبندی کند. این الگوها و طبقهبندیها قوانینی را تعمیم میدهند که برخاسته از واقعیت
فعلی پایگاه داده است. بدینترتیب تعمیمبخشی به این قوانین برای زمانهای بعدی میتواند تبعاتی را با خود به همراه داشته باشد که فواید مرتبط با این تعمیمبخشیها را تحتالشعاع قرار دهد.
با وجود این قوانین تعمیمبخشیشده، خدمات و برخوردهایی که افراد از شرکتها و سازمانها دریافت میکنند، به جای آنکه به ویژگیهای شخصی افراد وابسته باشد، به ویژگی گروهی وابسته است که طی فرآیند دادهکاوی به آن فرد نسبت داده شده است. تغییر جهت توجهات شرکتها و سازمانها از ویژگیهای شخصی به سمت ویژگیهای گروهی، باعث میشود که قضاوت آنها از افراد به جای آنکه بر اساس شاخصهها و معیارهای خاص افراد باشد، بر اساس ویژگیهای گروهی که به آن تعلق دارند بوده و بر این مبنا با آنها رفتار خواهد شد. این مسئله سبب ایجاد شکل جدیدی از تبعیض خواهد شد. همچنین وابستگی تصمیمات و برخوردهای سازمانها و شرکتها به دادههای ثبتشده، این امکان را به وجود میآورد که افرادی که تا به حال دادهای از خود ثبت نکردهاند نیز به شکلی مورد رفتار واقع شوند که ممکن است در خور آنها نباشد.
نگارندگان: بهزاد خداقلیزاده (دانشجوی ارشد فلسفه علم دانشگاه شریف)، محمد ادیبی (پژوهشگر میانرشتهای فاوا)
تهیه شده در گروه مطالعات اخلاقی پژوهشگاه فضای مجازی
منبع:
Wahlstrom, K., Roddick, J. F., Sarre, R., Estivill-Castro, V., & deVries, D. (2006). On the ethical and legal implications of data mining. Technical Report SIE-06-001, School of Informatics and Engineering, Flinders University, Adelaide, Australia
[2] Information visualization