داده سازی و دستکاری داده
دادهسازی و دستکاری داده چیست؟
دادهسازی (data fabrication): دادهسازی یعنی اینکه پژوهشگر خود دادههایی را جعل کند و بهعنوان دادههایی که با روشهای علمی بهدست آمدهاند منتشر کند. تکمیل پرسشنامهها توسط خود پژوهشگر، ارائه گزارش از مصاحبههای انجامنشده، گروههای کانونی تشکیلنشده، و مشاهدات میدانی انجامنشده، از مصادیق بارز دادهسازی در علوم اجتماعی/انسانی محسوب میشود. همچنین گزارش و انتشار نتایج آزمایشها و مشاهدههای انجامنشده از مصادیق بارز دادهسازی در علوم طبیعی هستند.
دستکاری داده (data falsification): در دستکاری داده پژوهشگر دادهها را کاملاً جعل نمیکند بلکه تاحدی دادههای گردآوریشده را تغییر میدهد یا برخی از دادهها را حذف میکند تا مثلاً بهتر بتواند فرضیههای پژوهش را تائید کند. موارد زیر از مصادیق دستکاری داده هستند:
- تغییر آمار و ارقام بهدستآمده از یک پژوهش، چه در علوم اجتماعی، و چه طبیعی و مهندسی؛
- دستکاری ویژگیهای مهم عکسهای بهدستآمده از آزمایشها و مشاهدهها مصداقی از دستکاری داده در علوم طبیعی محسوب میشود. معمولاً بزرگنمایی، بالابردن تضاد (contrast) در کل عکس، بریدن بخشهای نامرتبط عکس و افزودن فلش یا متن برای راهنمایی خواننده پذیرفتنی است، ولی تغییراتی که باعث شود برداشت متفاوت و گمراهکنندهای از عکسها شود دستکاری داده محسوب شده و ناپذیرفتنی است. همواره عکسهای اصلی (original) را نگاه دارید و روی کپی آنها کار کنید تا اگر در مورد میزان اصالت عکس تردیدی ایجاد شد بتوان آنها را باهم مقایسه کرد.
- حذف دادههایی که ناقض فرضیه پژوهشگر هستند؛ نادیدهگرفتن دادههایی که تأییدکننده فرضیه پژوهشگر نیستند خلاف روحیه پژوهشگری و حقیقتجویی است و این گمان را تقویت میکند که پژوهشگر تحت تأثیر سوگیریهایی دست به دستکاری دادهها زده است.
-
حذف ناموجه دادههای پرت (outliers): دادههای پرت دادههایی هستند که با دیگر دادهها یا میانگین آنها فاصله زیادی دارند. گاهی پژوهشگر برای تقویت فرضیه خود وسوسه میشود که دادههای پرت را حذف کند. اما این کار اگر بر اساس دلایل خوب علمی انجام نشود میتواند مصداقی از دستکاری داده باشد؛ چراکه گاهی دادههای پرت حاوی اطلاعات مهمی درباره واقعیت هستند. پژوهشگر در دو حالت میتواند داده پرت را نادیده بگیرد:
- دادههایی که بر اساس فهم عرفی یا علم رایج ناممکناند: مثلاً به دست آوردن داده سن «300 سال» برای افراد نشاندهنده وجود خطایی در اندازهگیریهاست و میتوان آن را نادیده گرفت.
- دادههایی که پژوهشگر دلایل خوبی در اختیار دارد که تصادفیاند یا ناشی از خطایی در روشها یا اندازهگیریها هستند. مثلاً در مواقعی که تعداد دادههای پژوهشگر زیاد است و چند داده محدود بسیار با دادههای بهدستآمده فاصله دارند پژوهشگر میتواند آنها را نادیده بگیرد چراکه این دادههای محدود تأثیر چندانی در نتایج پژوهش نخواهند داشت.
بهطورکلی، پژوهشگر نباید بدون داشتن دلایل موجه اقدام به حذف دادههای پرت کند. گاهی دادههای پرت نیازمند ارائه تبیینی از سوی پژوهشگرند و این به غنای کار وی خواهد افزود. چنانچه پژوهشگر شک دارد که یک داده پرت، درست اندازهگیری شده باشد میتواند دوباره آزمایش/مشاهده/اندازهگیریها را انجام دهد و چنانچه دوباره به همان نتایج رسید باید آنها را نگه دارد.
درکنار دادهسازی و دستکاری داده، لازم است به دو نوع مسئله دیگر که مرتبط با گرداوری و انتقال دادهها هستند بپردازیم. نخست، گرداوری دادههای نامطمئن، و دوم سوءبازنمایی داده.
گردآوری دادههای نامطمئن: پژوهشگر باید از صحت و دقت دادههای گردآوریشده از آزمودنیها، مطلعها و آزمایشها اطمینان حاصل کند. در بسیاری از پژوهشها، اطمینان از قابلاعتمادبودن دادهها، از طریق تکرار آزمایشها/مشاهدهها، بررسی میزان مداخله خودِ ابزارهای پژوهش و دیگر عوامل، و کمکگرفتن از همکاران علمی برای اعتبارسنجی دادهها حاصل میشود. همچنین شگردهای دیگری وجود دارد که معمولاً در تنظیم پرسشنامه بکار گرفته میشوند. پرسشنامههایی که مستلزم پاسخدهی کمّی طیفیاند مستعد این هستند که مشارکتکنندگان دقت لازم را در تکمیل آنها به خرج ندهند. ازاینرو، پژوهشگر باید ازطریق ترفندهایی میزان دقت و توجه مشارکتکنندهها را بسنجد و مواردی را که دقت و توجه لازم در تکمیل آنها بهکار گرفته نشده کنار گذارد. مثلاً گنجاندن سؤالات دقتسنج (مانند سؤالاتی که نشان میدهد که آیا مشارکتکننده سازگار و منسجم عمل میکند، آیا سؤالات را میخواند یا فقط گزینهها را پر میکند و غیره) یکی از روشهای کسب اطمینان از صحت و دقت دادهها است. همچنین پژوهشگر باید از میانگین زمانی که برای تکمیل یک پرسشنامه لازم است آگاه باشد و در صحت و دقت دادههای پرسشنامههایی که بسیار زودتر از میانگین تکمیل میشوند تردید کند.
سوءبازنمایی داده: سوءبازنمایی داده مربوط به نمایش گمراهکننده دادههاست. درواقع در سوءبازنمایی، دادهای جعل یا دستکاری نمیشود اما ممکن است برخی دادهها به شکل نادرستی بیان شوند، و یا از طریق نمودارهای نامناسب طوری نمایش داده شوند بهنحویکه تصور نادرستی در ذهن خواننده ایجاد کنند. این یعنی دو نوع سوءبازنمایی مهم داریم:
- سوءبازنمایی در بیان نتایج: گاهی ما در بیان نتایجی که از یک سری مجموعه داده برمیآید دقت نمیکنیم و نتیجهگیری ما فراتر از چیزی است که دادهها میگویند. یکی از معروفترین نمونههای این نوع مشکل، خلط میان همبستگی (correlation) و علیت (causation) است. همبستگی بهمعنای وجود نوعی رابطه معنادار میان دو عامل است اما علیت به این معناست که از این دو عامل یکی ایجادکننده (یا علت) دیگری است. روشن است که به صرف آشکارکردن یک همبستگی میان دو پدیده نمیتوان ادعا کرد که یکی علت دیگری است. مثلاً نشان داده شده که افزایش فروش بستنی با افزایش جُرم همبستگی مثبت دارد؛ یعنی با افزایش یکی دیگری نیز فزایش مییابد. بااینحال هیچکدام از این دو پدیده، علت دیگری نیستند بلکه عامل سومی درکار هست: «گرمشدن هوا» باعث افزایش فروش بستنی و نیز افزایش جرم میشود.
-
سوءبازنمایی نموداری: بهکارگیری نمودارهای نامناسب برای نمایش دادهها میتواند منجر به ایجاد بدفهمی در مخاطب شود. موارد زیر را درنظر بگیرید.
- استفاده از نمودارهای دایرهای برای نمایش دادههای بسیار متنوع: معمولاً نمودارهای دایرهای برای ارائه دادههای بیشتر از هفت گونه (هفت برش) مناسب نیستند. برای نمایش دادههای بسیار متنوع از نمودارهای میلهای استفاده کنید.
- بیشتر از صد شدن جمع برشها در نمودارهای دایرهای: مساحت نمودار دایرهای بیانگر یک کل 100درصدی است که هر برش از آن باید بخشی از این کل را اشغال کرده باشد. استفاده از نمودار دایرهای برای نمایش پاسخهایی که میتوانند همزمان پاسخ چند سؤال باشند احتمالاً جمع برشها را بیشتر از صد میکند. درنتیجه فلسفه این نوع نمودارها برای مقایسه سریع دادهها توسط مخاطب زیر سؤال رود. مثلاً نمودار دایرهای برای نمایش درصد بیماران بالای 60 سال مبتلا به بیماریهای قلبی، دیابت، و پارکینسون مناسب نیست چراکه برخی بیمارها ممکن است به هر سه یا دو نوع از این بیماریها مبتلا باشد و درنتیجه احتمالاً جمع برشها بیشتر از صد میشود.
- کوتاهکردن محور Y (محور عمودی) نمودارهای میلهای و ستونی: در نمودارهای میلهای و ستونی، محور عمودی باید از صفر شروع شود تا مخاطب در نگاه نخست درک درستی از مقایسه میلهها و ستونها داشته باشد. کوتاه کردن این محور از پایین میتواند غلطانداز باشد.
- کوتاه و بلند کردن یکی از محورهای X و Y در نمودارهای خطی: محورهای X و Y در نمودارهای خطی باید هماندازه باشند.
چرا دادهسازی و دستکاری داده غیراخلاقی است؟
صداقت و امانتداری در گرداوری و انتقال دادهها برای امر پژوهش اهمیتی حیاتی دارد. دادهسازی و دستکاری داده چنان مهم هستند که در ادبیات علم برای اشاره به آن از لفظ کلاهبرداری (fraud)، که بار اخلاقی قویتری از بدرفتاری (misconduct) دارد استفاده میکنند. دادهسازی و دستکاری داده (و همچنین گرداوری دادههای نامطمئن و سوءبازنمایی دادهها که به آنها اشاره کردیم) اصول اخلاقی مهمی ازجمله اصل استقلال علمی، اصل صداقت، اصل انصاف، و اصل جلوگیری از آسیب را نقض میکنند. دروهله نخست دادهسازی و دستکاری داده استقلال علمی پژوهشگر، یعنی تلاش برای رسیدن به دادههای روشمند بدون دخالتدادن اغراض و منافع شخصی، را مضمحل میکند. و دقیقاً به همین دلیل مستلزم عدم صداقت با جامعه علمی و خوانندگان است؛ چراکه دادهسازی به معنای قالبکردن دادههای جعلی بهعنوان دادههای روشمند و علمی است. همچنین اصل انصاف نیز نقض میشود؛ افراد از طریق مقالاتی که با دادهسازی و دستکاری داده نگاشته و منتشر کردهاند ممکن است به شکل غیرمنصفانهای امتیاز و موقعیت کسب کنند. درنهایت این نوع کلاهبرداری علمی چنانکه مثالهای تاریخی زیر نشان میدهند به جامعه علمی و خوانندگان آسیب میزند.
چند مورد تاریخی دادهسازی و دستکاری داده
- مورد «مرد پیلتداون» (Piltdown man): در سال 1912 باستانشناسی به نام چارلز داوسون (Charles Dawson) ادعا کرد که حلقه مفقوده میان میمونها و انسانها را در منطقه پیلتداون انگلستان یافته است. وی فسیلهای یک موجود انساننما را به نمایش گذاشت که ویژگیهایی از انسانها و میمونها را در خود داشت، و ادعا کرد که این فسیل متعلق به مردی میانسال است که حدود 500 هزار سال پیش میزیسته است. این یافته، که به مرد پیلتداون معروف شد، برای جامعه علمی کشف بسیار بزرگی محسوب میشد چراکه به یکی از مسائل زیستشناسی تکاملی پاسخ میداد و تصویر روشنتری از اجداد انسان ارائه میکرد. هرچند در همان ابتدا تردیدهایی در مورد این یافته وجود داشت، ادعای داوسون برای حدود 45 سال کموبیش مورد پذیرش جامعه علمی گرفت. مؤسسات علمی زیادی بر اساس فسیلهای مرد پیلتداون اقدام به بازسازی اندامهای او کرده بود و در موزهها و همایشهای علمی به نمایش میگذاشتند. تا اینکه درنهایت با بررسیهای بیشتر مشخص شد که این ادعا صرفاً یک کلاهبرداری علمی بوده است. بررسیها نشان داد که داوسون و همکارانش استخوانهای یک انسان قرونوسطی (با حدود 500 سال قدمت) را با آروارهها و دندانهای یک اورانگوتان و یک شامپانزه ترکیب کرده بودند و سپس از طریق مواد شیمیایی عمر استخوانها را افزایش داده بودند. (1)
- مورد واکسن امامآر و اوتیسم: اندرو ویکفیلد (Andrew Wakefield)، پزشک بریتانیایی، به همراه شماری دیگر از مؤلفان، در سال 1998 در مقالهای ادعا کردند که احتمالاً ارتباطی میان واکسن امامآر (سرخک، اوریون و سرخچه) و اوتیسم وجود دارد. در این مقاله که در مجله لنست (The Lancet)، یکی از مجلات معتبر حوزه پزشکی بریتانیا، منتشر شد، 12 کودک 3 تا 10 ساله مبتلا به اوتیسم مورد بررسی قرار گرفته بودند و ادعا میشد که از این میان 8 کودک پس از تزریق واکسن امامآر علائم اوتیسم پیدا کردهاند. با انتشار این مقاله، ویکفیلد در یک کنفرانس مطبوعاتی گفت که وی نمیگوید که حتماً رابطهای علی میان اوتیسم و این واکسن ترکیبی وجود دارد، اما بر اساس یافتههای ما احتیاط حکم میکند که به جای این واکسن ترکیبی از سه واکسن مجزا برای سرخک، اوریون و سرخچه استفاده شود. پس از انتشار مقاله، و پوشش خبری آن توسط رسانهها، عموم مردم بهسرعت به این یافته علمی توجه کردند و یک هراس عمومی بهویژه در بریتانیا شکل گرفت. بسیاری از والدین از ترس اینکه مبادا کودکشان به اوتیسم مبتلا شود اجازه نمیدادند که مسئولین بهداشت این واکسن را به کودکشان تزریق کنند. در نتیجه این هراس عمومی و خودداری از تزریق واکس امامآر، آمار مبتلایان به بیماریهای فوق در بریتانیا افزایش یافت. بررسیهای بعدی نشان داد که این مقاله دچار دستکاری و سوءبازنمایی داده بوده است؛ مشخص شد که اولاً از این 12 کودک 3 کودک اصلاً اوتیسم نداشتند، 5 نفر پیش از تزریق واکسن علائمی از اوتیسم را داشتهاند، و بقیه، برخلاف مقاله ویکفیلد که ادعا میکرد کودکان چند روز پس از تزریق علائم اوتیسم از خود بروز دادهاند، اولین علائم مربوط به چند ماه پس از تزریق بوده است. مطالعات بعدی روی شمار گستردهای از کودکان نشان داد هیچ رابطه معناداری میان واکسن امامآر و اوتیسم وجود ندارد. بااینحال هراس از واکسن امامآر برای چند دهه ادامه یافت. با مشخص شدن جعلی بودن دادههای این مقاله، لنست در سال 2010 این مقاله را نامعتبر اعلام کرد. (2)
- مورد دکتر یوشیتاکا فوجی: دکتر یوشیتاکا فوجی (Yoshitaka Fujii) پژوهشگر ژاپنی حوزه هوشبری، و دانشیار پیشین دانشکده پزشکی دانشگاه توهوی ژاپن، بهعنوان کسی که بیشترین مقالات سلب اعتبارشده (retracted) را در کارنامه خود دارد شناخته شده است. دکتر فوجی برای چند دهه به طور خاص روی عارضه تهوع و استفراغ پس از عمل جراحی کار کرده است و با همکاری پژوهشگرانی دیگر بیش از 200 مقاله را در مجلات معتبر این حوزه منتشر کرده است. وی در بسیاری از مقالات از این ادعا که داروی گرانیسترون (Granisetron) در مقابل داروهای بدیل، اثربخشی بهتری برای کاهش عارضه تهوع و استفراغ در بیماران پس از عمل جراحی دارد دفاع کرده است. در سال 2000 تردیدهایی در مورد اعتبار دادههای مقالات فوجی منتشر شد اما توجه چندانی از سوی جامعه علمی، کمیتههای اخلاق و حتی مجلاتی که مدام از وی مقاله منتشر میکردند نشد. تردیدها و گزارشهای بیشتر باعث شد که توجه مجلات و نهادهای علمی ازجمله دانشگاه توهو و «کمیته انجمن ژاپنی هوشبری» به آثار فوجی معطوف شود. در بررسیهای این کمیته مشخص شد که در 212 مقاله از 249 مقالهای که در آنها نام فوجی بهعنوان مؤلف ذکر شده است دادهسازی و دستکاری داده رخ داده است. از این میان 139 مقاله، دادهسازی تمامعیار بودهاند؛ یعنی کل دادههای این مقالات محصول هیچ پژوهشی نبودهاند. درنتیجه این گزارشها، از بیش از 180 مقاله فوجی سلب اعتبار شد و وی از دانشگاه توهو اخراج گردید. (3)
- Miles, Russell. 2004. Piltdown Man: The Secret Life of Charles Dawson. Tempus.
- Deer, Brian. 2020. The Doctor Who Fooled the World: Science, Deception, and the War on Vaccines. Baltimore, Md.: Johns Hopkins University Press.
- Cyranoski, D. 2012. Retraction record rocks community. Nature 489: 346-347.
برای مطالعه بیشتر در مورد دادهسازی و دستکاری داده
- Judson, H.F. 2004. The Great Betrayal: Fraud in Science. Orlando, Florida: Harcourt.
- Freitas, João. 2021. A narrative on the fabrication of results in science. Current Science 121 (2): 205-209.
- Jones, Ben. 2020. Avoiding Data Pitfalls: How to Steer Clear of Common Blunders When Working with Data and Presenting Analysis and Visualizations. Hoboken, New Jersey: John Wiley & Sons, Inc.