داده سازی و دستکاری داده

تعداد بازدید:۵
داده‌سازی و دستکاری داده چیست؟

داده‌سازی (data fabrication): داده‌سازی یعنی این‌که پژوهشگر خود داده‌هایی را جعل کند و به‌عنوان داده‌هایی که با روش‌های علمی به‌دست آمده‌اند منتشر کند. تکمیل پرسش‌نامه‌ها توسط خود پژوهشگر، ارائه گزارش از مصاحبه‌های انجام‌نشده، گروه‌های کانونی تشکیل‌نشده، و مشاهدات میدانی انجام‌نشده، از مصادیق بارز داده‌سازی در علوم اجتماعی/انسانی محسوب می‌شود. همچنین گزارش و انتشار نتایج آزمایش‌ها و مشاهده‌های انجام‌نشده از مصادیق بارز داده‌سازی در علوم طبیعی هستند.

دستکاری داده (data falsification): در دستکاری داده پژوهشگر داده‌ها را کاملاً جعل نمی‌کند بلکه تاحدی داده‌های گردآوری‌شده را تغییر می‌دهد یا برخی از داده‌ها را حذف می‌کند تا مثلاً بهتر بتواند فرضیه‌های پژوهش را تائید کند. موارد زیر از مصادیق دستکاری داده هستند:

  1. تغییر آمار و ارقام به‌دست‌آمده از یک پژوهش، چه در علوم اجتماعی، و چه طبیعی و مهندسی؛
  2. دستکاری ویژگی‌های مهم عکس‌های به‌دست‌آمده از آزمایش‌ها و مشاهده‌ها مصداقی از دستکاری داده در علوم طبیعی محسوب می‌شود. معمولاً بزرگ‌نمایی، ‌بالابردن تضاد (contrast) در کل عکس، بریدن بخش‌های نامرتبط عکس و افزودن فلش یا متن برای راهنمایی خواننده پذیرفتنی است، ولی تغییراتی که باعث شود برداشت متفاوت و گمراه‌کننده‌‌ای از عکس‌ها شود دستکاری داده محسوب شده و ناپذیرفتنی است. همواره عکس‌های اصلی (original) را نگاه دارید و روی کپی آن‌ها کار کنید تا اگر در مورد میزان اصالت عکس تردیدی ایجاد شد بتوان آن‌ها را باهم مقایسه کرد.
  3. حذف داده‌هایی که ناقض فرضیه پژوهشگر هستند؛ نادیده‌گرفتن داده‌هایی که تأییدکننده فرضیه پژوهشگر نیستند خلاف روحیه پژوهشگری و حقیقت‌جویی است و این گمان را تقویت می‌کند که پژوهشگر تحت تأثیر سوگیری‌هایی دست به دستکاری داده‌ها زده است.
  4. حذف ناموجه داده‌های پرت (outliers): داده‌های پرت داده‌هایی هستند که با دیگر داده‌ها یا میانگین آن‌ها فاصله زیادی دارند. گاهی پژوهشگر برای تقویت فرضیه خود وسوسه می‌شود که داده‌های پرت را حذف کند. اما این کار اگر بر اساس دلایل خوب علمی انجام نشود می‌تواند مصداقی از دستکاری داده باشد؛ چراکه گاهی داده‌های پرت حاوی اطلاعات مهمی درباره واقعیت هستند. پژوهشگر در دو حالت می‌تواند داده پرت را نادیده بگیرد:

    • داده‌هایی که بر اساس فهم عرفی یا علم رایج ناممکن‌اند: مثلاً به دست آوردن داده سن «300 سال» برای افراد نشان‌دهنده وجود خطایی در اندازه‌گیری‌هاست و می‌توان آن را نادیده گرفت.
    • داده‌هایی که پژوهشگر دلایل خوبی در اختیار دارد که تصادفی‌اند یا ناشی از خطایی در روش‌ها یا اندازه‌گیری‌ها هستند. مثلاً در مواقعی که تعداد داده‌های پژوهشگر زیاد است و چند داده محدود بسیار با داده‌های به‌دست‌آمده فاصله دارند پژوهشگر می‌تواند آن‌ها را نادیده بگیرد چراکه این داده‌های محدود تأثیر چندانی در نتایج پژوهش نخواهند داشت.

    به‌طورکلی، پژوهشگر نباید بدون داشتن دلایل موجه اقدام به حذف داده‌های پرت کند. گاهی داده‌های پرت نیازمند ارائه تبیینی از سوی پژوهشگرند و این به غنای کار وی خواهد افزود. چنانچه پژوهشگر شک دارد که یک داده پرت، درست اندازه‌گیری شده باشد می‌تواند دوباره آزمایش/مشاهده/اندازه‌گیری‌ها را انجام دهد و چنانچه دوباره به همان نتایج رسید باید آن‌ها را نگه دارد.

درکنار داده‌سازی و دستکاری داده، لازم است به دو نوع مسئله دیگر که مرتبط با گرداوری و انتقال داده‌ها هستند بپردازیم. نخست، گرداوری داده‌های نامطمئن،‌ و دوم سوءبازنمایی داده.

گردآوری داده‌های نامطمئن: پژوهشگر باید از صحت و دقت داده‌های گردآوری‌شده از آزمودنی‌ها، مطلع‌ها و آزمایش‌ها اطمینان حاصل کند. در بسیاری از پژوهش‌ها، اطمینان از قابل‌اعتمادبودن داده‌ها، از طریق تکرار آزمایش‌ها/مشاهده‌ها، بررسی میزان مداخله خودِ ابزارهای پژوهش و دیگر عوامل، و کمک‌گرفتن از همکاران علمی برای اعتبارسنجی داده‌ها حاصل می‌شود. همچنین شگردهای دیگری وجود دارد که معمولاً در تنظیم پرسش‌نامه بکار گرفته می‌شوند. پرسش‌‌نامه‌هایی که مستلزم پاسخ‌دهی کمّی طیفی‌اند مستعد این هستند که مشارکت‌کنندگان دقت لازم را در تکمیل آن‌ها به خرج ندهند. ازاین‌رو، پژوهشگر باید از‌طریق ترفندهایی میزان دقت و توجه مشارکت‌کننده‌ها را بسنجد و مواردی را که دقت و توجه لازم در تکمیل آن‌ها به‌کار گرفته نشده کنار گذارد. مثلاً گنجاندن سؤالات دقت‌سنج (مانند سؤالاتی که نشان می‌دهد که آیا مشارکت‌کننده سازگار و منسجم عمل می‌کند، آیا سؤالات را می‌خواند یا فقط گزینه‌ها را پر می‌کند و غیره) یکی از روش‌های کسب اطمینان از صحت و دقت داده‌ها است. هم‌چنین پژوهشگر باید از میانگین زمانی که برای تکمیل یک پرسش‌نامه لازم است آگاه باشد و در صحت و دقت داده‌های پرسش‌نامه‌هایی که بسیار زودتر از میانگین تکمیل می‌شوند تردید کند.

سوءبازنمایی داده: سوءبازنمایی داده مربوط به نمایش گمراه‌کننده داده‌هاست. درواقع در سوءبازنمایی، داده‌ای جعل یا دستکاری نمی‌شود اما ممکن است برخی داده‌ها به شکل نادرستی بیان ‌شوند، و یا از طریق نمودارهای نامناسب طوری نمایش داده شوند به‌نحوی‌که تصور نادرستی در ذهن خواننده ایجاد کنند. این یعنی دو نوع سوءبازنمایی مهم داریم:

  1. سوءبازنمایی در بیان نتایج: گاهی ما در بیان نتایجی که از یک سری مجموعه داده برمی‌آید دقت نمی‌کنیم و نتیجه‌گیری ما فراتر از چیزی است که داده‌ها می‌گویند. یکی از معروف‌ترین نمونه‌های این نوع مشکل، خلط میان همبستگی (correlation) و علیت (causation) است. همبستگی به‌معنای وجود نوعی رابطه معنادار میان دو عامل است اما علیت به این معناست که از این دو عامل یکی ایجادکننده (یا علت) دیگری است. روشن است که به صرف آشکارکردن یک همبستگی میان دو پدیده نمی‌توان ادعا کرد که یکی علت دیگری است. مثلاً نشان داده شده که افزایش فروش بستنی با افزایش جُرم همبستگی مثبت دارد؛ یعنی با افزایش یکی دیگری نیز فزایش می‌یابد. بااین‌حال هیچ‌کدام از این دو پدیده، علت دیگری نیستند بلکه عامل سومی درکار هست: «گرم‌شدن هوا» باعث افزایش فروش بستنی و نیز افزایش جرم می‌شود.
  2. سوءبازنمایی نموداری: به‌کارگیری نمودارهای نامناسب برای نمایش داده‌ها می‌تواند منجر به ایجاد بدفهمی در مخاطب شود. موارد زیر را درنظر بگیرید.

    • استفاده از نمودارهای دایره‌ای برای نمایش داده‌های بسیار متنوع: معمولاً نمودارهای دایره‌ای برای ارائه داده‌های بیشتر از هفت گونه (هفت برش) مناسب نیستند. برای نمایش داده‌های بسیار متنوع از نمودارهای میله‌ای استفاده کنید.
    • بیشتر از صد شدن جمع برش‌ها در نمودارهای دایره‌ای: مساحت نمودار دایره‌ای بیانگر یک کل 100درصدی است که هر برش از آن باید بخشی از این کل را اشغال کرده باشد. استفاده از نمودار دایره‌ای برای نمایش پاسخ‌هایی که می‌توانند هم‌زمان پاسخ چند سؤال باشند احتمالاً جمع برش‌ها را بیشتر از صد می‌کند. درنتیجه فلسفه این نوع نمودارها برای مقایسه سریع داده‌ها توسط مخاطب زیر سؤال رود. مثلاً نمودار دایره‌ای برای نمایش درصد بیماران بالای 60 سال مبتلا به بیماری‌های قلبی، دیابت، و پارکینسون مناسب نیست چراکه برخی بیمارها ممکن است به هر سه یا دو نوع از این بیماری‌ها مبتلا باشد و درنتیجه احتمالاً جمع برش‌ها بیشتر از صد می‌شود.
    • کوتاه‌کردن محور Y (محور عمودی) نمودارهای میله‌ای و ستونی: در نمودارهای میله‌ای و ستونی، محور عمودی باید از صفر شروع شود تا مخاطب در نگاه نخست درک درستی از مقایسه میله‌ها و ستون‌ها داشته باشد. کوتاه کردن این محور از پایین می‌تواند غلط‌‌انداز باشد.
    • کوتاه و بلند کردن یکی از محورهای X و Y در نمودارهای خطی: محورهای X و Y در نمودارهای خطی باید هم‌اندازه باشند.

چرا داده‌سازی و دستکاری داده غیراخلاقی است؟

صداقت و امانت‌داری در گرداوری و انتقال داده‌ها برای امر پژوهش اهمیتی حیاتی دارد. داده‌سازی و دستکاری داده چنان مهم هستند که در ادبیات علم برای اشاره به آن از لفظ کلاه‌برداری (fraud)، که بار اخلاقی قوی‌تری از بدرفتاری (misconduct) دارد استفاده می‌کنند. داده‌سازی و دستکاری داده (و همچنین گرداوری داده‌های نامطمئن و سوءبازنمایی داده‌ها که به آن‌ها اشاره کردیم) اصول اخلاقی مهمی ازجمله اصل استقلال علمی، اصل صداقت، اصل انصاف، و اصل جلوگیری از آسیب را نقض می‌کنند. دروهله نخست داده‌سازی و دستکاری داده استقلال علمی پژوهشگر، یعنی تلاش برای رسیدن به داده‌های روشمند بدون دخالت‌دادن اغراض و منافع شخصی، را مضمحل می‌کند. و دقیقاً به همین دلیل مستلزم عدم صداقت با جامعه علمی و خوانندگان است؛ چراکه داده‌سازی به معنای قالب‌کردن داده‌های جعلی به‌عنوان داده‌های روشمند و علمی است. همچنین اصل انصاف نیز نقض می‌شود؛ افراد از طریق مقالاتی که با داده‌سازی و دستکاری داده نگاشته و منتشر کرده‌اند ممکن است به شکل غیرمنصفانه‌ای امتیاز و موقعیت‌ کسب کنند. درنهایت این نوع کلاه‌برداری علمی چنانکه مثال‌های تاریخی زیر نشان می‌دهند به جامعه علمی و خوانندگان آسیب می‌زند.

چند مورد تاریخی داده‌سازی و دستکاری داده
  • مورد «مرد پیلت‌داون» (Piltdown man): در سال 1912 باستان‌شناسی به نام چارلز داوسون (Charles Dawson) ادعا کرد که حلقه مفقوده میان میمون‌ها و انسان‌ها را در منطقه پیلت‌داون انگلستان یافته است. وی فسیل‌های یک موجود انسان‌نما را به نمایش گذاشت که ویژگی‌هایی از انسان‌ها و میمون‌ها را در خود داشت، و ادعا کرد که این فسیل متعلق به مردی میان‌سال است که حدود 500 هزار سال پیش می‌زیسته است. این یافته، که به مرد پیلت‌داون معروف شد، برای جامعه علمی کشف بسیار بزرگی محسوب می‌شد چراکه به یکی از مسائل زیست‌شناسی تکاملی پاسخ می‌داد و تصویر روشن‌تری از اجداد انسان ارائه می‌کرد. هرچند در همان ابتدا تردیدهایی در مورد این یافته وجود داشت، ادعای داوسون برای حدود 45 سال کم‌وبیش مورد پذیرش جامعه علمی گرفت. مؤسسات علمی زیادی بر اساس فسیل‌های مرد پیلت‌داون اقدام به بازسازی اندام‌های او کرده بود و در موزه‌ها و همایش‌های علمی به نمایش می‌گذاشتند. تا اینکه درنهایت با بررسی‌های بیشتر مشخص شد که این ادعا صرفاً یک کلاه‌برداری علمی بوده است. بررسی‌ها نشان داد که داوسون و همکارانش استخوان‌های یک انسان قرون‌وسطی (با حدود 500 سال قدمت)‌ را با آرواره‌ها و دندان‌های یک اورانگوتان و یک شامپانزه ترکیب کرده بودند و سپس از طریق مواد شیمیایی عمر استخوان‌ها را افزایش داده بودند. (1)
  • مورد واکسن ام‌ام‌آر و اوتیسم: اندرو ویکفیلد (Andrew Wakefield)، پزشک بریتانیایی، به همراه شماری دیگر از مؤلفان، در سال 1998‌ در مقاله‌ای ادعا کردند که احتمالاً ارتباطی میان واکسن ام‌ام‌آر (سرخک، اوریون و سرخچه) و اوتیسم وجود دارد. در این مقاله که در مجله لنست (The Lancet)، یکی از مجلات معتبر حوزه پزشکی بریتانیا، منتشر شد، 12 کودک 3 تا 10 ساله مبتلا به اوتیسم مورد بررسی قرار گرفته بودند و ادعا می‌شد که از این میان 8 کودک پس از تزریق واکسن ام‌ام‌آر علائم اوتیسم پیدا کرده‌اند. با انتشار این مقاله، ویکفیلد در یک کنفرانس مطبوعاتی گفت که وی نمی‌گوید که حتماً رابطه‌ای علی میان اوتیسم و این واکسن ترکیبی وجود دارد، اما بر اساس یافته‌های ما احتیاط حکم می‌کند که به جای این واکسن ترکیبی از سه واکسن مجزا برای سرخک، اوریون و سرخچه استفاده شود. پس از انتشار مقاله، و پوشش خبری آن توسط رسانه‌ها، عموم مردم به‌سرعت به این یافته علمی توجه کردند و یک هراس عمومی به‌ویژه در بریتانیا شکل گرفت. بسیاری از والدین از ترس اینکه مبادا کودکشان به اوتیسم مبتلا شود اجازه نمی‌دادند که مسئولین بهداشت این واکسن را به کودکشان تزریق کنند. در نتیجه این هراس عمومی و خودداری از تزریق واکس ام‌ام‌آر، آمار مبتلایان به بیماری‌های فوق در بریتانیا افزایش یافت. بررسی‌های بعدی نشان داد که این مقاله دچار دستکاری و سوءبازنمایی داده بوده است؛ مشخص شد که اولاً از این 12 کودک 3 کودک اصلاً اوتیسم نداشتند، 5 نفر پیش از تزریق واکسن علائمی از اوتیسم را داشته‌اند، و بقیه، برخلاف مقاله ویکفیلد که ادعا می‌کرد کودکان چند روز پس از تزریق علائم اوتیسم از خود بروز داده‌اند، اولین علائم مربوط به چند ماه پس از تزریق بوده است. مطالعات بعدی روی شمار گسترده‌ای از کودکان نشان داد هیچ رابطه معناداری میان واکسن ام‌ام‌آر و اوتیسم وجود ندارد. بااین‌حال هراس از واکسن ام‌ام‌آر برای چند دهه ادامه یافت. با مشخص‌ شدن جعلی بودن داده‌های این مقاله، لنست در سال 2010 این مقاله را نامعتبر اعلام کرد. (2)
  • مورد دکتر یوشیتاکا فوجی: دکتر یوشیتاکا فوجی (Yoshitaka Fujii) پژوهشگر ژاپنی حوزه هوش‌بری، و دانشیار پیشین دانشکده پزشکی دانشگاه توهوی ژاپن، به‌عنوان کسی که بیشترین مقالات سلب اعتبارشده (retracted) را در کارنامه خود دارد شناخته شده است. دکتر فوجی برای چند دهه به طور خاص روی عارضه تهوع و استفراغ پس از عمل جراحی کار کرده است و با همکاری پژوهشگرانی دیگر بیش از 200 مقاله را در مجلات معتبر این حوزه منتشر کرده است. وی در بسیاری از مقالات از این ادعا که داروی گرانیسترون (Granisetron) در مقابل داروهای بدیل، اثربخشی بهتری برای کاهش عارضه تهوع و استفراغ در بیماران پس از عمل جراحی دارد دفاع کرده است. در سال 2000 تردیدهایی در مورد اعتبار داده‌های مقالات فوجی منتشر شد اما توجه چندانی از سوی جامعه علمی، کمیته‌های اخلاق و حتی مجلاتی که مدام از وی مقاله منتشر می‌کردند نشد. تردیدها و گزارش‌های بیشتر باعث شد که توجه مجلات و نهادهای علمی ازجمله دانشگاه توهو و «کمیته انجمن ژاپنی هوش‌بری» به آثار فوجی معطوف شود. در بررسی‌های این کمیته مشخص شد که در 212 مقاله از 249 مقاله‌ای که در آن‌ها نام فوجی به‌عنوان مؤلف ذکر شده است داده‌سازی و دستکاری داده رخ داده است. از این میان 139 مقاله، داده‌سازی تما‌م‌عیار بوده‌اند؛ یعنی کل داده‌های این مقالات محصول هیچ پژوهشی نبوده‌اند. درنتیجه این گزارش‌ها، از بیش از 180 مقاله فوجی سلب اعتبار شد و وی از دانشگاه توهو اخراج گردید. (3)
  1. Miles, Russell. 2004. Piltdown Man: The Secret Life of Charles Dawson. Tempus.
  2. Deer, Brian. 2020. The Doctor Who Fooled the World: Science, Deception, and the War on Vaccines. Baltimore, Md.: Johns Hopkins University Press.
  3. Cyranoski, D. 2012. Retraction record rocks community. Nature 489: 346-347.

برای مطالعه بیشتر در مورد داده‌سازی و دستکاری داده
  1. Judson, H.F. 2004. The Great Betrayal: Fraud in Science. Orlando, Florida: Harcourt.
  2. Freitas, João. 2021. A narrative on the fabrication of results in science. Current Science 121 (2): 205-209.
  3. Jones, Ben. 2020. Avoiding Data Pitfalls: How to Steer Clear of Common Blunders When Working with Data and Presenting Analysis and Visualizations. Hoboken, New Jersey: John Wiley & Sons, Inc.
آخرین ویرایش۱۶ مهر ۱۴۰۴