การวิเคราะห์การตรวจสอบความสามารถในการทำซ้ำที่สำคัญได้ข้อสรุปที่ขัดแย้งกัน จิตวิทยาสั่นสะเทือนเมื่อปีที่แล้วจากรายงานที่ตีพิมพ์ผลงานในสาขาต่างๆ หายไปในการทดลองซ้ำ แต่การศึกษาที่น่ากังวลนั้นส่งเสียงเตือนที่ผิดพลาด การวิเคราะห์ที่ขัดแย้งพบว่า
การตรวจสอบครั้งแรกของการศึกษา 100 ชิ้นมีข้อผิดพลาดที่สำคัญ แดเนียล กิลเบิร์ต นักจิตวิทยาจากมหาวิทยาลัยฮาร์วาร์ดและเพื่อนร่วมงานโต้แย้ง หลังจากแก้ไขข้อผิดพลาดเหล่านั้นแล้ว ผลกระทบที่รายงานใน 85 ของการศึกษาเหล่านั้นปรากฏในการจำลองที่ดำเนินการโดยนักวิจัยที่แตกต่างกัน ดังนั้น ข้อสรุปเบื้องต้นที่มีเพียง 35 งานวิจัยที่สร้างการค้นพบซ้ำได้จึงเป็นการดูถูกดูแคลนอย่างร้ายแรง ทีมงานของ Gilbert รายงานใน วารสาร Science 4 มีนาคม
“ไม่มีหลักฐานว่าวิกฤตการจำลองแบบในทางจิตวิทยา” กิลเบิร์ตกล่าว
นักจิตวิทยา Brian Nosek แห่งมหาวิทยาลัยเวอร์จิเนียใน Charlottesville และสมาชิกคนอื่นๆ ของกลุ่มที่ทำการศึกษาการจำลองแบบเดิม ( SN: 10/3/15, p. 8 ) ปฏิเสธการวิเคราะห์ของ Gilbert รายงานปี 2015 ให้ “หลักฐานเบื้องต้นที่ไม่ชัดเจน” ว่าจิตวิทยามีปัญหาในการทำซ้ำพวกเขาเขียนคำตอบที่ตีพิมพ์ในฉบับเดียวกันของScience
นักระบาดวิทยาของมหาวิทยาลัยสแตนฟอร์ด จอห์น ไอโออันนิดิส กล่าวว่า น่าแปลกใจที่ “นักวิทยาศาสตร์ที่เก่งที่สุดไม่สามารถเห็นด้วยจริงๆ ว่าผลลัพธ์ของบทความที่สำคัญที่สุดในประวัติศาสตร์จิตวิทยาหมายความว่าอย่างไร” สมมติฐานและความคาดหวังของนักวิจัยสามารถมีอิทธิพลต่อผลลัพธ์ของพวกเขา “ไม่ว่าจะชัดเจนและแข็งแกร่งเพียงใด”
การศึกษาซ้ำหลายครั้งในกระดาษปี 2015 แตกต่างอย่างมากจากการศึกษาเบื้องต้น โดยซ้อนสำรับกับการทำสำเนาที่ประสบความสำเร็จ Gilbert กล่าว การจำลองแบบมักจะสุ่มตัวอย่างประชากรที่แตกต่างกัน เช่น การแทนที่ชาวอิตาเลียนพื้นเมืองสำหรับชาวอเมริกันในการศึกษาทัศนคติต่อชาวอเมริกันผิวดำ ขั้นตอนการเปลี่ยนแปลงมากมาย ความพยายามในการจำลองแบบครั้งเดียวทำให้เด็กโตเป็นงานที่ค่อนข้างง่ายในการค้นหารายการบนหน้าจอคอมพิวเตอร์ขนาดเล็ก ในขณะที่การศึกษาดั้งเดิมทำให้เด็กที่อายุน้อยกว่าทำงานได้ยากขึ้นในการค้นหารายการบนหน้าจอคอมพิวเตอร์ขนาดใหญ่
การศึกษาซ้ำมักมีอาสาสมัครน้อยเกินไปที่จะสร้างกรณีที่น่าสนใจทางสถิติว่าการจำลองแบบสำเร็จหรือล้มเหลว Gilbert กล่าว ปัญหาอีกประการหนึ่งคือการศึกษาต้นฉบับแต่ละครั้งทำซ้ำเพียงครั้งเดียว การศึกษาซ้ำหลายครั้งสร้างสมดุลระหว่างความแตกต่างในขั้นตอนการศึกษาและเพิ่มจำนวนการจำลองที่ประสบความสำเร็จ นักวิทยาศาสตร์เถียง
ในการศึกษาการจำลองแบบที่มักเป็นการเปรียบเทียบระหว่างแอปเปิ้ลและส้ม
การศึกษาการจำลองแบบอย่างน้อย 34 ครั้งควรล้มเหลวโดยบังเอิญ สมมติว่าการศึกษาดั้งเดิมทั้งหมด 100 ชิ้นอธิบายผลกระทบที่แท้จริง Gilbert และเพื่อนร่วมงานของเขาประมาณการ นั่นทำให้การประเมินใหม่ของการจำลองที่ประสบความสำเร็จ 85 รายการนั้นน่าประทับใจยิ่งขึ้นไปอีก
กลุ่มของ Nosek คำนวณว่ามีเพียง 22 ครั้งที่พยายามจำลองแบบในการศึกษาปี 2015 ที่ควรจะล้มเหลวโดยบังเอิญ Nosek กล่าวว่าแม้การจำลองแบบที่ประสบความสำเร็จก็พบว่ามีผลทางสถิติที่อ่อนแอกว่าการศึกษาดั้งเดิม การศึกษาที่ตีพิมพ์ทำให้ผลการวิจัยที่มีนัยสำคัญทางสถิติดูแข็งแกร่งเกินควร เขากล่าว วารสารมักจะไม่เผยแพร่ความล้มเหลวในการจำลองแบบและนักวิจัยหลายคนก็เก็บมันออกไป
การวิเคราะห์ใหม่เกี่ยวกับงานของกลุ่ม Nosek ชี้ให้เห็นว่าตัวอย่างการศึกษาการจำลองแบบต้องได้รับการเสริมกำลังก่อนจึงจะสามารถสรุปผลเกี่ยวกับความทนทานของผลลัพธ์ทางจิตวิทยาได้ ความล้มเหลวในการทำซ้ำในการตรวจสอบปี 2015 ส่วนใหญ่เกิดขึ้นเนื่องจากการศึกษาดั้งเดิมจำนวนมากมีผู้เข้าร่วมเพียงพอที่จะสร้างผลกระทบที่อ่อนแอ แต่มีนัยสำคัญทางสถิติ นักจิตวิทยาสองคนยืนยัน 26 กุมภาพันธ์ในPLOS ONE อคติของวารสารในการเผยแพร่ผลในเชิงบวกเพียงอย่างเดียวยังส่งผลต่อความล้มเหลวในการจำลองแบบ เพิ่ม Alexander Etz ที่มหาวิทยาลัยอัมสเตอร์ดัมในขณะที่ทำการศึกษาและ Joachim Vandekerckhove จาก University of California, Irvine
ทั้งคู่วิเคราะห์เอกสาร 72 ฉบับและการจำลองแบบจากโครงการของ Nosek ทางสถิติ การศึกษาดั้งเดิมเพียง 19 ชิ้นเท่านั้นที่มีอาสาสมัครเพียงพอที่จะให้ผลที่แข็งแกร่งและมีนัยสำคัญทางสถิติ ทีมวิจัยของ Nosek ต้องการการศึกษาเพิ่มเติมอีกมากโดยมีขนาดกลุ่มตัวอย่างที่ใหญ่พอๆ กัน เพื่อสรุปเกี่ยวกับสถานะของการจำลองแบบในทางจิตวิทยา นักวิจัยกล่าว
นักวิจัยด้านจิตวิทยาและสาขาอื่น ๆ ไม่จำเป็นต้องกังวลน้อยลงเกี่ยวกับการทำซ้ำผลลัพธ์ที่มีนัยสำคัญทางสถิติและเพิ่มเติมเกี่ยวกับทฤษฎีการพัฒนาที่สามารถทดสอบได้ด้วยวิธีทางสถิติที่หลากหลาย Gerd Gigerenzer นักจิตวิทยาแห่งสถาบัน Max Planck เพื่อการพัฒนามนุษย์ในเบอร์ลินกล่าว นัยสำคัญทางสถิติแสดงความน่าจะเป็นของการสังเกตความสัมพันธ์ระหว่างสองตัวแปร กล่าวคือ ความเชื่อมโยงระหว่างการเปลี่ยนแปลงในถ้อยคำของการอุทธรณ์เพื่อการกุศลและการบริจาคที่เพิ่มขึ้น โดยถือว่าตั้งแต่เริ่มต้นว่าไม่มีความสัมพันธ์ดังกล่าวอยู่จริง แต่นักวิจัยแทบไม่เคยทดสอบคำอธิบายที่เสนอสำหรับผลลัพธ์ที่มีนัยสำคัญทางสถิติ