Một nghiên cứu đột phá mới đăng trên tạp chí y khoa uy tín The Lancet đã phát hiện một xu hướng đáng lo ngại về việc sửa đổi không công khai các bộ dữ liệu y tế quan trọng của chính phủ Hoa Kỳ. Cuộc điều tra tiết lộ rằng hơn 100 bộ dữ liệu y tế liên bang đã bị thay đổi lặng lẽ vào mùa xuân năm nay, với gần một nửa số tệp được kiểm tra trải qua những thay đổi đáng kể về từ ngữ mà không có bất kỳ thông báo công khai nào.
Các chuyên gia cảnh báo rằng những chỉnh sửa bí mật như vậy có thể làm tổn hại nghiêm trọng đến tính toàn vẹn của nghiên cứu sức khỏe cộng đồng và xói mòn niềm tin của công chúng vào các nguồn dữ liệu liên bang, dẫn đến những quyết định chính sách sai lầm và phân bổ nguồn lực lệch hướng.
Vén Màn Những Thay Đổi Ẩn Giấu: Phương Pháp Nghiên Cứu
Để phát hiện những thay đổi bí mật này, các nhà nghiên cứu đã tỉ mỉ tải xuống các danh mục trực tuyến, được gọi là nguồn thu thập, do các cơ quan liên bang duy trì theo Đạo luật Dữ liệu Chính phủ Mở năm 2019. Họ tập trung vào các mục từ các bộ quan trọng bao gồm Trung tâm Kiểm soát và Phòng ngừa Dịch bệnh (CDC), Bộ Y tế và Dịch vụ Nhân sinh (HHS) và Bộ Cựu chiến binh (VA) có ngày sửa đổi từ 20 tháng 1 đến 25 tháng 3 năm 2025.
Sau khi lọc các bản trùng lặp và các tệp thường xuyên được cập nhật, nhóm đã phân tích 232 bộ dữ liệu duy nhất. Đối với mỗi bộ, họ lấy một bản sao lưu trữ trước khi sửa đổi, chủ yếu sử dụng công cụ Wayback Machine của Internet Archive. Tính năng so sánh của chương trình xử lý văn bản sau đó được sử dụng để làm nổi bật tất cả các khác biệt về văn bản, đặc biệt loại trừ các bảng số. Quan trọng hơn, các điều tra viên đã đối chiếu những thay đổi này với nhật ký thay đổi công khai chính thức đính kèm trên trang web của mỗi bộ dữ liệu, phát hiện ra sự vắng mặt phổ biến của tài liệu.
Phát Hiện Chính: Chuyển Đổi “Giới” sang “Giới Tính” và Những Sửa Đổi Không Minh Bạch
Nghiên cứu phát hiện ra sự thống nhất đáng kinh ngạc trong các thay đổi. Trong số 232 bộ dữ liệu được phân tích, 114 (49%) chứa những thay đổi về từ ngữ mà các tác giả coi là có thể có ý nghĩa quan trọng. Một mô hình nổi bật xuất hiện: 106 trong số những thay đổi này liên quan đến việc chuyển thuật ngữ “gender” (giới) sang “sex” (giới tính). Những thay đổi đáng chú ý khác bao gồm thay thế “các yếu tố xã hội quyết định sức khỏe” bằng “các yếu tố không phải y tế” và “tình trạng kinh tế xã hội” bằng “đặc điểm kinh tế xã hội”. Một danh sách thử nghiệm lâm sàng thậm chí đã sửa đổi tiêu đề từ “đa dạng giới” thành “bao gồm nam và nữ”.
Phần lớn những sửa đổi này (89 trường hợp) trực tiếp ảnh hưởng đến định nghĩa dữ liệu, chẳng hạn như tên cột hoặc nhãn danh mục. 25 thay đổi còn lại xuất hiện trong phần mô tả hoặc thẻ. Đáng báo động, chỉ 25 trong số 114 tệp bị thay đổi – ít hơn một phần bảy – công khai thừa nhận những sửa đổi này trong nhật ký thay đổi chính thức của họ.
Thời điểm của những chỉnh sửa này cũng gây ngạc nhiên, với sự gia tăng đáng kể được ghi nhận: bốn chỉnh sửa vào cuối tháng 1, 30 vào tháng 2 và 82 trong ba tuần rưỡi đầu tiên của tháng 3, cho thấy một nỗ lực tập trung.
Những Hệ Lụy Rộng Lớn cho Nghiên Cứu và Sức Khỏe Cộng Đồng
Những bộ dữ liệu chính phủ này là nền tảng của vô số dự án nghiên cứu trong lĩnh vực tâm lý học, xã hội học và sức khỏe cộng đồng. Ví dụ, Hệ thống Giám sát Yếu tố Rủi ro Hành vi (BRFSS) cung cấp dữ liệu quan trọng về hành vi sức khỏe, trong khi các tệp của CDC về bệnh tim và tỷ lệ tử vong do đột quỵ giúp hiểu xu hướng sức khỏe cộng đồng. Các báo cáo tóm tắt của VA là không thể thiếu cho nghiên cứu sức khỏe tâm thần cựu chiến binh.
Khi các nhãn biến quan trọng như “gender” (giới) đột ngột chuyển thành “sex” (giới tính) mà không có lý do, các nghiên cứu so sánh dữ liệu thu thập dưới các thuật ngữ khác nhau trở nên không đáng tin cậy. Ngay cả một thay đổi không được ghi chép cũng có thể làm mất hiệu lực các mô hình thống kê trước đó, cản trở nỗ lực sao chép hoặc làm mờ đi các xu hướng dân số thực sự. Sự khác biệt này đặc biệt quan trọng, vì “gender” (giới) đề cập đến bản dạng xã hội, trong khi “sex” (giới tính) chỉ phân loại sinh học. Nếu không có sự rõ ràng, các nhà phân tích không thể xác định liệu một thay đổi trong tỷ lệ nhân khẩu học có phản ánh sự thay đổi thực tế, chỉ là điều chỉnh từ ngữ hay mã hóa lại không được thông báo, dẫn đến các chính sách sức khỏe cộng đồng và hướng dẫn y tế sai lệch.
Động Cơ Chính Trị Tiềm Ẩn và Sự Thiếu Minh Bạch
Các tác giả nghiên cứu chỉ ra một động cơ chính trị tiềm ẩn cho những thay đổi này, lưu ý một chỉ thị của Nhà Trắng được ban hành vào đầu tháng 2 yêu cầu các cơ quan loại bỏ tài liệu bị coi là thúc đẩy “hệ tư tưởng giới”. Trong khi không có văn phòng liên bang nào xác nhận mối liên hệ trực tiếp, thời điểm và sự tập trung hẹp vào thuật ngữ “gender” (giới) cho thấy một hành động phối hợp.
Nếu mục đích thực sự là thống nhất thuật ngữ giữa các cơ quan, cuộc điều tra cho thấy sự coi thường đáng kể đối với tính minh bạch mà Đạo luật Dữ liệu Chính phủ Mở yêu cầu.
Hạn Chế của Nghiên Cứu và Đề Xuất cho Tính Toàn Vẹn Dữ Liệu
Các nhà nghiên cứu thừa nhận một số hạn chế, bao gồm không thể kiểm tra các giai đoạn trước đó do hạn chế lưu trữ và tính chủ quan trong việc đánh giá mức độ quan trọng của thay đổi. Hơn nữa, nội dung số không được kiểm tra lại, để ngỏ câu hỏi liệu các con số có bị thay đổi hay không.
Trước những phát hiện này, các tác giả đề xuất một số biện pháp bảo vệ cho các học giả và tổ chức. Những biện pháp này bao gồm sao lưu độc lập các bộ dữ liệu liên bang trên máy chủ riêng, lưu trữ cục bộ bởi từng nhà điều tra và kiểm tra đột xuất thường xuyên so với các phiên bản lưu trữ. Các kho lưu trữ quốc tế như Europe PubMed Central cung cấp dịch vụ lưu trữ thay thế cho các nguồn tài nguyên y sinh.
Cuối cùng, các nhà nghiên cứu nhấn mạnh nhu cầu tối quan trọng về cam kết văn hóa theo dõi phiên bản đầy đủ trong các cơ quan liên bang. Điều này sẽ đảm bảo rằng mọi thành viên của công chúng có thể thấy rõ những gì đã thay đổi, khi nào nó thay đổi và quan trọng nhất là lý do tại sao.
Nghiên cứu có tiêu đề “Thao túng dữ liệu trong Chính phủ Liên bang Hoa Kỳ” được đồng tác giả bởi Janet Freilich và Aaron S. Kesselheim.