Dự báo sốt xuất huyết bằng học máy

Một nền tảng dự báo mới do OUCRU, Đại học Oxford, Trung tâm Kiểm soát Bệnh tật TP.HCM (HCDC) cùng các đối tác tại Việt Nam phối hợp phát triển nhằm đưa ra cảnh báo sớm, tạo cơ sở khoa học để các cơ quan quản lý chủ động ứng phó dịch sốt xuất huyết.

Dự báo dịch trong bối cảnh biến đổi khí hậu

Việt Nam ghi nhận khoảng 200.000 ca mắc sốt xuất huyết mỗi năm. Các điều kiện định hình dịch ngày càng phức tạp. Nhiệt độ tăng và lượng mưa thay đổi khiến muỗi Aedes aegypti mở rộng địa bàn lên miền Bắc và vùng núi. Biến đổi khí hậu, đô thị hóa nhanh, gia tăng dân số và di biến động dân cư khiến các phương pháp giám sát truyền thống gặp nhiều hạn chế.

Hệ thống DART (Công cụ chuẩn bị nâng cao cho bệnh sốt xuất huyết) được thiết kế để giải quyết thách thức này. Do Quỹ Wellcome tài trợ, nền tảng tích hợp dữ liệu ca bệnh, khí hậu và mật độ dân số để dự báo số ca mắc theo tuần ở cấp quận/huyện trước từ 1 đến 12 tuần. Khoảng thời gian này giúp ngành y tế dự phòng kịp chuẩn bị, phân bổ nguồn lực và phản ứng trước khi dịch lan rộng. DART được xây dựng qua tham vấn trực tiếp với các đối tác bản địa nên phù hợp sát với thực tế Việt Nam.

Hướng tiếp cận mới trong mô hình hóa dữ liệu

Nhiều công cụ dự báo truyền thống thường dựa vào mô hình thống kê vì chúng hiển thị một dải kết quả khả thi, giúp nhà hoạch định chính sách hình dung các kịch bản bùng dịch. Tuy nhiên, phương pháp này buộc nhà nghiên cứu phải tự áp đặt trước các biến số tác động (như nhiệt độ, lượng mưa, mật độ dân số). Nếu bỏ sót một yếu tố, độ chính xác của dự báo sẽ giảm.

Mô hình học máy vận hành khác biệt: tự phân tích khối lượng dữ liệu lớn để tìm quy luật thay vì chờ con người chỉ định. Dẫu vậy, hạn chế của đa số mô hình học máy là chỉ đưa ra một con số dự báo duy nhất, thiếu dải biên độ sai số và mức độ tin cậy. Với nhà quản lý y tế cần cơ sở ra quyết định, sự thiếu vắng bối cảnh này là một trở ngại lớn.

“Trước đây ta phải đánh đổi giữa hai phương pháp. DART được thiết kế để kết hợp thế mạnh của cả hai,” NCS. Huỳnh Ngọc Tuyên, chuyên gia mô hình hóa dự án DART tại OUCRU Việt Nam (Đại học Oxford), chia sẻ.

Giám sát và dự báo là những công cụ thiết yếu trong kiểm soát dịch sốt xuất huyết. (Ảnh: Trang Nguyễn, OUCRU)

DART kết hợp học máy với kỹ thuật tiên tiến để bổ sung dải biên độ tin cậy cho mỗi kết quả. Mô hình tự bóc tách các mối quan hệ từ dữ liệu gốc thay vì dựa vào nhận định chủ quan của con người. Người dùng sẽ thấy một dải biên độ (ví dụ 400 đến 650 ca) thay vì một con số đơn độc, giúp việc ra quyết định chính xác hơn.

“DART mang lại sự linh hoạt của học máy nhưng vẫn tạo ra đầu ra có ý nghĩa cho y tế công cộng. Sự kết hợp đó làm nên khác biệt,” anh Tuyên cho biết.

Nền tảng gồm ba thành phần: đường truyền dữ liệu (data pipeline), mô hình dự báo và giao diện trực quan hóa. Dữ liệu giám sát dịch bệnh, thời tiết và mật độ dân số được nạp vào hệ thống để xử lý và tổng hợp tự động.

Hình 1. Quy trình vận hành của DART: đường truyền dữ liệu, mô hình dự báo bằng học máy và giao diện trực quan hóa trên ứng dụng web.

Hệ thống mất khoảng 8 tiếng để xử lý dữ liệu toàn Việt Nam giai đoạn 2002–2025. Khi vận hành thường quy, quy trình này sẽ chạy tự động hằng tuần, ít cần can thiệp thủ công.

Hiện tại, DART đã dự báo hằng tuần số ca mắc sốt xuất huyết cho TP.HCM trước tối đa 12 tuần ở cấp thành phố và quận/huyện. Để thích ứng với việc thay đổi địa giới hành chính hiện nay, DART đang tinh chỉnh mô hình xuống cấp xã/phường.

Dự báo chỉ có giá trị khi được sử dụng

Qua ba năm, DART mở rộng quy mô từ một nhóm kỹ thuật tinh gọn thành một mạng lưới đối tác rộng lớn gồm chính quyền địa phương, cơ quan y tế công cộng và các viện nghiên cứu.

“Nhiều bên tham gia hơn là một tín hiệu tốt,” PGS. Sarah Sparrow (Đại học Oxford), chủ nhiệm dự án, nhận định.

Sự đồng hành của Viện Vệ sinh Dịch tễ Trung ương (NIHE), CDC Hà Nội, HCDC, Sở Y tế TP.HCM, Trường Đại học Khoa học và Công nghệ Hà Nội (USTH) giúp nền tảng được kiểm chứng bằng thực tế vận hành, thay vì chỉ dựa trên các giả định nghiên cứu.

Thay vì tham vọng so sánh động học dịch giữa nhiều thành phố, nhóm nghiên cứu chọn hướng đi thực tế: hoàn thiện và chứng thực hiệu quả bộ khung mô hình tại TP.HCM trước khi tính đến chuyện nhân rộng. “Đây không phải là một thử nghiệm học thuật. Chúng tôi muốn xây dựng một công cụ mà đội ngũ y tế công cộng có thể hiểu, tin tưởng và sử dụng,” PGS. Sparrow nhấn mạnh.

Đến năm 2026, bài toán đặt ra là liệu các cơ quan quản lý có đủ niềm tin để hành động dựa trên dự báo của DART.

Các đại biểu Vương quốc Anh và Việt Nam tại hội thảo tổng kết dự án DART, tháng 5/2026. (Ảnh: Trang Nguyễn, OUCRU)

Tại hội thảo tổng kết ngày 21–22/5, đại diện từ Quỹ Wellcome, NIHE, HCDC, CDC Hà Nội, Viện Pasteur TP.HCM, USTH, Save the Children và các đối tác Anh – Việt đã trực tiếp đánh giá dòng chảy dữ liệu của hệ thống.

Thạc sĩ Trương Thị Thanh Lan, Trưởng khoa Giám sát – Cảnh báo sớm – Chuẩn bị và Đáp ứng phó với dịch bệnh (HCDC), đánh giá DART là “công cụ hiệu quả hỗ trợ dự báo sốt xuất huyết tại TP.HCM”, nhưng lưu ý cần tiếp tục tinh chỉnh mô hình để thích ứng với các thay đổi cấu trúc hành chính gần đây của thành phố.

Hội thảo cũng chỉ ra thách thức chung của ngành: sự hào hứng ban đầu đối với các công cụ mô hình hóa đang nhường chỗ cho sự thận trọng. PGS. Phạm Quang Thái, Phó Trưởng khoa Kiểm soát bệnh truyền nhiễm (NIHE), nhận định:

“Các mô hình thường sa đà vào con số, hình ảnh trực quan và kỹ thuật. Với nhà quản lý y tế, câu hỏi đơn giản hơn: Điều này có ý nghĩa gì, cần chú ý vào đâu và bước tiếp theo phải làm gì?”

Ông lập luận: để tạo dựng niềm tin, cần sự tham gia của chuyên gia dịch tễ ngay từ đầu, minh chứng rõ lợi ích thực tế và sự phê duyệt chính thức từ các hội đồng khoa học thẩm quyền để công cụ có đủ tính pháp lý nhằm phục vụ quản lý nhà nước.

Chặng đường phía trước

Bài toán tiếp theo là tính bền vững khi hết kinh phí tài trợ. Các hệ thống dự báo luôn cần hỗ trợ kỹ thuật liên tục, cập nhật dữ liệu và quyền sở hữu của cơ quan chức năng. Nhóm nghiên cứu sẽ tiếp tục phối hợp với HCDC và các đối tác để tích hợp DART vào hoạt động phòng chống dịch thường quy.

Nghiên cứu Advance Warning and Response Exemplars của OUCRU về hệ thống cảnh báo sớm cũng chỉ ra: việc gắn kết các bên liên quan phải là quá trình liên tục suốt vòng đời dự án.

Tầm nhìn của dự án đang mở rộng sang Brazil và Nepal nhằm thử nghiệm bộ khung công nghệ trong các bối cảnh dịch tễ khác nhau.

Hệ thống DART hướng tới mục tiêu thử nghiệm bộ khung công nghệ trong các bối cảnh dịch tễ khác nhau và nâng cao khả năng mở rộng của mô hình. (Ảnh: Trang Nguyễn, OUCRU)

TS. Felipe J. Colón-González từ Quỹ Wellcome đúc kết: “Đây không thuần túy là hoạt động từ thiện. Đây là khoản đầu tư chiến lược nhằm tạo ra các công cụ dẫn đường cho việc hoạch định chính sách và ra quyết định thực địa.”

Giá trị dài hạn của DART không nằm ở một đột phá công nghệ đơn lẻ, mà phụ thuộc vào việc các tổ chức y tế công cộng Việt Nam có thể làm chủ và vận hành hệ thống bền vững hay không. Trong kiểm soát dịch bệnh, một lời dự báo chỉ có giá trị khi đi kèm sự sẵn sàng hành động.

Skip to content