Giới Thiệu Học Sâu TransResUNet
Mô hình học sâu TransResUNet kết hợp TransUNet và ResUNet, đã được báo cáo một cách riêng biệt trong các công trình trước đây, và tiếp tục tinh chỉnh sự kết hợp. TransUNet ban đầu là một kiến trúc mã hóa – giải mã kết hợp lợi ích của cả Transformers và UNet. Mô hình này sử dụng CNN-Transformer như một bộ mã hóa để trích xuất ngữ cảnh toàn cầu và sau đó sử dụng một giải mã UNet để đạt được vị trí chính xác.
Mô hình TransUNet đã cho thấy hiệu suất được cải thiện đáng kể trong nhiều nhiệm vụ phân đoạn hình ảnh y học. ResUNet ban đầu là mạng nơ-ron phân đoạn ngữ nghĩa kết hợp sức mạnh của học dư và UNet. Mô hình này sử dụng các đơn vị dư để làm dịu quá trình huấn luyện của mạng nơ-ron sâu. Ở đây, kiến trúc mã hóa-giải mã mới gọi là TransResUNet, được trang bị đơn vị học dư cho TransUNet cổ điển.
Hình 1: Nguyên lý học sâu TransResUnet
Kiến Trúc Học Sâu TransResUnet
Hình 2: Kiến trúc của học sâu TransResUNet. (A) Mô tả sơ đồ phân rã của Lớp Transformer. (B) Mô tả mô hình được đề xuất.
Mô tả kiến trúc TransResUNet
- Mạng Encoder (Mã hóa):
TransResUNet bắt đầu bằng một phần mã hóa, mục tiêu của nó là trích xuất các đặc trưng quan trọng từ hình ảnh đầu vào.
Phần này sử dụng một mạng CNN-Transformer. Điều này kết hợp cả hai loại mạng: Convolutional Neural Network (CNN) và Transformer.
CNN giúp trích xuất thông tin cục bộ từ hình ảnh, trong khi Transformer giúp mô hình nắm bắt các mối quan hệ toàn cục giữa các phần của hình ảnh.
Điều này cải thiện khả năng hiểu hình ảnh toàn cầu và cục bộ, giúp phân đoạn chính xác hơn.
- Đơn Vị Học Dư (Residual Units):
TransResUNet sử dụng đơn vị học dư (Residual Units) để nâng cao khả năng học sâu của mô hình.
Đơn vị học dư giúp tránh tình trạng gradient biến mất và giúp mô hình học được các biểu diễn phức tạp.
Điều này quan trọng để giảm overfitting và cải thiện khả năng tổng quát hóa của mô hình.
- Mạng Decoder (Giải mã):
Sau khi mã hóa thông tin từ hình ảnh đầu vào, TransResUNet sử dụng một phần giải mã để tạo ra mặt nạ phân đoạn.
Phần giải mã này sử dụng kiến trúc UNet, một kiến trúc mạng nơ-ron chuyên dụng cho phân đoạn hình ảnh.
UNet có khả năng giúp mô hình tạo ra một mặt nạ phân đoạn có độ chính xác cao.
- Kết Hợp Tổng Hợp:
Kiến trúc TransResUNet kết hợp lợi ích của cả hai phần mã hóa và giải mã.
Mạng mã hóa giúp mô hình hiểu thông tin toàn cầu của hình ảnh, trong khi mạng giải mã giúp tạo ra mặt nạ phân đoạn chi tiết.
Sự kết hợp này tạo ra sự cân đối giữa việc nắm bắt thông tin toàn cầu và cục bộ, giúp mô hình phân đoạn hình ảnh một cách hiệu quả và chính xác.
Giải thuật
Khởi tạo mô hình TransResUNet
- Khởi tạo kích thước đầu vào của ảnh (input size) và số lượng lớp phân loại (num_classes).
- Xây dựng một mô hình CNN bằng cách sử dụng các lớp tích chập (convolutional layers), lớp pooling (pooling layers), lớp upsample (upsample layers), và các kết nối skip.
- Sử dụng hàm kích hoạt tùy chọn (ví dụ như ReLU) và hàm kích hoạt softmax hoặc sigmoid cho lớp đầu ra để phân loại từng pixel.
Đặc điểm của TransResUNet
- Sử dụng kiến trúc ResNet để cải thiện khả năng học tập và hiệu suất của mô hình.
- Sử dụng các kết nối skip để truyền thông tin từ các cấp độ sâu khác nhau của mô hình, giúp mô hình có thể học được các đặc trưng ở nhiều cấp độ khác nhau.
- Sử dụng các lớp upsample không gian (spatial upsampling layers) để tăng kích thước của đầu ra, giúp mô hình có thể tạo ra các mask có kích thước tương đương với ảnh đầu vào.
Huấn luyện mô hình TransResUNet
- Tiền xử lý tập dữ liệu huấn luyện để chuẩn hóa giá trị pixel (ví dụ như chia tỷ lệ giá trị pixel về khoảng 0 đến 1).
- Sử dụng các chiến lược tăng cường dữ liệu (data augmentation) để mở rộng tập dữ liệu huấn luyện, ví dụ như xoay, phóng to hoặc thu nhỏ ảnh.
- Huấn luyện mô hình TransResUNet trên tập dữ liệu huấn luyện bằng cách sử dụng các kỹ thuật tối ưu hóa như stochastic gradient descent (SGD) hoặc Adam.
- Đánh giá mô hình trên tập dữ liệu kiểm tra bằng cách tính toán độ chính xác (accuracy), độ đo F1, hay bất kỳ độ đo nào khác được sử dụng trong phân đoạn ảnh.
Sử dụng mô hình TransResUNet để dự đoán
- Tiền xử lý ảnh đầu vào để chuẩn hóa giá trị pixel.
- Sử dụng mô hình TransResUNet để dự đoán các lớp phân loại cho từng pixel trong ảnh.
- Áp dụng các kỹ thuật xử lý sau dự đoán, chẳng hạn như chuyển từ định dạng mask sang định dạng hình ảnh.
Thực Nghiệm
Thuộc tính dữ liệu
STT | Tên thuộc tính | Loại thuộc tính | Số lượng | Ý nghĩa thuộc tính |
1 | Hình ảnh | png | 566 | Mặt nạ phổi phân đoạn thủ công |
2 | Hình ảnh | png | 843 | Dữ liệu X-Quang phổi bất thường |
3 | Hình ảnh | png | 1365 | Dữ liệu CXR X-Quang |
4 | Hình ảnh | png | 843 | MCU CXR Mask phải |
5 | Hình ảnh | png | 844 | MCU CXR Mask trái |
Bảng 1: Bảng thuộc tính dữ liệu thử nghiệm mô hình học sâu TransResUNet
STT | Tên dữ liệu | Nguồn dữ liệu |
1 | Phân đoạn ảnh trong phổi | https://www.kaggle.com/datasets/yoctoman/shcxr-lung-mask
https://www.kaggle.com/datasets/kmader/pulmonary-chest-xray-abnormalities |
Bảng 2: Tập dữ liệu thực nghiệm mô hình học sâu TransResUNet
Phương pháp đánh giá độ đo
Các độ đo MSE, DICE và IOU cũng có thể được sử dụng để đánh giá độ chính xác của phương pháp phân đoạn ảnh.
- MSE (Mean Squared Error): Đây là một độ đo để đánh giá sự khác biệt giữa giá trị dự đoán và giá trị thực tế trong các bài toán regression. Trong bài toán phân đoạn ảnh, MSE có thể được tính bằng cách lấy trung bình bình phương của sự khác biệt giữa giá trị pixel dự đoán và giá trị pixel thực tế trên toàn bộ ảnh. Tuy nhiên, MSE thường không được sử dụng nhiều trong bài toán phân đoạn ảnh vì nó không quan tâm đến cấu trúc và hình dáng của đối tượng cần phân đoạn.
- DICE (Dice coefficient): Đây là một độ đo thường được sử dụng trong bài toán phân đoạn ảnh. Dice coefficient tính toán tỷ lệ giữa diện tích giao của phân đoạn dự đoán và phân đoạn thực tế so với diện tích tổng của phân đoạn dự đoán và phân đoạn thực tế. Độ đo này càng gần 1 thì phân đoạn càng chính xác.
- IOU (Intersection over Union): Đây cũng là một độ đo tương tự Dice coefficient và được sử dụng trong bài toán phân đoạn ảnh. IOU tính toán tỷ lệ giữa diện tích giao của phân đoạn dự đoán và phân đoạn thực tế so với diện tích hợp của phân đoạn dự đoán và phân đoạn thực tế. Độ đo này cũng càng gần 1 thì phân đoạn càng chính xác.
Chạy thực nghiệm
Code tải tại đây
Đánh Giá
Unet | TransResUnet | |||||
Epoch | DICE | IOU | Accuracy | DICE | IOU | Accuracy |
1 | 0.3639 | 0.3071 | 0.3179 | 0.8395 | 0.7704 | 0.8622 |
2 | 0.5099 | 0.3920 | 0.4933 | 0.9508 | 0.9171 | 0.9709 |
3 | 0.7370 | 0.5936 | 0.8729 | 0.9572 | 0.9254 | 0.9742 |
… | … | … | … | … | … | … |
32 | 0.9396 | 0.89518 | 0.9701 | 0.9669 | 0.9379 | 0.9804 |
Bảng 3: So sánh 2 thuật toán Unet và TrenResUnet
Nhận xét: TransResUnet có hiệu suất tốt hơn so với Unet trên tất cả các thông số đánh giá (DICE, IOU, và Accuracy). Điều này cho thấy rằng sự kết hợp giữa kiến trúc TransUnet và Unet có thể mang lại hiệu suất tốt hơn trong bài toán phân đoạn hình ảnh.
Tổng quan, TransResUnet có hiệu suất tốt hơn so với Unet trong việc phân đoạn hình ảnh, với DICE, IOU và Accuracy cao hơn. Tuy nhiên, cả hai mô hình đều có xu hướng cải thiện qua các epoch, cho thấy quá trình học tập của chúng diễn ra hiệu quả.
Kết Luận
Trong nghiên cứu này, TransResUNet đã khẳng định hiệu quả vượt trội trong việc phân đoạn ảnh X-quang phổi, một tác vụ quan trọng giúp hỗ trợ chẩn đoán các bệnh lý hô hấp như viêm phổi hoặc COVID-19. Với cấu trúc kết hợp giữa U-Net truyền thống và các phương pháp tiếp cận từ Transformer, mô hình này không chỉ cải thiện khả năng phân đoạn hình ảnh chính xác mà còn duy trì thông tin chi tiết không gian qua các tầng của mạng, nhờ vào sự linh hoạt trong việc xử lý các thông tin toàn cục và cục bộ của ảnh.
Kết hợp với các phương pháp tiên tiến như data augmentation và huấn luyện trên các tập dữ liệu lớn, TransResUNet đã chứng minh khả năng tổng quát hóa mạnh mẽ, xử lý tốt các ảnh X-quang có chất lượng và điều kiện chụp đa dạng. Tuy nhiên, để mở rộng khả năng ứng dụng thực tiễn, việc cải tiến mô hình nhằm xử lý tốt hơn các trường hợp ảnh có độ phức tạp cao, như nhiễu, biến dạng hay sự thay đổi cấu trúc phổi, vẫn là một thách thức cần được giải quyết.
Nghiên cứu này không chỉ mở ra một hướng đi mới trong việc áp dụng các kỹ thuật học sâu tiên tiến vào y tế mà còn đóng góp quan trọng trong việc hỗ trợ các chuyên gia y tế chẩn đoán nhanh chóng và chính xác hơn. Trong tương lai, việc kết hợp các mô hình học sâu khác với TransResUNet hứa hẹn sẽ mang lại những cải tiến lớn về hiệu suất và độ chính xác trong ứng dụng thực tế.
Hy vọng bài viết đã cung cấp cho bạn đọc cái nhìn sâu sắc về ứng dụng học sâu trong y tế. Đừng quên theo dõi những bài viết tiếp theo để cùng khám phá thêm nhiều nghiên cứu thú vị khác!