Phân Lớp Ảnh Đa Đối Tượng Bằng Phương Pháp Học Sâu

Các tác giả

Email tác giả liên hệ:

dinhnt@huit.edu.vn

DOI:

https://doi.org/10.54644/jte.2024.1538

Từ khóa:

Phân lớp ảnh, Ảnh đa đối tượng, Học sâu, Nhận diện đối tượng, YOLOv8

Tóm tắt

Phân lớp hình ảnh là chủ đề được nhiều nhà khoa học quan tâm để nâng cao hiệu quả nhận diện đối tượng và phân lớp hình ảnh trong lĩnh vực thị giác máy tính. Có nhiều kỹ thuật để phân lớp hình ảnh, trong đó phương pháp học sâu đã có nhiều kết quả trong bài toán nhận dạng và phân loại đối tượng qua hình ảnh. Trong bài báo này, một phương pháp đề xuất nhằm thực hiện phân lớp ảnh đa đối tượng sử dụng mạng học sâu YOLOv8. Đầu tiên mỗi ảnh đa đối tượng được phân đoạn thành các ảnh đơn đối tượng. Thứ hai, nhận diện và trích xuất véc-tơ đặc trưng. Cuối cùng hình ảnh được phân lớp bằng mạng học sâu YOLOv8. Thực nghiệm tiến hành trên bộ ảnh đa đối tượng Flickr đã cho kết quả tốt hơn một số phương pháp khác với kết quả phân lớp ảnh trung bình là 0.8872. Kết quả thực nghiệm cho thấy phương pháp đề xuất sử dụng mạng học sâu YOLOv8 cho bộ ảnh đa đối tượng là hiệu quả, có thể áp dụng được cho các tập dữ liệu hình ảnh thuộc các lĩnh vực khác nhau như nông nghiệp, giao thông và nhiều lĩnh vực khác.

Tải xuống: 0

Dữ liệu tải xuống chưa có sẵn.

Tiểu sử của Tác giả

Nguyễn Thị Định, Trường Đại học Công Thương Thành phố Hồ Chí Minh, Việt Nam

Nguyen Thi Dinh was born in 1983, graduated in Pedagogy Informatics Ho Chi Minh City University of Education in 2006, and received a Master's degree in industry Data transmission and computer network at Ho Chi Minh City Institute of Post and Telecommunications Technology Ho Chi Minh City in 2011. In 2023, she received a PhD degree in Computer Science from the University of Science, Hue, Vietnam.

Field research: image processing, image retrieval, and mechanics database.

Email: dinhnt@huit.edu.vn. ORCID:  https://orcid.org/0000-0003-3428-3101

Trương Trần Bảo Long, Trường Đại học Công Thương Thành phố Hồ Chí Minh, Việt Nam

Truong Tran Bao Long was born in 2002 and is a fourth-year student majoring in Data Analysis at Ho Chi Minh City University of Industries and Trade.

Field research: image processing, image retrieval, and mechanics database.

Email: 2001200165@hufi.edu.vn. ORCID:  https://orcid.org/0009-0001-3669-8565

Ngô Vương Quốc Trung, Trường Đại học Công Thương Thành phố Hồ Chí Minh, Việt Nam

Ngo Vuong Quoc Trung was born in 2002,  and is currently a fourth-year student majoring in Data Analysis at Ho Chi Minh City University of Industries and Trade.

Field research: image processing, image retrieval, and mechanics database.

Email: 2001207135@hufi.edu.vn. ORCID:  https://orcid.org/0009-0006-0438-3258

Trần Văn Gia Bảo, Trường Đại học Công Thương Thành phố Hồ Chí Minh, Việt Nam

Tran Van Gia Bao was born in 2002,  and is currently a fourth-year student majoring in Data Analysis at Ho Chi Minh City University of Industries and Trade.

Field research: image processing, image retrieval, and mechanics database.

Email: 2001207081@hufi.edu.vn. ORCID:  https://orcid.org/0009-0009-8547-7281

Nguyễn Dương Tuấn, Trường Đại học Công Thương Thành phố Hồ Chí Minh, Việt Nam

Nguyen Duong Tuan was born in 2002,  and is currently a fourth-year student majoring in Data Analysis at Ho Chi Minh City University of Industries and Trade.

Field research: image processing, image retrieval, and mechanics database.

Email: 2001207238@hufi.edu.vn. ORCID:  https://orcid.org/0009-0006-0269-0924

Nguyễn Phương Hạc, Trường Đại học Công Thương Thành phố Hồ Chí Minh, Việt Nam

Nguyen Phuong Hac was born in 1979, graduated in Ho Chi Minh City University of Science in 2002, and received a Master's degree in Hanoi University of Science and Technology in 2010.

Field research: image processing, image retrieval, and mechanics database.

Email: hacnp@huit.edu.vn. ORCID:  https://orcid.org/0009-0007-1639-0620

Tài liệu tham khảo

Y. Jiang et al., "Breast cancer histopathological image classification using convolutional neural networks with small SE-ResNet module," PloS One, vol. 14, no. 3, p. e0214587, 2019. DOI: https://doi.org/10.1371/journal.pone.0214587

J. Guo and X. Wang, "Image classification based on SURF and KNN," in 2019 IEEE/ACIS 18th International Conference on Computer and Information Science (ICIS), 2019. DOI: https://doi.org/10.1109/ICIS46139.2019.8940198

M. A. Chandra and S. Bedi, "Survey on SVM and their application in image classification," International Journal of Information Technology, vol. 13, no. 5, pp. 1-11, 2021. DOI: https://doi.org/10.1007/s41870-017-0080-1

S. Li et al., "Deep learning for hyperspectral image classification: An overview," IEEE Transactions on Geoscience and Remote Sensing, vol. 57, no. 9, pp. 6690-6709, 2019. DOI: https://doi.org/10.1109/TGRS.2019.2907932

P. K. Mallick et al., "Brain MRI image classification for cancer detection using deep wavelet autoencoder-based deep neural network," IEEE Access, vol. 7, pp. 46278-46287, 2019. DOI: https://doi.org/10.1109/ACCESS.2019.2902252

M. Štancel and M. Hulič, "An introduction to image classification and object detection using YOLO detector," in CEUR Workshop Proceedings, 2019.

J. Terven, D. M. C. Esparza, and J. A. R. González, "A comprehensive review of YOLO architectures in computer vision: From YOLOv1 to YOLOv8 and YOLO-NAS," Machine Learning and Knowledge Extraction, vol. 5, no. 4, pp. 1680-1716, 2023. DOI: https://doi.org/10.3390/make5040083

Flickr. Dataset Flickr 2017. Available from: https://www.kaggle.com/datasets/hsankesara/flickr-image-dataset.

L. Farokhah, "Implementasi K-Nearest Neighbor untuk Klasifikasi Bunga Dengan Ekstraksi Fitur Warna RGB," Jurnal Teknologi Informasi dan Ilmu Komputer (JTIIK), vol. 7, no. 6, pp. 1129-1135, 2020. DOI: https://doi.org/10.25126/jtiik.2020722608

F. Sadati and B. Rezaie, "An improved image classification based on feature extraction from convolutional neural network: application to flower classification," in 12th International Conference on Information and Knowledge Technology (IKT), 2021. DOI: https://doi.org/10.1109/IKT54664.2021.9685994

T. Stark et al., "YOLO object detection models can locate and classify broad groups of flower-visiting arthropods in images," Scientific Reports, vol. 13, no. 1, p. 16364, 2023. DOI: https://doi.org/10.1038/s41598-023-43482-3

N. Al Mudawi et al., "Vehicle detection and classification via YOLOv8 and deep belief network over aerial image sequences," Sustainability, vol. 15, no. 19, p. 14597, 2023. DOI: https://doi.org/10.3390/su151914597

B. Gašparović et al., "Evaluating YOLOv5, YOLOv6, YOLOv7, and YOLOv8 in underwater environment: Is there real improvement?," in 8th International Conference on Smart and Sustainable Technologies (SpliTech), 2023. DOI: https://doi.org/10.23919/SpliTech58164.2023.10193505

J. Zhang and H. Shi, "Kd-tree based efficient ensemble classification algorithm for imbalanced learning," in 2019 International Conference on Machine Learning, Big Data and Business Intelligence (MLBDBI), 2019. DOI: https://doi.org/10.1109/MLBDBI48998.2019.00046

B. Selcuk and T. Serif, "A comparison of YOLOv5 and YOLOv8 in the context of mobile UI detection," in International Conference on Mobile Web and Intelligent Information Systems, 2023. DOI: https://doi.org/10.1007/978-3-031-39764-6_11

S. Alijani, J. Tanha, and L. Mohammadkhanli, "An ensemble of deep learning algorithms for popularity prediction of Flickr images," Multimedia Tools and Applications, vol. 81, no. 3, pp. 3253-3274, 2022. DOI: https://doi.org/10.1007/s11042-021-11517-4

M. Saroja and A. B. Mary, "Image Captioning Using Improved YOLO V5 Model and Xception V3 Model," 2023. DOI: https://doi.org/10.21203/rs.3.rs-2856192/v1

N. T. Dinh and T. T. Van, "Image retrieval using YOLO deep learning network and KD-Tree Random Forest structure," in Proceedings of the National Conference on Basic Research and IT Applications (FAIR22), 2022, ISBN: 978-604-357-119-6, doi: 10.15625/vap.2022.0244. DOI: https://doi.org/10.15625/vap.2022.0244

Tải xuống

Đã Xuất bản

2024-10-28

Cách trích dẫn

[1]
Nguyễn Thị Định, Trương Trần Bảo Long, Ngô Vương Quốc Trung, Trần Văn Gia Bảo, Nguyễn Dương Tuấn, và Nguyễn Phương Hạc, “Phân Lớp Ảnh Đa Đối Tượng Bằng Phương Pháp Học Sâu”, JTE, vol 19, số p.h Special Issue 04, tr 71–79, tháng 10 2024.

Số

Chuyên mục

Bài báo khoa học

Categories