1049 
PHÂN TÍCH PAN-GENOME CỦA CÁC CHỦNG VI KHUẨN 
EDWARDSIELLA HƢỚNG TỚI PHÁT TRIỂN CÁC PHƢƠNG PHÁP 
KIỂM SOÁT BỆNH THỦY SẢN 
 Nguyễn Thành Luân1,*, Phạm Thị Hải Hà2,** 
1
Viện Khoa học Ứng dụng HUTECH, Đại học Công nghệ Tp. Hồ Chí Minh 
2
Khoa Công nghệ Sinh học và Công nghệ Môi trường, Đại học Nguyễn Tất Thành 
Email: 
*
[email protected] 
**
[email protected] 
TÓM TẮT 
Các bệnh thủy sản gậy ra bởi sự gia tăng quá mức của các chủng vi khuẩn gây bệnh đang đặt ra những 
thách thức lớn cho việc phát triển các biện pháp kiểm soát sinh học bền vững như các biện pháp sử dụng 
kháng sinh thích hợp và chiến lược sản xuất vaccine. Dựa vào những tiến bộ trong công nghệ giải trình tự 
bộ gene vi khuẩn đã mở ra cuộc cách mạng hóa trong việc phân tích pan-genome vi khuẩn gây bệnh và 
cũng như ảnh hưởng đến việc quản lý dịch bệnh trong các trang trại nuôi trồng thủy sản. Trong nghiên cứu 
này, chúng tôi khảo sát pan-genome của chủng Edwardsiella để tìm sự khác biệt về hệ gene, tái định danh 
loài ở mức độ phát sinh bộ gene (phylogenomics). Kết quả phân tích pan-genome cho thấy, giống 
Edwardsiella được phân tách thành các kiểu loài trong quần thể và có thể giúp định danh lại loài với độ 
chính xác cao. Chúng tôi xác nhận rằng E. tarda EIB202, FL6_60, và ET-1 thuộc nhóm E. piscicida. Dựa 
vào các phân tích sâu hơn về hàm lượng/chức năng các gene khác biệt trong hệ gene của Edwardsiella, 
chúng tôi đã chỉ ra những thông tin về các gene có tính phân biệt cao có thể sử dụng thực hiện pan-PCR 
trong định danh phân tử các chủng gây bệnh từ mẫu lâm sàng. Ngoài ra, các phương pháp phân tích pan-
genome có thể dùng để khám phá các gene được chia sẻ để tìm hiểu khả năng thích nghi và dùng phát 
triển các loại vaccine tiềm năng nhằm cải thiện hiệu quả ngăn chặn dịch bệnh thủy sản khi thực hiện kết 
hợp với phân tích pan-genome. 
Từ khóa: Edwarsiella; phylogenomics; pan-genome; định danh phân tử; vaccine. 
1. ĐẶT VẦN ĐỀ 
Sự gia tăng nhanh chóng nhiều trình tự bộ gen của tác nhân vi sinh gây bệnh thủy sinh sẽ cho phép chúng 
tôi xây dựng nhanh một quy trình kiểm soát sự lây nhiễm, và là một hướng tiềm năng để nghiên cứu cải 
thiện hiệu quả của các loại vaccine trong trồng thủy sản và ngăn chặn dịch bệnh khi thực hiện các phân 
tích bộ gene. 
Edwardsiellosis được biết đến như một bệnh truyền nhiễm mãn tính, gây chết hàng loạt ở nhiều loài cá có 
giá trị kinh tế cao [4]. Ba loài gây bệnh bao gồm E. hoshinae, E. ictaluri và E. tarda được mô tả tốt trong 
mối liên hệ với các vật chủ khác nhau, bao gồm chim và bò sát, cá trê kênh nuôi và cá rô phi nuôi [1]. 
Ngoài ra, các ổ sinh thái của nó có thể bao gồm hồ, sông, nước biển và ruột của động vật thủy sinh khỏe 
mạnh [2, 3]. Một mầm bệnh mới gây dịch bệnh truyền nhiễm cho các loài cá nuôi trên toàn cầu là E. 
piscicida, chủng trước đây được xác định nhầm là E. tarda [3, 4] vì chúng có chung nhiều đặc điểm kiểu 
hình [5, 6]. Sự phân loại E. tarda dựa trên kết quả phân tích sự phát sinh loài từ các gene cho thấy chúng 
1050 
là các nhóm khác biệt về mặt di truyền [3, 4] và phân tích sự phát sinh loài từ bộ gene bao gồm gene trung 
tâm và pan-genomics. 
Trong nghiên cứu này, pan-genome của Edwardsiella từ các nguồn khác nhau sẽ được phân tích và so 
sánh để chứng minh việc pan-genome là ông cụ cần thiết để trong phân loại các loài thuộc chi 
Edwardsiella. Ngoài ra, phương pháp này có thể dùng để khám phá các gene được chia sẻ giữa các loài để 
hiểu khả năng thích nghi và tính đặc thù loài, cũng như dung để phát triển các phương pháp phát hiện 
nhanh loài gây bệnh. 
2. VẬT LIỆU VÀ PHƢƠNG PHÁP 
2.1 Chọn lọc dữ liệu 
Trong nghiên cứu này, tổng cộng có 15 bộ gene hoàn chỉnh của chủng Edwardsiella được phân lập từ các 
hệ sinh thái khác nhau được thu thập từ ngân hàng bộ gene vi khuẩn NCBI 
(ftp://ftp.ncbi.nih.gov/genomes/). Việc chọn các bộ gene hoàn chỉnh để so sánh sẽ giúp hạn chế ảnh hưởng 
tới kết quả. 
2.2 Định danh và phân tích phát sinh loài 
Sự phát sinh loài dựa trên toàn bộ thông tin bộ gene (phylogenomic) của các chủng Edwardsiella được 
thiết lập dựa trên sự phân tích giá trị nucleotide trung bình (ANI) bằng phần mềm JSpecies v1.2.1 [7] và 
được hiển thị dưới dạng bản đồ nhiệt bằng phần mềm Gene-e 
( 
2.3 Phân tích pan-genome 
Pan-genome của 15 chủng Edwardsiella được phân tích bằng phần mềm EDGAR v2.2 [8]. Các nhóm 
gene, bao gồm số lượng gene thuộc core gene, accessory gene, và singleton gene, được trích xuất theo các 
thông số mặc định. 
Các chức năng của gene, các nhóm gene trong pan-genome được phân loại dựa vào cơ sở dữ liệu NCBI 
Clusters of Orthologous Group (COG), thực phân tích bằng PSI-BLAST tích hợp sẵn trong máy chủ phân 
tích WebMGA với các thông số mặc định [9]. 
Để tìm sự khác biệt trong việc sử dụng các gene làm chỉ thị phân tích các mẫu lâm sàn, accessory gene 
được phân tích lại bằng phần mềm Gene-E. 
3. KẾT QUẢ VÀ THẢO LUẬN 
3.1 Các thành phần trong Pan-genome của Edwarsiella 
Trong thành phần pan-genome của 15 chủng Edwardsiella có 6733 gen mã hóa protein, chỉ 29,07% trong 
số đó (1957) là gene trung tâm (core gene) và 70,93% còn lại là gene phân tán (assessor gene) và gen đơn 
lẻ (singleton gene) trong chi Edwardsiella. Theo Tettelin et al. [10], công thức Heap's Law có thể được sử 
dụng để xác định hệ pan-genome mở hay đóng. Nó được biểu diễn bằng công thức sau: n = k * N-α. Trong 
phân tích này, hệ số α là 0,301 (giữa 0 và 1), tương ứng với mô hình pan-genome mở [11]. Điều này có 
nghĩa là việc bổ sung một bộ gene của chủng Edwarsiella mới sẽ tiếp tục giúp phát hiện các gene mới cho 
loài này, và cũng cho thấy rằng Edwardsiella spp. có thể thích nghi với nhiều điều kiện môi trường khác 
nhau. 
1051 
3.2 Mối quan hệ phát sinh loài 
Kết quả phân tích sự phát sinh loài từ dữ liệu core gene và pan-genome cho thấy rằng chủng E. tarda 
EIB202, FL6_60 và ET-1 là thuộc loài E. piscicida. (Hình 1). Kết quả này cho thấy bằng cách sử dụng 
core gene và pan-genome, sự phát loài của các chủng Edwardsiella cũng được phân biệt rõ ràng. Phù hợp 
với các nghiên cứu trước đây [3, 5], phân tích của chúng tôi cho thấy các chủng E. tarda này được xác 
định lại là E. piscicida và 4 loài trong chi Edwardsiella có thể phân biệt rõ ràng (Hình 1). Hai chủng 
Edwardsiella sp. còn lại (strain EA181011 và LADL05_105) có giá trị ANIs (Average nucleotide identity) 
tương ứng là 99,65 và 99,58 (dữ liệu không được hiển thị) và phân cụm rất tốt với chủng E. 
anguillarum_ET080813 (Hình 2). Do đó, hai bộ chủng Edwardsiella sp. EA181011 và Edwardsiella sp. 
LADL05_105 có định danh thuộc loài E. anguillarum dựa trên cơ sở của cả hai phân tích ANI và phân 
tích các dispensable (assessory gene và singleton gene) (Hình 2). 
3.3 Phân tích sự đa hình của các assessory gene 
Cụ thể, tính đa hình của các assessory gene chọn lọc từ pan-genome của Edwardsiella sẽ cung cấp thông 
tin rất có giá trị về các biện pháp kiểm soát bệnh Edwardsiellosis. Ví dụ, phân tích sự hiện diện/vắng mặt 
của gene (Hình 2) có thể chỉ ra các dấu hiệu cho việc nhận diện phân tử và có thể được sử dụng để thiết kế 
các các markers để xác định chính xác các loài trong chi Edwardsiella, đặc biệt là sử dụng để phân biệt 
các loài mới với E. tarda [12, 13] 24, 25]. Trong nghiên cứu sâu hơn, sự kết hợp giữa kiểu hình, kiểu 
huyết thanh với kháng huyết thanh và quan sát hàm lượng gene khác biệt bằng các phân tích mở rộng như 
KEGG / COG, VFDB, ARG và tài nguyên của phần mềm RAST sẽ giúp khám phá những hiểu biết sinh 
học mới về sự tiến hóa của việc phát sinh bệnh học (pathogenesis) cũng như tìm ra các các loại thuốc đặc 
hiệu trong phòng chống và điều trị bệnh Edwardsiellosis. 
Đặc biệt, chúng tôi tin rằng pan-PCR, một phương pháp PCR dùng định danh phân tử được sử dụng phổ 
biến, dựa trên các gene mục tiêu được chọn lọc từ assessory gene (Hình 2), sẽ là một công cụ thường quy 
trong phòng thí nghiệm có thể phân biệt tất cả các chủng Edwardsiella từ mẫu bệnh lâm sàng. 
Hình 1. Sự phân cấp của các chủng Edwardsiella phân lập từ các hệ sinh thái khác nhau. Cả hai nhóm cây 
phân loài (hình bên phải) dựa trên sự chia sẻ các gene giữa các chủng và cây phát sinh loài (hình bên trái) 
dựa trên các core gene của 15 chủng khảo sát. Thanh chỉ thị cùng một chủng của cả hai cây phân loài nhằm 
làm nổi bật mức độ tương đồng giữa hai phương pháp 
1052 
Hình 2. Tính đa hình của các assessory gene chọn lọc từ pan-genome của Edwardsiella. Sự hiện diện/vắng mặt của 
2578 gene được xác định tương ứng được hiển thị bằng màu đỏ/đen 
3.4 Ứng dụng pan-genome trong kiểm soát bệnh Edwarsiellosis 
Số lượng các trình tự bộ gene vi khuẩn phân lập từ môi trường nước được gửi trong cơ sở dữ liệu của 
NCBI đang tăng theo cấp số nhân. Dữ liệu này cung cấp một tiềm năng lớn cho việc kiểm tra tổng hợp về 
dịch tễ bệnh và các tương tác giữa mầm bệnh của vật chủ. Dễ thấy rằng, pan-genome là một công cụ hiệu 
quả có thể được mở rộng để phân tích các vi sinh vật thủy sinh và hiểu được các đặc tính phân tử giúp 
chúng thích nghi với các vật chủ và môi trường khác nhau. Ví dụ như E. tarda phân lập từ cá bệnh có thể 
được chia thành nhóm nước ngọt và nhóm biển/di cư [14]. Mặt khác, sự chuyển và tái tổ hợp tương đồng 
các gene có thể được phát hiện trong phân tích phylogenomic network. Về mặt gene độc lực, các chú thích 
chức năng cho gene trên các cơ sở dữ liệu VFDB, COG và KEGG và ARG có thể được phân tích lại dựa 
trên các thành phần của hệ pan-genome. Việc mô tả các quá trình gây bệnh của chủng gây bệnh cho cá là 
rất quan trọng vì độc lực và khả năng gây bệnh của mầm bệnh vi khuẩn thủy sinh có thể là đa yếu tố 
(multifactors), khác nhau giữa các loài và chủng (ví dụ, trong trường hợp của loài Vibrio và Aeromonas 
[15-17]). Những độc lực và khả năng gây bệnh này liên quan đến nội địa hóa protein tế bào bao gồm thành 
phần hóa học của protein và vỏ nang, polysacaride bề mặt, Flagella, độc tố và hệ thống tiết [17, 18]. 
1053 
Hình 3. Chức năng của các nhóm gene trong các phần khác nhau của pan-genme của chi Edwardsiella. Bản đồ nhiệt 
xanh (Blue bar): thể hiện phân bố của các lớp (class) chức năng giữa các nhóm gene trong core gene của từng loài. 
Bản đồ nhiệt đỏ (Red bar): thể hiện phân bố của các lớp (class) chức năng giữa các nhóm gene trong singleton core 
gene (unique core) của từng loài 
Do đó, phân tích xuôi dòng (downstream analysis) có thể giúp tìm ra các dấu hiệu của chủng gây bệnh 
động truyền nhiễm, cũng như cung cấp những hiểu biết sâu sắc về việc so sánh các gene kháng khuẩn, 
gene độc lực giữa các chủng vi khuẩn, sự tương tác lẫn nhau giữa vi khuẩn-vật chủ. Các phân tích này cho 
phép phát triển các phương pháp kiểm soát mới chống lại bệnh truyền nhiễm trên thủy hải sản, chẳng hạn 
như các biện pháp thay thế/giảm kháng sinh kháng khuẩn bằng lợi khuẩn hoặc dược chất tự nhiên, hướng 
tới một tương lai bền vững cho nuôi trồng thủy sản [19]. 
Trong nghiên cứu này, chúng tôi sử dụng core gene và những singleton gene (unique core) của từng loài 
để khảo sát chức năng của các nhóm gene và thấy rằng E. tardar có tỉ lệ khác biệt về so với các loài còn 
lại (Hình 3). Kết quả này cho thấy rằng pan-genome có thể sử dụng như một công cụ mạnh mẽ để phân 
biệt sự khác nhau về các gene chức năng của các loài trong chi Edwardsiella. 
Công cụ so sánh pan-genome cho phép chọn lọc các gene mục tiêu, ví dụ các gen liên quan quá trình tổng 
hợp protein bề mặt tế bào (SEPs), bao gồm protein màng ngoài (outer membrane), protein ngoại bào 
(extracellular). Các gene SEPs được xem là ứng viên vaccine tiềm năng trong một mô hình động vật (được 
gọi là Reversed Vaccinology) [4, 20]. Trong nuôi trồng thủy sản, SEPs từ mầm bệnh bao gồm một số yếu 
tố độc lực quan trọng đóng vai trò chính trong phát sinh bệnh học của vi khuẩn và phản ứng miễn dịch của 
vật chủ. Ví dụ, sự biểu hiện của gene esa1 từ E. tarda, một kháng nguyên bề mặt giống D15, trong mô 
hình cá bơn Nhật Bản đã tạo ra sự biểu hiện của một phổ rộng các gene có thể liên quan đến khả năng 
miễn dịch tự nhiên và đặc hiệu, cũng như tăng tỉ lệ sống sót của cá và khả năng sản xuất kháng thể huyết 
thanh đặc hiệu [21, 21]. Vì vậy, sự gia tăng nhanh chóng về số lượng genome của vi khuẩn gây bệnh trên 
thủy sản sẽ cho phép chúng tôi xây dựng một quy trình phản ứng nhanh trong kiểm soát dịch bệnh, và là 
1054 
một xu hướng tiềm năng để nghiên cứu cải thiện hiệu quả của các loại vaccine đa giá nhằm ngăn chặn các 
dịch bệnh có xu hướng biến đổi liên tục trong nuôi trồng thủy sản. 
4. KẾT LUẬN VÀ ĐỀ NGHỊ 
Công cụ so sánh pan-genome giúp định danh lại các loài vi khuẩn Edwarsiella, cụ thể chủng E. tarda 
EIB202, FL6_60, và ET-1 thuộc loài E. piscicida. Chúng tôi đề xuất có những chỉnh sửa định danh bổ 
sung trên hệ thống NCBI đề dữ liệu được sử dụng đúng cho các nghiên cứu tiếp theo. Dựa vào các phân 
tích chi tiết về thành phần/chức năng các gene trong hệ gene của Edwardsiella, chúng tôi cung cấp những 
thông tin về các gene có thể sử dung trong thiết kế quy trình định danh phân tử các loài Edwarsiella mẫu 
lâm sàng. Ngoài ra, các phương pháp phân tích pan-genome có thể dùng để khám phá các gene được chia 
sẻ để tìm hiểu khả năng thích nghi và phát triển các loại vaccine tiềm năng nhằm cải thiện hiệu quả ngăn 
chặn dịch bệnh khi thực hiện phân tích pan-genome. 
TÀI LIỆU THAM KHẢO 
[1] Griffin, M.J. et al. Edwardsiella spp. In: Woo, P.T.K. Cipriano, R.C. (Eds.). CAB International, 
Boston (2017) pp. 190–210. 
[2] Shafiei, S. Viljamaa-Dirks, S. Sundell, K. Heinikainen, S. Abayneh, T. Wiklund, T.. Aquaculture 
454 (2016) 19–26. 
[3] Buján, N. Mohammed, H. Balboa, S. Romalde, et al. Systematic and Applied Microbiology, 41 
(2018) 30–37. doi: 10.1016/j.syapm.2017.09.004 
[4] T. Abayneh, D.J. Colquhoun, H. Sørum. Vet. Microbiol. 158 (2012) 367–375 
[5] S. Shao, Q. Lai, Q. Liu, H. Wu, J. Xiao, Z. et al. Syst. Appl. Microbiol. 38 (2015) 36–47. 
[6] N. Castro, A.E. Toranzo, A. Bastardo, J.L. Barja, B. Magariños. Dis. Aquatic. Org. 95 (2011) 253–
258 
[7] M. Richter, R. Rosselló–Móra. Proc Natl Acad Sci U.S.A. 106 (2009) pp. 19126–31. 
[8] Blom, J., Kreis, S., Spänig, Juhre, T., et al. Nucleic Acids Res. 44 (2016) pp. 22–28 
[9] S. Wu, Z. Zhu, L. Fu, B. Niu, W. Li. BMC Genomics. 12 (2011) pp. 444 
[10] H. Tettelin, D. Riley, C. Cattuto, D. Medini. Curr. Opin. Microbiol. 11 (2008) pp. 472–477. 
[11] Chaplin, A.V. Efimov, B.A. Smeianov, V.V. et al. PLoS One 10(8), (2015) pp. e0135658. 
[12] Buján, N. Mohammed, H. Balboa, S. et al. Systematic and Applied Microbiology, 41 (2018) 30–37. 
doi: 10.1016/j.syapm.2017.09.004 
[13] Fogelson, S.B. Petty, B.D. Reichley, S.R. et al. J. Vet. Diagn. Invest. 28 (2016) 338–344. 
[14] J. Shao, Q. Guo, R. Hu, Z. Gu. Aquac Res.; 49 (2018) 197–204. doi:10.1111/are.13448 
[15] F. Awan, Y. Dong, J. Liu, N. Wang, M.H. Mushtaq, C. Lu, Y. Liu. BMC Genomics. 19(1) (2018) 
712. 
[16] P. Busschaert, I. Frans, S. Crauwels, B. Zhu, K. Willems, P. Bossier, C. Michiels, K. Verstrepen, B. 
Lievens, and H. Rediers. J. Fish Dis. 38 (2015) 795-807. doi:10.1111/jfd.12290 
[17] J.M. Tomás, The main Aeromonas pathogenic factors, ISRN Microbiol. 2012 (2012) 256261 
1055 
[18] L. Zeng, D. Wang, N. Hu, Q. Zhu, K. Chen, K. Dong, Y. Zhang, Y. Yao, X. Guo, Y.F. Chang, Y. 
Zhu. Frontiers in microbiology 8 (2017) 396. 
[19] Kim, T.L. Nguyen, D.H. Kim. John Wiley & Sons Ltd, Hoboken, (2017) pp 109–145. 
[20] D. Maione, I. Margarit, C.D. Rinaudo, V. Masignani, M. Mora, M. Scarselli, et al. Science 309 
(2005) 148–150. doi: 10.1126/science.1109869 
[21] Y. Sun, C. Liu, L. Sun. Fish Shellfish Immunol. 30 (2011) 273-279. 
[22] Y. Sun, C. Liu, L. Sun. Vaccine. 38 (2010) 6603-6608.