Y Học TP. Hồ Chí Minh * Tập 15 * Phụ bản của Số 1 * 2011 Nghiên cứu Y học
Chuyên Đề Dược Khoa 
413
NGHIÊN CỨU LIÊN QUAN CẤU TRÚC CÁC DẪN CHẤT 
COMBRETASTATIN A-4 VÀ HOẠT TÍNH KHÁNG UNG THƯ 
Trần Ngọc Châu*, Lê Quang Huy*, Thái Khắc Minh* 
TÓM TẮT 
Đặt vấn đề: Hiện nay ung thư là một trong những nguyên nhân gây tử vong hàng đầu trên thế giới. Dự 
án Globocan thuộc tổ chức nghiên cứu ung thư quốc tế (IARC) dự đoán vào năm 2030 sẽ có khoảng 21 triệu ca 
ung thư mới trên toàn cầu, trong đó có khoảng 12 triệu người tử vong. Vì vậy, việc tìm ra các thuốc mới điều trị 
ung thư là vấn đề được các nhà khoa học rất quan tâm. 
Mục tiêu: Xây dựng mối liên quan định lượng giữa cấu trúc các dẫn chất combretastatin A-4 (CA-4) và 
hoạt tính ức chế trùng hợp tubulin. Từ đó, ứng dụng để dự đoán hoạt tính một của số dẫn chất mới có tiềm năng 
kháng ung thư. 
Phương pháp: Tổng cộng 126 dẫn chất CA-4 được tập hợp từ những kết quả thực nghiệm của 2 nhóm 
nghiên cứu Pettit và Romagnoli. Các chất được vẽ cấu trúc 2D và tính toán các thông số mô tả phân tử bằng 
phầm mềm MOE 2008.10. Hoạt tính sinh học được xác định bằng khả năng ức chế quá trình trùng hợp tubulin 
theo phương pháp của Hamel. Các thông số mô tả phân tử được lựa chọn dựa trên thuật toán “QSAR-
Contingency” và “Sort by Normalized” trong MOE. Phương trình QSAR sau đó được xây dựng dựa trên phân 
tích bình phương tối thiểu từng phần. 
Kết quả: Xây dựng được 2 mô hình QSAR dựa trên 2 cơ sở dữ liệu. Mô hình 1: 46 dẫn chất với 8 thông số 
mô tả liên quan đến hoạt tính sinh học được lựa chọn. Kết quả phương trình QSAR-1 (I) thu được có hệ số 
tương quan r2=0,76, và hệ số tương quan đánh giá chéo q2(LOO)=0,62. Phương trình được đánh giá lại trên tập 
hợp kiểm tra và cho kết quả tương đối tốt với r2=0,64. Mô hình 2: 51 dẫn chất với 10 thông số mô tả đặc trưng 
cho hoạt tính sinh học được chọn. Kết quả phương trình QSAR-2 (II) thu được có hệ số tương quan r2=0,80, hệ 
số tương quan đánh giá chéo q2(LOO)=0,70. Phương trình được đánh giá lại trên tập hợp kiểm tra, kết quả với 
r2=0,68. 
Kết luận: Nghiên cứu được mối quan hệ định lượng giữa cấu trúc các dẫn chất CA-4 và hoạt tình kháng 
ung thư bằng cách ức chế quá trình trùng hợp tubulin qua 2 mô hình QSAR được xây dựng. Các mô hình này 
được ứng dụng để dự đoán hoạt tính của các dẫn chất mới. 
Từ khóa: kháng ung thư, dẫn chất combretastatin-A4, ức chế trùng hợp tubulin, QSAR. 
ABSTRACT 
QUANTITATIVE RELATIONSHIP STUDY OF COMBRETASTATIN A-4 DERIVATIVE STRUCTURES 
AND ANTI-CANCER ACTIVITIES 
Tran Ngoc Chau, Le Quang Huy, Thai Khac Minh 
* Y Hoc TP. Ho Chi Minh * Vol. 15 - Supplement of No 1 - 2011: 413 - 422 
Background: Cancer is a leading cause of death worldwide. Globocan project of the International Agency for 
Research on Cancer (IARC) estimates that by 2030, nearly 21.4 million new cancer cases will be diagnosed 
worldwide—mostly in developing countries with 12 million cancer-related deaths. For this reason, anti-cancer 
drug discovery and development becomes a critical need. 
*Bộ môn Hóa Dược – Khoa Dược – Đại Học Y Dược TP. Hồ Chí Minh
Tác giả liên hệ: TS Thái Khắc Minh ĐT: 0909680385 Email: 
[email protected] 
Nghiên cứu Y học Y Học TP. Hồ Chí Minh * Tập 15 * Phụ bản của Số 1 * 2011
Chuyên Đề Dược Khoa 414 
Objectives: Establish the quantitative relationship between structures of combretastatin A-4 derivatives 
and antitubulin polymerization activity in order to predict the anti-cancer activity of new analogs. 
Methods: Structures of 126 CA-4 derivatives and their anti-tubulin polymerization activity were collected 
from research of Pettit’s group and Romagnoli’s group. 2D-structures were redrawn and 2D-molecular 
descriptors were calculated by MOE software. Molecular descriptors were selected by “QSAR-Contingency” and 
“ Sorted by Normalized” function in MOE. QSAR equation was built using Partial Least Squares (PLS) 
regression method. 
Results: Two QSAR models were developed : Model 1: 46 compounds in training set, 8 molecular 
descriptors were selected. The QSAR-1 model (equation I) has a r2=0.76 and q2(LOO)=0.62. This model was 
examined by using external test-set with r2 =0.64. Model 2: 52 compounds in training set, 10 molecular 
descriptors were selected. The QSAR-2 model (equation II) has a r2=0.80 and q2(LOO)=0.70. This model was 
examined by using external test-set with r2 =0.68. 
Conclusions: Quantitative relationship between structures of combretastatin A-4 derivatives and 
antitubulin polymerization activity was established in 2 QSAR-models. These models can be used to predict the 
activity of new CA-4 derivatives. 
Keywords: anticancer activity, combretastatin-A4 derivatives, anti-tubulin agents, QSAR. 
ĐẶT VẤN ĐỀ 
Ngày nay ung thư là một bệnh phổ biến với 
số lượng người mắc bệnh khá cao trên toàn thế 
giới. Theo thống kê của dự án Globocan thuộc tổ 
chức nghiên cứu ung thư quốc tế thì vào năm 
2008 trên thế giới có khoảng 12,7 triệu ca ung 
thư mới và 7,6 triệu người chết vì ung thư. Đây 
là nguyên nhân chính thứ hai dẫn đến tử vong 
sau bệnh tim mạch. Nghiên cứu này cũng dự 
đoán vào năm 2030 sẽ có khoảng 21 triệu ca ung 
thư mới(7). Vì vậy việc khám phá ra thuốc mới 
đặc biệt hiệu quả trong ung thư đang là vấn đề 
được các nhà khoa học hết sức quan tâm. 
Trong những năm gần đây, nhiều thuốc 
điều trị ung thư được nghiên cứu với những cơ 
chế tác động khác nhau, trong số đó tubulin là 
một cấu trúc mục tiêu hiện đang rất được quan 
tâm(8,1,40). Tubulin là một protein của tế bào có 
khả năng trùng hợp tạo thành vi ống giúp hình 
thành thoi vô sắc, cấu trúc đóng vai trò quan 
trọng trong quá trình nhân đôi của tế bào cũng 
như tham gia tạo thành khung tế bào. Các thuốc 
điều trị ung thư tác động trên tubulin làm rối 
loạn cân bằng động của quá trình trùng hợp 
tubulin –vi ống dẫn đến ức chế sự phân bào của 
các tế bào ung thư(13). Một số thuốc thuộc hai 
nhóm này hiện đang được sử dụng trong lâm 
sàng để điều trị ung thư như các dẫn chất taxan 
(paclitaxel, docetaxel) và các dẫn chất vinca 
(vinblastin, vincristin, vinorelbin, vinflunin). 
Năm 1982, giáo sư Pettit thuộc đại học 
Arizona phân lập được từ cây Combretum 
caffrum L. (nguồn gốc Nam Phi) một hợp chất 
được đặt tên là combretastatin-A4 (CA-4) với 
cấu trúc rất đơn giản(6) như trình bày ở hình 1. 
Hình 1. Cấu trúc combretastatin A-4 
CA-4 được xem là tác nhân gây độc tế bào 
tiềm năng do ức chế mạnh sự trùng hợp vi ống 
bằng cách gắn vào điểm gắn kết của colchicin 
trên tubulin. CA-4 có độc tính cao trên nhiều 
dòng tế bào ung thư khác nhau bao gồm cả 
những tế bào ung thư đa đề kháng(14,1,23,8). Từ 
những kết quả nghiên cứu in vitro ban đầu, CA-
4 (được đặt tên hoạt chất là fosbretabulin, biệt 
dược ZYBRESTATTM) hiện đang được phát triển 
và thử nghiệm lâm sàng bởi công ty Oxigene(17) 
trong việc điều trị một số bệnh ung thư như ung 
thư tuyến giáp, ung thư buồng trứng kháng 
Platinum và ung thư phổi không tế bào nhỏ. 
Y Học TP. Hồ Chí Minh * Tập 15 * Phụ bản của Số 1 * 2011 Nghiên cứu Y học
Chuyên Đề Dược Khoa 
415
Theo kết quả ban đầu của các thử nghiệm lâm 
sàng, CA-4 (fosbretabulin) đã được chứng minh 
có giá trị cao khi kết hợp những phương pháp 
khác trong điều trị ung thư như hóa trị liệu, xạ 
trị, đặc biệt là trị liệu mục tiêu phân tử . 
Tuy nhiên, CA-4 không bền do trong cấu 
trúc có nối đôi dạng cis dễ bị đồng phân hóa 
thành đồng phân trans không có hoạt tính. Hơn 
nữa do ít tan trong nước nên CA-4 có hoạt tính 
rất kém trong các thử nghiệm in vivo, nhưng khi 
được chuyển thành dạng muối natri phosphat 
thì hoạt tính được cải thiện rất tốt(9). Vì những lý 
do trên, nhiều nhóm nghiên cứu hóa dược đã 
tiến hành tổng hợp các dẫn chất của CA-4 nhằm 
mục đích cải thiện hoạt tính trên các tế bào ung 
thư và tăng độ ổn định của các hoạt 
chất(1,24,9,14,15,17,18,27,40). Một số nghiên cứu về quan 
hệ giữa cấu trúc và tác động (SAR) của các dẫn 
chất CA-4 cũng được thực hiện(2,19,40). 
Để tìm hiểu sâu hơn về quan hệ cấu trúc các 
dẫn chất CA-4 và hoạt tính kháng ung thư, mối 
quan hệ định lượng giữa cấu trúc và tác dụng ức 
chế trùng hợp tubulin (QSAR) được tiến hành 
nghiên cứu trên 2 cơ sở dữ liệu khác nhau được 
tập hợp từ các những nghiên cứu của nhóm 
Pettit GR (Viện nghiên cứu ung thư thuộc đại 
học Arizona, Mỹ) và Romagnoli R (Đại học 
Ferrara, Ý). 
ĐỐI TƯỢNG – PHƯƠNG PHÁP NGHIÊN CỨU 
Hóa tin học 
Các cấu trúc phân tử 2D được xây dựng 
bằng ChemBioDraw Ultra 2008(2). Phần mềm 
MOE 2008.10(19) và phần mềm RapidMiner 5(27) 
mạng phân lớp truyền thẳng MLP được sử 
dụng để tính toán thông số mô tả phân tử, chọn 
lựa thông số và xây dựng mô hình QSAR. 
Cơ sở dữ liệu 
Mô hình 1: tập dữ liệu gồm có 63 dẫn chất có 
khung cấu trúc cơ bản styren (Hình 2) được thu 
nhập từ công trình nghiên cứu của Pettit G.R. và 
cộng sự thuộc phòng thí nghiệm của Viện 
nghiên cứu ung thư thuộc Đại học Arizona 
(Mỹ)(24,18,9,24,29,25,6). Hoạt tính ức chế trùng hợp 
tubulin của các dẫn chất này được thể hiện qua 
giá trị IC50 xác định bằng phương pháp thử 
nghiệm hoạt tính ức chế trùng hợp tubulin(10). 
Hình 2. Cấu trúc cơ bản các chất trong mô hình 1 
Mô hình 2: Tổng cộng 63 dẫn chất với khung 
cấu trúc chung 1-(3,4,5s-
trimethoxyphenyl)ethanon (hình 3) từ nghiên 
cứu của Romagnoli R. và cộng sự thuộc phòng 
thí nghiệm Hóa Dược, đại học Ferrara, 
Ý(10,30,31,32,33,34,35,36,37,38,39) được thu thập. Hoạt tính ức 
chế trùng hợp tubulin của các dẫn chất này được 
thử nghiệm trong cùng một điều hiện, theo 
phương pháp của Hamel(10). Kết quả thể hiện 
qua giá trị IC50. 
Hình 3. Cấu trúc cơ bản các chất trong mô hình 2 
Phương pháp xây dựng mô hình QSAR 
Mô hình QSAR nghiên cứu mối quan hệ 
định lượng giữa cấu trúc và tác dụng ức chế 
trùng hợp tubulin được tiến hành theo các bước 
sau và tóm tắt ở Hình 4: 
Chuẩn bị cơ sở dữ liệu 
Vẽ cấu trúc hóa học bằng chương trình 
ChemBioDraw Ultra 11.0 (2008) và chuẩn bị 
bảng kết quả hoạt tính sinh học. Do các giá trị 
IC50 chênh lệch rất lớn nên giá trị IC50 của các 
chất được chuyển đổi thành giá trị pIC50 = 
log10(IC50) để đơn giản hóa quá trình thực hiện. 
Tính toán thông số mô tả phân tử 
Từ cấu trúc hóa học, 184 thông số mô tả 
phân tử 2D đặc trưng cho cấu trúc được tiến 
hành tính toán bằng phần mềm Molecular 
Nghiên cứu Y học Y Học TP. Hồ Chí Minh * Tập 15 * Phụ bản của Số 1 * 2011
Chuyên Đề Dược Khoa 416 
Operating Environment phiên bản 2008.10 
(MOE 2008.10). 
Lựa chọn thông số mô tả phân tử 
Lựa chọn thông số mô tả phân tử từ hàng 
trăm thông số có vai trò quan trọng trong việc 
xây dựng mô hình. Điều này có ý nghĩa làm 
giảm sự gây nhiễu và tăng tính ổn định của mô 
hình. Quá trình này gồm các bước: 
- Loại bỏ thông số có tương quan chéo r>0,9 
và thông số có >20% giá trị 0 (chương trình 
RapidMiner) 
- “Tỉ lệ hóa” (scale) các thông số. Việc tỉ lệ 
này hóa này có tác dụng làm giảm mức độ dao 
động lớn giữa các thông số mô tả nhằm tránh 
ảnh hưởng đến kết quả dự đoán. 
- Dùng QSAR-Contingency (MOE 2008.10) 
để chọn các thông số mô tả. Các thông số mô tả 
phù hợp với phương trình QSAR khi C > 0,6; V > 
0,2; U > 0.2; R2 > 0,2. Thông thường đối với một 
tập hợp phân tán nhiều thì các thông số mô tả 
thỏa mãn điều kiện trên là không nhiều. Vì thế 
trong nghiên cứu này có thể dùng cách chọn 
“Sắp xếp tiêu chuẩn hóa” (Sort by Normalized) 
để loại dần những thông số nào ít ảnh hưởng 
đến mô hình nhất. 
Xây dựng mô hình 
Mô hình sẽ được xây dựng dựa trên phân 
tích bình phương tối thiểu từng phần (PLS) bằng 
chương trình MOE 2008.10 
Đánh giá mô hình 
Mô hình sau khi được xây dựng sẽ được 
đánh giá thông qua hệ số tương quan r2 giữa 
giá trị dự đoán và giá trị thực nghiệm, sai số 
bình phương trung bình RMSE. Ngoài ra 
phương trình còn được đánh giá chéo trên tập 
huấn luyện (đánh giá nội) và tập kiểm tra 
(đánh giá ngoại). Từ những mô hình được xây 
dựng chọn lại mô hình nào hiệu quả nhất 
dùng cho việc dự đoán. 
Dự đoán hoạt tính sinh học 
Mô hình QSAR được xây dựng dùng để ứng 
dụng dự đoán hoạt tính sinh học của các dẫn 
chất combretastatinA-4. 
Hình 4. Các giai đoạn tiến hành xây dựng mô hình 
QSAR 
KẾT QUẢ VÀ BÀN LUẬN 
Mô hình QSAR 1 
Phân chia dữ liệu 
Phân chia ngẫu nhiên tập hợp gồm 63 dẫn 
chất cấu trúc cơ bản khung styren thành 2 tập 
hợp: tập huấn luyện gồm 53 chất và tập đánh 
giá ngoại (external set) gồm 10 chất. Sau khi tiến 
hành lựa chọn thông số mô tả và loại chất gây 
1. Chuẩn bị cơ sở dữ liệu 
Cấu trúc hóa học 2D 
Hoạt tính sinh học (pIC50) 
2. Tính toán giá trị thông số mô tả phân tử 
184 thông số mô tả 
3. Lựa chọn thông số mô tả phân tử 
Loại bỏ các thông số mô tả có tương quan chéo r>0.9 
Loại bỏ các thông số mô tả có trên 20% giá trị 0 
Scale 
QSAR Contingency 
4. Xây dựng mô hình QSAR 
Tập hợp xây dựng phương trình (training set) 
Xây dựng phương trình theo thuật toán PLS 
Đánh giá chéo 5-lần cắt. 
5. Đánh giá lại mô hình 
Tập hợp kiểm tra nội và ngoại (external set) 
Tương quan giữa giá trị pIC50 thực nghiệm và dự đoán 
6. Dự đoán hoạt tính sinh học 
Y Học TP. Hồ Chí Minh * Tập 15 * Phụ bản của Số 1 * 2011 Nghiên cứu Y học
Chuyên Đề Dược Khoa 
417
nhiễu, tập huấn luyện còn lại 46 dẫn chất để xây 
dựng mô hình. Từ tập này phân chia ngẫu nhiên 
bằng hàm Random trong MOE lấy ra 5 mô hình 
thứ cấp, mỗi mô hình gồm 39 chất trong tập 
huấn luyện (training set) và 7 chất trong tập kiểm 
tra (test set). Kết quả trung bình từ 5 mô hình này 
chính là quá trình đánh giá chéo 5-lần-cắt đồng 
thời cũng xây dựng phương trình trên tập dữ 
liệu toàn bộ 46 dẫn chất và kiểm tra bằng tập 
hợp đánh giá ngoại. 
Phân tích thành phần loại các giá trị nằm 
ngoài (oulier) 
Khi tập hợp chứa một số chất gây nhiễu, có 
độ lệch nằm ngoài so với các giá trị chung. Điều 
này có thể gây ảnh hưởng xấu đến mô hình 
QSAR. Vì vậy phải loại bỏ các thành phần này 
hoặc là xây dựng mô hình khác để mô tả chúng. 
Trong nghiên cứu này, chức năng “Z-Score” 
được sử dụng để loại các chất có giá trị Z-Score > 
2,5. Kết quả tổng cộng 7 chất có giá trị nằm 
ngoài loại bỏ được. 
Lựa chọn thông số mô tả 
Các thông số mô tả 2D (184 thông số) từ 
phần mềm MOE 2008.10 được sử dụng cho 
nghiên cứu.Trước tiên các thông số được loại thô 
bằng cách loại các thông số: (i) Các thông số có 
tương quan chéo r>0,9; (ii) Các thông số có >20% 
giá trị 0; (iii) Tiến hành “tỉ lệ hóa” (scale) các 
thông số mô tả. Tổng cộng là 81 thông số còn lại 
được tiến hành chọn lọc bằng phương pháp 
“QSAR-Contingency” kết hợp với “Sắp xếp tiêu 
chuẩn hóa” (Sort by Normalized). Kết quả thu 
được được 8 thông số mô tả có vai trò quan 
trọng trong việc đóng góp vào hoạt tính sinh học 
pIC50 để xây dựng mô hình. Tám thông số này 
được trình bày ở bảng 1. 
Xây dựng phương trình QSAR-1 
Phân tích bình phương tối thiểu từng phần 
được tiến hành trên 46 dẫn chất của CA-4 trong 
mô hình 1 trong tập huấn luyện với 8 thông số 
mô tả được chọn. Phương trình QSAR-1 (I) được 
thiết lập với hệ số tương quan là r2=0,76 , sai số 
bình phương trung bình RMSE=0,18. Phương 
trình được đánh giá chéo 5-lần-cắt (five-folds-cross 
validation) và bằng phân tích Leave One Out 
(LOO). Kết quả đánh giá nội bởi 5 lần chia tập 
hợp có hệ số hồi qui xr2=0,64. Hệ số hồi quy 
đánh giá chéo của phương trình (I) là q2=0,62 với 
RMSE=0,22. 
Phương trình (I) 
pIC50 = 0,37369 
+ 0,41854 * Scale_weinerPath 
− 0,07332 * Scale_GCUT_PEOE_0 
+ 0,16071 * Scale_a_ICM 
+ 0,06072 * Scale_PEOE_VSA_FPPOS 
− 0,12633 * Scale_Q_VSA_FPPOS 
+ 0,25706 * Scale_logS 
− 0,13819 * Scale_SlogP_VSA4 
+ 0,15562 * Scale_SlogP_VSA8 
với n=46, r2=0,76, RMSE=0,18, q2(LOO)=0,62, 
RMSE (LOO)=0,22 
Bảng 1. Nhóm 8 thông số mô tả được lựa chọn để 
xây dựng mô hình QSAR-1 
Thông số mô tả Ý nghĩa thông số mô tả 
weinerPath Số quỹ đạo Weiner 
GCUT_PEOE_0 Số ma trận khoảng cách ở điện tích 
riêng phần (0/3) 
a_ICM Diện tích bề mặt nguyên tử 
PEOE_VSA_FPPOS Diện tích bề mặt Van Der Wall có 
điện tích dương 
Q_VSA_FPPOS Phần điện tích dương của bề mặt 
Van Der Wall 
logS Log hệ số hòa tan trong nước 
(mol/L) 
SlogP_VSA4 Tổng diện tích từng phần mức 4 
tính dựa trên hệ số phân bố dầu 
nước SlogP 
SlogP_VSA8 Tổng diện tích từng phần mức 8 
tính dựa trên hệ số phân bố dầu 
nước SlogP 
Đánh giá mô hình 
Mô hình được đánh giá nội bằng phương 
pháp đánh giá chéo 5-lần-cắt. Qua 5 tập hợp 
huấn luyện thứ cấp kết quả hệ số hồi qui xr2= 
0,64. Sai số trung bình với tập đánh giá ngoại là 
SE=0,17. Phương trình (I) được áp dụng trên tập 
đánh giá ngoại gồm 10 dẫn chất. Tương quan 
giữa giá trị hoạt tính sinh học thực nghiệm và 
dự đoán của tập hợp này là r2 = 0,64, sai số trung 
Nghiên cứu Y học Y Học TP. Hồ Chí Minh * Tập 15 * Phụ bản của Số 1 * 2011
Chuyên Đề Dược Khoa 418 
bình SE là 0,17. Hình 5 biểu diễn mối tương 
quan giữa giá trị hoạt tính sinh học thực nghiệm 
và dự đoán từ phương trình (I). 
Bàn luận về mô hình 1 
Tập hợp các cấu trúc dùng để xây dựng mô 
hình 1 chủ yếu là biến đổi trên vòng B trong cấu 
trúc của CA-4. Nhìn chung cấu trúc thay đổi 
nhóm thế trên nhân thơm hoặc thay vòng 
benzen bằng nhóm NO2. Với mục tiêu là vẫn giữ 
cấu trúc gần giống với CA-4, mô hình được xây 
dựng nhằm giải thích rõ về quan hệ định lượng 
giữa cấu trúc và tác dụng ức chế trùng hợp 
tubulin. Từ đó ứng dụng mô hình dự đoán 
những dẫn chất thiên nhiên đã được chiết ra từ 
Combretum caffrum gồm 6 dẫn chất CA-1, CA-2, 
CA-3, CA-4, CA-5 và CA-6. Kết quả so sánh hoạt 
tính sinh học dự đoán và thực nghiệm cho một 
lần nữa khẳng định CA-4 có hoạt tính ức chế 
trung hợp tubulin rất tốt (lgIC50 dự đoán và thực 
nghiệm lần lượt là 0,17 và 0,40). Mô hình trên 
cũng dự đoán hoạt tính kháng ung thư khá tốt 
của một dẫn chất khác là CA-1. Theo các tài liệu 
tham khảo hiện nay, dẫn chất này cũng đang 
được tiến hành các thử nghiệm điều trị ung thư 
trên lâm sàng(17). 
Trong số 8 thông số mô tả liên quan đến mô 
hình 1, 3 thông số “a_ICM”, 
“PEOE_VSA_FPPOS” và “Q_VSA_FPPOS” có 
liên quan đến diện tích bề mặt phân tử ; 2 thông 
số “SlogP_VSA4” và “SlogP_VSA8” liên quan 
đến điện tích từng phần và hệ số phân bố dầu 
nước. Vì vậy khi đưa thêm những nhóm thế trên 
vòng B tăng điện tích từng phần đồng thời tăng 
tính thân nước của phân tử (như nhóm OH) có 
thể làm tăng hoạt tính sinh học của dẫn chất. 
Hơn nữa nhóm hydroxy cũng tạo ra trung tâm 
mới cho liên kết hydrogen và điều này tác động 
đến khả năng liên kết của dẫn chất với điểm tác 
động. 
Hình 5. Mối tương quan giữa giá trị hoạt tính sinh 
học thực nghiệm và dự đoán từ phương trình (I) 
Mô hình QSAR 2 
Phân chia dữ liệu 
Tập hợp ban đầu gồm có 63 chất có cấu trúc 
cơ bản (1-(3,4,5-trimethoxyphenyl)ethanone (Hình 
3). Dùng hàm random trong MOE chia ngẫu 
nhiên cơ sở dữ liệu thành thành 2 tập hợp (tập 
huấn luyện gồm 55 dẫn chất, tập đánh giá ngoại 
8 chất). Sau đó chọn lựa thông số mô tả và loại 
các giá trị nằm ngoài (outlier). Kết quả loại 4 chất 
có giá trị nằm ngoài tập huấn luyện còn lại 51 
chất. Tập hợp huấn luyện 51 chất được tiến 
hành xây dựng phương trình với các thông số 
mô tả được lựa chọn và đánh giá lại bằng tập 
hợp đánh giá ngoại. Sau đó chia ngẫu nhiên tập 
hợp huấn luyện 51 chất thành 5 mô hình thứ cấp 
(mỗi mô hình gồm 43 dẫn chất trong tập huấn 
luyện và 8 chất trong tập kiểm tra). Kết quả 
trung bình từ 5 mô hình thứ cấp chính là quá 
trình đánh giá chéo 5-lần-cắt. 
Phân tích loại các dẫn chất có giá trị nằm 
ngoài 
Sau khi lựa chọn thông số mô tả tiến hành 
loại các chất gây nhiễu bằng chức năng Z-Score 
trong MOE. Kết quả 4 chất nằm ngoài từ tập 
hợp huấn luyện của mô hình 2. 
Y Học TP. Hồ Chí Minh * Tập 15 * Phụ bản của Số 1 * 2011 Nghiên cứu Y học
Chuyên Đề Dược Khoa 
419
Lựa chọn thông số mô tả 
Tiến hành các phương pháp tương tự như 
mô hình 1 để lựa chọn các thôn