Bài giảng Lý thuyết trò chơi (Game Theory)

Nội dung hôm nay  Những tình huống mà chúng ta phải ứng xử hàng ngày  Lý thuyết trò chơi là gi?  Trò chơi động với thông tin đầy đủ  Trò chơi tĩnh với thông tin đầy đủ  Phân tích tình huống.

pdf56 trang | Chia sẻ: thanhlam12 | Lượt xem: 1249 | Lượt tải: 0download
Bạn đang xem trước 20 trang tài liệu Bài giảng Lý thuyết trò chơi (Game Theory), để xem tài liệu hoàn chỉnh bạn click vào nút DOWNLOAD ở trên
Hoai Bao 1 Lý thuyết trò chơi (Game Theory) Nguyễn Hoài Bảo November 6, 2007 Nội dung hôm nay  Những tình huống mà chúng ta phải ứng xử hàng ngày  Lý thuyết trò chơi là gi?  Trò chơi động với thông tin đầy đủ  Trò chơi tĩnh với thông tin đầy đủ  Phân tích tình huống. Hoai Bao 2 Lưu ý: Những hình ảnh sử dụng trong bài giảng này được lấy về từ và chỉ có tính minh hoạ. Hoai Bao 3 Hồ Ngọc Hà vs Đức Trí Hoai Bao 4 Tiếp tục hợp tác hay không? Tiếp tục hợp tác hay không? Ai gọi ai? Hoai Bao 5 Tuổi Trẻ vs Thanh Niên Hoai Bao 6 Chọn tin gì để đăng trên trang bìa hôm nay??? Attila Elizabeth (SYM) vs. Air Blade (Honda) Hoai Bao 7 Ghen hay không? Hoai Bao 8 Trả tiền nhậu hay Karaoke? Hoai Bao 9 Làm thế nào để có câu trả lời cho các tình huống trên?  Mình phải biết mình,  và cũng phải biết người – Người là ai? – Họ đang nghĩ gì? – Mục tiêu của họ là gì? – Họ có những lựa chọn nào?  Trả lời các câu hỏi trên và đưa ra quyết định cho chính mình đó là “một trò chơi” Biết mình biết người, trăm trận trăm thắng. Hoai Bao 10 Lý thuyết trò chơi là gì?  Game Theory: Nghiên cứu các tình huống ra quyết định có liên quan đến nhiều người và các quyết định của mỗi người ảnh hưởng đến quyết định của người khác.  Hay nói các khác: Lý thuyết trò chơi sẽ xác định xác suất thành công khi cho trước một không gian chiến lược. Nghĩa là mỗi người đều có hơn 1 sự lựa chọn và lựa chọn của họ ảnh hưởng lẫn nhau.  Ví dụ: Hồ Ngọc Hà sẽ đoán xem Đức Trí có hợp tác với mình nữa hay không. Nếu có thì mình được gì và mất gì, nếu không thì được gì và mất gì. Đức Trí cũng toan tính như vậy.  Ví dụ: Nếu hai người cùng gọi, thì máy của cả hai đều bận. Tốt nhất là một người gọi và một người thì đợi. Vấn đề là ai đợi? Lý thuyết trò chơi là gì?  Ví dụ: Ban Biên tập báo Thanh Niên sẽ phải có một cuộc họp kín để quyết định chọn tin gì đưa lên trang 1 của báo ngày hôm nay. Và họ cũng biết ban Biên tập báo Tuổi Trẻ cũng họp ở đâu đó để bàn về việc này.  Ví dụ: Có hai dòng xe, một dòng dành cho “phái yếu” và một dòng dành cho “phái mạnh”. Với ngân sách có hạn, bản thân Honda lẫn SYM đề không thể đầu tư cùng một lúc cả hai dòng này và họ lại là đối thủ cạnh tranh của nhau. Nếu cả hai cùng tung ra cùng lúc 1 dòng xe cho phái mạnh (hoặc phái yếu) thì cả hai đều thiệt. Chiến lược tốt nhất là mỗi hãng chọn dòng xe để đầu tư. Vấn đề là làm sao biết đối thủ của mình đang đầu tư dòng xe nào? Hoai Bao 12 Lý thuyết trò chơi là gì?  Ví dụ: Nên ghen ra mặt hay không? Nó tuỳ thuộc vào “cô kia” có “để ý” anh ấy hay không? Nếu cô kia đang để ý thì mình ghen và mất tình bạn (được tìn yêu); còn ngược lại thì không cần ghen (được cả tình yêu lẫn tình bạn). Và ngược lại.  Ví dụ: Ai là người sẽ trả tiền trong buổi họp mặt hôm nay. Nếu hội “con gái” dành trả tiền cho buổi tiệc nhậu thì “hội con trai” trả tiền cho chầu karaoke; và người lại. Hội nào sẽ hành động trước? Tiền trả cho nhậu (bình quân đầu người) là ít hay nhiều hơn tiền trả cho karaoke (bình quân đầu người)? Hoai Bao 13 Những khái niệm cơ bản  Người chơi (Players): Là những người tham gia vào một hay nhiều trò chơi. Ví dụ: Hà và Trí, Honda và SYM; hai cô gái  Luật chơi (Rules): Là những nguyên tắc và chế tài trong một cuộc chơi.  Kế cục (Payoff): Là lượng hữu dụng (thường là tiền) mà một người chơi khi thắng hoặc thua của một chiên lược cụ thể trong trò chơi.  Chiến lược (Strategy): Là một tập các phải ứng của người chơi có thể xảy ra trong một trò chơi. Một chiến lược phải trọn vẹn, xác định rõ ràng trong các tình huống bất ngờ.  Chiến lược áp đảo (Dominant Strategy): Là chiến lược có kết cục tốt nhất bất chấp các chiến lược của đối thủ  Chiến lược bị áp đảo (Dominated Strategy): Là chiến lược có kết cục tệ nhất bất chấp các chiến lược của đối thủ Những khái niệm cơ bản  Chiến lược thuần tuý (Pure Strategy): Là chiến lược dự trên phán đoán các chiến lược của đối thủ  Chiến lược hỗn hợp (Mixed Strategy): Là chiến lược khi không dự đoán được chiến lược của đối thủ.  Cân bằng (Equilibrium): Là một kết quả (outcome) mà trong đó các bên tham gia cuộc chơi không muốn thay đổi.  Cân bằng áp đảo (Dominant Strategy Equilibrium): Là một cân bằng mà trong đó mỗi người chơi đều sử dụng chiến lược áp đảo của mình.  Cân bằng Nash (Nash Equilibrium): Là cân bằng mà trong đó các người chơi hành động điều tốt nhất mà họ có thể làm khi đối với hành động của đối phương.  Tình thế lưỡng nan của người tù (Prinsoner’s dlemma): Là một kết cục mà mặc dù mọi người hành động khônn ngoan theo tư lợi của mình nhưng kết nhận được thì không khôn ngoan Hoai Bao 15 Các dạng trò chơi  Trò chơi đồng thời (Simultaneous-move game): hay còn gọi là trò chơi tĩnh: là dạng trò chơi mà các nguời chơi phải hành động cùng lúc. – Ban biên tập báo Thanh Niên và Tuổi Trẻ phải ra quyết định đồng thời. – Hai cô gái phải cùng quyết định  Trò chơi luôn phiên (Sequential-move game): hay còn gọi là trò chơi động, là dạng trò chơi có nhiều giai đoạn và mỗi người chơi sẽ hành động ở mỗi giai đoạn. – Nếu Honda ra quyết định trước thì SYM sẽ rất dễ dàng có quyết định. – Trả tiền nhậu hay karaoke là trò chơi luôn phiên. Hoai Bao 16 Các dạng trò chơi Căn cứ vào thông tin  Trò chơi với thông tin đầy đủ (complete information): là mỗi người chơi có thể tính toán được kết cục (payoff) của các người chơi còn lại.  Trò chơi với thông tin không đầy đủ (incomplete information). Khả năng hợp tác:  Trò chơi hợp tác (cooperative games): các người chơi cùng lập chương trình hành động và có biện pháp chế tài cho những thoả thuận chung.  Trò chơi bất hợp tác (non- cooperative games): không có hợp đồng (khế ước), hoặc nếu có thì rất khó chế tài. Hoai Bao 17 Trong bài giảng này: Trò chơi có thông tin hoàn hảo; Trò chơi không hợp tác; và Trò chơi luôn phiên và đồng thời. Hoai Bao 18 Năm giả định quan trọng 1. Mỗi người ra quyết định (người chơi – player) luôn có hai hay nhiều lựa chọn. 2. Mỗi lựa chọn phải dẫn đến một kết cục rõ ràng (thắng, thua hay hoà) khi kết thúc cuộc chơi. 3. Kết cục cụ thể cho mỗi người chơi phải gắn với mỗi giai đoạn kết thúc (một trò chơi có tổng bằng không – zero sum game nghĩa là tổng tất cả các kết cục của các người chơi là bằng zero khi kết thúc mỗi giai đoạn chơi). 4. Các người chơi đều có kiến thức hoàn hảo về trò chơi cũng như về đối phương của họ. Nghĩa là anh ta/chị ta biết đầy đủ chi tiết các luật lệ của trò chơi cũng như kết cục của tất cả các người khác. 5. Tất cả những quyết định của người chơi là duy lý (rational), mỗi người chơi, chẳng hạn có hai lựa chọn, thì khi đó họ sẽ lựa chọn cái nào đem lại kết cục tốt nhất. Trò chơi luôn phiên (Sequential-move game) Hoai Bao 20 Tình huống của Honda vs. SYM Honda Nam SYM Nam (-5; -5) Nữ (10;20) Nữ SYM Nam (20;10) Nữ (-5-5) Hoai Bao 21 Qui luật 1: Nhìn xa hơn và suy luận ngược về (Look ahead and reason backward) Hoai Bao 22 Người tiên phong là người khôn? Không chắc!  Trong chợ, nếu gian hàng của bạn là người niêm yết giá cố định trước, đối thủ của bạn sẽ có cơ hội hạ giá để dành khách hàng.  Trong một trận đánh, nếu một bên ra quân trước có thể bọc lộ yếu điểm và bia kia sẽ khai thác.  Khi công ty quyết định tung ra một sản phẩm mới trên thị trường. Bạn phải đầu tư để người tiêu dùng hiểu nó là gì, công dụng mới, chức năng vượt trột so với các sản phẩm hiện hànhngười đi sau không cần phải làm như vậy nữa! Họ sẽ cưỡi trên lưng (piggyback) trên lưng của người đi trước). Hoai Bao 23 Chiến thuật  Đe doạ (a threat): là chiến lược tác động vào chi phí để đối phương thay đổi hành vi hay niềm tin.  Lời hứa (a promise): là chiến lược tác động vào lợi ích để đối phương thay đổi hành vi hay niềm tin.  Mức độ tin cậy (credibility) của “đe doạ” hay “lời hứa” trong trò chơi là yếu tố then chốt.  Ví dụ: đội mũ bảo hiểm hay không? Hoai Bao 24 Đe doạ không tin cậy và tin cậy XYZ Gia nhập Không gia nhập ABC Tấn công $30 (ABC) $-10 (XYX) $40 (ABC) $0 (XYX) Không tấn công $50 (ABC) $10 (XYX) $100 (ABC) $0 (XYX) Hoai Bao 25 XYZ Gia nhập Không gia nhập ABC Tấn công $30 (ABC) $-10 (XYX) $40 (ABC) $0 (XYX) Không tấn công $20 (ABC) $10 (XYX) $70 (ABC) $0 (XYX) Trò chơi đồng thời (Simultaneously-move game) Hoai Bao 26 “Quay bài” hay không? Hoai Bao 27 Những sinh viên khác Quay Không “Mình” Quay 8 (Mình) 6 (Khác) 10 (Mình) 4 (Khác) Không 4 (Mình) 8 (Khác) 5 (Mình) 5 (Khác) Qui luật 2: Nếu có chiến lược áp đảo, hãy sử dụng. (If you have a dominant strategy, use it) Hoai Bao 28 Tình thế lưỡng nan của người tù Linh Khai Không khai Việt Khai 5 năm Thả (Việt) 20 năm (Linh) Không khai 20 năm (Việt) Thả (Linh) Phục hồi nhân phẩm Nhận xét: Mặc dù mọi người hành động khôn ngoan, nhưng kết quả chung lại không khôn ngoan.  Mọi người vứt rác bừa bãi, hệ quả là ai cũng chiệu thiệt do đường phố bẩn thiểu.  Tất cả các tỉnh đều ưu đãi đầu tư và cạnh tranh nhau, tất cả đều có kết cục xấu (chạy đua xuống đáy)  Ai cũng cố vượt lên khi đến ngã tư, không chịu nhường, hậu quả là tất cả bị kẹt lại. Hoai Bao 30 Chiến lược của A và B Công ty B Giảm giá Không làm gì cả Cải tiến chất lượng Công ty A Giảm giá 90 (A) 90 (B) 120 (A) 110 (B) 150 (A) 110 (B) Không làm gì cả 100 (A) 110 (B) 150 (A) 150 (B) 200 (A) 140 (B) Cải tiến chất lượng 110 (A) 150 (B) 140 (A) 120 (B) 170 (A) 170 (B) Hoai Bao 31 Chiến lược của A và B Đối với công ty A:  Không có chiến lược áp đảo  “Giảm giá” là chiến lược bị áp đảo bởi hai chiến lược còn lại.  Hãy loại bỏ chiến lược “giảm giá” ra khỏi trò chơi cho dù B chọn chiến lược gì đi chăng nữa Đối với công ty B:  Không có chiến lược thống trị  “Giảm giá” là chiến lược bị áp đảo bởi chiến lược “cải tiến chất lượng”  Lưu ý, giảm giá không phải là chiến lược bị áp đảo bởi chiến lược “không làm gì cả”. Hoai Bao 32 Chiến lược lập lại Hoai Bao 33 Công ty B Giảm giá Không làm gì cả Cải tiến chất lượng Công ty A Giảm giá 90 (A) 90 (B) 120 (A) 110 (B) 150 (A) 110 (B) Không làm gì cả 100 (A) 110 (B) 150 (A) 150 (B) 200 (A) 140 (B) Cải tiến chất lượng 110 (A) 150 (B) 140 (A) 120 (B) 170 (A) 170 (B) Qui luật 3: Nếu không có chiến lược áp đảo, cố tìm một chiến lược áp đảo lặp lại khác. (If you do not have any dominant strategy, try to find an iterated dominant strategy) Hoai Bao 34 Khi không có chiến lược áp đảo Uniliver Quảng cáo Không P&G Quảng cáo 10 (P&G) 5 (Uni) 15 (P&G) 0 (Uni) Không 6 (P&G) 8 (Uni) 20 (P&G) 2 (Uni) Uniliver chọn chiến lược áp đảo, P&G phải chọn chiến lược dựa theo: Không. Qui luật 4: Nếu không có chiến lược áp đảo, giả sử đối phương của mình họ sử dụng chiến lược áp đảo của họ, khi đó chọn chiến lược phù hợp tiếp theo. (If you do not have any dominant strategy, then assume that your rival will use this dominant strategy and choose your strategy accordingly) Hoai Bao 36 Pepsi vs. Coke Hoai Bao 37 Pepsi Giá thấp Giá trung bình Giá cao Coke Giá thấp 100 (C) 75 (P) 120 (C) 70 (P) 140 (A) 60 (B) Giá trung bình 95 (C) 90 (P) 130 (C) 95 (P)) 150 (C) 110 (P) Giá cao 90 (C) 110 (P) 120 (C) 120 (P) 160 (C) 110 (P) Không ai có chiến lược áp đảo! Nếu không có chiến lược áp đảo  Khi đó, chiến lược tốt nhất cho mỗi người chơi là hành xử dựa trên các chiến lược mà họ nghĩ rằng đối thủ của mình sẽ sử dụng. Trong tình huống trên: Coke chọn “giá thấp” thì Pepsi nên chọn “giá thấp”. Ngược lại, nếu Pepsi chọn “giá thấp” thì Coke cũng chọn “giá thấp”. Cân bằng này có tên gọi là cân bằng Cân bằng Nash. Hoai Bao 38 Một ví dụ khác về cân bằng Nash Hoai Bao 39 Kinh Đô Giá thấp Quảng cáo Đức Phát Giá thấp 60 (ĐP) 60 (KĐ) 60 (ĐP) 80 (KĐ) Quảng cáo 80 (ĐP) 60 (KĐ) 50 (ĐP) 50 (KĐ) Có hai cân bằng Nash ở tình huống trên Qui luật 5: Nếu cả hai đều không có chiến lược áp đảo, nên chọn một tình huống cân bằng chung. (If neither firms has a dominant strategy, you should choose the equilibrium) Hoai Bao 40 Nếu không có cân bằng Nash Hoai Bao 41 Kinh Đô Giá thấp Quảng cáo Đức Phát Giá thấp 15 (ĐP) 15 (KĐ) 17 (ĐP) 14 (KĐ) Quảng cáo 17 (ĐP) 14 (KĐ) 15 (ĐP) 15 (KĐ) Không có cân bằng nào trong tình huống này. Chiến lược hỗn hợp  Gọi p là xác suất Đức Phát chọn chiến lược “giá thấp”; khi đó (1-p) là xác suất của chiến lược “quảng cáo”. Gọi q là xác suất Kinh Đô chọn chiến lược “giá thấp”; khi đó (1-q) là xác suất của chiến lược “quảng cáo”. (p; q <1)  Khi đó (xem hình bên) Hoai Bao 42 Lợi nhuận kỳ vọng Kinh Đô (q) Giá thấp Quảng cáo Đức Phát (p) Giá thấp 15 (ĐP) 15 (KĐ) 17 (ĐP) 14 (KĐ) 15q+17(1-q) 15q+14(1-q) Quảng cáo 17 (ĐP) 14 (KĐ) 15 (ĐP) 15 (KĐ) 17q+15(1-q) 14q+15(1-q) 15p+17(1-p) 15p+14(1-p) 17p+15(1-p) 14p+15(1-p) Hoai Bao 43 Trong bảng trên, các ô cập nhật lợi nhuận kỳ vọng (expected profit) cho mỗi chiến lược của từng công ty. Giải thích thêm Hoai Bao 44 Kinh Đô (q) Giá thấp Quảng cáo Đức Phát (p) Giá thấp 15 (ĐP) 15 (KĐ) 17 (ĐP) 14 (KĐ) 15q+17(1-q) 15q+14(1-q) Quảng cáo 17 (ĐP) 14 (KĐ) 15 (ĐP) 15 (KĐ) 17q+15(1-q) 14q+15(1-q) 15p+17(1-p) 15p+14(1-p) 17p+15(1-p) 14p+15(1-p) Lợi nhuận kỳ vọng của Đức Phát khi họ chọn giá thấp Lợi nhuận kỳ vọng của Kinh Đô khi họ chọn giá thấp Lợi nhuận kỳ vọng của Kinh Đô khi Đức Phát chọn giá thấp Đức Phát Hoai Bao 45 Giảm giá Quảng Cáo 0.5 17 15 17 15 0 1 Nếu q <0.5 lựa chọn tốt nhất cho Đức Phát là nên giảm giá, và ngược lại, nếu q>0.5 thì Quảng cáo. q Kinh Đô Hoai Bao 46 Giảm giá Quảng Cáo 0.5 17 15 17 15 0 1 Nếu p <0.5 lựa chọn tốt nhất cho Kinh Đô là nên giảm giá, và ngược lại, nếu p>0.5 thì Quảng cáo. p Nếu cả hai đều chọn trung dung: p = q = 0.5 Hoai Bao 47 Kinh Đô (q=0.5) Giá thấp Quảng cáo Đức Phát (p=0.5) Giá thấp 15 (ĐP) 15 (KĐ) 17 (ĐP) 14 (KĐ) 16 14.5 Quảng cáo 17 (ĐP) 14 (KĐ) 15 (ĐP) 15 (KĐ) 16 14.5 16 14.5 16 14.5 16 14.5 Khi này lựa chọn chiến lược không còn ý nghĩa nữa! MaiLinh vs. VinaSun Hoai Bao 48 MaiLinh Mở Không VinaSun Mở -50 (VS) -50 (ML) 100 (VS) 0 (ML) Không 0 (VS) 100 (ML) 0 (VS) 0 (ML) Trò chơi này có 2 cân bằng Nash. Thử tìm một chiến lược hỗn hợp Hoai Bao 49 MaiLinh (q) Mở Không VinaSun (p) Mở -50 (VS) -50 (ML) 100 (VS) 0 (ML) Không 0 (VS) 100 (ML) 0 (VS) 0 (ML) -50q+100(1-q) = 0 và -50p + 100(1-p) = 0 Kết quả: q = p = 2/3: Như vậy, MaiLinh hoặc Vinasun có thể thu lợi khi mà họ tin chắc rằng đối thủ của mình không tham gia thị trường ngách Qui luật 6: Phải tìm chiến lược hỗn hợp khi không có chiến lược cân bằng. Và ngay cả khi có chiến lược cân bằng cũng thử tìm một chiến lược hỗn hợp. (Try mixed strategy even if pure strategy equilibrium exists, and definitely if pure strategy equilibrium does not exist.) Hoai Bao 50 Phụ lục: Những tác giả nghiên cứu và phát triển lý thuyết trò chơi Hoai Bao 51 In the beginning Some game-theoretic ideas traced back to the 18-th century. Emile Borel (1871~1956) and John von Neumann (1903~1957) began the major development of game theory. 52 John Nash (1928--) Received his Ph.D. from Princeton University with a 28-page thesis on his 22-nd birthday. – Invented the notion of Nash equilibrium. Wrote a seminal paper on bargain theory. Xem phim “A beautiful Mind” nói về cuộc đời của John Nash. Slide 1 53 Game theory, spring 2006 Slide 1 54 Applications of game theory Economic theory Political science Psychological study Evolutionary biology (1970..) Computer science – Yao’s Lemma (1977) 55 Nobel Prize in Economic Sciences 1994 John C. Harsanyi John F. Nash Jr. Reinhard Selten "for their pioneering analysis of equilibria in the theory of non-cooperative games" 56 Nobel Prize in Economic Sciences 2005 Robert J. Aumann Thomas C. Schelling "for having enhanced our understanding of conflict and cooperation through game-theory analysis"