Các câu đố và thử thách thú vị về AI và Robotics được soạn bởi CoTAI.
A collection of great quizzes & challenges on AI & Robotics composed by CoTAI.
Contents
(Dis)similarity
Choose your most reasonable odd one and explain why. (An illustration in ML4AI course.)
🗝️ Answers
1$)$ 🐖🐖$\quad$ 2) $\boxed{🐈🐈}\quad$ 3) $\boxed{🦍}\quad$ 4) $\boxed{🐐🐐}\quad$ 5) $\boxed{🦩🦩}$
Hãy chọn một sự khác biệt hợp lý nhất và giải thích tại sao. (Câu đố minh hoạ trong lớp Học máy ML4AI.)
🗝️ Lời giải
1$)$ 🐖🐖$\quad$ 2) $\boxed{🐈🐈}\quad$ 3) $\boxed{🦍}\quad$ 4) $\boxed{🐐🐐}\quad$ 5) $\boxed{🦩🦩}$
The parking lot
You have 20 seconds to solve this 1st-grade quiz. Ready?
Did you solve it in time? 😅
But here’s a deeper question: How did you arrive at the solution? 🤔 What process or method did you use?
This same question is a trillion-dollar challenge for AI—and we’ll dive into why that is shortly!
🗝️ Answers
Short Answer: Flip the image upside down, and you’ll see the sequence 86, x, 88, 89, 90, 91. So, the car is parked in space number 87.
Long Answer is related to scaling relevant hypothesis generation, with application domains ranging from AI-led drug discovery, material science, to scientific research and innovation & creativity.
For example, in the image below, a child holding a green object might hypothesize: “This is edible,” or “This is sweet,” or “This must be broccoli.” 😅
In the parking lot puzzle, each of us might have generated different “reasonable hypotheses,” such as:
- What’s special about the sequence 16, 06, 68, 88, x, 98?
- Is there a pattern behind it? For example, reading it backwards from the right: 98, x, 88, 68, 06, 16?
- Do people in Hong Kong have a unique way of writing parking numbers?
- Are the digits encoded in some system, like a non-decimal number system?
- Since number-sequence puzzles often require very different perspectives, is there a trick to this image? Maybe rotating or flipping it?
- Etc. If you’ve come up with other hypotheses, feel free to share them here.
From these initial hypotheses, we “test/validate” each one to arrive at the most reasonable final answer.
In real-world trillion-dollar problems, like innovation and scientific discovery, the hypothesis space is immensely large (for example, the space of molecular structures for drugs and materials), and we often don’t even know the structure beforehand (like the space of scientific theories). Therefore, effectively modeling and scaling the computation process to propose/generate, select, and search for “reasonable hypotheses” remains a significant research challenge for the AI field. 💡
Meanwhile, you can try to win this $1.1M ARC Prize first 😉
Note 3/10/2024: ChatGPT is just “faking” its reasoning and actually can’t solve puzzles like this! 🤣😂
The reason is that this puzzle has appeared so many times on the Internet that it has become part of AI’s training data. In technical terms, this is called “overfitting & memorization”—like rote learning without understanding. You can try asking ChatGPT again with the image below 👇
🇻🇳 Bạn có 20 giây để giải câu đố lớp 1 này. Sẵn sàng chưa?
Chiếc xe đậu ở ô số mấy?
Bạn có giải kịp không? 😅
Nhưng đây mới là câu hỏi quan trọng hơn: Làm thế nào mà bạn tìm ra lời giải? 🤔 Bạn đã sử dụng “quy trình” hay phương pháp gì?
Câu hỏi này cũng chính là một thách thức nghìn tỷ đô đối với AI—và chúng ta sẽ thảo luận bên dưới!
🗝️ Lời giải
Câu trả lời ngắn: Quay ngược tấm hình ta sẽ thấy dãy số 86, x, 88, 89, 90, 91. Vậy xe đậu ở ô số 87.
Câu trả lời chi tiết có liên quan đến thách thức nghìn tỉ $$$ về AI tự làm nghiên cứu khoa học, đổi mới sáng tạo, tự tìm ra thuốc mới (drug discovery) & vật liệu mới v.v. 😉 Đó là: Làm sao chúng ta (và máy tính/AI) có thể nhanh chóng tự đưa ra những giả thuyết hợp lý rồi đi kiểm chứng để tìm ra giả thuyết tốt nhất.
Ví dụ trong tấm hình dưới đây, các giả thuyết đã phát sinh trong đầu đứa trẻ khi vớ được một vật màu xanh chỉ có thể là: “cái này ăn được”, hoặc “cái này ngọt”, hoặc “cái này chắc là bông cải xanh broccoli” 😅
Còn trong câu đố bãi đậu xe, có thể trong đầu mỗi chúng ta đã nảy sinh ra nhiều “giả thuyết có lý” khác nhau như:
- Chuỗi số 16, 06, 68, 88, x, 98 có gì đặc biệt?
- Có quy luật gì đằng sau chăng? Ví dụ đọc ngược từ phải: 98, x, 88, 68, 06, 16?
- Ở Hồng Công liệu người ta có kiểu viết chuỗi số nào đặc biệt không?
- Các chữ số là dạng mã hoá theo một quy tắc nào đó, không phải hệ thập phân chẳng hạn?
- Kiểu đố chuỗi số thường cần có góc nhìn khác biệt. Hẳn là có mẹo gì với tấm hình? Xoay, lật chẳng hạn?
- V.v. nếu bạn đã nghĩ đến những giả thuyết khác xin chia sẻ ở đây nhé.
Và từ các giả thuyết ban đầu này, chúng ta đi “kiểm chứng” từng cái để đưa ra lời giải cuối cùng hợp lý nhất.
Những bài toán lớn nghìn tỉ $ trong thực tế như nghiên cứu phát minh & đổi mới sáng tạo thường có không gian các giả thuyết vô cùng lớn (ví dụ không gian các cấu trúc phân tử của thuốc và vật liệu), thậm chí không biết trước cấu trúc ra sao (ví dụ không gian các lý thuyết khoa học). Do đó việc mô hình hoá quá trình tính toán một cách hiệu quả để đề xuất, chọn lựa & tìm kiếm các “giả thuyết có lý” vẫn đang là một thách thức rất lớn cho ngành AI 💡
Nếu bạn muốn theo đuổi hướng nghiên cứu này, hãy thắng $1.1M ARC Prize trước nhé 😉
Lưu ý 3/10/2024: ChatGPT chỉ “phông bạt” (fake) về suy luận thôi chứ không hề giải được câu đố kiểu này nhé các bạn 🤣😂
Lý do là vì câu đố này có rất nhiều trên Internet và trở thành dữ liệu huấn luyện AI. Chuyên môn gọi là “overfitting & memorization” hay “học vẹt, học tủ, học thuộc lòng” mà không hề hiểu. Các bạn có thể thử hỏi lại ChatGPT với hình dưới đây 👇
The water bottle
How much water is in the bottle?
A simple riddle, yet a hallmark of intelligence: visual commonsense understanding and abstract reasoning. Despite advances in AI, it remains a significant challenge—a multi-billion-dollar problem offering immense opportunities for young talent to solve! 😉
Hint: Think about the computational procedure of the solution approach for AI to use.
🗝️ Answers
Short Answer: The water occupies two-thirds, or $\frac{2}{3},$ of the bottle because the empty part is half of the water-filled part (On the right: 21 cm total height minus 15 cm of water = 6 cm empty, compared to 12 cm of water on the left).
One student tested this with Poe, ChatGPT, and Gemini (on 29/9/2024, thanks to Khoa!), but none provided the correct answer.
Long Answer:
- By using a commonsense understanding of visual and textual inputs, we can parse/interpret the question and the drawings as asking to calculate the amount of water in the bottle on the left and its corresponding volume when flipped upside down, as shown on the right.
- Using mathematical reasoning (elementary geometry), we realize that providing an explicit/numerical solution is impossible since the cylinder’s diameter $d,$ which is required to calculate the water volume $V = \pi \frac{d^2}{4} h,$ is not provided.
- Applying abstract reasoning, we treat the bottle as an abstract unit to derive the short answer based on the given proportions, concluding that the water fills two-thirds of the bottle.
The first two steps can be handled fairly well by current multimodal large/foundation models such as Google Gemini, OpenAI’s GPT-4, and the latest Meta’s open-source Llama 3.2. However, the final step, which involves abstract/symbolic reasoning, is still not perfect and lacks scalability.
🇻🇳 Có bao nhiêu nước trong bình? 🤯
Một câu đố đơn giản nhưng là “cột mốc” của trí tuệ: hiểu những lẽ thường (common sense) về hình ảnh và tư duy trừu tượng (abstract thinking/reasoning). Mặc dù AI đã có nhiều tiến bộ, đây vẫn là thách thức chưa thể vượt qua—vấn đề trị giá nhiều tỷ đô la, cũng là cơ hội lớn 💡 cho những tài năng trẻ dấn thân nghiên cứu!
Giợi ý: Hãy nghĩ về qui trình tính toán của cách giải, để AI có thể thực thi nhé. Phần “thị giác” để nhận biết ảnh có chai nước hình trụ, cổ và đáy bình, đọc các thông số chiều cao v.v. thì AI đã làm khá tốt (có dạy trong khoá DL4CV)
🗝️ Lời giải
Câu trả lời ngắn: Lượng nước chiếm hai phần ba của chai vì phần rỗng bằng một nửa phần chứa nước (Ở hình bên phải: tổng chiều cao là 21 cm trừ 15 cm nước = 6 cm rỗng từ đáy, so với 12 cm nước ở bên trái).
Một học sinh đã thử với Poe, ChatGPT, và Gemini (vào ngày 29/9/2024, cảm ơn Khoa!) nhưng không có AI nào đưa ra được câu trả lời.
Câu trả lời chi tiết:
- Từ hiểu biết thông thường về hình ảnh và ngôn ngữ, chúng ta có thể phân tích (parse) câu hỏi và các hình vẽ trong bức ảnh là tính toán lượng nước trong chai ở bên trái và cùng chai đó khi lật ngược ở bên phải.
- Từ kiến thức hình học sơ cấp, chúng ta dễ dàng nhận ra không thể tính cụ thể vì đường kính $d$ của hình trụ cần để tính thể tích nước $V = \pi \frac{d^2}{4} h$ không được cho.
- Bằng suy luận trừu tượng, chúng ta coi cái chai như một đơn vị để đưa ra câu trả lời ngắn dựa trên các tỷ lệ đã cho, kết luận rằng lượng nước chiếm hai phần ba thể tích của chai.
Hai bước đầu có thể được giải quyết khá chính xác với các mô hình AI “khủng” đa phương thức (hình ảnh + ngôn ngữ) hiện nay như Google Gemini, GPT-4 của OpenAI, và mới nhất là mô hình nguồn mở Llama 3.2 của Meta/FB. Tuy nhiên, bước cuối cùng liên quan đến suy luận trừu tượng vẫn là một thách thức lớn đối với các công nghệ AI hiện nay (chưa hoàn hảo và chưa đủ nhanh.)
The unfolded box
Everyone loves unboxing stuff! 😉 So here we go:
1️⃣ Which box corresponds to the unfolded one at the top?
2️⃣ Write a prompt to ask ChatGPT to validate your answer.
🗝️ Answers
Short answer 1: The best match is box 1 (leftmost) because it better satisfies the position relationships (constraints) of the marks on the unfolded box compared to box 4 (rightmost). However…
Short answer 2: If we also consider the orientation of the smiley face, we introduce more constraints (the black dot must be above, and the star below the smiley face). In this case, box 4 becomes the best match, and box 1 is invalid since the star is above the smiley face!
🤯 All current AI systems cannot get it right on this quiz! Why so?
The long answer, though only scratching the surface of its computational aspects, is far more interesting.
There’re 3 main ways people (and machine/AI) could use to solve this quiz:
- Build a mental model (3D box) $\to$ simulate (rotate & render) $\to$ validate (e.g., not box 2 & 3) $\to$ decide (e.g., best match: box 1 leftmost). As Richard Feynman once said, “what i cannot create i do not understand.” Easy to see this way of thinking is rigorous (absolutely accurate) but hard (giving you headache!) and slow (does not scale well with “hypercubes”.)
- Simply look at the boxes and immediately recognize which box is the best choice. This highly scalable & fast way of thinking—akin to expert intuition—is typically the result of learning from solving many such quizzes, and it improves with experience/training data.
- A hybrid between the two extremes above: Combining thinking fast and slow!
From rough intuition, we use heuristic “shortcuts” to quickly eliminate infeasible cases and pick a few most probable candidates to examine further rigorously (e.g., using formal/principled reasoning). This is called “problem-solving” skill. Specifically, in the case of this quiz:- Visual intuition allows us to recognize (1) the black dot is above & the star below the smiley face, with the black dot & star on opposite sides; and (2) the leftside, the bottom & the back of the boxes are invisible and might contain one of the 3 marks. Such commonsense knowledge, especially when un/partially observable as in (2), is still a huge challenge in all current AI systems, including ChatGPT. C.f. this $1.1M ARC Prize.
- Heuristic shortcuts + formal reasoning: instead of simulating the 3D box, we check if each of the constraints (1) above is violated, also taking into account (2), to quickly eliminate the incorrect choices, then focus on verification of the remaining candidates. Current LLMs seem to use natural language, instead of logic, rollouts of “CoT” to execute these reasoning steps 😉
Comments & discussions are welcome!
💡 More on these hot topics, including a special course on Visual Language Reasoning and a research group by CoTAI, is coming—so stay tuned! If you’re interested in joining, email us to be informed.
🧠 Khả năng suy nghĩ, suy luận (multimodal machine reasoning) là bài toán lớn mà các mô hình AI nền tảng (foundation models) tìm cách giải quyết trong vài năm qua và cả những năm tới.
👉 Bạn có thể thử giải câu đố sau để hình dung tốt hơn về chủ đề này:
1️⃣ CHỌN HỘP BÊN DƯỚI TƯƠNG ỨNG VỚI VỎ CHƯA GẤP Ở PHÍA TRÊN.
2️⃣ Sau đó bạn có thể test thử miễn phí xem năng lực của ChatGPT ra sao trong việc hiểu hình ảnh (visual understanding) và ngôn ngữ (language understanding) để suy luận 😉
🗝️ Lời giải 🇻🇳
Câu trả lời ngắn 1: Hộp 1 (ngoài cùng bên trái) thoả nhiều ràng buộc về vị trí của các biểu tượng trên hộp hơn so với hộp 4 (ngoài cùng bên phải). Tuy nhiên…
Câu trả lời ngắn 2: Nếu xét thêm hướng của mặt cười, ta sẽ có thêm các ràng buộc khác (chấm đen phải ở phía trên và ngôi sao ở phía dưới mặt cười). Trong trường hợp này, hộp 4 trở thành lựa chọn phù hợp nhất, và hộp 1 không hợp lệ vì ngôi sao nằm phía trên mặt cười!
🤯 Tất cả AI mạnh nhất hiện nay đều bó tay, không thể tự trả lời đúng. Vì sao?
Câu trả lời dài liên quan đến khía cạnh tính toán để máy tính/AI có thể chạy nên thú vị hơn nhiều.
Có 3 cách chính mà chúng ta và máy tính/AI có thể sử dụng để giải các bài toán suy luận kiểu này.
- Xây dựng mô hình hộp 3D trong đầu → mô phỏng (xoay & nhìn) → so với các đáp án (ví dụ, không phải hộp 2 & 3) → ra quyết định (ví dụ, chọn hộp 1 vì phù hợp nhất). Dễ thấy rằng cách suy nghĩ chuẩn này rất chính xác nhưng cũng rất khó (gây đau đầu!) và chậm (không giải được với “siêu lập phương” có nhiều mặt.)
- Chỉ cần nhìn vào các hộp và ngay lập tức nhận ra hộp nào là lựa chọn tốt nhất. Cách nghĩ nhanh nhưng hiếm có này—giống như trực giác của chuyên gia—thường là kết quả của việc học cách giải nhiều câu đố tương tự, và càng có nhiều kinh nghiệm/dữ liệu huấn luyện thì càng giỏi hơn.
- Kết hợp giữa hai thái cực trên: Suy nghĩ nhanh và chậm!
Từ ước lượng sơ lược bằng trực giác, chúng ta sử dụng các luật suy nghiệm như “lối tắt” (heuristic “shortcuts”) để nhanh chóng loại bỏ những trường hợp không khả thi và chọn ra một vài ứng viên có khả năng nhất để xem xét kỹ hơn. Đây thường được gọi là “kỹ năng giải quyết vấn đề”. Cụ thể, trong trường hợp của câu đố này:- Trực giác về thị giác cho phép chúng ta nhận ra (1) chấm đen nằm ở trên và ngôi sao nằm dưới mặt cười, với chấm đen và ngôi sao ở hai phía đối diện; và (2) mặt bên trái, mặt đáy và mặt sau của các hộp không nhìn thấy được và có thể chứa một trong 3 biểu tượng. Những lẽ thường (commonsense) này, đặc biệt khi không trực tiếp quat sát được như trong (2), vẫn là một thách thức lớn đối với tất cả các hệ thống AI hiện tại, bao gồm cả ChatGPT. Xem thêm $1.1M ARC Prize.
- Suy nghiệm + kiểm chứng: thay vì mô phỏng hộp 3D, chúng ta kiểm tra từng đáp án xem có vi phạm điều kiện nào trong các điều kiện (1 + 2) ở trên không để nhanh chóng loại bỏ các lựa chọn sai, sau đó kiểm chứng cẩn thận các lựa chọn còn lại. Các mô hình ngôn ngữ hiện nay có vẻ chỉ sử dụng ngôn ngữ tự nhiên, thay vì logic, để mô phỏng nhiều suy luận đa bước “CoT” trước khi trả lời 😉
💡 CoTAI sẽ viết nhiều hơn về các chủ đề quan trọng này & mở cả Khoá học đặc biệt + nhóm nghiên cứu về Visual Language Reasoning. Mời bạn đăng ký qua email nếu quan tâm.