- OpenAI mở rộng Model Spec từ 10 lên 63 trang, tập trung vào 3 nguyên tắc: khả năng tùy chỉnh, tính minh bạch và tự do tri thức
- Sam Altman thông báo sắp ra mắt GPT-4.5 (tên mã Orion)
Các thay đổi chính trong cách xử lý chủ đề gây tranh cãi:
- Cho phép mô hình đưa ra phân tích có lý luận thay vì né tránh
- Trong tình huống khẩn cấp (như ngăn thảm họa hạt nhân), mô hình được phép linh hoạt hơn
- Mở rộng khả năng xử lý nội dung người lớn có kiểm soát
Quy định mới về thứ tự ưu tiên:
- Quy tắc nền tảng của OpenAI
- Hướng dẫn cho nhà phát triển
- Tùy chọn của người dùng
Giải quyết vấn đề "AI nịnh bợ":
- Đưa ra câu trả lời nhất quán bất kể cách hỏi
- Cung cấp phản hồi trung thực thay vì khen ngợi suông
- Hành xử như đồng nghiệp tư duy thay vì người luôn đồng ý
- OpenAI phát hành Model Spec dưới giấy phép Creative Commons Zero (CC0), cho phép các công ty AI khác tự do sử dụng và điều chỉnh
- Công ty đang thu thập phản hồi công khai thông qua biểu mẫu trên website
📌 Model Spec 63 trang mới của OpenAI định hình lại cách AI xử lý các chủ đề nhạy cảm, cho phép linh hoạt hơn với nội dung người lớn và đưa ra 3 cấp độ ưu tiên rõ ràng. Đây là tài liệu nguồn mở đầu tiên chi tiết về hành vi của mô hình AI.
https://www.theverge.com/openai/611375/openai-chatgpt-model-spec-controversial-topics
OpenAI đang xem xét lại cách các mô hình AI xử lý các chủ đề gây tranh cãi
/ ChatGPT đang học cách xử lý Stalin, nội dung khiêu dâm có đạo đức và bài toán chiếc xe điện.
Kylie Robison
12 tháng 2, 2025, 21:00 UTC
OpenAI đang phát hành một phiên bản mở rộng đáng kể của Model Spec, một tài liệu xác định cách các mô hình AI của OpenAI nên hoạt động — và tài liệu này được cung cấp miễn phí cho bất kỳ ai sử dụng hoặc chỉnh sửa.
Phiên bản mới có 63 trang, tăng từ khoảng 10 trang so với phiên bản trước, đưa ra các hướng dẫn về cách mô hình AI nên xử lý mọi thứ, từ các chủ đề gây tranh cãi đến tùy chỉnh theo nhu cầu người dùng. Tài liệu nhấn mạnh 3 nguyên tắc chính: khả năng tùy chỉnh; tính minh bạch; và điều OpenAI gọi là “tự do trí tuệ” — tức là khả năng để người dùng khám phá và tranh luận về các ý tưởng mà không bị hạn chế một cách tùy tiện. Việc ra mắt Model Spec cập nhật diễn ra đúng thời điểm CEO Sam Altman đăng tải rằng mô hình lớn tiếp theo của công ty, GPT-4.5 (tên mã Orion), sẽ sớm được phát hành.
Đội ngũ cũng đã tích hợp các cuộc tranh luận và tranh cãi về đạo đức AI trong năm qua vào tài liệu này. Một số người có thể quen thuộc với những câu hỏi kiểu bài toán chiếc xe điện. Vào tháng 3 năm ngoái, Elon Musk (người đồng sáng lập OpenAI và hiện điều hành đối thủ xAI) đã chỉ trích chatbot AI của Google sau khi một người dùng hỏi liệu có nên gọi sai giới tính của Caitlyn Jenner, một vận động viên Olympic chuyển giới nổi tiếng, nếu đó là cách duy nhất để ngăn chặn một cuộc chiến tranh hạt nhân — và chatbot đã trả lời là không. OpenAI cho biết việc tìm ra cách để mô hình có thể lý luận một cách có trách nhiệm về câu hỏi đó là một trong những vấn đề được cân nhắc khi cập nhật Model Spec. Hiện tại, nếu đặt câu hỏi tương tự cho ChatGPT, câu trả lời sẽ là nên gọi sai giới tính để ngăn chặn sự kiện gây thương vong lớn.
“Không thể tạo ra một mô hình với tiêu chuẩn hành vi chính xác mà mọi người trên thế giới đều yêu thích,” Joanne Jang, thành viên nhóm hành vi mô hình của OpenAI, cho biết trong một cuộc phỏng vấn với The Verge. Cô nhấn mạnh rằng dù công ty vẫn duy trì một số rào cản an toàn nhất định, nhiều khía cạnh trong hành vi của mô hình có thể được tùy chỉnh bởi người dùng và nhà phát triển.
Bài đăng trên blog của OpenAI được công bố vào thứ Tư trình bày hàng loạt truy vấn và đưa ra các ví dụ về phản hồi tuân thủ so với những phản hồi vi phạm Model Spec. Tài liệu này không cho phép mô hình tái tạo nội dung có bản quyền hoặc vượt qua các tường phí — The New York Times hiện đang kiện OpenAI vì sử dụng nội dung của họ để đào tạo mô hình. Model Spec cũng quy định rằng mô hình sẽ không khuyến khích hành vi tự gây hại, một chủ đề thu hút sự chú ý khi một thiếu niên tự tử sau khi tương tác với chatbot trên Character.AI.
Một thay đổi đáng chú ý là cách mô hình xử lý các chủ đề gây tranh cãi. Thay vì mặc định thận trọng một cách cực đoan, tài liệu khuyến khích mô hình “tìm kiếm sự thật cùng người dùng” trong khi vẫn duy trì lập trường đạo đức rõ ràng về các vấn đề như thông tin sai lệch hoặc nguy cơ gây hại. Ví dụ, khi được hỏi về việc tăng thuế đối với người giàu — một chủ đề từng gây tranh luận gay gắt — nhóm nghiên cứu cho biết mô hình của OpenAI nên cung cấp phân tích có lý lẽ thay vì né tránh cuộc thảo luận.
Tài liệu cũng đề cập đến sự thay đổi trong cách xử lý nội dung người lớn. Sau phản hồi từ người dùng và nhà phát triển yêu cầu chế độ “dành cho người trưởng thành” (một tính năng mà Altman đã công khai ủng hộ vào tháng 12), nhóm nghiên cứu đang tìm cách cho phép một số loại nội dung người lớn — như văn học khiêu dâm — trong những ngữ cảnh phù hợp, đồng thời duy trì lệnh cấm nghiêm ngặt đối với nội dung gây hại như phim báo thù hoặc deepfake. Đây là một thay đổi đáng chú ý so với các hạn chế tuyệt đối trước đây của công ty đối với nội dung khiêu dâm, mặc dù OpenAI nhấn mạnh rằng mọi thay đổi sẽ đi kèm với chính sách sử dụng rõ ràng và các biện pháp bảo vệ an toàn.
Model Spec cho thấy cách tiếp cận thực tế đối với hành vi của AI: xử lý nội dung nhạy cảm nhưng không tạo ra nội dung đó (mô hình nên có khả năng dịch một câu về nội dung liên quan đến ma túy từ tiếng Anh sang tiếng Đức thay vì từ chối), thể hiện sự đồng cảm mà không giả tạo cảm xúc, và duy trì ranh giới rõ ràng trong khi tối đa hóa tính hữu ích. Những hướng dẫn này phản ánh những gì nhiều công ty AI khác có thể đang áp dụng nội bộ nhưng hiếm khi công khai.
“Chúng tôi thực sự hào hứng khi có thể mang những cuộc thảo luận nội bộ và suy nghĩ của mình ra công khai để nhận phản hồi từ mọi người,” Jang nói, đồng thời cho biết nhiều truy vấn trong số này là những chủ đề gây tranh luận gay gắt trong nội bộ. Không có câu trả lời đơn giản là “có” hay “không” cho nhiều vấn đề, vì vậy nhóm nghiên cứu hy vọng rằng việc công khai tài liệu này để nhận phản hồi sẽ giúp cải thiện hành vi của mô hình một cách đáng kể.
Nhóm cũng đang tập trung giải quyết một vấn đề có tên là “AI nịnh bợ,” trong đó mô hình AI có xu hướng quá dễ dàng đồng ý ngay cả khi nên phản biện hoặc đưa ra đánh giá mang tính xây dựng. Theo các hướng dẫn mới, ChatGPT cần: đưa ra cùng một câu trả lời thực tế bất kể cách đặt câu hỏi; cung cấp phản hồi trung thực thay vì khen ngợi sáo rỗng; và hành xử giống một đồng nghiệp biết suy xét hơn là một trợ lý chiều lòng. Ví dụ, nếu ai đó yêu cầu ChatGPT phê bình công việc của họ, mô hình nên đưa ra những nhận xét mang tính xây dựng thay vì chỉ nói rằng mọi thứ đều tuyệt vời. Hoặc nếu ai đó đưa ra một phát biểu sai khi đặt câu hỏi, AI nên lịch sự sửa lỗi thay vì hùa theo.
“Chúng tôi không bao giờ muốn người dùng cảm thấy rằng họ phải tìm cách viết câu hỏi thật khéo để mô hình không chỉ đơn giản là đồng ý với họ,” Jang nói.
Tài liệu cũng giới thiệu một “chuỗi ưu tiên” rõ ràng để xác định hướng dẫn nào được áp dụng trước: các quy tắc cấp nền tảng từ OpenAI được ưu tiên hàng đầu, tiếp theo là hướng dẫn của nhà phát triển, và cuối cùng là tùy chỉnh của người dùng. Hệ thống phân cấp này nhằm làm rõ những khía cạnh nào trong hành vi của AI có thể được thay đổi và những hạn chế nào vẫn được giữ nguyên.
OpenAI phát hành tài liệu này theo giấy phép Creative Commons Zero (CC0), đồng nghĩa với việc đặt nó vào phạm vi công cộng. Điều này cho phép các công ty AI và nhà nghiên cứu khác tự do áp dụng, chỉnh sửa hoặc phát triển dựa trên những hướng dẫn này. Công ty cho biết quyết định này được đưa ra sau khi nhận thấy có sự quan tâm không chính thức từ các bên trong ngành, những người đã tham khảo phiên bản trước của tài liệu.
Mặc dù thông báo hôm nay không ngay lập tức thay đổi cách ChatGPT hoặc các sản phẩm khác của OpenAI hoạt động, công ty cho biết đây là một bước tiến trong việc giúp các mô hình tuân thủ nhất quán các nguyên tắc đã đề ra. Nhóm nghiên cứu cũng đang mã nguồn mở các lời nhắc (prompt) được sử dụng để kiểm tra mức độ tuân thủ của mô hình với những hướng dẫn này.
Việc phát hành tài liệu diễn ra vào thời điểm các cuộc tranh luận về hành vi của AI và các rào cản an toàn đang diễn ra gay gắt. OpenAI khẳng định rằng bản cập nhật này được thúc đẩy bởi phản hồi tích lũy và tiến bộ nghiên cứu kể từ phiên bản đầu tiên vào tháng 5 năm ngoái, nhưng nó cũng xuất hiện trong bối cảnh ngành công nghiệp đang đối mặt với nhiều vụ việc gây chú ý liên quan đến phản hồi của AI về các chủ đề nhạy cảm. OpenAI đang kêu gọi phản hồi từ công chúng về tài liệu này thông qua một biểu mẫu trên trang web của công ty. “Chúng tôi muốn đưa những cuộc thảo luận nội bộ này ra công khai,” Laurentia Romaniuk, một thành viên khác của nhóm hành vi mô hình, cho biết.
“Chúng tôi biết rằng nó sẽ gây tranh cãi, nhưng tôi nghĩ chúng tôi tôn trọng khả năng của công chúng trong việc tiếp nhận và cùng chúng tôi phân tích những vấn đề nhạy cảm này,” Jang nói, đồng thời cho biết OpenAI đã tích hợp rất nhiều phản hồi nhận được sau khi ra mắt Model Spec đầu tiên vào năm ngoái. “Tôi có chút lo lắng rằng, vì tài liệu quá dài, có thể không nhiều người có thời gian ngồi xuống và thực sự xem xét từng chi tiết, nhưng chúng tôi sẽ đón nhận mọi phản hồi.”
OpenAI is rethinking how AI models handle controversial topics/
ChatGPT is learning how to handle Stalin, ethical erotica, and trolley problems.
by Kylie Robison
Feb 12, 2025, 9:00 PM UTC
OpenAI is releasing a significantly expanded version of its Model Spec, a document that defines how its AI models should behave — and is making it free for anyone to use or modify.
The new 63-page specification, up from around 10 pages in its previous version, lays out guidelines for how AI models should handle everything from controversial topics to user customization. It emphasizes three main principles: customizability; transparency; and what OpenAI calls “intellectual freedom” — the ability for users to explore and debate ideas without arbitrary restrictions. The launch of the updated Model Spec comes just as CEO Sam Altman posted that the startup’s next big model, GPT-4.5 (codenamed Orion), will be released soon.
The team also incorporated current AI ethics debates and controversies from the past year into the specification. You might be familiar with some of these trolley problem-type queries. Last March, Elon Musk (who cofounded OpenAI and now runs a competitor, xAI) slammed Google’s AI chatbot after a user asked if you should misgender Caitlyn Jenner, a famous trans Olympian, if it were the only way to prevent a nuclear apocalypse — and it said no. Figuring out how to get the model to responsibly reason through that query was one of the issues OpenAI says it wanted to consider when updating the Model Spec. Now, if you ask ChatGPT that same question, it should say you should misgender someone to prevent mass casualty events.
“We can’t create one model with the exact same set of behavior standards that everyone in the world will love,” said Joanne Jang, a member of OpenAI’s model behavior team, in an interview with The Verge. She emphasized that while the company maintains certain safety guardrails, many aspects of the model’s behavior can be customized by users and developers.
The blog post from OpenAI published on Wednesday outlines a myriad queries and gives examples of compliant responses compared to those that would violate the Model Spec. It doesn’t allow the model to reproduce copyrighted materials or bypass paywalls — The New York Times is suing OpenAI for using its work to train its models. The spec also says the model will not encourage self-harm, a topic that came to the forefront when a teen died by suicide after interacting with a chatbot on Character.AI.
One notable shift is how the models handle controversial topics. Rather than defaulting to extreme caution, the spec encourages models to “seek the truth together” with users while maintaining clear moral stances on issues like misinformation or potential harm. For instance, when asked about increasing taxes for the rich — a topic that has sparked heated debates — the team says its models should provide reasoned analysis rather than avoiding the discussion.
The spec also mentions a shift in how it handles mature content. After feedback from users and developers who requested “grown-up mode” (a feature Altman publicly agreed with in December), the team is exploring ways to allow certain types of adult content — like erotica — in appropriate contexts, while maintaining strict bans on harmful content like revenge porn or deepfakes. It’s a notable change from the company’s previous blanket restrictions on explicit content, though OpenAI emphasizes any changes would come with clear usage policies and safety guardrails.
The Model Spec reveals a pragmatic approach to AI behavior: transform sensitive content but don’t create it (it should be able to translate a sentence about drug-related content from English to German rather than rejecting it), show empathy without faking emotions, and maintain firm boundaries while maximizing usefulness. These guidelines mirror what other AI companies are likely doing internally but don’t often make public.
“We’re just really excited to bring the internal discussions and the thoughts that we’ve had to the public so that we can get feedback on it,” Jang said, adding that many of these queries are topics heavily debated internally. There isn’t a simple yes or no answer to many of them, so the team hopes that bringing it to the public for feedback will meaningfully benefit the model’s behavior.
The team is also specifically targeting a problem called “AI sycophancy,” where AI models tend to be overly agreeable even when they should push back or provide criticism. Under these guidelines, ChatGPT should: give the same factual answer regardless of how a question is phrased; provide honest feedback rather than empty praise; and act more like a thoughtful colleague than a people pleaser. For example, if someone asks ChatGPT to critique their work, it should give constructive criticism rather than just saying everything is great. Or if someone makes an incorrect statement when asking a question, the AI should politely correct them rather than playing along.
“We don’t ever want users to feel like they have to somehow carefully engineer their prompt to not get the model to just agree with you,” Jang said.
The spec also introduces a clear “chain of command” that defines which instructions take priority: platform-level rules from OpenAI come first, followed by developer guidelines, and then user preferences. This hierarchy aims to clarify which aspects of the AI’s behavior can be modified versus the restrictions that remain fixed.
OpenAI is releasing the specification under a Creative Commons Zero (CC0) license, effectively placing it in the public domain. This means other AI companies and researchers can freely adopt, modify, or build upon these guidelines. The company says this decision was influenced by informal interest from others in the industry who were already referring to the previous spec.
While today’s announcement doesn’t immediately change how ChatGPT or other OpenAI products behave, the company says it represents ongoing progress in getting its models to consistently follow these principles. The team is also open-sourcing the prompts it uses to test model adherence to these guidelines.
The timing of this release comes during a period of intense debate about AI behavior and safety guardrails. While OpenAI maintains this update was driven by accumulated feedback and research progress since the first version last May, it arrives as the industry grapples with high-profile incidents involving the responses of AI models to sensitive topics.
OpenAI is soliciting public feedback on the specification through a form on its website. “We want to bring these internal discussions to the public,” said Laurentia Romaniuk, another member of the model behavior team.
“We knew that it would be spicy, but I think we respect the public’s ability to actually digest these spicy things and process it with us,” Jang said, adding that OpenAI incorporated a lot of the feedback it received after launching the first Model Spec last year. “I’m a little worried that, because it’s so long, that not many people may have time to sit down and really process the nuances, but we’ll take any feedback.”