Đánh giá lequocthai.com:
Giới thiệu gpt-oss của OpenAI
Ollama hợp tác cùng OpenAI để đưa những mô hình mã nguồn mở tiên tiến nhất lên nền tảng Ollama. Hai phiên bản, 20B và 120B, được thiết kế nhằm phục vụ đa dạng nhu cầu phát triển ứng dụng, từ các tác vụ logic, tự động hóa đến nhiều trường hợp sử dụng khác nhau.
Tính năng nổi bật
* Khả năng tích hợp sẵn: Mô hình hỗ trợ trực tiếp các tính năng như gọi hàm, duyệt web (Ollama có thể tích hợp tìm kiếm web và bật/tắt để cập nhật thông tin mới nhất cho mô hình), thực thi công cụ Python và xuất kết quả theo định dạng cấu trúc. * Hiển thị toàn bộ quá trình suy luận: Người dùng có thể theo dõi toàn bộ các bước mà mô hình thực hiện khi đưa ra đáp án, giúp dễ dàng kiểm tra và đánh giá kết quả. * Tùy chỉnh mức độ suy luận: Có thể điều chỉnh mức độ phức tạp trong quá trình xử lý của mô hình (thấp, trung bình, cao) phù hợp với yêu cầu sử dụng thực tế và tốc độ mong muốn. * Dễ dàng tùy chỉnh: Cho phép điều chỉnh linh hoạt các tham số để đáp ứng nhu cầu cá nhân hóa hoặc tối ưu cho từng dự án cụ thể. * Giấy phép Apache 2.0 linh hoạt: Tự do sử dụng cho mục đích thử nghiệm, cá nhân hóa hoặc triển khai thương mại mà không phải lo ngại về các rào cản pháp lý hoặc bản quyền.
Tối ưu bộ nhớ với định dạng MXFP4
OpenAI đã sử dụng kỹ thuật lượng tử hóa để giảm dung lượng bộ nhớ của các mô hình gpt-oss. Cụ thể, các mô hình này được hậu huấn luyện với kỹ thuật nén trọng số mixture-of-experts (MoE) sang định dạng MXFP4, giúp mỗi trọng số chỉ chiếm 4,25 bit. Trọng số của MoE thường chiếm hơn 90% tổng tham số, nhờ đó mô hình phiên bản nhỏ có thể chạy trên máy tính chỉ cần 16GB RAM, còn phiên bản lớn thì phù hợp để vận hành trên GPU đơn 80GB.
Ollama hỗ trợ trực tiếp định dạng MXFP4, không cần chuyển đổi hay xử lý thêm. Ollama cũng phát triển các thuật toán tối ưu riêng để tăng hiệu năng cho định dạng mới này.
Đội ngũ Ollama đã phối hợp với OpenAI kiểm thử và so sánh với các phiên bản tham chiếu, đảm bảo chất lượng đầu ra đạt tiêu chuẩn.
Mô hình 20 tỷ tham số

Phiên bản `gpt-oss-20b` phù hợp cho các tác vụ cần tốc độ phản hồi nhanh, chạy trực tiếp trên máy tính cá nhân hoặc phục vụ các nhiệm vụ chuyên biệt.
Mô hình 120 tỷ tham số

Phiên bản `gpt-oss-120b` hướng tới nhu cầu sản xuất, đa mục đích, cần khả năng suy luận cao, phù hợp cho nhiều ứng dụng khác nhau.
NVIDIA và Ollama hợp tác tối ưu gpt-oss trên GPU GeForce RTX và RTX PRO

NVIDIA và Ollama phối hợp phát triển để tối ưu hiệu năng mô hình trên GPU GeForce RTX và RTX PRO, giúp người dùng tận dụng tối đa sức mạnh phần cứng với các mô hình gpt-oss do OpenAI phát triển.
Chúng tôi sẽ tiếp tục đồng hành và nâng cấp Ollama. Sắp tới, sẽ có bài viết kỹ thuật chuyên sâu về mô hình này được công bố.
Bắt đầu sử dụng
Bạn có thể bắt đầu ngay bằng cách tải [bản Ollama mới nhất tại đây](https://ollama.com/download).
Sau khi cài đặt, bạn có thể tải mô hình trực tiếp qua ứng dụng hoặc sử dụng dòng lệnh sau:
ollama run gpt-oss:20b
ollama run gpt-oss:120b
Tham khảo
[Blog giới thiệu của OpenAI](https://openai.com/index/introducing-gpt-oss) [Thẻ mô hình OpenAI](https://openai.com/index/gpt-oss-model-card/) [Blog NVIDIA RTX](https://blogs.nvidia.com/blog/rtx-ai-garage-openai-oss) Tham khảo thêm các [gợi ý ChatGPT sáng tạo nội dung hay nhất của tôi](https://aiphogpt.com)