Chuyển tới nội dung

AMD Ryzen Threadripper 1950X Game Mode, Benchmarked

    1645560003

    Thử nghiệm Hệ thống con Bộ nhớ & Vải Vô cực của Ryzen

    Độ trễ và băng thông của vải vô cực

    Thanh ngang Vải Vô cực 256-bit liên kết các tài nguyên bên trong khuôn Zeppelin lại với nhau. Mặc dù vậy, việc cố định khuôn Zeppelin thứ hai để tạo ra Threadripper đưa vào một lớp vải khác. Các truy cập bộ nhớ đệm vẫn còn cục bộ đối với mỗi CCX, nhưng một lượng lớn bộ nhớ, I / O và lưu lượng luồng-tới-luồng vẫn chạy qua lớp thứ hai đó.

    Không mất nhiều thời gian để những người đam mê phát hiện ra rằng Infinity Fabric của AMD được gắn vào cùng miền tần số với bộ điều khiển bộ nhớ, vì vậy ép xung bộ nhớ sẽ giảm độ trễ và tăng băng thông qua thanh ngang. Do đó, hiệu suất trong các ứng dụng nhạy cảm với độ trễ (như trò chơi) được cải thiện.

    Thử nghiệm Hiệu suất Đa lõi của Bộ xử lý SiSoftware Sandra giúp chúng tôi minh họa hiệu suất của Infinity Fabric. Chúng tôi sử dụng chỉ số Đa luồng với cài đặt “đối sánh cặp tốt nhất” (độ trễ thấp nhất). Tiện ích đo thời gian ping giữa các sợi để định lượng độ trễ của vải trong mọi cấu hình có thể.

    Các phép đo độ trễ nội lõi đại diện cho giao tiếp giữa hai luồng logic cư trú trên cùng một lõi vật lý và như chúng ta có thể thấy, việc tắt SMT sẽ loại bỏ hoàn toàn phép đo đó. Đối với các thiết lập còn lại, việc điều chỉnh sẽ giảm độ trễ xuống một vài nano giây. Nhưng điều này là do tốc độ đồng hồ cao hơn. Như chúng ta đã thấy trước đây, tần số bộ nhớ tăng lên có rất ít ảnh hưởng đến độ trễ trong lõi.

    Các phép đo nội bộ CCX xác định độ trễ giữa các luồng trên cùng một CCX không nằm trên cùng một lõi. Tăng tốc độ đồng hồ mang lại giảm độ trễ lớn hơn ~ 6ns.

    Cross-CCX định lượng độ trễ giữa các luồng nằm trên hai CCX riêng biệt và chúng tôi thấy mức giảm tương tự nhờ ép xung. Đáng chú ý, Ryzen 7 1800X có độ trễ Cross-CCX thấp hơn nhiều so với Threadripper có sẵn và hầu hết các cấu hình được ép xung. Điều này có thể là do một số hình thức cung cấp, có thể trong các thuật toán lập lịch, cho lớp vải bổ sung của Threadripper.

    Như chúng ta có thể thấy, CPU Threadripper được ép xung ở chế độ Trò chơi, không có liên kết vải hoạt động với khuôn khác, có độ trễ Cross-CCX thấp nhất.

    Die-To-Die đo lường giao tiếp giữa hai Zeppelin chết riêng biệt. Chế độ trò chơi vô hiệu hóa hiệu quả chết Zeppelin thứ hai ở cấp hệ điều hành, loại bỏ hoàn toàn thời gian chờ chết. Tuy nhiên, bộ điều khiển không lưu của khuôn thứ hai vẫn đang hoạt động, điều này cần thiết để đảm bảo bộ điều khiển I / O và bộ nhớ của nó vẫn có thể truy cập được.

    Chế độ người sáng tạo có độ trễ chết đi sống lại tồi tệ nhất, nhưng việc điều chỉnh sẽ giảm đáng kể. Hai tùy chọn SMT (bật và tắt) cũng nhận được mức giảm đáng kể từ nỗ lực ép xung của chúng tôi.

    Tiện ích này cũng đo băng thông của vải, điều này rất quan trọng đối với hiệu suất vì dữ liệu tìm nạp từ bộ nhớ từ xa cũng truyền qua kết cấu. Do đó, AMD cung cấp quá mức cấu trúc và hệ thống con bộ nhớ để tối ưu hóa kiến ​​trúc bộ nhớ phân tán.

    Cả chế độ Creator và cấu hình Local / SMT đều cung cấp băng thông vải tốt nhất, tận hưởng mức tăng đáng kể từ việc ép xung. Ryzen 7 1800X nằm ở giữa bảng xếp hạng cùng với chế độ Trò chơi của Threadripper, điều này hợp lý khi xem xét cả hai đều là bộ vi xử lý 8C / 16T hiệu quả. Vô hiệu hóa SMT nhưng để cả hai chết hoạt động (Tắt cục bộ / SMT) tạo ra một cấu hình duy nhất cung cấp hiệu suất cao hơn với các truy cập lớn hơn và hiệu suất thấp hơn với các truy cập nhỏ hơn.

    Bộ nhớ cache và độ trễ bộ nhớ

    Chúng tôi đã thử nghiệm với bộ nhớ DDR4-2666 ở cài đặt gốc và tăng lên DDR4-3200 cho các cấu hình được ép xung của chúng tôi.

    Bộ đệm Translation Look Aside là bộ đệm giảm thời gian truy cập bằng cách lưu trữ các địa chỉ bộ nhớ được truy cập gần đây. Giống như tất cả các bộ nhớ đệm, TLB có dung lượng hạn chế, vì vậy địa chỉ các yêu cầu truy cập vào TLB là “lần truy cập”, trong khi các yêu cầu đến bên ngoài bộ nhớ cache là “lần truy cập”. Tất nhiên, các lần truy cập được mong muốn hơn và hiệu suất trình tải trước vững chắc mang lại tỷ lệ truy cập cao hơn.

    Các mẫu truy cập tuần tự hầu như được tải trước hoàn toàn vào TLB, do đó, kiểm tra tuần tự là một thước đo tốt về hiệu suất của trình tìm nạp trước. Kiểm tra ngẫu nhiên trong trang đo lường các truy cập ngẫu nhiên trong cùng một trang bộ nhớ. Nó cũng đo hiệu suất TLB và biểu thị hiệu suất ngẫu nhiên trong trường hợp tốt nhất (đây là cách mà các nhà cung cấp đo lường sử dụng cho các bảng thông số kỹ thuật chính thức). Kiểm tra ngẫu nhiên đầy đủ có sự kết hợp giữa các lần truy cập và bỏ lỡ TLB, với khả năng bỏ lỡ cao, vì vậy nó xác định độ trễ trong trường hợp xấu nhất.

    Bất kể kiểu truy cập bộ nhớ là gì, các khối dữ liệu nhỏ nhất sẽ phù hợp với bộ đệm L1. Và khi kích thước của dữ liệu tăng lên, nó sẽ điền vào các bộ nhớ đệm lớn hơn.

    Bộ nhớ chính L1L2L3

    Phạm vi
    2KB – 32KB
    32KB – 512KB
    512KB – 8MB
    8MB – 1GB

    Threadripper 1950X có độ trễ L2 và L3 tốt hơn Ryzen 7 1800X với mọi kiểu truy cập. Ngoài ra, chúng tôi phát hiện ra khả năng giảm độ trễ đáng chú ý thông qua ép xung cho các bộ nhớ đệm L1, L2 và L3 của Threadripper.

    Điều đó thay đổi khi khối lượng công việc chảy ra bộ nhớ chính. Chế độ Người tạo của Threadripper (cài đặt mặc định) có độ trễ cao nhất với mọi kiểu truy cập. Đây là kết quả trực tiếp của việc truy cập bộ nhớ vào bộ nhớ từ xa. Các phép đo trong trang của chúng tôi phản ánh thông số kỹ thuật 86,9ns của AMD, nhưng truy cập ngẫu nhiên đầy đủ trong trường hợp xấu nhất vượt quá 120ns. Ép xung bộ xử lý và bộ nhớ làm giảm độ trễ, nhưng chế độ Người tạo vẫn không vượt qua bất kỳ cấu hình nào mà chúng tôi so sánh với nó. 

    Chuyển sang chế độ NUMA với cài đặt Cục bộ cải thiện đáng kể khả năng truy cập bộ nhớ chính cho các cấu hình khác. Chúng tôi đo ~ 60ns cho khả năng truy cập bộ nhớ gần trong trang, một lần nữa phù hợp với thông số kỹ thuật của AMD, trong khi độ trễ trong trường hợp xấu nhất là 100ns.

    Băng thông bộ nhớ đệm

    Mỗi CCX có bộ nhớ đệm riêng, do đó CPU Threadripper có bốn cụm bộ nhớ L1, L2 và L3 riêng biệt. Điểm chuẩn băng thông của chúng tôi minh họa hiệu suất tổng hợp của các cấp này. 

    Trong quá trình thử nghiệm đơn luồng, Ryzen 7 1800X thể hiện thông lượng thấp hơn so với bộ xử lý Threadripper. Các cấu hình khác tập hợp lại với nhau trong nhóm stock và ép xung quen thuộc.

    Các bài kiểm tra đa luồng thú vị hơn; chúng tôi thấy Ryzen 7 1800X và hai chế độ Trò chơi Threadripper rơi xuống cuối biểu đồ. Bởi vì Chế độ trò chơi vô hiệu hóa các lõi trên một khuôn, nó sẽ lấy bộ nhớ cache tương ứng ra khỏi hoa hồng một cách hiệu quả.

    0 0 đánh giá
    Rating post
    Theo dõi
    Thông báo của
    guest
    0 comments
    Phản hồi nội tuyến
    Xem tất cả bình luận
    0
    Rất thích suy nghĩ của bạn, hãy bình luận.x