скачать рефераты
  RSS    

Меню

Быстрый поиск

скачать рефераты

скачать рефератыРеферат: Процессоры

С появлением UltraSparc, четвертого поколения архитектуры SPARC, компания связывает надежды на восстановление утраченных позиций. Он содержит ни много, ни мало, но девять исполнительных блоков: два целочисленных АЛУ, пять блоков вычислений с плавающей точкой (два для сложения, два для умножения и одно для деления и извлече­ния квадратного корня), блок предсказания адреса перехода и блок загрузки/записи. UltraSparc содержит блок обработки переходов, встроенный в первичную кэш команд, и условно выполняет предсказан­ные переходы, но не может выдавать команды с нарушением их очеред­ности. Эта функция перекладывается на оптимизирующие компиляторы.

Архитектура SPARC всегда имела регистровые окна, т.е. во­семь перекрывающихся банков по 24 двойных регистра, которые могут предотвратить остановки процессора в моменты комплексного переключе­ния, связанные с интенсивными записями в память. Разработчики компи­ляторов склонны считать эти окна недостаточным решением, поэтому в UltraSparc используется иерархическая система несвязанных шин. Шина данных разрядностью 128 бит работает на одной скорости с ядром про­цессора. Она соединяется через буферные микросхемы с 128-разрядной системной шиной, работающей на частоте, составляющей половину, треть или четверть скорости процессорного ядра. Для согласования с более "медленной" периферией служит шина ввода-вывода Sbus.

Фирма Sun реализует эту схему на аппаратном уровне с по­мощью коммутационной микросхемы, являющейся составной частью схемно­го комплекта окружения. Эта микросхема может изолировать шину памя­ти от шины ввода-вывода, так что ЦПУ продолжает, например, запись в графическую подсистему или в иное устройство ввода-вывода, а не ос­танавливается во время чтения ОЗУ. Такая схема гарантирует полное использование ресурсов шины и установившуюся пропускную способность

1.3 Гигабайт/с.

В процессоре UltraSparc – II используется система команд Visual Instruction Set (VIS), включающая 30 новых команд для обра­ботки данных мультимедиа, графики, обработки изображений и других целочисленных алгоритмов. Команды VIS включают операции сложения, вычитания и умножения, которые позволяют выполнять до восьми опера­ций над целыми длинной байт параллельно с операцией загрузки или за­писи в память и с операцией перехода за один такт. Такой подход мо­жет повысить видеопроизводительность систем.

4.6. Процессоры Digital Equipment.

Digital Equipment процессор Alpha наиболее тесно следует в русле RISC-философии по сравнению со своими конкурентами, "посрезав излишки сала" с аппаратуры и системы команд с целью максимального спрямления маршрута прохождения данных. Разработчики Alpha уверены, что очень высокая частота чипа даст вам большие преимущества, чем причудливые аппаратные излишества. Их принцип сработал: кристалл 21164 был самым быстрым в мире процессором со дня своего появления в 1995 году. Процессор 21164 в три раза быстрее на целочисленных вы­числениях, чем Pentium-100, и превосходит на обработке числе с пла­вающей точкой, чем суперкомпьютерный набор микросхем R8000 фирмы Mips. Топология процессора следующего поколения 21164А не измени­лась, но она смаштабирована, кроме того, модернизирован компилятор, что повысило производительность на тестах SPECmarks. Предполагается, что готовые образцы нового процессора, изготовленные по КМОП - техно­логии с нормами 0.35 микрон, при тактовой частоте свыше 300 МГц бу­дут иметь производительность 500 по SPECint92 и 700 по SPECfp92.

Процессоры семейства 21164 на прибегают к преимуществам ис­полнения не в порядке очередности (out – of – order), больше полагаясь на интеллектуальные компиляторы, которые могут генерировать коды, сводящие к минимуму простои конвейера. Это самый гигантский процес­сор в мире - на одном кристалле размещено 9.3 миллиона транзисторов, большая часть которых пошла на ячейки кэш-памяти. Alpha 21164 имеет на кристалле относительно небольшую первичную кэш прямого отображе­ния на 8 Кбайт и 96 Кбайт вторичной. За счет вздувания площади крис­талла достигнута беспрецедентная производительность кэширования.

В 21164 работает четыре исполнительных блока (два для целых и два для чисел с плавающей точкой) и может обрабатывать по две ко­манды каждого типа за такт. Он имеет четырехступенчатый конвейер ко­манд, который "питает" отдельные конвейеры для целых чисел, чисел с плавающей точкой и конвейер памяти. По сравнению с прочими RISC-про­цессорами нового поколения чип 21164 имеет относительно глубокие и простые конвейеры, что позволяет запускать их с более высокой такто­вой частотой.

Конвейер команд вообще не заботится о их зависимости по дан­ным (в отличие от pentium Pro, который является ярким примером маши­ны данных), он выдает команды в порядке их поступления на свой вход (в порядке следования по программе). Если текущие четыре команды не­возможно послать сразу все на различные исполнительные блоки, то конвейер команд останавливается до тех пор, пока это не станет воз­можным. В отличие от конкурентов 21164 также не использует технику переименования регистров, вместо нее он непосредственно обновляет содержимое своих архитектурных регистров, когда результат достигает финальной ступени конвейера – write – back. Для борьбы с задержками и зависимостью команд по данным в процессоре активно ис­пользуются маршруты для обхода регистров, поэтому совместно ис­пользуемые операнды становятся доступными до стадии write - back.

Компания Digital продвигает Альфу как платформу для серве­ров Windows NT, а не как традиционный UNIX-сервер.

4.7. Процессоры Mips.

Mips процессор R1000 унаследовал свой суперскалярный дизайн от R8000, который предназначался для рынка суперкомпьютеров научно­го назначения. Но R1000 ориентирован на массовые задачи. Использова­ние в R1000 динамического планирования команд, которое ослабляет за­висимость от перекомпиляции ПО, написанного для более старых процес­соров, стало возможным благодаря тесным связям Mips со своим партне­ром Silicon Graphics, имеющим богатейший тыл в виде сложных графи­ческих приложений.

R1000 первый однокристальный процессор от Mips. Для предот­вращения остановок конвейера в нем использовано динамическое пред­сказание переходов, с четырьмя уровнями условного исполнения, с ис­пользованием переименования регистров, гарантирующего, что результа­ты не будут передаваться в реальные регистры до тех пор, пока неяс­ность по команде перехода не будет снята. Процессор поддерживает "теневую карту" отображения своих регистров переименования. В слу­чае неверного предсказания адреса перехода он просто восстанавли­вает эту карту отображения, но не выполняет фактической очистки ре­гистров и "промывки" буферов, экономя таким образом один такт.

R1000 отличается также радикальной схемой внеочеред­ной обработки. Порядок следования команд в точном соответствии с программой сохраняется на трех первых ступенях конвейера, но затем поток разветвляется на три очереди (где команды дожидаются обработ­ки на целочисленном АЛУ, блоке вычислений с плавающей точкой и бло­ке загрузки/записи). Эти очереди уже обслуживаются по мере освобож­дения того или иного ресурса.

Предполагаемая производительность R1000, выполненного по КМОП-технологии с нормами 0.35 микрон должна достичь 300 по SPECint92 и по SPECfp92.

Программный порядок в конце концов восстанавливается так, что самая "старая" команда покидает обработку первой. Аппаратная поддержка исполнения в стиле out – of – order дает большие преимущества конечному пользователю, так как коды, написанные под старые скаляр­ные процессоры Mips (например, R4000), начинают работать на полной скорости и не требуют перекомпиляции. Хотя потенциально процессор R1000 способен выдавать по пять команд на исполнение в каждом такте, он выбирает и возвращает только четыре, не успевая закончить пятую в том же такте.

Одно из двух устройств для вычисления двойной точности с плавающей точкой занято сложениями, а другое умножениями/делениями и извлечением квадратного корня. Hа кристалле R1000 реализован также интерфейс внешней шины, позволяющий связывать в кластер до четырех процессоров без дополнительной логики обрамления.

4.8. Процессоры Hewlett – Packard 

Hewlett – Packard процессор PA-8000. Компания Hewlett – Packard  одной из первых освоила RISC-технологию, выйдя еще в 1986 году со своим первым 32-разрядным процессором PA-RISC. Практически все вы­пускаемые процессоры PA-RISC используются в рабочих станциях HP се­рии 9000. В период с 1991 по 1993 (перед появлением систем на базе PowerPC) HP отгрузила достаточно много таких машин, став крупнейшим продавцом RISC-чипов в долларовом выражении.

С целью пропаганды своих микропроцессоров среди других производителей систем компания HP стала организатором организации Precision RISC Organization (PRO). А в 1994 году компания взорвала бомбу, объединившись с Intel для создания новой архитектуры. Это поставило под сомнение будущее PRO.

PA-8000 это 64-разрядный, четырехканальный суперскалярный процессор с радикальной схемой неупорядоченного исполнения программ. В составе кристалла десять функциональных блоков, включая два цело­численных АЛУ, два блока для сдвига целых чисел, два блока multiply/accumulate (MAC) для чисел с плавающей запятой, два блока деления/извлечения квадратного корня для чисел с плавающей запятой и два блока загрузки/записи. Блоки МАС имеют трехтактовую задержку и при полной загрузке конвейера на обработке одинарной точности обес­печивают производительность 4 FLOPS за такт. Блоки деления дают 17-тактовую задержку и не конвейеризированы, но они могут работать одновременно с блоками МАС.

В PA-8000 использован буфер переупорядочивания команд (IRB) глубиной 56 команд, позволяющий "просматривать" программу на следую­щие 56 команд вперед в поисках таких четырех команд, которые можно выполнить параллельно. IRB фактически состоит из двух 28-слотовых буферов. Буфер АЛУ содержит команды для целочисленного блока и бло­ка плавающей точки, а буфер памяти - команды загрузки/записи.

Как только команда попадает в слот IRB, аппаратура просмат­ривает все команды, отправленные на функциональные блоки, чтобы най­ти среди них такую, которая является источником операндов для коман­ды, находящейся в слоте. Команда в слоте запускается только после того, как будет распределена на исполнение последняя команда, кото­рая сдерживала ее. Каждый из буферов IRB может выдавать по две ко­манды в каждом такте, и в любом случае выдается самая "старая" ко­манда в буфере. Поскольку PA-8000 использует переименование регис­тров и возвращает результаты выполнения команд из IRB в порядке их следования по программе, тем самым поддерживается точная модель об­работки исключительных ситуаций.

HP проектировала РА-8000 специально для задач коммерческой обработки данных и сложных вычислений, типа генной инженерии, в ко­торых объем данных настолько велик, что они не умещаются ни в один из мыслимых внутрикристалльных КЭШей. Вот почему, РА-8000 полагается на внешние первичные КЭШи команд и данных. Слоты в третьем 28-слото­вом буфере, который называется буфером переупорядочивания адресов (Adress – Recorder Buffer - ARB), один к одному ассоциированы со сло­тами в буфере памяти IRB. В АРВ содержатся виртуальные и физические адреса всех выданных команд загрузки/записи. Кроме того, АРВ допус­кает выполнение загрузок и записей в произвольном порядке, но с сох­ранением согласованности и сглаживанием влияния задержки, связанной с адресацией внешних КЭШей.

4.9. Процессоры Motorola.

Motorola/IBM процессор PowerPC620 это первая 64-битовая реа­лизация архитектуры PowerPC. Имея 64-битовые регистры и внутренние магистрали данных и семь миллионов транзисторов, новому процессору требуется почти вдвое больший и сложный кристалл, чем у PowerPC 604. Модель 620 имеет четырехканальную суперконвейерную схему с шестью исполнительными устройствами: три целочисленных АЛУ, блок плавающей точки, блок загрузки/записи и блок переходов. Последний способен на четырехуровневое предсказание ветвлений в программе и условное ис­полнение с использованием схемы переименования регистров.

ПО микроархитектуре RISC-ядра 620-й похож на 604-й. Отличия сводятся в основном к ширине регистров и магистралей данных, а так­же к увеличенному числу станций резервирования для условного испол­нения команд. Прибавка производительности достигнута за счет улуч­шенного шинного интерфейса. Теперь он имеет 128-битовый интерфейс к памяти, по которому за один цикл обращения можно выбрать два 64-би­товых длинных слова, и 40-битовая шина адреса, по которой можно ад­ресовать до одного терабайта физической памяти.

В состав шинного интерфейса входить также поддержка кэш-па­мяти второго уровня объемом до 128 Мбайт, которая может работать на четверти, половине или на полной скорости ЦПУ.

5. Лабораторные испытания и тестирование микропроцессоров.

5.1. Лабораторные испытания процессоров i386DX.

В 1992 году на рынке появилось три новых МП, способных за­местить существующие 386DX и обеспечить повышение характеристик сис­тем на основе i386. Это: Intel RapidCAD, Chips& Technologies 38600DX, и Cyrix 486DLC. В настоящий момент предлагаются только версии 33 МГц, хотя C&T и Cyrix обещают выпустить в начале 1993 года вариант 40 МГц. Конечно, на такой частоте можно заставить работать и 33 МГц вариант, но мой опыт показывает, что это ненадежно, в любой момент машина может зависнуть. Intel RapidCAD распространяется, как про­дукт для конечных пользователей, т.е. в машину его устанавливают именно они. Напротив, C&T и Cyrix поставляют свои процессоры и производителям. Cyrix также производит процессор 486SLC, заменяющий Intel/AMD 386SX. C&T объявил о создании процессора 38600SX, но в продаже он появится только в 1993 году, если вообще появится.

RapidCAD, грубо говоря, представляет собой процессор 486DX без внутренней кэш-памяти и с цоколевкой процессора 386. Для прог­рамм он соответствует 386 с сопроцессором, так как все специфичные команды i486 удалены из набора команд. Рекламируется этот процессор, как "абсолютный сопроцессор" и, к чему и обязывает такое имя, он предназначен для замены процессора 386DX в существующих системах и резкого повышения производительности операций с плавающей точкой, таких, как CAD, электронные таблицы, математические программные па­кеты (SPSS, Mathematica и т.д.). RapidCAD состоит из двух корпусов; RapidCAD-1, в корпусе PGA (132 вывода), устанавливающийся в гнездо для i386, включает в себя ЦПУ и модуль операций с плавающей точкой, и RapidCAD-2, в корпусе PGA (68 выводов), устанавливающийся в гнез­до для сопроцессора i387, включает в себя ПЛМ, подающий сигнал на схемы системной платы для правильной обработки особых ситуаций при операциях с плавающей точкой. Большинство операций исполняется в те­чение одного цикла, как и в i486. Однако узким местом является ин­терфейс шины 386, так как каждый цикл шины равен двум циклам процес­сора. Это значит, что команды выполняются быстрее, чем считываются из памяти. Поскольку операции с плавающей точкой выполняются медлен­нее обычных команд, то замедление на них не сказывается, и они вы­полняются с такой же скоростью, как и на i486DX. Именно поэтому RapidCAD позволяет получить более высокие характеристики с плаваю­щей точкой, чем любая комбинация 386/387. Результаты теста SPEC, стандартного теста для машин под UNIX, показывают, что RapidCAD ус­коряет операции с плавающей точкой на 85%, а с целыми числами - на 15% по сравнению с любой комбинацией 386/387 при одинаковой такто­вой частоте. Потребляемая мощность при 33 МГц составляет 3500 мВт. Текущая цена RapidCAD 33 МГц составляет 300$.

Предполагается, что процессор фирмы C&T 38600DX полностью совместим с i386DX. В отличие от процессора Am386 фирмы AMD, кото­рый использует микрокод, идентичный микрокоду Intel 386, в процессо­ре 38600DX использован патентно чистый микрокод, для обеспечения полной совместимости в набор команд даже включена недокументирован­ная команда LOADALL386. Некоторые команды выполняются быстрее, чем в i386. C&T также выпустила процессор 38605DX, включающий кэш-память команд на 512 байт, что еще более повысит его производительность. К сожалению, 38605DX выпускается в корпусе PGA (144 вывода) и не мо­жет быть установлен непосредственно в разъем i386DX. При проведении испытаний я заметил, что у 38600DX есть серьезные проблемы коммуни­кации ЦПУ- сопроцессор, и из-за этого скорость выполнения в большин­стве программ операций с плавающей точкой у него падает ниже уровня i386/i387. Эта проблема существует для всех производимых на настоя­щий момент 387- совместимых сопроцессоров (ULSI 83C87, IIT 3C87, Cyrix EMX87, Cyrix 83D87, Cyrix 387+, C&T 38700, Intel 387DX). Мой знакомый по сети тоже проводил такие тесты с 38700DX и пришел к ана­логичным выводам. Он связался с C&T, и ему ответили, что знают об этом. Средняя потребляемая мощность 38600DX 40 МГц - 1650 Мвт, что меньше, чем потребление i386 33 МГц. Текущая цена 38600DX 33 МГц - 80$.

Страницы: 1, 2, 3, 4, 5, 6, 7, 8, 9


Новости

Быстрый поиск

Группа вКонтакте: новости

Пока нет

Новости в Twitter и Facebook

  скачать рефераты              скачать рефераты

Новости

скачать рефераты

© 2010.