Надёжность SSD: находятся ли ваши данные в безопасности?
Подсистема хранения данных в наши дни является основным «узким местом» компьютера. Именно поэтому столько надежд сегодня связано с SSD, которые могут эффективно умножить производительность накопителей. Если вы установите твёрдотельный накопитель даже в дешёвый нетбук, то его отзывчивость увеличится намного сильнее, чем если бы вы удвоили его оперативную память.
IMFP: переход флэш-памяти NAND.
С учётом сказанного, производительность – это далеко ещё не всё. Именно по этой причине мир SSD фокусируется сегодня не столько на том, насколько быстрыми могут быть эти накопители, сколько на их надёжности. Тема надёжности в последнее время стала ещё более важной, в свете перехода с 3x-нм флэш-памяти NAND на флэш-память, производимую по 25-нм техпроцессу. Мы уже не раз общались со специалистами Intel в области SSD, и тема надёжности всплывала постоянно: 25-нм техпроцесс привёл к появлению вызовов, достойно ответить на которые оказалось намного сложнее, чем в случае 34-нм техпроцесса. Но все трудности удалось обойти, так что Intel по-прежнему предлагает лучшую производительность и надёжность по сравнению с продуктами предыдущего поколения. В общем, на меньшем количестве циклов программирования/стирания, которые неразрывно связаны с памятью NAND, производимой по меньшему техпроцессу, сегодня явно акцентируют слишком много внимания.
| Циклы программирования/ стирания | Суммарное количество записанных терабайт (формула JEDEC) | Число лет до исчерпания возможности записи (10 Гбайт в день, WA = 1,75) |
25 нм 80 Гбайт SSD |
3000 |
68,5 TBW |
18,7 лет |
25 нм 160 Гбайт SSD |
3000 |
137,1 TBW |
37,5 лет |
34 нм 80 Гбайт SSD |
5000 |
114,2 TBW |
31,3 лет |
34 нм 160 Гбайт SSD |
5000 |
228,5 TBW |
62,6 лет |
Честно говоря, вопрос количества циклов программирования/стирания (PE), которые может выдержать SSD, не так должен вас беспокоить. Предыдущие поколения SSD потребительского уровня, которые использовали 3x-нм MLC NAND, обычно были заявлены с 5000 циклов. Это означает, что вы можете записать и стереть данные 5000 раз, прежде чем ячейки NAND начнут терять возможность хранить данные. В случае 80-Гбайт накопителя вам придётся записать 114 Тбайт, прежде чем вы столкнётесь с эффектами износа ячеек. Учитывая, что средний пользователь настольного ПК записывает в день, максимум, 10 Гбайт информации, то ему придётся работать с накопителем примерно 31 год, прежде чем ячейки будут изношены. В случае 25-нм флэш-памяти NAND этот срок уменьшается до 18 лет. Конечно, мы упрощаем сложные расчёты износостойкости накопителей. Нужно учитывать такие проблемы, как усиление записи (WA), сжатие данных и сборку «мусора», которые по-своему влияют на прогнозы износа. Но, в целом, вам незачем следить за количеством циклов программирования/стирания у ячеек накопителя.
Конечно, мы знаем, что SSD выходят из строя, особенно это заметно в различных форумах и отзывах на сайтах популярных производителей, но связано это не с износом ячеек. На первом месте стоят проблемы с «сырой» прошивкой. В зависимости от того, какие данные вы записываете и как вы их записываете, у SSD может «слететь крыша», и накопитель уже не сможет считать данные. Когда происходят подобные печальные события, то фоновые задачи, подобные сборке мусора, перестают выполняться, и вскоре накопитель уже не может считывать или записывать данные вообще. Другие сбои, подобные сгоревшему конденсатору, не такие «изящные», но результат будет таким же – «мёртвый» SSD. Технически любой компонент – электрический или механический – с долей вероятности может выйти из строя в любой момент, да и со временем все компоненты изнашиваются. Но приводит ли отсутствие движущихся частей к более высокой надёжности? Можно ли сказать, что хранить данные на SSD не так опасно, как на жёстком диске?
Поскольку вопрос надёжности сегодня стоит как никогда остро, то мы решили глубже его исследовать, чтобы дать расширенный ответ, прежде чем вы купите себе SSD. В нашей статье мы рассмотрим все аспекты надёжности SSD, а также отделим факты от домыслов.
Что мы знаем о накопителях?
SSD – относительно новая технология (по крайней мере, если сравнивать с жёсткими дисками, которым исполнилось почти 60 лет). Вполне понятно, что мы должны сравнивать SSD с проверенной временем технологией. Но что мы знаем о старых добрых жёстких дисках? Здесь нам хотелось бы привести данные двух важных исследований.
1. В 2007 году Google опубликовала исследование, касающееся надёжности 100 000 жёстких дисков PATA и SATA потребительского уровня, которые использовались в дата-центрах компании.
2. Вместе с тем доктор Бианка Шредер (Dr. Bianca Schroeder) и эксперт доктор Гарт Гибсон (Dr. Garth Gibson) рассчитали частоту замены более 100 000 накопителей, которые использовались в одной из крупнейших национальных лабораторий США. Разница в том, что в лаборатории также использовались и жёсткие диски корпоративного класса с интерфейсами SCSI, SATA и FC.
Если вы не читали указанных документов раньше, то мы настоятельно рекомендуем с ними ознакомиться, ниже приведены краткие заключения по ним.
Уровень наработки на отказ (MTTF)
Помните, как рассчитывается показатель MTBF? Что подразумевается под временем безотказной работы? Возьмём в качестве примера жёсткий диск Seagate Barracuda 7200.7. Для него заявлено время наработки на отказ 600 000 часов. Таким образом, в крупном массиве подобных винчестеров, половина жёстких дисков должна выйти из строя за первые 600 000 часов работы. Если сбои будут распределены равномерно, то мы должны получить, например, один вышедший из строя жёсткий диск за час. Мы можем перевести это значение в ежегодную частоту отказов (annualized failure rate, (AFR) 1,44%. Но Google или доктор Шредер обнаружили совсем другое. Обратите внимание, что отказ не всегда соответствует замене жёсткого диска. Именно поэтому доктор Шредер измерял ежегодную частоту замены (annualized replacement rate, ARR). Она основывалась на количестве заменённых жёстких дисков в соответствие с сервисными журналами.
По спецификациям значение AFR указывалось между 0,58% и 0,88%, но полученное значение ежегодной частоты замены ARR составило от 0,5% до целых 13,5%. Таким образом, в зависимости от типа HDD и массива, значение ARR могло быть вплоть до 15 раз выше, чем значение AFR по спецификациям.
Производители жёстких дисков определяют сбои совсем по-другому, чем мы. Поэтому неудивительно, что их оценки надёжности оказываются чересчур оптимистичными. Как правило, значение MTBF высчитывается на основе ускоренных циклов тестирования, информации о возврате винчестеров или на основе результата краткосрочных тестов крупного массива накопителей. Конечно, информация о возвратах, полученная от производителя, продолжает оставаться довольно подозрительной. Как указывает Google, «мы сталкивались… с ситуациями, когда тестер накопителей постоянно давал «зелёный свет» модели, которая неизбежно отказывала на практике».
Выход из строя жёстких дисков со временем
Большинство пользователей считают, что кривая выхода из строя жёстких дисков напоминает ванную (см. первую иллюстрацию). То есть поначалу мы должны получить выход из строя значительного количества жёстких дисков из-за так называемой «детской смертности». Затем, после начального периода, уровень выхода из строя жёстких дисков должен быть низким. А в конце расчётного срока службы, по мере изнашивания накопителей, кривая выхода из строя должна резко поползти вверх. Но данное предположение не подтвердилось в обоих исследованиях. В целом, как обнаружили исследователи, частота сбоя жёстких дисков стабильно увеличивается со временем (см. вторую иллюстрацию).
Надёжность накопителей корпоративного класса
Если сравнивать два исследования, то 1 000 000 часов MTBF у накопителя Cheetah оказывается намного ближе к MTBF 300 000 часов. То есть у «корпоративных» и «потребительских» жёстких дисков мы получаем примерно одинаковый ежегодный выход из строя AFR, особенно если сравнивать схожие ёмкости. По информации , директора по технической стратегии NetApp (самый быстро растущий производитель систем хранения), «…то, как массивы накопителей справляются с соответствующими сбоями жёстких дисков, извечно продолжает убеждать потребителей, что более дорогие жёсткие диски работают более надёжно. Один из тщательно оберегаемых «грязных» секретов индустрии заключается в том, что большинство корпоративных и потребительских жёстких дисков состоят, по большей части, из одинаковых компонентов. Но их внешние интерфейсы (FC, SCSI, SAS и SATA) и, что более важно, приоритеты и цели при разработке дизайна прошивки, играют наиболее важную роль в определении поведения корпоративных или потребительских жёстких дисков в реальных условиях».
Безопасность данных и RAID
Исследование доктора Шредера охватывает использование корпоративных жёстких дисков в крупных массивах RAID в одной из крупнейших лабораторий по высокопроизводительным вычислениям. Как правило, мы ожидаем, что данные будут безопасность храниться в правильно подобранных режимах RAID, но результаты исследования оказались удивительными.
Распределение времени между заменами дисков показывает снижение интенсивности отказов, то есть предполагаемое время до замены следующего диска увеличивается вместе со временем, которое прошло с момента последней замены диска.
Это означает, что сбой одного накопителя в массиве повышает вероятность сбоя другого накопителя. Чем больше времени пройдёт с момента последнего сбоя, тем больше времени должно пройти до следующего. Конечно, всё это приводит к последствиям по реконструкции массива RAID. После первого сбоя вероятность того, что ещё один жёсткий диск выйдет из строя в пределах часа увеличивается в четыре раза. В течение же 10 часов вероятность последующего сбоя увеличивается только в два раза.
Температура
Из документа Google мы получили весьма странное заключение. Исследователи брали измерения температуры SMART, технологии мониторинга, которая встроена в большинство жёстких дисков, и обнаружили, что более высокая температура не коррелирует с более высокой частотой отказов. Температура оказывает определённое влияние на старые накопители, но оно не такое значительное.
Насколько умна SMART?
Если дать краткий ответ, то SMART не умна. Технология SMART была предназначена для сообщения об ошибках на раннем этапе, чтобы пользователь мог заблаговременно зарезервировать свои данные, но, по информации Google, более трети сбойных жёстких дисков не включали тревогу SMART. В принципе, это неудивительно, поскольку многие специалисты говорили об этом многие годы. Технология SMART оптимизирована на обнаружение механических сбоев, но большую часть жёсткого диска составляет электроника. Именно поэтому проблемы с поведением HDD и различные ситуации, подобные сбою электропитания, остаются незамеченными, пока не возникают проблемы с целостностью данных. Если вы надеетесь, что SMART предскажет вам сбой, то вам всё равно необходимо добавить ещё один уровень избыточности для гарантии защиты данных.
Теперь давайте перейдём к тому, как SSD показывают себя по сравнению с жёсткими дисками.
Взгляд на надёжность SSD
К сожалению, ни один производитель жёстких дисков не публикует данных о возврате, то же самое касается и производителей SSD. Но в декабре 2010 сайт Hardware.fr представил информацию о частоте сбоев SSD, полученную от своей родительской компании LDLC, являющейся одной из ведущих розничных сетей во Франции. На сайте были даны следующие пояснения по поводу расчёта представленных показателей.
Частота возврата касается продуктов, проданных между 1 октября 2009 и первым апрелем 2010, возвраты были осуществлены до октября 2010, то есть после периода эксплуатации от 6 месяцев до года. Статистика по производителям бралась при условии минимальных продаж в 500 экземпляров, а по моделям – при минимальной продаже ста экземпляров.
Обратим внимание, что представлена статистика частоты возврата, а не частоты сбоев.
Продажа между 1 октября 2009 и 1 апрелем 2010, возвраты осуществлены до 1 октября 2010 |
Жёсткие диски 1 Тбайт | Частота возврата | Жёсткие диски 2 Тбайт | Частота возврата | SSD | Частота возврата |
Hitachi Deskstar 7K1000.B |
5,76% |
WD Caviar Black WD2001FASS |
9,71% |
Intel |
0,59% |
Hitachi Deskstar 7K1000.C |
5,20% |
Hitachi Deskstar 7K2000 |
6,87% |
Corsair |
2,17% |
Seagate Barracuda 7200.11 |
3,68% |
WD Caviar Green WD20EARS |
4,83% |
Crucial |
2,25% |
Samsung SpinPoint F1 |
3,37% |
Seagate Barracuda LP |
4,35% |
Kingston |
2,39% |
Seagate Barracuda 7200.12 |
2,51% |
Samsung EcoGreen F3 |
4,17% |
OCZ |
2,93% |
WD Caviar Green WD10EARS |
2,37% |
WD Caviar Green WD20EADS |
2.90% |
- |
- |
Seagate Barracuda LP |
2,10% |
- |
- |
- |
- |
Samsung SpinPoint F3 |
1,57% |
- |
- |
- |
- |
WD Caviar Green WD10EADS |
1,55% |
- |
- |
- |
- |
WD Caviar Black WD1001FALS |
1,35% |
- |
- |
- |
- |
Maxtor DiamondMax 23 |
1,24% |
- |
- |
- |
- |
Продажа между 1 апреля 2010 и 1 октября 2010, возвраты осуществлены до 1 апреля 2011 |
Жёсткие диски 1 Тбайт |
Частота возврата |
Жёсткие диски 2 Тбайт |
Частота возврата |
SSD |
Частота возврата |
Samsung SpinPoint F1 |
5,2% |
Hitachi Deskstar 7K2000 |
5,7% |
Intel |
0,3% |
WD Caviar Green (WD10EADS) |
4,8% |
WD Caviar Green WD20EADS |
3,7% |
Kingston |
1,2% |
Hitachi Deskstar 7K1000.C |
4,4% |
Seagate Barracuda LP |
3,7% |
Crucial |
1,9% |
Seagate Barracuda LP |
4,1% |
WD Caviar Black WD2001FALS |
3,0% |
Corsair |
2,7% |
WD Caviar RE3 WD1002FBYS |
2,9% |
WD Caviar Green WD20EARS |
2,6% |
OCZ |
3,5% |
Seagate Barracuda 7200.12 |
2,2% |
WD Caviar RE4-GP WD2002FYPS |
1,6% |
- |
- |
WD Caviar Black WD1002FAEX |
1,5% |
Samsung EcoGreen F3 |
1,4% |
- |
- |
Samsung SpinPoint F3 |
1,4% |
- |
- |
- |
- |
WD Caviar Black WD1001FALS |
1,3% |
- |
- |
- |
- |
WD Caviar Blue WD10EALS |
1,3% |
- |
- |
- |
- |
WD Caviar Green WD10EARS |
1,2% |
- |
- |
- |
- |
Ещё раз отметим, что сбой накопителя означает выход из строя. Но возврат потребитель может выполнять по различным причинам. И с этим возникают проблемы, поскольку у нас нет дополнительной информации по возвращенным накопителям – получил ли потребитель их уже «мёртвыми», или они вышли из строя со временем, либо возврат был произведён по причине несовместимости продукта.
Продажа между 1 октября 2009 и 1 апреля 2010, возвраты осуществлены до 1 октября 2010 |
Три ведущие позиции SSD | Частота возврата | Три ведущие позиции HDD | Частота возврата |
OCZ Vertex 2 90 Гбайт |
2,8% |
Seagate Barracuda 7200.11 160 Гбайт |
8,62% |
OCZ Agility 2 120 Гбайт |
2,66% |
Samsung SpinPoint F1 1 Тбайт |
4,48% |
OCZ Agility 2 90 Гбайт |
1,83% |
Hitachi Deskstar 7K2000 |
3,41% |
Продажа между 1 апреля 2010 и 1 октября 2010, возвраты осуществлены до 1 апреля 2011 |
Три ведущие позиции SSD | Частота возврата | Три ведущие позиции HDD | Частота возврата |
OCZ Agility 2 120 Гбайт |
6,7% |
Seagate Barracuda 7200.11 160 Гбайт |
16,0% |
OCZ Agility 2 60 Гбайт |
3,7% |
Hitachi Deskstar 7K2000 2 Тбайт |
4,2% |
OCZ Agility 2 40 Гбайт |
3,6% |
WD Caviar Black WD2001FASS |
4,0% |
Приобретались ли SSD Intel оптом? Представленная информация приводит к новым вопросам. Если большую часть продаж жёстких дисков составляет Интернет, то плохая упаковка и порча во время доставки могут заметно сказаться на частоте возврата. Более того, не мешает провести нормализацию по сценариям, в которых потребители используют жёсткие диски. И существенный разброс возвратов жёстких дисков только подчёркивает эту проблему. Например, частота возврата Seagate Barracuda LP увеличилась с 2,1% до 4,1%, а для Western Digital Caviar Green WD10EARS она упала с 2,4% до 1,2%.
Вместе с тем, приведённые данные не позволяют судить о надёжности. Какие же выводы можно по ним сделать? О том, что во Франции больше клиентов оказались удовлетворены покупкой SSD Intel, чем приобретением накопителя другого производителя. Удовлетворение потребителя – тема интересная, но она имеет мало отношения к частоте сбоев. Поэтому идём дальше.
Статистика дата-центров: меньше 100 SSD
Цены за гигабайт продолжают оставаться основным барьером, не позволяющим даже крупным организациям использовать тысячи SSD одновременно. Но даже то, что у нас не было доступа к массивным инфраструктурам, отнюдь не означает, что мы не сможем сделать выводов по поводу надёжности SSD в реальных условиях на основе менее крупных структур. Мы попытались связаться со всеми нашими знакомыми в сфере ИТ и смогли получить интересную информацию от некоторых дата-центров.
NoSupportLinuxHosting.com
Загрузочный том на «зеркале» из двух X25-V.
Компания «No Support Linux Hosting» не сообщила нам о количестве установленных накопителей, но представитель компании сказал, что она «использует немалое количество» SSD. Мы знаем, что компания использует меньше 100 SSD, и они распределены по следующим сценариям:
- 40-Гбайт X25-V используются в «зеркале» в качестве загрузочных томов для blade-серверов и серверов ZFS.
- 160-Гбайт X25-M используются в качестве накопителей для кэширования (L2ARC) в серверах ZFS.
- 32-Гбайт X25-E используются в «зеркале» в качестве томов ZIL в серверах ZFS.
Все эти накопители использовались не меньше одного года, а некоторые из них отметили свой второй год рождения. И на данный момент компания не столкнулась ни с одним сбоем SSD. Когда мы спросили «Дают ли SSD преимущества, которые нельзя получить на обычных механических жёстких дисках?» компания ответила, что «с ZFS и гибридными системами хранения накопители SSD дают существенный прирост производительности по сравнению с вращающимися пластинами. Мы по-прежнему используем вращающиеся пластины для основного хранилища, поэтому мы смогли сохранить преимущество HDD по цене, и вместе с тем смогли получить преимущества SSD по скорости. Рано или поздно мы планируем перевести все наши SAN на системы хранения, использующие только SSD. Но для 2011 года мы будем придерживаться гибридного хранилища с помощью ZFS.»
InterServer.net
Компания InterServer использует в своих серверах баз данных только SSD. В частности, компания оснащает свои серверы Xeon накопителями Intel X25-E (SSDSA2SH032G1GN), чтобы в полной мере задействовать преимущества по высокой пропускной способности данных. Но какой прирост производительности это даёт? InterServer сообщила нам о получении в среднем 4514,405 запросов MySQL в секунду. На старой системе Xeon, оснащённой накопителями IDE, можно было получить примерно 200-300 запросов MySQL в секунду. Мы знаем, что эти накопители используются компанией с 2009 года, и пока что сбоев не было зафиксировано.
InterServer сообщила нам следующую информацию по поводу использования SSD.
«Intel SSD как небо и земля отличаются по частоте сбоев от некоторых других накопителей. Например, у SSD SuperTalent мы получили очень высокую частоту сбоев, включая модели FTM32GL25H, FTM32G225H и FTM32GX25H. По нашим подсчётам, 2/3 этих накопителей вышли из строя после начала эксплуатации. Причём они выходили из строя так, что информацию считать уже не получалось. То есть накопитель просто полностью исчезал и больше не появлялся. Вращающиеся пластины умирают более «благородно», восстановить с них информацию намного легче. Я не могу сравнить данную статистику с накопителями Intel, поскольку мы пока не сталкивались с их сбоями».
Steadfast Networks: более 100 SSD
Steadfast Networks использует около 150 SSD Intel, то есть опирается на более крупную базу накопителей, чем две предыдущие компании. В Steadfast Networks используются модели X25-E (32 Гбайт и 64 Гбайт) и X25-M (80 Гбайт и 160 Гбайт). В меньшей степени компания задействует 40-Гбайт X25-V, да и некоторые клиенты использовали/запросили накопители OCZ Vertex 2, SuperTalent и MTron Pro. Независимо от марки, все SSD используются только в серверах баз данных или в качестве кэша.
На протяжении двух лет компания столкнулась только с двумя случаями, потребовавшими замены накопителей. Восстановление данных с вышедшего из строя SSD зависит от взаимодействия между контроллером и прошивкой. Опыт InterServer с накопителями SuperTalent является сценарием худшего случая, когда данные восстановить не получилось. Но специалисты Steadfast Networks сообщили нам, что смогли восстановить все данные с SSD Intel.
| Количество накопителей | Средняя частота выхода из строя (AFR) | Срок использования |
SSD |
Около 150 |
1,6% |
2+ |
Жёсткие диски |
Около 2800 |
5% |
6+ |
С более крупным массивом SSD мы, наконец, столкнулись с выходом накопителей из строя. Но по сравнению с жёсткими дисками частота выхода из строя намного ниже. Но президент Steadfast Networks Карл Зиммерман (Karl Zimmerman) считает, что это всё равно преуменьшает преимущества SSD. Он дал следующее объяснение.
«Мы просто получаем существенно более высокую производительность ввода/вывода [с SSD] по меньшей цене, чем мы можем достичь со стандартными жёсткими дисками. Многим нашим клиентам требуется большая производительность ввода/вывода, чем могут дать 4x накопителя SAS на 15 000 об/мин в массиве RAID 10, и данный апгрейд приводит к переходу на сервер с большим шасси, поддерживающим более 4 накопителей, крупной карте RAID и так далее. Другим конфигурациям требуется больше 16 жёстких дисков на 15 000 об/мин, чтобы получить требуемый уровень операций ввода/вывода. Переход на один SSD (или на пару SSD в RAID) значительно упрощает конфигурацию, да и удешевляет в целом.
Всё это дополняется тем, что вам, как правило, нужно использовать 1 SSD для замены 4+ стандартных жёстких дисков в среднем, при этом вы получите частоту сбоя AFR у жёстких дисков 20% и выше, а у SSD она составляет 1,6%.
Softlayer: около 5000 SSD!
В Softlayer у нас работает много друзей, при этом они организовали самую крупную компанию по web-хостингу в мире. Поэтому о накопителях они знают немало. В компании используется почти 5000 SSD, так что мы получили более впечатляющий массив данных для анализа. Вот, что сообщила нам Softlayer.
Накопитель | Количество накопителей | Средняя частота выхода из строя (AFR) | Срок использования |
Intel 64 Гбайт X25-E (SLC) |
3586 |
2,19 % |
2 |
Intel 32 Гбайт X25-E (SLC) |
1340 |
1,28 % |
2 |
Intel 160 Гбайт X25-M (MLC) |
11 |
0% |
Меньше 1 |
Жёсткие диски |
117 989 |
См. исследование доктора Шредера |
- |
Компания получила схожую частоту выхода из строя накопителей SAS и SATA, что и в исследовании Google. Если не вдаваться в детали, то частота выхода из строя увеличивается пропорционально возрасту накопителя, и на практике она довольно близка к результатам двух исследований, которые мы привели раньше. В первый год частота выхода из строя AFR составляет 0,5-1%, она увеличивается до 5-7% в пятый год.
Частота сбоя жёстких дисков нас не удивила, но частота AFR для SSD шокировала. Если судить по числам, то частота сбоя SSD близка к жёстким дискам. Конечно, накопители эксплуатируются всего два года. Нам нужно подождать, пока SSD не завершат третий и четвёртый год своей эксплуатации, после чего мы посмотрим, будет ли разница.
Softlayer почти полностью использует SSD на основе SLC-памяти из-за опасений с износом при выполнении операций записи. Если верить сценариям использования компании, то ни один из сбоев не был связан с износом ячеек памяти при записи, но многие SSD вышли из строя без раннего предупреждения SMART. Мы уже неоднократно слышали об этом от разных дата-центров. Как указали специалисты InterServer, жёсткие диски «умирают» более «благородно». SSD часто «умирают» внезапно, возможно из-за некорректной работы прошивки. Опыт Softlayer более разнообразный, некоторые накопители восстановить удалось, другие нет. Ни один из 11 накопителей X25-M у компании не вышел из строя, но количество образцов мизерное. Да и в работе они находятся с июня 2010.
Так ли важна надёжность?
Несмотря на то, что SLC-накопители составляют всего часть рынка NAND, мы собрали намного больше данных по SLC-накопителям SSD, чем по моделям с MLC-технологией. Конечно, наш набор исследуемых накопителей составляет 1/20 от набора предыдущих исследований жёстких дисков, но по имеющейся информации SLC-накопители SSD нельзя назвать более надёжными, чем жёсткие диски SATA и SAS. Если флэш-память SLC является самой лучшей из NAND, тогда SSD с MLC-памятью должны демонстрировать более высокую частоту выхода из строя.
Если вы являетесь потребителем, то подобный факт наверняка вызовет замешательство. Производители SSD пытаются подчеркнуть, что они предоставляют два существенных преимущества: производительность и надёжность. Но если данные на SSD хранить не безопаснее, чем на жёстком диске, то основной причиной выбора твёрдотельных накопителей является производительность.
Мы не утверждаем, что производительность не важна (или не впечатляет), но большинство SSD находятся в узком разбросе по производительности. Например, если вы отобразите на графике скорость жёстких дисков по сравнению с SSD, то low-end SSD работают примерно на 85% быстрее, чем жёсткие диски. А high-end SSD дают только 88% преимущество по производительности в среднем.
Именно поэтому Intel пытается всех убедить, что предлагает самые надёжные SSD. Недавно на пресс-конференции по поводу выхода SSD 320 компания попыталась акцентировать эту точку зрения. Конечно, репутация Intel повлияла на то, что мы получили столь много информации по поводу SSD этой компании, но результаты эксплуатации, похоже, не соответствуют тому, что мы слышим от Intel.
Производительность SSD будет продолжать увеличиваться, а цены будут одновременно с этим снижаться. Такова природа новой технологии. Однако это также означает, что производителям SSD потребуется найти другие способы дифференциации своих продуктов. Сегодня мы как раз начинаем это видеть. По мере того, как относительный зазор по производительности между SSD начинает сужаться, надёжность становится всё более важной.
Заключение
Конечно, получилось так, что наш опрос дата-центров охватывает только частоту выхода из строя SSD Intel, поскольку накопители именно этого производителя используются сегодня в большинстве крупных компаний. Маркетинг Intel работает на самом деле, поскольку компанию считают одной из самых надёжных марок. Мы не подразумеваем этим, что другие марки более или менее надёжны. Исследователи Google по поводу жёстких дисков написали следующее: «частоту сбоев тесно связывают с моделями накопителей, производителями и возрастом. Наши исследования этому не противоречат. Но большинство результатов, связанных с возрастом накопителя, связаны именно с возрастом».
По информации, представленной нам дата-центрами, то же самое верно и для SSD. Один из управляющих крупной компании сообщил, что OCZ даёт замечательные цены, но по его информации у накопителя Vertex 2 ужасная надёжность. Примерно два месяца назад компания заказала новое оборудование, но после вскрытия коробки оказалось, что из 200 накопителей Vertex 2 Pro примерно 20 были уже «мёртвыми». Да и один из дата-центров сообщил нам, что регулярно сбрасывает клиентские серверы с накопителями Vertex 2.
Что это значит для SSD?
Но позвольте оценить всё с перспективы. Вот, что мы узнали о жёстких дисках из двух приведённых исследований.
- Заявленное время наработки на отказ MTBF ничего не говорит о надёжности.
- Ежегодная частота выхода из строя (AFR) в несколько раз выше, чем заявляют производители.
- Для накопителей не характерна заметная тенденция выходить из строя после года использования. Частота выхода из строя стабильно повышается вместе с возрастом жёстких дисков.
- SMART не является надёжной системой оповещения о грядущих сбоях жёсткого диска.
- Частота выхода из строя «корпоративных» и «потребительских» жёстких дисков примерно одинаковая.
- Выход из строя одного накопителя в массиве повышает вероятность выхода из строя другого накопителя.
- Температура оказывает пренебрежимо малое или незначительное влияние на частоту сбоев.
Благодаря Softlayer мы знаем, что первые четыре пункта также относятся и к SSD. Помните, что разница между корпоративными и потребительскими жёсткими дисками, влияющая на частоту сбоев, кроется в контроллере, прошивке и интерфейсе (SAS против SATA). Что касается SSD, то разница сужается до контроллера и прошивки. Если качество производства MLC-памяти NAND такое же, как и SLC-памяти, то корпоративные SSD не надёжнее потребительских SSD (помните, что износ при записи/программировании не имеет ничего общего со случайными сбоями накопителей).
Конечно, корпоративный рынок интересует не только надёжность. Свою роль играет и производительность. Чтобы получить высокую производительность ввода/вывода с жёсткими дисками, нужно использовать не меньше четырёх накопителей SAS на 15 000 об/мин в RAID 10. Если такого уровня всё равно мало, то придётся выполнить апгрейд на более крупный сервер с большим количеством накопителей и более ёмкой картой RAID. Если производительность вас интересует больше, чем ёмкость, то выбор нескольких SSD в RAID упрощает конфигурацию, её развёртывание и поддержка обходятся дешевле. Поскольку вы используете один SSD для замены нескольких жёстких дисков, то частота сбоя каждого жёсткого диска влияет на эффективную частоту сбоя. И с этой точки зрения намного лучше использовать четыре SSD для замены шестнадцати жёстких дисков. Конечно, конфигурация из одного SSD не даёт избыточности хранения данных. Но, как указано в исследовании доктора Шредера, сбой жёсткого диска в массиве RAID увеличивает вероятность ещё одного сбоя. Для профессионалов ИТ, внедряющих SSD, наши новости прольются как бальзам на душу. Как написал Робин Харрис (Robin Harris) на StorageMojo , «Забудьте о RAID, просто копируйте данные три раза». Избыточность хранения данных c SSD не приводит к дополнительным расходам. Скажем, в ИТ-инфраструктуре информация с одного SSD будет постоянно копироваться на несколько жёстких дисков. А идея траты меньшего количества денег на получение существенного прироста производительности должна быть очень привлекательной. Собственно, в этом нет ничего нового. Google уже многие годы использует подобный подход (дешёвой избыточности) со своими серверами на жёстких дисках, но перенос данной концепции на SSD приводит к очень высокой пропускной способности ввода/вывода, высокой надёжности и избыточности данных – всё это при дешёвом и простом способе дублирования файлов подобно кластеру.
К сожалению, всё это касается профессионалов в области ИТ. Что касается потребителей, то не стоит доверять SSD больше, чем вы доверяете жёсткому диску. В конце концов, электрическая деталь остаётся электрической, независимо от того, движется она или нет. (Конечно, мы не имеем в виду, что вы будете трясти жёсткий диск во время работы.) Данные от Softlayer подтверждают нашу точку зрения, поскольку у более ёмкой модели X25-E частота выхода из строя выше (у неё используется больше чипов памяти). Возможно, именно по этой причине мы не были шокированы тем, что SSD имеют схожую частоту выхода из строя, что и накопители с вращающимися пластинами. Конечно, у нас нет полных данных для SSD старше двух лет, поэтому, возможно, в будущем ситуация изменится, но пока мы эти данные не получим, лучше следовать давно известной пословице «бережёного Бог бережёт».
Самое обидное во всём этом исследовании заключается в том, что мы не должны сами собирать все эти данные. Производители знают об истинной надёжности своих продуктов, поскольку они выпускают миллионы SSD в год (IDC: 11 млн. SSD в 2009) и отслеживают возвраты. Если SSD Intel на MLC-памяти являются «золотым стандартом», то лучшие SSD кажутся не более надёжными, чем лучшие жёсткие диски. Получается, что худшие SSD такие же надёжные, что и худшие жёсткие диски?
В заключении мы оставляем открытым приглашение Intel, OCZ, Micron, Crucial, Kingston, Corsair, Mushkin, SandForce и Marvell, чтобы предоставить нам информацию о частоте выхода из строя своих продуктов, либо опубликовать список крупных клиентов, у которых можно будет получить дополнительную информацию.
Примечание. Мы выражаем благодарность компании Softlayer и всем дата-центрам, предоставившим нам данные. Всё это позволило оценить надёжность SSD.
Источник : http://cheklab.ru/archives/1021