Что относится к хранению информации
Хранение информации
Человек хранит информацию в собственной памяти, а также в виде записей на различных внешних (по отношению к человеку) носителях: на камне, папирусе, бумаге, магнитных и оптических носителях и пр. Благодаря таким записям информация передается не только в пространстве (от человека к человеку), но и во времени — из поколения в поколение.
Разнообразие носителей информации
Информация может храниться в различных видах: в виде текстов, в виде рисунков, схем, чертежей; в виде фотографий, в виде звукозаписей, в виде кино- или видеозаписей. В каждом случае применяются свои носители. Носитель — это материальная среда, используемая для записи и хранения информации.
К основным характеристикам носителей информации относятся: информационный объем или плотность хранения информации, надежность (долговечность) хранения.
Бумажные носители
Носителем, имеющим наиболее массовое употребление, до сих пор остается бумага. Изобретенная во II веке н.э. в Китае, бумага служит людям уже 19 столетий.
Для сопоставления объемов информации на разных носителях будем пользоваться универсальной единицей — байт, считая, что один символ текста “весит” 1 байт. Книга, содержащая 300 страниц, при размере текста на странице примерно 2000 символов имеет информационный объем 600 000 байт, или 586 Кб. Информационный объем средней школьной библиотеки, фонд которой составляет 5000 томов, приблизительно равен 2861 Мб = 2,8 Гб.
Что касается долговечности хранения документов, книг и прочей бумажной продукции, то она очень сильно зависит от качества бумаги, от красителей, используемых при записи текста, от условий хранения. Интересно, что до середины XIX века (с этого времени в качестве бумажного сырья начали использовать древесину) бумага делалась из хлопка и текстильных отходов — тряпья. Чернилами служили натуральные красители. Качество рукописных документов того времени было довольно высоким, и они могли храниться тысячи лет. С переходом на древесную основу, с распространением машинописи и средств копирования, с использованием синтетических красителей срок хранения печатных документов снизился до 200–300 лет.
Магнитные носители
В XIX веке была изобретена магнитная запись. Первоначально магнитная запись использовалась только для сохранения звука. Самым первым носителем магнитной записи была стальная проволока диаметром до 1 мм. В начале XX столетия для этих целей использовалась также стальная катаная лента. Качественные характеристики всех этих носителей были весьма низкими. Для производства 14-часовой магнитной записи устных докладов на Международном конгрессе в Копенгагене в 1908 г. потребовалось 2500 км, или около 100 кг проволоки.
В 20-х годах прошлого века появляется магнитная лента сначала на бумажной, а позднее — на синтетической (лавсановой) основе, на поверхность которой наносится тонкий слой ферромагнитного порошка. Во второй половине XX века на магнитную ленту научились записывать изображение, появляются видеокамеры, видеомагнитофоны.
На ЭВМ первого и второго поколений магнитная лента использовалась как единственный вид сменного носителя для устройств внешней памяти. На одну катушку с магнитной лентой, использовавшейся в лентопротяжных устройствах первых ЭВМ, помещалось приблизительно 500 Кб информации.
С начала 1960-х годов в употребление входят компьютерные магнитные диски: алюминиевый или пластмассовый диск, покрытый тонким магнитным порошковым слоем толщиной в несколько микрон. Информация на диске располагается по круговым концентрическим дорожкам. Магнитные диски бывают жесткими и гибкими, бывают сменными и встроенными в дисковод компьютера. Последние традиционно называют винчестерами, а сменные гибкие диски — флоппи-дисками.
“Винчестер” компьютера — это пакет магнитных дисков, надетых на общую ось. Информационная емкость современных винчестеров измеряется в гигабайтах — десятки и сотни Гб. Наиболее распространенный тип гибкого диска диаметром 3,5 дюйма вмещает 2 Мб данных. Флоппи-диски в последнее время выходят из употребления.
В банковской системе большое распространение получили пластиковые карты. На них тоже используется магнитный принцип записи информации, с которой работают банкоматы, кассовые аппараты, связанные с информационной банковской системой.
Оптические носители
Применение оптического, или лазерного, способа записи информации начинается в 1980-х годах. Его появление связано с изобретением квантового генератора — лазера, источника очень тонкого (толщина порядка микрона) луча высокой энергии. Луч способен выжигать на поверхности плавкого материала двоичный код данных с очень высокой плотностью. Считывание происходит в результате отражения от такой “перфорированной” поверхности лазерного луча с меньшей энергией (“холодного” луча). Благодаря высокой плотности записи оптические диски имеют гораздо больший информационный объем, чем однодисковые магнитные носители. Информационная емкость оптического диска составляет от 190 до 700 Мб. Оптические диски называются компакт-дисками — CD.
Во второй половине 1990-х годов появились цифровые универсальные видеодиски DVD (Digital Versatile Disk) с большой емкостью, измеряемой в гигабайтах (до 17 Гб). Увеличение их емкости по сравнению с CD связано с использованием лазерного луча меньшего диаметра, а также двухслойной и двусторонней записи. Вспомните пример со школьной библиотекой. Весь ее книжный фонд можно разместить на одном DVD.
В настоящее время оптические диски (CD — DVD) являются наиболее надежными материальными носителями информации, записанной цифровым способом. Эти типы носителей бывают как однократно записываемыми — пригодными только для чтения, так и перезаписываемыми — пригодными для чтения и записи.
Флэш-память
В последнее время появилось множество мобильных цифровых устройств: цифровые фото- и видеокамеры, МР3-плееры, карманные компьютеры, мобильные телефоны, устройства для чтения электронных книг, GPS-навигаторы и многое другое. Все эти устройства нуждаются в переносных носителях информации. Но поскольку все мобильные устройства довольно миниатюрные, то и к носителям информации для них предъявляются особые требования. Они должны быть компактными, обладать низким энергопотреблением при работе и быть энергонезависимыми при хранении, иметь большую емкость, высокие скорости записи и чтения, долгий срок службы. Всем этим требованиям удовлетворяют флэш-карты памяти. Информационный объем флэш-карты может составлять несколько гигабайт.
В качестве внешнего носителя для компьютера широкое распространение получили флэш-брелоки (“флэшки” — называют их в просторечии), выпуск которых начался в 2001 году. Большой объем информации, компактность, высокая скорость чтения-записи, удобство в использовании — основные достоинства этих устройств. Флэш-брелок подключается к USB-порту компьютера и позволяет скачивать данные со скоростью около 10 Мб в секунду.
“Нано-носители”
В последние годы активно ведутся работы по созданию еще более компактных носителей информации с использованием так называемых “нанотехнологий”, работающих на уровне атомов и молекул вещества. В результате один компакт-диск, изготовленный по нанотехнологии, сможет заменить тысячи лазерных дисков. По предположениям экспертов приблизительно через 20 лет плотность хранения информации возрастет до такой степени, что на носителе объемом примерно с кубический сантиметр можно будет записать каждую секунду человеческой жизни.
Организация информационных хранилищ
Информация сохраняется на носителях для того, чтобы ее можно было просматривать, искать нужные сведения, нужные документы, пополнять и изменять, удалять данные, потерявшие актуальность. Иначе говоря, хранимая информация нужна человеку для работы с ней. Удобство работы с такими информационными хранилищами сильно зависит от того, как информация организована.
Возможны две ситуации: либо данные никак не организованы (такую ситуацию иногда называют кучей), либо данные структурированы. С увеличением объема информации вариант “кучи” становится все более неприемлемым из-за сложности ее практического использования (поиска, обновления и пр.).
Под словами “данные структурированы” понимается наличие какой-то упорядоченности данных в их хранилище: в словаре, расписании, архиве, компьютерной базе данных. В справочниках, словарях, энциклопедиях обычно используется линейный алфавитный принцип организации (структурирования) данных.
Крупнейшими хранилищами информации являются библиотеки. Упоминания о первых библиотеках относятся к VII веку до н.э. С изобретением книгопечатания (XV век) библиотеки стали распространяться по всему миру. В библиотечном деле имеется многовековой опыт организации информации.
Для организации и поиска книг в библиотеках создаются каталоги: списки книжного фонда. Первый библиотечный каталог был создан в знаменитой Александрийской библиотеке в III веке до н.э. С помощью каталога читатель определяет наличие в библиотеке нужной ему книги, а библиотекарь находит ее в книгохранилище. При использовании бумажной технологии каталог — это организованный набор картонных карточек со сведениями о книгах.
Существуют алфавитные и систематические каталоги. В алфавитных каталогах карточки упорядочены в алфавитном порядке фамилий авторов и образуют линейную (одноуровневую) структуру данных. В систематическом каталоге карточки систематизированы по тематике содержания книг и образуют иерархическую структуру данных. Например, все книги делятся на художественные, учебные, научные. Учебная литература делится на школьную и вузовскую. Книги для школы делятся по классам и т.д.
В современных библиотеках происходит смена бумажных каталогов на электронные. В таком случае поиск книг осуществляется автоматически информационной системой библиотеки.
Данные, хранящиеся на компьютерных носителях (дисках), имеют файловую организацию. Файл подобен книге в библиотеке. Аналогично библиотечному каталогу операционная система создает каталог диска, который хранится на специально отведенных дорожках. Пользователь ищет нужный файл, просматривая каталог, после чего операционная система находит этот файл на диске и предоставляет пользователю. На первых дисковых носителях небольшого объема использовалась одноуровневая структура хранения файлов. С появлением жестких дисков большого объема стали использовать иерархическую структуру организации файлов. Наряду с понятием “файл” появилось понятие папки (см. “Файлы и файловая система”).
Более гибкой системой организации хранения и поиска данных являются компьютерные базы данных (см. “Базы данных”).
Надежность хранения информации
Проблема надежности хранения информации связана с двумя видами угроз для хранимой информации: разрушение (потеря) информации и кража или утечка конфиденциальной информации. Бумажные архивы и библиотеки всегда были подвержены опасности физического исчезновения. Огромный ущерб для цивилизации принесло разрушение упомянутой выше Александрийской библиотеки в I веке до н.э., поскольку большая часть книг в ней существовала в единственном экземпляре.
Основной способ защиты информации в бумажных документах от потери — их дублирование. Использование электронных носителей делает дублирование более простым и дешевым. Однако переход на новые (цифровые) информационные технологии создал новые проблемы защиты информации.
Методические рекомендации
В процессе изучения курса информатики ученики приобретают определенные знания и умения, относящиеся к хранению информации.
Ученики осваивают работу с традиционными (бумажными) источниками информации. В стандарте для основной школы отмечается, что ученики должны научиться работать с некомпьютерными источниками информации: справочниками, словарями, каталогами библиотек. Для этого их следует ознакомить с принципами организации этих источников и с приемами оптимального поиска в них. Поскольку данные знания и умения имеют большое общеучебное значение, то желательно дать их ученикам как можно раньше. В некоторых программах пропедевтического курса информатики этой теме уделяется большое внимание.
Ученики должны овладеть приемами работы со сменными компьютерными носителями информации. Все реже в последнее время используются гибкие магнитные диски, на смену которым пришли емкие и быстрые флэш-носители. Ученики должны уметь определять информационную емкость носителя, объем свободного пространства, сопоставлять с ним объемы сохраняемых файлов. Ученики должны понимать, что для длительного хранения больших объемов данных наиболее подходящим средством являются оптические диски. При наличии пишущего CD-дисковода следует научить их организации записи файлов.
Важным моментом обучения является разъяснение опасностей, которым подвергается компьютерная информация со стороны вредоносных программ — компьютерных вирусов. Следует научить детей основным правилам “компьютерной гигиены”: осуществлять антивирусный контроль всех вновь поступающих файлов; регулярно обновлять базы антивирусных программ.
Хранение данных. Или что такое NAS, SAN и прочие умные сокращения простыми словами
TL;DR: Вводная статья с описанием разных вариантов хранения данных. Будут рассмотрены принципы, описаны преимущества и недостатки, а также предпочтительные варианты использования.
Зачем это все?
Хранение данных — одно из важнейших направлений развития компьютеров, возникшее после появления энергонезависимых запоминающих устройств. Системы хранения данных разных масштабов применяются повсеместно: в банках, магазинах, предприятиях. По мере роста требований к хранимым данным растет сложность хранилищ данных.
Надежно хранить данные в больших объемах, а также выдерживать отказы физических носителей — весьма интересная и сложная инженерная задача.
Хранение данных
Под хранением обычно понимают запись данных на некоторые накопители данных, с целью их (данных) дальнейшего использования. Опустим исторические варианты организации хранения, рассмотрим подробнее классификацию систем хранения по разным критериям. Я выбрал следующие критерии для классификации: по способу подключения, по типу используемых носителей, по форме хранения данных, по реализации.
По способу подключения есть следующие варианты:
подключение дисков в сервере
дисковая полка, подключаемая по FC
По типу используемых накопителей возможно выделить:
Если рассматривать форму хранения данных, то явно выделяются следующие:
По реализации достаточно сложно провести четкие границы, однако можно отметить:
RAID контроллер от компании Fujitsu
пример организации LVM с шифрованием и избыточностью в виртуальной машине Linux в облаке Azure
Давайте рассмотрим более детально некоторые технологии, их достоинства и недостатки.
Direct Attached Storage — это исторически первый вариант подключения носителей, применяемый до сих пор. Накопитель, с точки зрения компьютера, в котором он установлен, используется монопольно, обращение с накопителем происходит поблочно, обеспечивая максимальную скорость обмена данными с накопителем с минимальными задержками. Также это наиболее дешевый вариант организации системы хранения данных, однако не лишенный своих недостатков. К примеру если нужно организовать хранение данных предприятия на нескольких серверах, то такой способ организации не позволяет совместное использование дисков разных серверов между собой, так что система хранения данных будет не оптимальной: некоторые сервера будут испытывать недостаток дискового пространства, другие же — не будут полностью его утилизировать:
Конфигурации систем с единственным накопителем применяются чаще всего для нетребовательных нагрузок, обычно для домашнего применения. Для профессиональных целей, а также промышленного применения чаще всего используется несколько накопителей, объединенных в RAID-массив программно, либо с помощью аппаратной карты RAID для достижения отказоустойчивости и\или более высокой скорости работы, чем единичный накопитель. Также есть возможность организации кэширования наиболее часто используемых данных на более быстром, но менее емком твердотельном накопителе для достижения и большой емкости и большой скорости работы дисковой подсистемы компьютера.
Storage area network, она же сеть хранения данных, является технологией организации системы хранения данных с использованием выделенной сети, позволяя таким образом подключать диски к серверам с использованием специализированного оборудования. Так решается вопрос с утилизацией дискового пространства серверами, а также устраняются точки отказа, неизбежно присутствующие в системах хранения данных на основе DAS. Сеть хранения данных чаще всего использует технологию Fibre Channel, однако явной привязки к технологии передачи данных — нет. Накопители используются в блочном режиме, для общения с накопителями используются протоколы SCSI и NVMe, инкапсулируемые в кадры FC, либо в стандартные пакеты TCP, например в случае использования SAN на основе iSCSI.
Давайте разберем более детально устройство SAN, для этого логически разделим ее на две важных части, сервера с HBA и дисковые полки, как оконечные устройства, а также коммутаторы (в больших системах — маршрутизаторы) и кабели, как средства построения сети. HBA — специализированный контроллер, размещаемый в сервере, подключаемом к SAN. Через этот контроллер сервер будет «видеть» диски, размещаемые в дисковых полках. Сервера и дисковые полки не обязательно должны размещаться рядом, хотя для достижения высокой производительности и малых задержек это рекомендуется. Сервера и полки подключаются к коммутатору, который организует общую среду передачи данных. Коммутаторы могут также соединяться с собой с помощью межкоммутаторных соединений, совокупность всех коммутаторов и их соединений называется фабрикой. Есть разные варианты реализации фабрики, я не буду тут останавливаться подробно. Для отказоустойчивости рекомендуется подключать минимум две фабрики к каждому HBA в сервере (иногда ставят несколько HBA) и к каждой дисковой полке, чтобы коммутаторы не стали точкой отказа SAN.
Недостатками такой системы являются большая стоимость и сложность, поскольку для обеспечения отказоустойчивости требуется обеспечить несколько путей доступа (multipath) серверов к дисковым полкам, а значит, как минимум, задублировать фабрики. Также в силу физических ограничений (скорость света в общем и емкость передачи данных в информационной матрице коммутаторов в частности) хоть и существует возможность неограниченного подключения устройств между собой, на практике чаще всего есть ограничения по числу соединений (в том числе и между коммутаторами), числу дисковых полок и тому подобное.
Network attached storage, или сетевое файловое хранилище, представляет дисковые ресурсы в виде файлов (или объектов) с использованием сетевых протоколов, например NFS, SMB и прочих. Принципиально базируется на DAS, но ключевым отличием является предоставление общего файлового доступа. Так как работа ведется по сети — сама система хранения может быть сколько угодно далеко от потребителей (в разумных пределах разумеется), но это же является и недостатком в случае организации на предприятиях или в датацентрах, поскольку для работы утилизируется полоса пропускания основной сети — что, однако, может быть нивелировано с использованием выделенных сетевых карт для доступа к NAS. Также по сравнению с SAN упрощается работа клиентов, поскольку сервер NAS берет на себя все вопросы по общему доступу и т.п.
Unified storage
Универсальные системы, позволяющие совмещать в себе как функции NAS так и SAN. Чаще всего по реализации это SAN, в которой есть возможность активировать файловый доступ к дисковому пространству. Для этого устанавливаются дополнительные сетевые карты (или используются уже существующие, если SAN построена на их основе), после чего создается файловая система на некотором блочном устройстве — и уже она раздается по сети клиентам через некоторый файловый протокол, например NFS.
Software-defined storage — программно определяемое хранилище данных, основанное на DAS, при котором дисковые подсистемы нескольких серверов логически объединяются между собой в кластер, который дает своим клиентам доступ к общему дисковому пространству.
Наиболее яркими представителями являются GlusterFS и Ceph, но также подобные вещи можно сделать и традиционными средствами (например на основе LVM2, программной реализации iSCSI и NFS).
N.B. редактора: У вас есть возможность изучить технологию сетевого хранилища Ceph, чтобы использовать в своих проектах для повышения отказоустойчивости, на нашем практическим курсе по Ceph. В начале курса вы получите системные знания по базовым понятиям и терминам, а по окончании научитесь полноценно устанавливать, настраивать и управлять Ceph. Детали и полная программа курса здесь.
Пример SDS на основе GlusterFS
Из преимуществ SDS — можно построить отказоустойчивую производительную реплицируемую систему хранения данных с использованием обычного, возможно даже устаревшего оборудования. Если убрать зависимость от основной сети, то есть добавить выделенные сетевые карты для работы SDS, то получается решение с преимуществами больших SAN\NAS, но без присущих им недостатков. Я считаю, что за подобными системами — будущее, особенно с учетом того, что быстрая сетевая инфраструктура более универсальная (ее можно использовать и для других целей), а также дешевеет гораздо быстрее, чем специализированное оборудование для построения SAN. Недостатком можно назвать увеличение сложности по сравнению с обычным NAS, а также излишней перегруженностью (нужно больше оборудования) в условиях малых систем хранения данных.
Гиперконвергентные системы
Подавляющее большинство систем хранения данных используется для организации дисков виртуальных машин, при использовании SAN неизбежно происходит удорожание инфраструктуры. Но если объединить дисковые системы серверов с помощью SDS, а процессорные ресурсы и оперативную память с помощью гипервизоров отдавать виртуальным машинам, использующим дисковые ресурсы этой SDS — получится неплохо сэкономить. Такой подход с тесной интеграцией хранилища совместно с другими ресурсами называется гиперконвергентностью. Ключевой особенностью тут является способность почти бесконечного роста при нехватке ресурсов, поскольку если не хватает ресурсов, достаточно добавить еще один сервер с дисками к общей системе, чтобы нарастить ее. На практике обычно есть ограничения, но в целом наращивать получается гораздо проще, чем чистую SAN. Недостатком является обычно достаточно высокая стоимость подобных решений, но в целом совокупная стоимость владения обычно снижается.
Облака и эфемерные хранилища
Логическим продолжением перехода на виртуализацию является запуск сервисов в облаках. В предельном случае сервисы разбиваются на функции, запускаемые по требованию (бессерверные вычисления, serverless). Важной особенностью тут является отсутствие состояния, то есть сервисы запускаются по требованию и потенциально могут быть запущены столько экземпляров приложения, сколько требуется для текущей нагрузки. Большинство поставщиков (GCP, Azure, Amazon и прочие) облачных решений предлагают также и доступ к хранилищам, включая файловые и блочные, а также объектные. Некоторые предлагают дополнительно облачные базы, так что приложение, рассчитанное на запуск в таком облаке, легко может работать с подобными системами хранения данных. Для того, чтобы все работало, достаточно оплатить вовремя эти услуги, для небольших приложений поставщики вообще предлагают бесплатное использование ресурсов в течение некоторого срока, либо вообще навсегда.
Из недостатков: могут заблокировать аккаунт, на котором все работает, что может привести к простоям в работе. Также могут быть проблемы со связностью и\или доступностью таких сервисов по сети, поскольку такие хранилища полностью зависят от корректной и правильной работы глобальной сети.
Заключение
Надеюсь, статья была полезной не только новичкам. Предлагаю обсудить в комментариях дополнительные возможности систем хранения данных, написать о своем опыте построения систем хранения данных.