Что называется форматом файла
Национальная библиотека им. Н. Э. Баумана
Bauman National Library
Персональные инструменты
Формат файлов
Содержание
Спецификации
Для многих форматов файлов существуют опубликованные спецификации, в которых подробно описана структура файлов данного формата, то, как программы должны кодировать данные для записи в этот формат и как декодировать их при чтении. Большинство таких спецификаций свободно доступны, некоторые распространяются за плату.
Иногда компании могут считать определённые форматы файлов своей коммерческой тайной и не публиковать их. Хорошо известный пример — форматы файлов пакета Microsoft Office. В некоторых случаях компания, выпустившая приложение, просто не считает нужным тратить время на написание подробной спецификации.
Если спецификация формата недоступна, то для обеспечения совместимости программы с данным форматом приходится заниматься обратной разработкой. В большинстве или во всех странах форматы файлов не защищены законами об авторских правах. Однако в некоторых странах патентами могут быть защищены алгоритмы, используемые для кодирования данных в какой-либо формат. Например, в широко распространённом формате GIF использовался патентованный алгоритм (срок действия патентов в разных странах истек в 2003-2004 гг.), что привело к разработке альтернативного формата PNG. [Источник 1]
Определение типа файла
Тип файла — это информация для быстрой идентификации содержимого файла операционной системой и пользователем без необходимости считывания всего содержимого файла. Благодаря этой информации пользователь приблизительно знает тип содержащейся информации в файле, а в операционной системе может быть сопоставлена программа для обработки файлов данного типа. Для того, чтобы правильно работать с файлами, программы должны иметь возможность определять их тип. По историческим причинам, в разных операционных системах используются разные подходы для решения этой задачи. [Источник 1]
Расширение файла
Каждый файл создан какой-то программой и для чего-то предназначен. Форматов файлов существует тысячи, но лишь небольшую часть из них удается напрямую открыть какой-либо программой.
На данный момент типов файлов насчитывается более 6500 уникальных расширений файлов и 7500 форматов. На одно расширение может приходиться несколько форматов файлов, т.к. файл одного и того же расширения может содержать различные данные и, соответственно, открываться различными приложениями.
Документы Microsoft Word также могут включать в себя изображения, диаграммы, таблицы, сценарии. Кроме различных объектов, текста и информации о его форматировании, файл DOC содержит параметры самого документа, печати. [Источник 2]
Файл MOV используется для хранения фильмов и других видеоматериалов. Формат файла и технология сжатия видео разработаны компанией Apple. Совместим как с платформой Mac OS, так и с Windows.
Проигрыватель Windows Media воспроизводит не все версии формата. Для просмотра файлов MOV поздних версий рекомендуется использовать программу Apple QuickTime Player. [Источник 4]
PDF-документы могут быть открыты с помощью бесплатной версии Adobe Reader или web-плагина, который доступен для большинства интернет-браузеров. В некоторых браузерах, в частности, в Google Chrome обеспечена поддержка этого формата даже без установленного плагина. Редактировать файлы PDF можно с помощью платной версии Adobe Reader. Также, существует огромное количество программ как для открытия и работы с данным форматом, так и для конвертации других документов из/в этот формат.
Магические числа
Магические числа Другой способ, широко используемый в UNIX-подобных операционных системах, заключается в том, чтобы сохранить в самом файле некое «магическое число» (сигнатуру) — последовательность символов, по которой может быть опознан формат файла. Первоначально этот термин использовался для специального набора 2-байтовых идентификаторов, сохраняемых в начале файла (эта практика перекочевала и в другие ОС, например, MZ в MS-DOS), однако, любая последовательность символов, характерная для данного формата, может быть использована как «магическое число».
Для определения формата файла служит команда file, которая использует файл /usr/share/misc/magic
Метаданные
Некоторые файловые системы позволяют сохранять дополнительные атрибуты для каждого файла, то есть «метаданные». Эти метаданные можно использовать для хранения информации о типе файла. Такой подход используется в компьютерах Apple Macintosh. Метаданные поддерживаются такими современными файловыми системами, как HPFS, NTFS, ext2, ext3 и другими. Недостатком этого метода является плохая переносимость — при копировании файлов между файловыми системами разных типов метаданные могут быть потеряны. [Источник 1]
Расширение файлов для Windows
Расширение файлов MacOS
Образы диска. Image
Кроме перечисленных Stuffit Expander, прекрасно справляется и другими архивами: rar, zip, а также с юниксовыми форматами, gzip, tar, gz, zip.
На iMac используются те же форматы текстовых документов, что и на PC.
Расширение файлов в Linux
Файлы в Linux могут иметь расширения, которых вы ранее не встречали, могут иметь не одно расширение, или не иметь его вовсе. Имена файлов могут начинаться с символа «.», а также могут включать другие символы, в том числе пробелы.
Сжатые и архивные файлы
Файлы программ и скриптов
Определение типа файла
Расширения файлов используются не всегда и часто используются неверно. Что делать, если файл не имеет расширения или оно не соответствует типу файла?
В этом случае может быть полезна команда file.
Например, вам попался файл с названием example без расширения. Используя команду file, вы сможете увидеть тип файла:
Пробелы в именах файлов Хотя имена файлов в Linux и могут содержать пробелы, управление такими файлами из командной строки может вызвать некоторые затруднения. Командная строка воспринимает пробел как разделитель между именами файлов или командами и может неверно истолковать такие имена. При совершении действий над файлами, содержащими в имени пробелы, такие имена файлов заключаются в кавычки. [Источник 8]
Символы в именах файлов
Имена файлов могут содержать знаки пунктуации. Однако имейте в виду, что эти специальные знаки имеют в командной строке специальное назначение и их использование может вызвать ошибку. Обычно рекомендуется не использовать в именах файлов специальные символы. Если вы все же решили включить в имя файла какой-то специальный символ, при совершении действий над таким файлом необходимо заключить его имя в кавычки.
Существуют специальные символы, которые не могут входить в имя файла. Например, нельзя включить в имя файла символ «/», потому что так обозначается каталог. Нельзя назвать файл «.», поскольку так обозначается текущий каталог, или «..», поскольку так обозначается каталог, расположенный на уровень выше текущего.
Файлы с несколькими расширениями Имена файлов могут иметь несколько расширений. Знак «.» может находиться в середине имени файла и не являться границей между собственно именем и расширением, или же файл действительно может иметь не одно расширение. Несколько расширений может появиться в результате применения к файлу нескольких программ или команд. Чаще всего это происходит при сжатии файлов. [Источник 8]
Формат файла
Из Википедии — свободной энциклопедии
Формат файла, формат данных — спецификация структуры данных, записанных в компьютерном файле. Идентификатор формата файла, как правило, указывается в конце имени файла в виде «расширения». Расширение имени файла помогает идентифицировать формат данных, содержащихся в файле, программам, которые могут с ним работать. Иногда формат данных дополнительно указывается в начале содержимого файла.
В операционной системе для определения программы, которая может открыть какой-либо файл, применяется сопоставление (ассоциирование) файлов и программ.
Например, окончание имени (расширение) «.txt» обычно используют для обозначения файлов, содержащих только текстовую информацию, а «.doc» — содержащих текстовую информацию, структурированную в соответствии со стандартами программы Microsoft Word. Файлы, содержимое которых соответствует одному формату (реже — одному семейству форматов), иногда называют файлами одного типа.
Так как общепринятая в вычислительной технике концепция файла — неструктурированная последовательность байтов, компьютерные программы, сохраняющие структурированные данные в файлы, должны как-то преобразовывать их в последовательность байтов и наоборот (в ООП эти операции называются, соответственно, «сериализацией» и «десериализацией»; для текстовой информации последнее также называется «разбор» или «парсинг»). Алгоритм этих преобразований, а также соглашения о том, как различные фрагменты структурированных данных располагаются внутри файла, и составляют его «формат».
Различные форматы файлов могут различаться степенью детализации, один формат может быть «надстройкой» над другим или использовать элементы других форматов. Например, текстовый формат накладывает только самые общие ограничения на структуру данных. Формат HTML устанавливает дополнительные правила на внутреннее устройство файла, но при этом любой HTML-файл является в то же время текстовым файлом.
Другой пример — структура компьютерных программ — исполняемых файлов: она должна строго соответствовать некоторым ожиданиям (спецификации) запускающей её операционной системы.
Содержание
Технические характеристики
Патенты
Определение типа файла
В различных операционных системах традиционно использовались разные подходы к определению формата конкретного файла, причем каждый подход имел свои преимущества и недостатки. Большинство современных операционных систем и отдельных приложений должны использовать все следующие подходы для чтения «чужих» форматов файлов, если не работают с ними полностью.
Расширение имени файла
Внутренние метаданные
Заголовок файла
Магическое число
Унифицированные идентификаторы типа (UTI) Mac OS X
Помимо форматов файлов, UTI также могут использоваться для других сущностей, которые могут существовать в macOS, включая:
Расширенные атрибуты OS / 2
Файловая система NTFS также позволяет хранить расширенные атрибуты OS / 2 в качестве одной из вилок файлов, но эта функция просто присутствует для поддержки подсистемы OS / 2 (отсутствует в XP ), поэтому подсистема Win32 обрабатывает эту информацию как непрозрачный блок данных и не использует ее. Вместо этого он полагается на другие вилки файлов для хранения метаинформации в специфичных для Win32 форматах. Расширенные атрибуты OS / 2 могут по-прежнему считываться и записываться программами Win32, но данные должны полностью анализироваться приложениями.
Расширенные атрибуты POSIX
Уникальные идентификаторы PRONOM (PUID)
Типы MIME
Однако есть проблемы с типами MIME; несколько организаций и людей создали свои собственные типы MIME, не зарегистрировав их должным образом в IANA, что в некоторых случаях делает использование этого стандарта неудобным.
Идентификаторы формата файла (FFID)
Идентификация формата на основе содержимого файла
Другим, но менее популярным способом определения формата файла является исследование содержимого файла на наличие различимых шаблонов среди типов файлов. Содержимое файла представляет собой последовательность байтов, а байт имеет 256 уникальных перестановок (0–255). Таким образом, подсчет появления байтовых шаблонов, который часто называют частотным распределением байтов, дает различимые шаблоны для идентификации типов файлов. Существует множество схем идентификации типов файлов на основе содержимого, которые используют частотное распределение байтов для построения репрезентативных моделей для типов файлов и используют любые статистические методы и методы интеллектуального анализа данных для определения типов файлов
Структура файла
Там Есть несколько типов способов структурировать данные в файле. Самые обычные описаны ниже.
Неструктурированные форматы (необработанные дампы памяти)
В более ранних форматах файлов использовались необработанные форматы данных, которые состояли из прямого сброса образов памяти одной или нескольких структур в файл.
Ограничения неструктурированных форматов привели к развитию других типов форматов файлов, которые можно было легко расширять и в то же время быть обратно совместимыми.
Форматы на основе блоков
В такой файловой структуре каждый фрагмент данных встроен в контейнер, который каким-то образом идентифицирует данные. Область действия контейнера может быть идентифицирована с помощью каких-либо маркеров начала и конца, определенного где-нибудь явного поля длины или фиксированных требований к определению формата файла.
Контейнер иногда называют «чанком», хотя «чанк» также может означать, что каждый кусок небольшой и / или что чанки не содержат других чанков; многие форматы не предъявляют этих требований.
Информация, которая идентифицирует конкретный «блок», может называться множеством разных терминов, часто включая термины «имя поля», «идентификатор», «метка» или «тег». Идентификаторы часто удобочитаемы и классифицируют части данных: например, как «фамилия», «адрес», «прямоугольник», «название шрифта» и т. Д. Это не то же самое, что идентификаторы в смысле ключа базы данных или серийного номера (хотя идентификатор вполне может идентифицировать свои связанные данные как такой ключ).
При таком типе файловой структуры инструменты, которым неизвестны определенные идентификаторы блоков, просто пропускают те, которые им неизвестны. В зависимости от фактического значения пропущенных данных, это может быть полезно или бесполезно (CSS явно определяет такое поведение).
Справочник форматы на основе
Формат файла
Формат — спецификация структуры данных, записанных в компьютерном файле. Формат файла обычно указывается в его имени, как часть, отделённая точкой (обычно эту часть называют расширением имени файла, хотя, строго говоря, это неверно). Например, окончание имени (расширение) «.txt» обычно используют для обозначения файлов, содержащих только текстовую информацию, а «.doc» — содержащих текстовую информацию, структурированную в соответствии со стандартами программы Microsoft Word. Файлы, содержимое которых соответствует одному формату (реже — одному семейству форматов), иногда называют файлами одного типа.
Так как общепринятая в вычислительной технике концепция файла — неструктурированная последовательность байтов, компьютерные программы, сохраняющие в файлах структурированные данные, должны как-то преобразовывать их в последовательность байтов и наоборот (в ООП эти операции называются, соответственно, «сериализацией» и «десериализацией»; для текстовой информации последнее также называется «разбор» или «парсинг»). Алгоритм этого преобразования, а также соглашения о том, как различные фрагменты информации располагаются внутри файла, и составляют его «формат».
Различные форматы файлов могут различаться степенью детализации, один формат может быть «надстройкой» над другим или использовать элементы других форматов. Например, текстовый формат накладывает только самые общие ограничения на структуру данных. Формат HTML устанавливает дополнительные правила на внутреннее устройство файла, но при этом любой HTML-файл является в то же время текстовым файлом.
Содержание
Спецификации
Для многих форматов файлов существуют опубликованные спецификации, в которых подробно описана структура файлов данного формата, то, как программы должны кодировать данные для записи в этот формат и как декодировать их при чтении. Большинство таких спецификаций свободно доступны, некоторые распространяются за плату.
Иногда компании могут считать определённые форматы файлов своей коммерческой тайной и не публиковать их. Хорошо известный пример — форматы файлов пакета Microsoft Office. В некоторых случаях компания, выпустившая приложение, просто не считает нужным тратить время на написание подробной спецификации.
Если спецификация формата недоступна, то для обеспечения совместимости программы с данным форматом приходится заниматься обратной разработкой. В большинстве или во всех странах форматы файлов не защищены законами об авторских правах. Однако в некоторых странах патентами могут быть защищены алгоритмы, используемые для кодирования данных в какой-либо формат. Например, в широко распространённом формате GIF использовался патентованный алгоритм (срок действия патентов в разных странах истек в 2003-2004 гг.), что привело к разработке альтернативного формата PNG.
Определение типа файла
Для того, чтобы правильно работать с файлами, программы должны иметь возможность определять их тип. По историческим причинам, в разных операционных системах используются разные подходы для решения этой задачи.
Расширение имени файла
Некоторые операционные системы, например, CP/M, DOS, и Microsoft Windows используют для определения типа файла часть его имени, т. е. «расширение имени файла». В старых операционных системах это были три символа, отделённые от имени файла точкой (в файловых системах семейства FAT имя и расширение хранились отдельно, точка добавлялась уже на уровне ОС); в более новых системах расширение может являться просто частью имени, и тогда его длина ограничена только неиспользованной длиной имени (которая может составлять, например, 255 символов). Например, HTML-файлам может соответствовать расширение «.htm» или «.html».
Магические числа
Другой способ, широко используемый в UNIX-подобных операционных системах, заключается в том, чтобы сохранить в самом файле некое «магическое число» (сигнатуру) — последовательность символов, по которой может быть опознан формат файла. Первоначально этот термин использовался для специального набора 2-байтовых идентификаторов, сохраняемых в начале файла (эта практика перекочевала и в другие ОС, например, MZ в MS-DOS), однако, любая последовательность символов, характерная для данного формата, может быть использована как «магическое число».
Для определения формата файла служит команда file, которая использует файл /usr/share/misc/magic
Метаданные
Некоторые файловые системы позволяют сохранять дополнительные атрибуты для каждого файла, т. е. «метаданные». Эти метаданные можно использовать для хранения информации о типе файла. Такой подход используется в компьютерах Apple Macintosh. Метаданные поддерживаются такими современными файловыми системами как HPFS, NTFS, ext2, ext3 и другими. Недостатком этого метода является плохая переносимость — при копировании файлов между файловыми системами разных типов метаданные могут быть потеряны.
Типы данных, определённые стандартом MIME, широко используются в различных сетевых протоколах, однако в файловых системах они пока применяются редко.
Файл: что такое, его имя, свойства, формат, части. Информатика
Содержание:
Статья ознакомит с понятием файловой системы (ФС), файла в среде Windows, их свойствами и характеристиками. Кратко рассмотрим принципы хранения, адресации информации на компьютере, разберёмся, из чего состоит имя файла (документа), с правилами написания их имён.
Файловая система в информатике: что это
Для хранения информации на накопителе его необходимо отформатировать – сформировать файловую систему – это в информатике порядок, методика организации хранения данных на цифровых носителях. От неё зависит формат файлов, их атрибуты, способ записи на накопитель, порядок обращения, свойства, возможности (работа с архивными версиями, разделение прав доступа).
На устройствах с ОС Windows наиболее распространены ФС FAT32 (старая) и NTFS.
Что такое файл, путь к нему
Данные на цифровых носителях хранятся в виде документов – это адресуемая область памяти на накопителе, единица, базовый объект при работе программного обеспечения с данными. В графическом интерфейсе (Проводнике) выглядит как объект с именем и разрешением. Разберёмся, из каких двух частей состоит имя файла.
Физически файл – это контейнер, внутри которого определённым образом сосредоточена информация. Способ её размещения, позволяющий считывать и записывать данные внутрь контейнера называется форматом. Программы и ОС для работы с данными обращаются к файлам как элементарным единицам цифрового объекта. Информацию об адресах ячеек, последовательности обращения к ним для считывания содержимого контейнера им сообщает драйвер ФС.
В ОС UNIX документами являются даже порты и периферийные устройства.
Имена и адреса
В операционных системах Windows полное имя файла любого типа (графического, исполняемого, мультимедийного) состоит из нескольких частей. Например, C:\Windows\system32\calc.exe:
Имена документам дают приложения, в которых они создаются, или пользователи. Для экономии дискового пространства и трафика во время передачи по сети файлы архивируют – сжимают. Видео, установщики, аудио, многие графические документы сжаты по умолчанию, текстовые (txt, docx) и несжатые типы (bmp, aiff, wav, raw – исходники фото с цифровых камер) архивируются лучше всего.
Расширение – не обязательная часть документа. Оно служит для идентификации объектов пользователем, операционной системой и программами, указывает на формат файла. ОС устанавливает взаимосвязь, ассоциацию между разрешением и приложениями. При открытии пользователем документа он автоматически загружается в привязанную к разрешению программу. Если это file.docx – открывается через Word, mp3 – загрузится в аудиоплеер, а mp4 – воспроизводит мультимедийный проигрыватель.
Если объект хранится в сети, перед его полным путём указывают:
В одной директории не могут размещаться два объекта с одинаковыми именами и расширениями. В распространённых в Windows ФС строчные и заглавные буквы идентичны: File.avi, FILE.mp3 и file.mp3 – одно имя.
Длина участков имени (названия каждого каталога в пути) для NTFS ограничена 255 символами, общая длина пути – 32 000 знаками. Файл с названием длиной 255 символов может храниться в 124 подкаталогах с максимальной длиной наименования.
В имени допустимо использование символов Unicode за исключением ряда специальных знаков: двойной кавычки, черты и косой черты, вертикальной линии, вопросительного знака, звёздочки, двоеточия, знаков «больше» и «меньше».
Для документов в Windows предусмотрены атрибуты – метаданные, дополнительная информация, описывающая их. В Windows предусмотрено четыре атрибута со значением «Активно» либо «Отключено». Это:
Устанавливаются и снимаются атрибуты в свойствах документа (вызываются правой клавишей мыши).
Тесты
Определите, какие из файлов сжимаются лучше всего:
Что такое полное имя файла:
Формат данных в информатике это: