Маркер порядку байтів

символ Юнікоду / З Вікіпедії, безкоштовно енциклопедія

Шановний Wikiwand AI, Давайте зробимо це простіше, відповівши на ключові запитання:

Чи можете ви надати найпопулярніші факти та статистику про Маркер порядку байтів?

Підсумуйте цю статтю для 10-річної дитини

Ма́ркер поря́дку ба́йтів (англ. Byte-order mark, BOM) — символ Юнікоду з кодом U+FEFF («нерозривний пробіл нульової ширини»), що використовується для позначення порядку байтів в рядку символів Юнікода, що закодовано в UTF-16 або UTF-32. Ця позначка використовується для позначення того, що текст має кодування UTF-8, UTF-16 або UTF-32.

В більшості систем кодування, BOM рідко зустрічається в інших контекстах (зазвичай, вона виглядає як послідовність незрозумілих керуючих кодів). Якщо позначку BOM буде помилково інтерпретовано як дійсний символ Юнікода, її, взагалі кажучи, видно не буде, оскільки вона є нерозривним пробілом нульової ширини. Використання символу з кодом U+FEFF для інших цілей було скасовано в стандарті Юнікод 3.2 (в якому визначено символ U+2060 для застосування в інших цілях), що дозволило вивільнити U+FEFF для використання виключно як позначки порядку байтів BOM.

В UTF-16, BOM (U+FEFF) стоїть на місці першого символу файла або потоку літер, для того, аби вказати порядок 16-бітних символів у цьому файлі або потоці. Якщо 16-бітні символи записано в прямому порядку (англ. big-endian), позначку BOM буде зчитано як байти 0xFE і 0xFF; якщо порядок байт зворотний, послідовність BOM буде зчитано як 0xFF і 0xFE. Гарантується, що символ Юнікода з кодом U+FFFE ніколи не буде використовуватись для позначення літери в кодуванні Юнікода; із цього випливає, що в контексті Юнікода пара байт 0xFF і 0xFE може означати лише U+FEFF у зворотному порядку.

Не зважаючи на те, що UTF-8 не має проблем з порядком байтів, BOM, у цьому випадку, може використовуватись для позначення тексту в кодуванні UTF-8. Ця позначка лише позначає кодування файла, а не порядок байт в ньому [1] . Достатньо велика кількість програмного забезпечення виробництва Microsoft, (наприклад блокнот) додає позначку BOM. Однак, на Юнікс-подібних системах, застосування позначки BOM може перешкоджати нормальній обробці файлів.

Oops something went wrong:

Порядок байтів

порядок байтів, які утворюють цифрове слово в пам’яті комп’ютера / З Вікіпедії, безкоштовно енциклопедія

Шановний Wikiwand AI, Давайте зробимо це простіше, відповівши на ключові запитання:

Чи можете ви надати найпопулярніші факти та статистику про Порядок байтів?

Підсумуйте цю статтю для 10-річної дитини

Порядок байтів (англ. Endianness, byte order) — метод запису байтів багатобайтових чисел в інформатиці. У програмуванні, інформація в пам’яті зазвичай зберігається у двійкових даних, розділена на 8 біт (один байт).

Представлення даних у пам’яті комп’ютера

У загальному випадку, для представлення числа M, більшого 255 ( 255 = 2 8 − 1 -1> — максимальне ціле число, що записується одним октетом), доводиться використовувати декілька байтів-октетів. При цьому число M записується в позиційній системі числення за основою 256:

M = ∑ i = 0 n A i ⋅ 256 i = A 0 ⋅ 256 0 + A 1 ⋅ 256 1 + A 2 ⋅ 256 2 + ⋯ + A n ⋅ 256 n . ^A_\cdot 256^=A_\cdot 256^+A_\cdot 256^+A_\cdot 256^+\dots +A_\cdot 256^.>

Набір цілих чисел A 0 , … , A n ,\dots ,A_> кожне з яких лежить в інтервалі від 0 до 255, є послідовністю байтів, складових числа M. при цьому A 0 > називається молодшим байтом, а A n <\displaystyle A_> — старшим байтом числа M.

Oops something went wrong:

struct — Інтерпретувати байти як упаковані двійкові дані¶

This module converts between Python values and C structs represented as Python bytes objects. Compact format strings describe the intended conversions to/from Python values. The module’s functions and objects can be used for two largely distinct applications, data exchange with external sources (files or network connections), or data transfer between the Python application and the C layer.

When no prefix character is given, native mode is the default. It packs or unpacks data based on the platform and compiler on which the Python interpreter was built. The result of packing a given C struct includes pad bytes which maintain proper alignment for the C types involved; similarly, alignment is taken into account when unpacking. In contrast, when communicating data between external sources, the programmer is responsible for defining byte ordering and padding between elements. See Порядок байтів, розмір і вирівнювання for details.

Кілька функцій struct (та методи Struct ) приймають аргумент buffer. Це відноситься до об’єктів, які реалізують Буферний протокол і забезпечують доступний для читання чи запису буфер. Найпоширенішими типами, які використовуються для цієї мети, є bytes і bytearray , але багато інших типів, які можна розглядати як масив байтів, реалізують протокол буфера, тому їх можна читати/заповнювати без додаткове копіювання з об’єкта bytes .

Функції та винятки¶

Модуль визначає такі винятки та функції:

Виняток, що виникає з різних приводів; аргумент – це рядок, що описує те, що є неправильним.

Повертає об’єкт bytes, що містить значення v1, v2, … упаковані відповідно до рядка формату format. Аргументи мають точно відповідати значенням, які вимагає формат.

Упакуйте значення v1, v2, … відповідно до рядка формату format і запишіть упаковані байти в записуваний буфер buffer, починаючи з позиції offset. Зауважте, що offset є обов’язковим аргументом.

struct. unpack ( format , buffer ) ¶

Розпакуйте з буфера buffer (імовірно запакованого pack(format, . ) ) відповідно до рядка формату format. Результатом є кортеж, навіть якщо він містить рівно один елемент. Розмір буфера в байтах має відповідати розміру, який вимагає формат, як це відображається calcsize() .

struct. unpack_from ( format , / , buffer , offset = 0 ) ¶

Розпакуйте з buffer, починаючи з позиції offset, відповідно до рядка формату format. Результатом є кортеж, навіть якщо він містить рівно один елемент. Розмір буфера в байтах, починаючи з позиції offset, має бути принаймні розміром, який вимагається форматом, що відображається calcsize() .

struct. iter_unpack ( format , buffer ) ¶

Iteratively unpack from the buffer buffer according to the format string format. This function returns an iterator which will read equally sized chunks from the buffer until all its contents have been consumed. The buffer’s size in bytes must be a multiple of the size required by the format, as reflected by calcsize() .

Кожна ітерація дає кортеж, як зазначено в рядку формату.

Повертає розмір структури (і, отже, об’єкта bytes, створеного pack(format, . ) ), що відповідає рядку формату format.

Форматувати рядки¶

Format strings describe the data layout when packing and unpacking data. They are built up from format characters , which specify the type of data being packed/unpacked. In addition, special characters control the byte order, size and alignment . Each format string consists of an optional prefix character which describes the overall properties of the data and one or more format characters which describe the actual data values and padding.

Порядок байтів, розмір і вирівнювання¶

By default, C types are represented in the machine’s native format and byte order, and properly aligned by skipping pad bytes if necessary (according to the rules used by the C compiler). This behavior is chosen so that the bytes of a packed struct correspond exactly to the memory layout of the corresponding C struct. Whether to use native byte ordering and padding or standard formats depends on the application.

Крім того, перший символ рядка формату можна використовувати для вказівки порядку байтів, розміру та вирівнювання упакованих даних згідно з наведеною нижче таблицею: