URL

Единый указатель ресурса (англ. Uniform Resource Locator, URL /ˌjuː ɑːr ˈel/) — единообразный локатор (определитель местонахождения) ресурса.

Ранее назывался Universal Resource Locator — универсальный указатель ресурса. URL служит стандартизированным способом записи адреса ресурса в сети Интернет.

Содержание

1 История
2 Структура URL
3 Схемы (протоколы) URL
4 Кодирование URL
- 4.1 Реализация
- 4.2 Стандарт IRI
5 Ограничение длины
6 Инициатива PURL
7 См. также
8 Примечания
9 Ссылки

История[править | править вики-текст]

URL был изобретён Тимом Бернерсом-Ли в 1990 году в стенах Европейского совета по ядерным исследованиям (фр. Conseil Européen pour la Recherche Nucléaire, CERN) в Женеве, Швейцария. URL стал фундаментальной инновацией в Интернете. Изначально URL предназначался для обозначения мест расположения ресурсов (чаще всего файлов) во Всемирной паутине. Сейчас URL применяется для обозначения адресов почти всех ресурсов Интернета. Стандарт URL закреплён в документе RFC 1738, прежняя версия была определена в RFC 1630. Сейчас URL позиционируется как часть более общей системы идентификации ресурсов URI, сам термин URL постепенно уступает место более широкому термину URI. Стандарт URL регулируется организацией IETF и её подразделениями.

В 2009 году Тим Бернерс-Ли высказал мнение об избыточности двойного слеша // в начале URL, после указания сетевого протокола^[1].

Структура URL[править | править вики-текст]

Мраморная доска с выгравированным адресом хранящейся на Викискладе фотографии этой же мраморной доски. Из собрания Московского Мультимедиа Арт музея.

Изначально локатор URL был разработан как система для максимально естественного указания на местонахождения ресурсов в сети. Локатор должен был быть легко расширяемым и использовать лишь ограниченный набор ASCII‐символов (к примеру, пробел никогда не применяется в URL). В связи с этим, возникла следующая традиционная форма записи URL:

<схема>://<логин>:<пароль>@<хост>:<порт>/<URL‐путь>?<параметры>#<якорь>

В этой записи:

схема: схема обращения к ресурсу; в большинстве случаев имеется в виду сетевой протокол
логин: имя пользователя, используемое для доступа к ресурсу
пароль: пароль указанного пользователя
хост: полностью прописанное доменное имя хоста в системе DNS или IP-адрес хоста в форме четырёх групп десятичных чисел, разделённых точками; числа — целые в интервале от 0 до 255.
порт: порт хоста для подключения
URL-путь: уточняющая информация о месте нахождения ресурса; зависит от протокола.
параметры: строка запроса с передаваемыми на сервер (методом GET) параметрами. Начинается с символа ?, разделитель параметров — знак &. Пример: ?параметр_1=значение_1&параметр_2=значение_2&параметр3=значение_3
якорь: идентификатор «якоря» (англ.)русск. с предшествующим символом #. Якорем может быть указан заголовок внутри документа или атрибут id (англ.)русск. элемента. По такой ссылке браузер откроет страницу и переместит окно к указанному элементу. Например, ссылка на этот раздел статьи: https://ru.wikipedia.org/wiki/URL#Структура_URL.

Схемы (протоколы) URL[править | править вики-текст]

Общепринятые схемы (протоколы) URL включают:

ftp — Протокол передачи файлов FTP
http — Протокол передачи гипертекста HTTP
rtmp — Real Time Messaging Protocol проприетарный протокол потоковой передачи данных, в основном используется для передачи потокового видео и аудиопотоков с веб-камер через интернет.
rtsp — Потоковый протокол реального времени.
https — Специальная реализация протокола HTTP, использующая шифрование (как правило, SSL или TLS)
gopher — Протокол Gopher
mailto — Адрес электронной почты
news — Новости Usenet
nntp — Новости Usenet через протокол NNTP
irc — Протокол IRC
smb — Протокол SMB/CIFS
prospero — Служба каталогов Prospero Directory Service
telnet — Ссылка на интерактивную сессию Telnet
wais — База данных системы WAIS
xmpp — Протокол XMPP (часть Jabber)
file — Имя локального файла
data — Непосредственные данные (Data: URL)
tel — звонок по указанному телефону

Экзотические схемы URL:

afs — Глобальное имя файла в файловой системе Andrew File System
cid — Идентификатор содержимого для частей MIME
mid — Идентификатор сообщений для электронной почты
mailserver — Доступ к данным с почтовых серверов
nfs — Имя файла в сетевой файловой системе NFS
tn3270 — Эмуляция интерактивной сессии Telnet 3270
z39.50 — Доступ к службам ANSI Z39.50
skype — Протокол Skype
smsto — Открытие редактора SMS в некоторых мобильных телефонах
ed2k — Файлообменная сеть eDonkey, построенная по принципу P2P
market — Android Маркет
steam — протокол Steam
bitcoin — Криптовалюта Биткойн
ob — OpenBazaar
tg — Telegram

Схемы URL в браузерах:

view-source — просмотр исходного кода указанной web-страницы в различных браузерах.
chrome — служебные страницы браузера Google Chrome или браузеров на движке Gecko^[2].
opera — служебные страницы браузера Opera.

Кодирование URL[править | править вики-текст]

Стандарт URL использует набор символов US-ASCII. Это имеет серьёзный недостаток, поскольку разрешается использовать лишь латинские буквы, цифры и несколько знаков пунктуации. Все другие символы необходимо перекодировать. Например, перекодироваться должны буквы кириллицы, буквы с диакритическими знаками, лигатуры, иероглифы. Перекодирующая кодировка описана в стандартах RFC 2396 и RFC 3986, и называется URL-encoding, URLencoded или percent‐encoding.

Пример кодирования можно видеть в русскоязычной Википедии, использующей в URL русский язык. Например, строка вида:

https://ru.wikipedia.org/wiki/Микрокредит

кодируется как:

https://ru.wikipedia.org/wiki/%D0%9C%D0%B8%D0%BA%D1%80%D0%BE%D0%BA%D1%80%D0%B5%D0%B4%D0%B8%D1%82

Реализация[править | править вики-текст]

Преобразование происходит в два этапа: сначала каждый символ кириллицы кодируется в UTF-8 в последовательность из двух байтов, а затем каждый байт этой последовательности записывается в шестнадцатеричном представлении с предшествующим знаком процента (%):

М → D0 и 9C → %D0%9C
и → D0 и B8 → %D0%B8
к → D0 и BA → %D0%BA
р → D1 и 80 → %D1%80, и т. д.

Зарезервированные символы^[3]
`!`	`*`	`'`	`(`	`)`	`;`	`:`	`@`	`&`	`=`	`+`	`$`	`,`	`/`	`?`	`#`	`[`	`]`

Не зарезервированные символы^[3]
`A`	`B`	`C`	`D`	`E`	`F`	`G`	`H`	`I`	`J`	`K`	`L`	`M`	`N`	`O`	`P`	`Q`	`R`	`S`	`T`	`U`	`V`	`W`	`X`	`Y`	`Z`
`a`	`b`	`c`	`d`	`e`	`f`	`g`	`h`	`i`	`j`	`k`	`l`	`m`	`n`	`o`	`p`	`q`	`r`	`s`	`t`	`u`	`v`	`w`	`x`	`y`	`z`
`0`	`1`	`2`	`3`	`4`	`5`	`6`	`7`	`8`	`9`	`-`	`_`	`.`	`~`

Все другие символы в URI кодируются.

Зарезервированные символы кодируются в таком соответствии:

!	"	#^[4]	$	%	&^[4]	'	*	,^[4]	:^[4]	;^[4]	<	=^[4]	>	?^[4]	[	]	^	`	{	\|	}	<пробел>
%21	%22	%23	%24	%25	%26	%27	%2A	%2C	%3A	%3B	%3C	%3D	%3E	%3F	%5B	%5D	%5E	%60	%7B	%7C	%7D	%20^[5]

Кодирование параметров в Internet Explorer и старом Firefox происходит несколько иначе^[6].

В некоторых случаях URL формируется с использованием кодирования Base58^[7].

Стандарт IRI[править | править вики-текст]

Основная статья: Internationalized Resource Identifier

Поскольку такому преобразованию подвергаются буквы всех алфавитов, кроме базовой латиницы, то URL со словами подавляющего большинства языков может стать нечитаемым для человека.

Это всё входит в противоречие с принципом интернационализма, провозглашаемого всеми ведущими организациями Интернета, включая W3C и ISOC. Эту проблему призван решить стандарт IRI (англ. Internationalized Resource Identifier) — международных идентификаторов ресурсов, в которых можно было бы без проблем использовать символы Юникода, и которые поэтому не ущемляли бы права других языков. Хотя заранее сложно сказать, смогут ли когда‐либо идентификаторы IRI заменить столь широко используемые URL (и URI в целом).

Ограничение длины[править | править вики-текст]

Формально, длина URL не ограничена, но браузеры имеют ограничения по длине URL. Не рекомендуется использовать URL длиной более 2048 символов, так как Microsoft Internet Explorer имеет именно такое ограничение^[8].

Инициатива PURL[править | править вики-текст]

Ещё один кардинальный недостаток URL состоит в отсутствии гибкости. Ресурсы во Всемирной паутине и Интернете перемещаются, а ссылки в виде URL остаются, указывая на уже отсутствующие ресурсы. Это особенно болезненно для электронных библиотек, каталогов и энциклопедий. Для решения этой проблемы были предложены постоянные локаторы PURL (англ. Persistent Uniform Resource Locator). В сущности это те же URL, но они указывают не на конкретное место расположения ресурса, а на запись в базе данных PURL, где, в свою очередь, записан уже конкретный URL‐адрес ресурса. При обращении к PURL сервер находит нужную запись в этой базе данных и перенаправляет запрос уже на конкретное местоположение ресурса. Если адрес ресурса меняется, то нет нужды исправлять все бесчисленные ссылки на него — достаточно лишь изменить запись в БД. В настоящий момент эта идея не стандартизирована и не имеет широкого распространения.

См. также[править | править вики-текст]

Примечания[править | править вики-текст]

↑ Двойной слеш в адресах интернета появился из-за спешки его создателя. РИА Новости (2009-10-14 19:05). Проверено 11 июля 2010. Архивировано из первоисточника 25 августа 2011.
↑ The Chrome URL. Проверено 9 декабря 2014.
↑ ¹ ² RFC 3986, раздел 2.2
↑ ¹ ² ³ ⁴ ⁵ ⁶ ⁷ Символ допустим, но при указании прямым текстом несёт специальное синтаксическое значение
↑ Следует отметить, что MediaWiki избегает кодирования пробела как %20, вместо этого он везде заменяется символом подчёркивания «_». Многие поисковики заменяют пробел на символ «+».
↑ HTTP, RFC 3986 и браузеры
↑ Flickr Services
↑ Максимальная длина URL-адреса в Internet Explorer составляет 2083 символа. microsoft.com.

Ссылки[править | править вики-текст]

[1] Двойной слеш в адресах интернета появился из-за спешки его создателя. РИА Новости (2009-10-14 19:05). Проверено 11 июля 2010. Архивировано из первоисточника 25 августа 2011.

[2] The Chrome URL. Проверено 9 декабря 2014.

[RFC_3986-3] ¹ ² RFC 3986, раздел 2.2

[s-4] ¹ ² ³ ⁴ ⁵ ⁶ ⁷ Символ допустим, но при указании прямым текстом несёт специальное синтаксическое значение

[5] Следует отметить, что MediaWiki избегает кодирования пробела как %20, вместо этого он везде заменяется символом подчёркивания «_». Многие поисковики заменяют пробел на символ «+».

[6] HTTP, RFC 3986 и браузеры

[7] Flickr Services

[8] Максимальная длина URL-адреса в Internet Explorer составляет 2083 символа. microsoft.com.

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

URL

Содержание

История[править | править вики-текст]

Структура URL[править | править вики-текст]

Схемы (протоколы) URL[править | править вики-текст]

Кодирование URL[править | править вики-текст]

Реализация[править | править вики-текст]

Стандарт IRI[править | править вики-текст]

Ограничение длины[править | править вики-текст]

Инициатива PURL[править | править вики-текст]

См. также[править | править вики-текст]

Примечания[править | править вики-текст]

Ссылки[править | править вики-текст]

Навигация

Персональные инструменты

Пространства имён

Варианты

Просмотры

Ещё

Поиск

Навигация

Участие

Инструменты

Печать/экспорт

На других языках

`A`	`B`	`C`	`D`	`E`	`F`	`G`	`H`	`I`	`J`	`K`	`L`	`M`	`N`	`O`	`P`	`Q`	`R`	`S`	`T`	`U`	`V`	`W`	`X`	`Y`	`Z`
`a`	`b`	`c`	`d`	`e`	`f`	`g`	`h`	`i`	`j`	`k`	`l`	`m`	`n`	`o`	`p`	`q`	`r`	`s`	`t`	`u`	`v`	`w`	`x`	`y`	`z`
`0`	`1`	`2`	`3`	`4`	`5`	`6`	`7`	`8`	`9`	`-`	`_`	`.`	`~`

`A`	`B`	`C`	`D`	`E`	`F`	`G`	`H`	`I`	`J`	`K`	`L`	`M`	`N`	`O`	`P`	`Q`	`R`	`S`	`T`	`U`	`V`	`W`	`X`	`Y`	`Z`
`a`	`b`	`c`	`d`	`e`	`f`	`g`	`h`	`i`	`j`	`k`	`l`	`m`	`n`	`o`	`p`	`q`	`r`	`s`	`t`	`u`	`v`	`w`	`x`	`y`	`z`
`0`	`1`	`2`	`3`	`4`	`5`	`6`	`7`	`8`	`9`	`-`	`_`	`.`	`~`

`A`	`B`	`C`	`D`	`E`	`F`	`G`	`H`	`I`	`J`	`K`	`L`	`M`	`N`	`O`	`P`	`Q`	`R`	`S`	`T`	`U`	`V`	`W`	`X`	`Y`	`Z`
`a`	`b`	`c`	`d`	`e`	`f`	`g`	`h`	`i`	`j`	`k`	`l`	`m`	`n`	`o`	`p`	`q`	`r`	`s`	`t`	`u`	`v`	`w`	`x`	`y`	`z`
`0`	`1`	`2`	`3`	`4`	`5`	`6`	`7`	`8`	`9`	`-`	`_`	`.`	`~`