Веб Дизайн - статьи


ТО, ЧТО ВЫ ВИДИТЕ, — ЭТО ВСЕ, ЧТО ВЫ ПОЛУЧАЕТЕ


По сути, HTML — это технология представления информации, он описывает то, как браузер должен скомпоновать текст и график на странице. В результате «то, что вы видите, — это все, что вы получаете». Нет никакого способа описать данные независимо от отображения этих данных (за исключением чрезвычайно слабой системы ключевых слов в заголовке страницы Web). Это главная причина, почему так трудно найти нужную информацию с помощью механизма поиска.

Клиент не имеет никаких более-менее приемлемых средств извлечения данных со страницы Web для дальнейшей работы с ними. При наличии твердой руки вы можете вставить содержимое таблицы HTML в электронную таблицу, но это не решение! Далее, на любой конкретной странице Web клиент получает только одно представление конкретного множества данных.

Предположим, что вы просматриваете список аукционов eBay, упорядоченный по дате открытия торгов. Если вы захотите взглянуть на тот же список, но отсортированный по дате закрытия торгов, то вашему браузеру придется посылать новый запрос серверу. В свою очередь серверу придется заново отправлять полную страницу HTML со списком аукционов. Такого рода манипулирование данными ведет к значительному увеличению числа обращений к серверам Web и затрудняет, таким образом, их дальнейшее масштабирование.

Другая проблема с HTML в том, что это «плоский» язык, т. е. авторы не могут использовать его для предоставления информации об иерархии данных. Далее, он непоследователен и поэтому затрудняет разбор текста программным обеспечением. Например, хотя большинство открывающих тегов (такие, как <B> или <H1>) имеет соответствующие закрывающие теги, некоторые (например, <P>) их не имеют.

Простым решением для некоторых из перечисленных проблем было бы введение дополнительных тегов HTML, таких, как <NAME>, <DATE> или <PRICE>. С их помощью клиент мог бы определить, что собой представляют данные, и отображать их по-разному или экспортировать по запросу пользователя. История, однако, показывает, что введение дополнительных тегов для HTML может занять годы; консенсуса по поводу того, что они должны значить, редко когда удается достичь быстро, если он вообще возможен.


Если же вы решите не дожидаться изменения стандарта, то имейте в виду, что вы создаете нечто свое, нестандартное и тем самым отказываетесь от одного из главных преимуществ HTML.

Поэтому в 1996 году члены рабочей группы Консорциума World Wide Web (W3C, http://www.w3.org) вернулись к рассмотрению стандартного обобщенного языка разметки (Standard Generalized Markup Language, SGML), сильно упрощенным потомком которого является HTML. Предложенный в 1974 году Чарльзом Голдфарбом, SGML представляет собой метаязык — систему для описания других языков. При всех своих возможностях он слишком сложен для большинства браузеров Web: одна спецификация SGML занимает свыше 500 страниц.

Упростив SGML для использования с Web, группа предложила XML (рекомендация W3C по статусу на февраль 1998 года). XML представляет собой подмножество SGML, причем любой действительный документ XML является действительным документом SGML. И, как и SGML, XML — это метаязык, определяющий другие языки разметки для специфических целей. Например, язык синхронизированной интеграции мультимедиа (Synchronized Multimedia Integration Language, SMIL) базируется на XML.

XML используется для разметки стандартных документов во многом так же, как HTML. Однако XML превосходит его при работе со структурированными данными, такими, как результаты запроса, метаинформация об узле Web или элементы и типы схемы.

Документ XML выглядит во многом похожим на HTML. Он также состоит из текстовых фрагментов, аннотированных заключенными в угловые скобки тегами. Однако, в отличие от HTML, смысл тега зависит от регистра, а каждый открывающий тег должен во всех случаях иметь парный закрывающий тег.


Содержание раздела