1. 制定背景
中央政府門戶網站內容主要來源于國務院辦公廳和地方政府網站、部門兩站。中央政府門戶網站獲取各級政府及部門網站內容的形式主要有網上抓取、信息報送、網站鏈接和欄目共建等方式。其中網上抓取是中央政府門戶網站從各級政府及部門網站獲取信息的主要方式之一。
網上抓取所面臨的問題是,各級政府及部門網站缺乏統一的內容格式規范,不利于采集工具自動抓取和分析信息,部分屬性不易準確提取。為了更準確地采集和分析各級政府及部門網站信息,需要規范網站的頁面內容格式。各級政府及部門網站按照統一要求經過規范化修改后,中央政府門戶網站可以通過采集工具
實現準確的網上信息自動抓取。
同時,為了構建政府網站服務體系,實現政府網站群的聯合檢索功能,需要制定各級政府及部門網站檢索系統的接口規范。
2 名詞解釋
服務系統:指各級政府及部門網站上提供的網上辦事服務系統、網上申報服務系統、網上數據查詢系統等網上應用服務系統。網上采集工具的目標不是把其中的數據內容進行采集,而是從網站群上自動發現這些服務系統,獲取入口URL和相關描述信息,從而提供鏈接服務。
聯合檢索:在中央政府門戶網站提供的聯合檢索功能指,系統能夠將檢索請求分發給各級政府及部門網站的站內檢索系統,并將各網站站內檢索系統的結果統一合并處理后返回給查詢用戶。這樣,用戶得到的檢索結果是各級政府及部門網站檢索結果的合集。
3 制定目標
為了實現各級政府及部門網站的網上信息抓取,制定政府網站的建設規范是關鍵環節。本規范圍繞信息采集和網頁分析功能,在保持現有網站建設模式、不增加信息通道的前提下,使符合規范的網站可被中央政府門戶網站采集工具程序自動識別,實現網站和網頁屬性自動標引,最大限度減少人工介入。
本規范配合中央政府門戶網站采集工具的功能,實現以下目標:
(1)收集并驗證網站信息;
(2)準確收集各級政府及部門網站的政務信息;
(3)自動發現并登記網上服務系統;
(4)實現政府網站群聯合檢索;
(5)準確分析網頁屬性信息。
為實現上述目標,本規范制定了五方面條款,具體含義和作用說明如下:
1.網站信息:用于標注網站和欄目的信息,比如名稱、行業、地區、欄目名稱、分類等。通過對網站信息的標注,不但可以使采集程序獲得網站的基本信息,更重要的是,可以把這些信息作為政府網站的檢驗標志之一,實現政府網站驗證校對。
2.政務信息:指各級政府及部門網站發布的與政府業務相關的信息,包括但不限于機構信息、法律法規、規范性文件、辦事指南等。政務信息是政府網站所發布的主要信息,在中央政府門戶網站建設中,需要將各級政府及部門網站所發布的政務信息進行匯總、分類,提供導航、檢索等服務。
3.服務系統:在中央政府門戶網站建設中,需要提供網上服務系統的準確定位地址信息,方便公眾通過中央政府門戶網站查詢并快速到達該服務系統的入口網頁。
4.檢索系統接口:許多政府網站提供站內內容檢索服務。但是網站所采用的檢索入口以及結果展示頁面各不相同,需要統一檢索系統接口,實現政府網站群的聯合檢索功能。
5.網頁內容:網頁中包含標題、正文、作者、發表日期、正文、來源等信息,但是如果沒有格式規范,網頁分析程序難以準確提取這些信息。通過制定統一的網頁內容格式規范,可以實現網頁內容的準確分析和提取。
實現規范的基本方法是,在網頁HTML中,嵌入特定意義的標識信息,用于標注各項有意義的內容,這些嵌入的標識信息采用HTML的meta置標,在實現屬性標注功能的同時,不影響網頁的顯示效果。
4 適用對象和范圍
本規范適用于各級政府及部門網站的建設,包括國務院各部門網站,副省級以上地方政府網站。中央政府門戶網站采集工具將全面支持本規范,實現對符合規范的政府網站的準確數據采集。
5 制定原理和原則
5.1 制定原理
構成網頁的HTML文件邏輯上可以分為內容(Content)和頁面展示(Style)兩部分,內容部分包括網頁的標題、日期、正文、作者等數據元素,它決定了網頁所包含的信息;頁面展示部分包括每個元素的位置、字體、大小、顏色等,它決定了網頁在瀏覽器中的顯示效果。HTML文件能夠將內容和頁面展示有機地結合為一體。
本規范的制定主要從網頁內容標注入手,從內容層面對網頁進行標注,而忽略頁面展示層面。具體方法是,利用HTML文件的特性,在不影響網頁展示效果的前提下,加入各類屬性置標,規定網站發布內容必須包含的信息。例如,在網頁中標注網站信息、欄目信息、標題、日期、作者、來源、服務系統等元數據內容,從根本上保證其它應用對該網頁屬性的準確識別和提取。
5.2 規范制定原則
各級政府及部門網站已經經歷了多年的建設,花費了設計和管理維護人員的大量心血。為了盡量減少網站的改動,規范制定過程中充分考慮了各級政府及部門網站的實際特點和改造難度,提供可行的操作規范。
規范條款簡單明了,貼近實際應用,提供明確的操作步驟,方便維護人員實施。
5.2.2 劃分等級
為了使本規范具有更好的可行性,避免一刀切所帶來的網站改造壓力,采用了劃分等級的方法,方便分階段、分步驟實現對規范的支持。具體等級劃分和含義如下:
● 1級:重要程度高,實現緊急度高。
● 2級:重要程度中,實現緊急度高。
● 3級:重要程度高,實現緊急度低。
5.3 條款描述方法
每項規范條款從以下方面給出描述:
編號:規范條款編號。
用途:給出規范條款的用途。
等級:給出規范條款的等級。
范圍:給出規范條款的影響范圍,范圍的描述方法包括:
主頁:指各級政府及部門網站的主頁。
欄目:指各級政府及部門網站上的欄目頁面。
內容頁:指非主頁、非欄目,包含政務信息等實際內容的網頁。
各級網頁:泛指各級政府及部門網站上的網頁。
網頁索引文件:為向網站外部提供站內網頁信息而專門設置的XML索引文件,它包含網站所發布網頁的索引信息。
服務系統主頁:特指各個服務系統的入口網頁。
系統接口:指系統可以提供某種形式的調用接口,實現請求的接收和執行結果的返回。
內容:給出具體的規范內容及標注方法。
5.4 其它說明
規范條款描述中使用“*”號來區分必標注項和可選標注項,帶有“*”號的meta置標為必須標注項,不帶“*”號的屬性為可選項。
條款中涉及“地區”屬性,應按照中國行政區劃中的規范地名名稱進行標注。省和市之間用半角“/”符號分隔,比如“山東省青島市”應標注為“山東省/青島市”。
條款中涉及“行業”、“分類”等屬性,目前各單位可以自行填寫(或者暫時省略不填),在中央政府門戶網站制定統一的相關規范之后,再按統一規范執行。分類標注可以支持多級,類和類之間采用半角“/”分隔。
條款中有關“地區”、“分類”、“作者”等屬性,均可以填寫多值,多值之間采用半角分號“;”分隔。
當有多項條款需要作用在一個網頁上時,把各項條款需要在網頁上所作的標注內容進行簡單累加即可。
為了滿足政府網站將來發展的需要,本規范中網頁置標的格式遵循XHTML規范,網頁標簽的元素和內容全部采用英文小寫,并且網頁標簽閉合。
6 規范條款
6.1 網站信息規范
6.1.1 主頁標注
編號:No.1
說明:在各級政府及部門網站的主頁上給出網站名稱、主頁URL、行業、地域、分類等屬性。
用途:該屬性是網站的一項重要屬性,用于標注網站的名稱和屬性。
等級:1。
范圍:主頁。
內容:在主頁(一般為index.html/index.htm/index.asp/index.jsp等)HTML文件中,在<head>區域內用meta置標的方式給出網站名稱、主頁URL、行業、地區、分類。格式描述:
*<meta name="sitename"content="[網站名稱]"/>
*<meta name="siteurl"content="[URL地址]"/>
<meta name="guild"content="[行業]"/>
*<meta name="district"content="[地區]"/>
<meta name="sitecatalog"content="[分類]"/>
其中,“網站名稱”是指網站的正式名稱。例如:
<meta name="sitename"content="中國農業信息網"/>
<meta name="siteurl"content="http://www.agri.gov.cn/"/>
<meta name="guild"content="農業"/>
<meta name="district"content="北京市"/>
<meta name="sitecatalog"content="農業"/>
6.1.2 欄目標注
編號:No.2
說明:在各級政府及部門網站的欄目頁面上標注欄目屬性。
用途:利用該標注可以獲得網頁所屬的欄目信息。
等級:3。
范圍:欄目。
內容:在欄目HTML文件中,在<head>區域內用meta置標的方式標注欄目名稱。
格式描述:
*<meta name="channel"content="[欄目名稱]"/>
*<meta name="chnlcatalog"content="[分類]"/>
例如:
<meta name="channel"content="三講教育"/>
<meta name="chnlcatalog"content="政治/三講教育"/>
6.2 政務信息規范
6.2.1 政務信息標注(1)
編號:No.3
說明:在各級政府及部門網站的主頁上標注政務信息。
用途:對網站的政務信息進行標注。
等級:l。
范圍:主頁。
內容:在主頁HTML文件中,用meta置標的方式,將包含政務信息的欄目列出,如果多個欄目中包含政務信息,則可以為每個欄目填寫一個meta置標。格式描述:
*<meta name="serve"content="[欄目URL],[分類],[地區]"/>
其中,“分類”是指政務信息的分類屬性,可以是法律法規、政策解釋、辦事指南等;“地區”是指政務信息的地域屬性;屬性之間用半角逗號“,”分隔。
例如:
<meta name="serve"content="http://www.beijing.gov.cn/fg/def
ault.htm,法律法規,北京市"/>
6.2.2 政務信息標注(2)
編號:No.4
說明:在網頁中標注本網頁為一條政務信息。
用途:用于對網站中政務信息網頁進行標注。
等級:3。
范圍:內容頁。
內容:在內容頁的HTML文件中,在<head>區域內用meta置標的方式標注政務信息。格式描述:
*<meta name="serve"content="[分類],[地區]"/>
其中,“分類”是指政務信息的分類屬性,可以是法律法規、政策解釋、辦事指南等;“地區”是指政務信息的地域屬性;屬性之間用半角逗號“,”分隔。
例如:
<meta name="serve"content="法律法規,北京市"/>
6.3 服務系統規范
6.3.1 服務系統標注
編號:No.5
說明:在各級政府及部門網站的主頁上給出所包含的服務系統信息。
用途:對于包含應用系統(比如“機動車違章查詢系統”,“在線招投標系統”等)的網站,通過在主頁上對這些服務系統的基本信息進行標注,即可實現這些服務系統被自動收集和整合的目的。
等級:1。
范圍:主頁。
內容:在主頁的HTML文件中,在<head>區域內用meta置標的方式給出本網站服務系統的基本信息。如果一個網站有多個服務系統,則可以為每個應用填寫一個meta置標。格式描述:
*<meta name="services"content="[網上服務名稱],[服務入口URL],[分類],[地區]"/>
屬性之間用半角逗號“,”分隔。例如:
<meta name="services"content="北京市公安局公安交通管理局車輛違法查詢,http://www.bjjtgl.gov,cn,公安,北京市"/>
6.4 檢索系統規范
6.4.1 檢索系統接口
編號:No.6
說明:對各級政府及部門網站的站內檢索服務提出規范化要求。
用途:用于實現政府網站群聯合檢索。
等級:2。
范圍:系統接口。
內容:為了實現政府網站群的聯合檢索,對各級政府及部門網站目前的站內檢索系統提出規范化要求?;舅枷胧牵骶W站實現一套統一的檢索接口,包括能夠接受統一格式要求的HTTP檢索請求,并返回統一格式要求的檢索結果頁面。
(1)接收統一的HTTP檢索請求:
站點檢索系統能夠接收以下格式提交的檢索請求:
http://[hostname]/[程序名]?query=[檢索條件]&page=[頁碼]&
count=[每頁數目]&export=xml
其中,“程序名”、“檢索條件”、“頁碼”、“每頁數目”是可變參數,可由聯合檢索程序設置,分別表示調用的檢索程序名、檢索條件、取結果的頁碼編號、每頁包含的網頁數。
“檢索條件”是gb18030(兼容gb2312和gbk)或utf-8兩種編碼之一;檢索的詞間關系支持“and”運算,使用半角空格分隔(比如“北京 美國”表示檢索“中國”和“美國”同時出現的文章)。頁碼取值范圍l—l0;每頁數目取值范圍10—20,一般取10或20,對于超出上述取值范圍的請求,檢索系統可以不支持。
聯合檢索應用程序會將經過URL編碼的請求發送給站點檢索系統。例如,檢索詞為“北京”的檢索請求可能為:
http://www.xinhuanet.com/search?query=%B1%B1%BE%A9&page=l&count=20&export=xml
為了實現站點檢索系統的安全調用,除了上述基本檢索方式之外,系統還提供一種安全檢索方式,對于對安全性有較高要求的網站,通過實現安全訪問接口,達到安全訪問的目的。
安全調用的基本思路是,中央政府門戶網站的聯合檢索應用程序對檢索請求進行加密處理,各級政府及部門網站的站內檢索系統對檢索請求進行解密,只有經過正確解密的請求才被認為是合法的檢索請求,其它檢索請求不被響應。這樣可以屏蔽非法的檢索請求,減輕系統的運行壓力。
具體做法是,利用RSA加密算法生成一對鑰匙——公鑰和私鑰,公鑰由中央政府門戶網站公開給各級政府及部門網站的站內檢索系統使用,私鑰在中央政府門戶網站聯合檢索應用中使用。聯合檢索應用程序首先利用私鑰對正常檢索請求的URL串進行加密,形成一個加密的URL串,表現為:
http://[hostname]/[程序名]?search=[加密字符串]
其中,“加密字符串”為原表達式“query=[檢索條件]&page
=[頁碼]&count=[每頁數目]&export=xml”經過私鑰加密后的字符串。
聯合檢索應用程序對上述加密URL進行URL編碼后發送給各級政府及部門網站的站內檢索系統。
站內檢索系統接收到加密URL的檢索請求后,首先進行URL解碼,獲得加密的URL串,然后進行認證——使用公鑰對URL串進行解密,如果能夠正確還原出“query=[檢索條件]& page=[頁碼]&count=[每頁數目]&export=xml”這樣格式的字符串,則執行檢索并返回檢索結果,否則,認證失敗,站內檢索系統不執行檢索操作。
轉載:西安市人民政府網