FCL/sf/os/xmlsrv: xml/cxmllibrary/src/xmlp/src/XMLReader.c@74f0b3eb154c (annotated)

24 74f0b3eb154c 201024 hgs parents: diff changeset	1	/*
74f0b3eb154c 201024 hgs parents: diff changeset	2	* Copyright (c) 2000 - 2001 Nokia Corporation and/or its subsidiary(-ies).
74f0b3eb154c 201024 hgs parents: diff changeset	3	* All rights reserved.
74f0b3eb154c 201024 hgs parents: diff changeset	4	* This component and the accompanying materials are made available
74f0b3eb154c 201024 hgs parents: diff changeset	5	* under the terms of the License "Eclipse Public License v1.0"
74f0b3eb154c 201024 hgs parents: diff changeset	6	* which accompanies this distribution, and is available
74f0b3eb154c 201024 hgs parents: diff changeset	7	* at the URL "http://www.eclipse.org/legal/epl-v10.html".
74f0b3eb154c 201024 hgs parents: diff changeset	8	*
74f0b3eb154c 201024 hgs parents: diff changeset	9	* Initial Contributors:
74f0b3eb154c 201024 hgs parents: diff changeset	10	* Nokia Corporation - initial contribution.
74f0b3eb154c 201024 hgs parents: diff changeset	11	*
74f0b3eb154c 201024 hgs parents: diff changeset	12	* Contributors:
74f0b3eb154c 201024 hgs parents: diff changeset	13	*
74f0b3eb154c 201024 hgs parents: diff changeset	14	* Description:
74f0b3eb154c 201024 hgs parents: diff changeset	15	*
74f0b3eb154c 201024 hgs parents: diff changeset	16	*/
74f0b3eb154c 201024 hgs parents: diff changeset	17
74f0b3eb154c 201024 hgs parents: diff changeset	18
74f0b3eb154c 201024 hgs parents: diff changeset	19	/*
74f0b3eb154c 201024 hgs parents: diff changeset	20	This module provides a text (character) stream, pointers into the stream
74f0b3eb154c 201024 hgs parents: diff changeset	21	and operations on segments of the stream as though they were strings.
74f0b3eb154c 201024 hgs parents: diff changeset	22	The goal is to isolate the client from stream buffers, cross buffer
74f0b3eb154c 201024 hgs parents: diff changeset	23	issues and some character set encoding concerns.
74f0b3eb154c 201024 hgs parents: diff changeset	24
74f0b3eb154c 201024 hgs parents: diff changeset	25	This particular version is for input from a single buffer.
74f0b3eb154c 201024 hgs parents: diff changeset	26	*/
74f0b3eb154c 201024 hgs parents: diff changeset	27
74f0b3eb154c 201024 hgs parents: diff changeset	28	#include "cxml_internal.h"
74f0b3eb154c 201024 hgs parents: diff changeset	29	#include <xml/cxml/nw_string_char.h>
74f0b3eb154c 201024 hgs parents: diff changeset	30	#include <xml/cxml/nw_xmlp_xmlreader.h>
74f0b3eb154c 201024 hgs parents: diff changeset	31
74f0b3eb154c 201024 hgs parents: diff changeset	32	static
74f0b3eb154c 201024 hgs parents: diff changeset	33	NW_Status_t
74f0b3eb154c 201024 hgs parents: diff changeset	34	NW_XML_Reader_ReadAsciiChar(NW_Uint32 c, NW_Uint32* pReturnChar)
74f0b3eb154c 201024 hgs parents: diff changeset	35	{
74f0b3eb154c 201024 hgs parents: diff changeset	36	/* This looks a bit weird but the idea is to force the conversion
74f0b3eb154c 201024 hgs parents: diff changeset	37	of the ASCII character through the same function that is used
74f0b3eb154c 201024 hgs parents: diff changeset	38	to read a character from the text. This will impose the same conversion
74f0b3eb154c 201024 hgs parents: diff changeset	39	limitations and the same result encoding. */
74f0b3eb154c 201024 hgs parents: diff changeset	40	NW_Int32 byteCount;
74f0b3eb154c 201024 hgs parents: diff changeset	41	NW_Uint8 buf[2];
74f0b3eb154c 201024 hgs parents: diff changeset	42	NW_Ucs2 c_ucs2;
74f0b3eb154c 201024 hgs parents: diff changeset	43	buf[0] = (NW_Uint8)(c & 0xff);
74f0b3eb154c 201024 hgs parents: diff changeset	44	buf[1] = 0;
74f0b3eb154c 201024 hgs parents: diff changeset	45	/* should only use this function for ASCII */
74f0b3eb154c 201024 hgs parents: diff changeset	46	if (c > 127) {
74f0b3eb154c 201024 hgs parents: diff changeset	47	return NW_STAT_FAILURE;
74f0b3eb154c 201024 hgs parents: diff changeset	48	}
74f0b3eb154c 201024 hgs parents: diff changeset	49	/* call it UTF-8 because ASCII doesn't work with NW_String_readChar()
74f0b3eb154c 201024 hgs parents: diff changeset	50	at the moment */
74f0b3eb154c 201024 hgs parents: diff changeset	51	byteCount = NW_String_readChar((NW_Byte*)buf, &c_ucs2, HTTP_utf_8);
74f0b3eb154c 201024 hgs parents: diff changeset	52	if (byteCount != 1) {
74f0b3eb154c 201024 hgs parents: diff changeset	53	return NW_STAT_FAILURE;
74f0b3eb154c 201024 hgs parents: diff changeset	54	}
74f0b3eb154c 201024 hgs parents: diff changeset	55	*pReturnChar = c_ucs2;
74f0b3eb154c 201024 hgs parents: diff changeset	56	return NW_STAT_SUCCESS;
74f0b3eb154c 201024 hgs parents: diff changeset	57	}
74f0b3eb154c 201024 hgs parents: diff changeset	58
74f0b3eb154c 201024 hgs parents: diff changeset	59	/* assumes this is just a handoff of the buffer (i.e., won't make a copy) */
74f0b3eb154c 201024 hgs parents: diff changeset	60	EXPORT_C NW_Status_t
74f0b3eb154c 201024 hgs parents: diff changeset	61	NW_XML_Reader_InitFromBuffer(NW_XML_Reader_t* pT, NW_Uint32 length, unsigned char* pBuf)
74f0b3eb154c 201024 hgs parents: diff changeset	62	{
74f0b3eb154c 201024 hgs parents: diff changeset	63	pT->encoding = 0;
74f0b3eb154c 201024 hgs parents: diff changeset	64	pT->endianness = NW_NATIVE_ENDIAN;
74f0b3eb154c 201024 hgs parents: diff changeset	65	pT->index = 0;
74f0b3eb154c 201024 hgs parents: diff changeset	66	pT->charIndex = 0;
74f0b3eb154c 201024 hgs parents: diff changeset	67	pT->lineColumn.crCount = 0;
74f0b3eb154c 201024 hgs parents: diff changeset	68	pT->lineColumn.lfCount = 0;
74f0b3eb154c 201024 hgs parents: diff changeset	69	pT->lineColumn.charsSinceLastCR = 0;
74f0b3eb154c 201024 hgs parents: diff changeset	70	pT->lineColumn.charsSinceLastLF = 0;
74f0b3eb154c 201024 hgs parents: diff changeset	71	pT->end = 0;
74f0b3eb154c 201024 hgs parents: diff changeset	72	pT->length = length;
74f0b3eb154c 201024 hgs parents: diff changeset	73	pT->pBuf = pBuf;
74f0b3eb154c 201024 hgs parents: diff changeset	74	return NW_STAT_SUCCESS;
74f0b3eb154c 201024 hgs parents: diff changeset	75	}
74f0b3eb154c 201024 hgs parents: diff changeset	76
74f0b3eb154c 201024 hgs parents: diff changeset	77	EXPORT_C NW_Status_t
74f0b3eb154c 201024 hgs parents: diff changeset	78	NW_XML_Reader_DataAddressFromBuffer(NW_XML_Reader_t* pT,
74f0b3eb154c 201024 hgs parents: diff changeset	79	NW_Uint32 start, NW_Uint32* length,
74f0b3eb154c 201024 hgs parents: diff changeset	80	unsigned char** ppData)
74f0b3eb154c 201024 hgs parents: diff changeset	81	{
74f0b3eb154c 201024 hgs parents: diff changeset	82	NW_ASSERT(start < pT->length);
74f0b3eb154c 201024 hgs parents: diff changeset	83	NW_ASSERT(*length <= pT->length);
74f0b3eb154c 201024 hgs parents: diff changeset	84	NW_ASSERT((start + *length) <= pT->length);
74f0b3eb154c 201024 hgs parents: diff changeset	85	*ppData = NULL;
74f0b3eb154c 201024 hgs parents: diff changeset	86	if (start < pT->length) {
74f0b3eb154c 201024 hgs parents: diff changeset	87	*ppData = pT->pBuf + start;
74f0b3eb154c 201024 hgs parents: diff changeset	88	length = (((start + length) <= pT->length) ?
74f0b3eb154c 201024 hgs parents: diff changeset	89	*length : (pT->length - start));
74f0b3eb154c 201024 hgs parents: diff changeset	90	return NW_STAT_SUCCESS;
74f0b3eb154c 201024 hgs parents: diff changeset	91	}
74f0b3eb154c 201024 hgs parents: diff changeset	92	return NW_STAT_FAILURE;
74f0b3eb154c 201024 hgs parents: diff changeset	93	}
74f0b3eb154c 201024 hgs parents: diff changeset	94
74f0b3eb154c 201024 hgs parents: diff changeset	95	/* peekOrAdvance: first arg "advance": peek = 0, advance = 1 */
74f0b3eb154c 201024 hgs parents: diff changeset	96	static
74f0b3eb154c 201024 hgs parents: diff changeset	97	NW_Status_t
74f0b3eb154c 201024 hgs parents: diff changeset	98	NW_XML_Reader_PeekOrAdvanceOffset(NW_Bool advance, NW_XML_Reader_t* pT,
74f0b3eb154c 201024 hgs parents: diff changeset	99	NW_Uint32 offsetCharCount, NW_Uint32* pC)
74f0b3eb154c 201024 hgs parents: diff changeset	100	{
74f0b3eb154c 201024 hgs parents: diff changeset	101	NW_Ucs2 c_ucs2;
74f0b3eb154c 201024 hgs parents: diff changeset	102	NW_Uint32 i;
74f0b3eb154c 201024 hgs parents: diff changeset	103	NW_Uint32 charCount = 0;
74f0b3eb154c 201024 hgs parents: diff changeset	104	NW_Int32 byteCount = 0;
74f0b3eb154c 201024 hgs parents: diff changeset	105	NW_Uint32 crCount = 0;
74f0b3eb154c 201024 hgs parents: diff changeset	106	NW_Uint32 lfCount = 0;
74f0b3eb154c 201024 hgs parents: diff changeset	107	NW_Uint32 charsPastCR = 0;
74f0b3eb154c 201024 hgs parents: diff changeset	108	NW_Uint32 charsPastLF = 0;
74f0b3eb154c 201024 hgs parents: diff changeset	109	NW_Bool resetPastCR = 0;
74f0b3eb154c 201024 hgs parents: diff changeset	110	NW_Bool resetPastLF = 0;
74f0b3eb154c 201024 hgs parents: diff changeset	111
74f0b3eb154c 201024 hgs parents: diff changeset	112	NW_ASSERT(!(advance && !offsetCharCount));
74f0b3eb154c 201024 hgs parents: diff changeset	113
74f0b3eb154c 201024 hgs parents: diff changeset	114	if (pT->end) {
74f0b3eb154c 201024 hgs parents: diff changeset	115	return NW_STAT_FAILURE;
74f0b3eb154c 201024 hgs parents: diff changeset	116	}
74f0b3eb154c 201024 hgs parents: diff changeset	117	for (i = pT->index; i < pT->length; i += (NW_Uint32)byteCount) {
74f0b3eb154c 201024 hgs parents: diff changeset	118	NW_ASSERT(charCount <= offsetCharCount);
74f0b3eb154c 201024 hgs parents: diff changeset	119
74f0b3eb154c 201024 hgs parents: diff changeset	120	/* It is assumed that this func returns UNICODE code points. */
74f0b3eb154c 201024 hgs parents: diff changeset	121	byteCount = NW_String_readChar((NW_Byte*)&(pT->pBuf[i]),
74f0b3eb154c 201024 hgs parents: diff changeset	122	&c_ucs2, pT->encoding);
74f0b3eb154c 201024 hgs parents: diff changeset	123	*pC = c_ucs2;
74f0b3eb154c 201024 hgs parents: diff changeset	124	if (byteCount == -1) {
74f0b3eb154c 201024 hgs parents: diff changeset	125	return NW_STAT_FAILURE;
74f0b3eb154c 201024 hgs parents: diff changeset	126	}
74f0b3eb154c 201024 hgs parents: diff changeset	127	if (charCount == offsetCharCount) {
74f0b3eb154c 201024 hgs parents: diff changeset	128	/* This catches NW_String_readChar() reading past buffer end
74f0b3eb154c 201024 hgs parents: diff changeset	129	and can be removed when the readChar function does proper
74f0b3eb154c 201024 hgs parents: diff changeset	130	error checking. */
74f0b3eb154c 201024 hgs parents: diff changeset	131	if ((i + (NW_Uint32)byteCount) > pT->length) {
74f0b3eb154c 201024 hgs parents: diff changeset	132	return NW_STAT_FAILURE;
74f0b3eb154c 201024 hgs parents: diff changeset	133	}
74f0b3eb154c 201024 hgs parents: diff changeset	134	break;
74f0b3eb154c 201024 hgs parents: diff changeset	135	}
74f0b3eb154c 201024 hgs parents: diff changeset	136	charCount++;
74f0b3eb154c 201024 hgs parents: diff changeset	137	charsPastCR++;
74f0b3eb154c 201024 hgs parents: diff changeset	138	charsPastLF++;
74f0b3eb154c 201024 hgs parents: diff changeset	139	if (c_ucs2 == 0xd /* CR */) {
74f0b3eb154c 201024 hgs parents: diff changeset	140	crCount++;
74f0b3eb154c 201024 hgs parents: diff changeset	141	resetPastCR = 1;
74f0b3eb154c 201024 hgs parents: diff changeset	142	charsPastCR = 0;
74f0b3eb154c 201024 hgs parents: diff changeset	143	} else if (c_ucs2 == 0xa /* LF */) {
74f0b3eb154c 201024 hgs parents: diff changeset	144	lfCount++;
74f0b3eb154c 201024 hgs parents: diff changeset	145	resetPastLF = 1;
74f0b3eb154c 201024 hgs parents: diff changeset	146	charsPastLF = 0;
74f0b3eb154c 201024 hgs parents: diff changeset	147	}
74f0b3eb154c 201024 hgs parents: diff changeset	148	}
74f0b3eb154c 201024 hgs parents: diff changeset	149	if (i >= pT->length) {
74f0b3eb154c 201024 hgs parents: diff changeset	150	pT->end = 1;
74f0b3eb154c 201024 hgs parents: diff changeset	151	}
74f0b3eb154c 201024 hgs parents: diff changeset	152	/* This catches NW_String_readChar() reading past buffer end and can be
74f0b3eb154c 201024 hgs parents: diff changeset	153	removed when the readChar function does proper error checking. */
74f0b3eb154c 201024 hgs parents: diff changeset	154	if (i > pT->length) {
74f0b3eb154c 201024 hgs parents: diff changeset	155	return NW_STAT_FAILURE;
74f0b3eb154c 201024 hgs parents: diff changeset	156	}
74f0b3eb154c 201024 hgs parents: diff changeset	157	if (advance) {
74f0b3eb154c 201024 hgs parents: diff changeset	158	pT->index = i;
74f0b3eb154c 201024 hgs parents: diff changeset	159	pT->charIndex += charCount;
74f0b3eb154c 201024 hgs parents: diff changeset	160	pT->lineColumn.crCount += crCount;
74f0b3eb154c 201024 hgs parents: diff changeset	161	pT->lineColumn.lfCount += lfCount;
74f0b3eb154c 201024 hgs parents: diff changeset	162	if (resetPastCR) {
74f0b3eb154c 201024 hgs parents: diff changeset	163	pT->lineColumn.charsSinceLastCR = charsPastCR;
74f0b3eb154c 201024 hgs parents: diff changeset	164	} else {
74f0b3eb154c 201024 hgs parents: diff changeset	165	pT->lineColumn.charsSinceLastCR += charsPastCR;
74f0b3eb154c 201024 hgs parents: diff changeset	166	}
74f0b3eb154c 201024 hgs parents: diff changeset	167	if (resetPastLF) {
74f0b3eb154c 201024 hgs parents: diff changeset	168	pT->lineColumn.charsSinceLastLF = charsPastLF;
74f0b3eb154c 201024 hgs parents: diff changeset	169	} else {
74f0b3eb154c 201024 hgs parents: diff changeset	170	pT->lineColumn.charsSinceLastLF += charsPastLF;
74f0b3eb154c 201024 hgs parents: diff changeset	171	}
74f0b3eb154c 201024 hgs parents: diff changeset	172	}
74f0b3eb154c 201024 hgs parents: diff changeset	173	return NW_STAT_SUCCESS;
74f0b3eb154c 201024 hgs parents: diff changeset	174	}
74f0b3eb154c 201024 hgs parents: diff changeset	175
74f0b3eb154c 201024 hgs parents: diff changeset	176	EXPORT_C NW_Status_t
74f0b3eb154c 201024 hgs parents: diff changeset	177	NW_XML_Reader_PeekOffset(NW_XML_Reader_t* pT, NW_Uint32 nChars, NW_Uint32* pC)
74f0b3eb154c 201024 hgs parents: diff changeset	178	{
74f0b3eb154c 201024 hgs parents: diff changeset	179	return NW_XML_Reader_PeekOrAdvanceOffset(0, pT, nChars, pC);
74f0b3eb154c 201024 hgs parents: diff changeset	180	}
74f0b3eb154c 201024 hgs parents: diff changeset	181
74f0b3eb154c 201024 hgs parents: diff changeset	182	EXPORT_C NW_Status_t
74f0b3eb154c 201024 hgs parents: diff changeset	183	NW_XML_Reader_AdvanceOffset(NW_XML_Reader_t* pT, NW_Uint32 nChars)
74f0b3eb154c 201024 hgs parents: diff changeset	184	{
74f0b3eb154c 201024 hgs parents: diff changeset	185	NW_Uint32 c;
74f0b3eb154c 201024 hgs parents: diff changeset	186	return NW_XML_Reader_PeekOrAdvanceOffset(1, pT, nChars, &c);
74f0b3eb154c 201024 hgs parents: diff changeset	187	}
74f0b3eb154c 201024 hgs parents: diff changeset	188
74f0b3eb154c 201024 hgs parents: diff changeset	189	EXPORT_C
74f0b3eb154c 201024 hgs parents: diff changeset	190	void NW_XML_Reader_GetPosition(NW_XML_Reader_t* pT, NW_Uint32* pByteIndex,
74f0b3eb154c 201024 hgs parents: diff changeset	191	NW_Uint32* pCharIndex,
74f0b3eb154c 201024 hgs parents: diff changeset	192	NW_XML_Reader_LineColumn_t* pLineColumn)
74f0b3eb154c 201024 hgs parents: diff changeset	193	{
74f0b3eb154c 201024 hgs parents: diff changeset	194	*pByteIndex = pT->index;
74f0b3eb154c 201024 hgs parents: diff changeset	195	*pCharIndex = pT->charIndex;
74f0b3eb154c 201024 hgs parents: diff changeset	196	pLineColumn->crCount = pT->lineColumn.crCount;
74f0b3eb154c 201024 hgs parents: diff changeset	197	pLineColumn->lfCount = pT->lineColumn.lfCount;
74f0b3eb154c 201024 hgs parents: diff changeset	198	pLineColumn->charsSinceLastCR = pT->lineColumn.charsSinceLastCR;
74f0b3eb154c 201024 hgs parents: diff changeset	199	pLineColumn->charsSinceLastLF = pT->lineColumn.charsSinceLastLF;
74f0b3eb154c 201024 hgs parents: diff changeset	200	}
74f0b3eb154c 201024 hgs parents: diff changeset	201
74f0b3eb154c 201024 hgs parents: diff changeset	202	/* Note: Setting the position (similar to seeking in a file) is in general
74f0b3eb154c 201024 hgs parents: diff changeset	203	not possible without reading the characters (usually reading forward) because
74f0b3eb154c 201024 hgs parents: diff changeset	204	character encoding may use a variable numbers of bytes per character. This is
74f0b3eb154c 201024 hgs parents: diff changeset	205	here so that if you have defined a valid interval, then you can reposition to
74f0b3eb154c 201024 hgs parents: diff changeset	206	the beginning of the interval. Setting to the position to a bad value will
74f0b3eb154c 201024 hgs parents: diff changeset	207	not always be caught immediately. Don't forget to also save and set line
74f0b3eb154c 201024 hgs parents: diff changeset	208	and column with position. */
74f0b3eb154c 201024 hgs parents: diff changeset	209	EXPORT_C void
74f0b3eb154c 201024 hgs parents: diff changeset	210	NW_XML_Reader_SetPosition(NW_XML_Reader_t* pT, NW_Uint32 byteIndex,
74f0b3eb154c 201024 hgs parents: diff changeset	211	NW_Uint32 charIndex,
74f0b3eb154c 201024 hgs parents: diff changeset	212	const NW_XML_Reader_LineColumn_t* pLineColumn)
74f0b3eb154c 201024 hgs parents: diff changeset	213	{
74f0b3eb154c 201024 hgs parents: diff changeset	214	pT->index = byteIndex;
74f0b3eb154c 201024 hgs parents: diff changeset	215	pT->charIndex = charIndex;
74f0b3eb154c 201024 hgs parents: diff changeset	216	pT->lineColumn.crCount = pLineColumn->crCount;
74f0b3eb154c 201024 hgs parents: diff changeset	217	pT->lineColumn.lfCount = pLineColumn->lfCount;
74f0b3eb154c 201024 hgs parents: diff changeset	218	pT->lineColumn.charsSinceLastCR = pLineColumn->charsSinceLastCR;
74f0b3eb154c 201024 hgs parents: diff changeset	219	pT->lineColumn.charsSinceLastLF = pLineColumn->charsSinceLastLF;
74f0b3eb154c 201024 hgs parents: diff changeset	220	}
74f0b3eb154c 201024 hgs parents: diff changeset	221
74f0b3eb154c 201024 hgs parents: diff changeset	222	/*
74f0b3eb154c 201024 hgs parents: diff changeset	223	Reader Interval Functions
74f0b3eb154c 201024 hgs parents: diff changeset	224	*/
74f0b3eb154c 201024 hgs parents: diff changeset	225
74f0b3eb154c 201024 hgs parents: diff changeset	226	EXPORT_C void
74f0b3eb154c 201024 hgs parents: diff changeset	227	NW_XML_Reader_Interval_Start(NW_XML_Reader_Interval_t* pI, NW_XML_Reader_t* pT)
74f0b3eb154c 201024 hgs parents: diff changeset	228	{
74f0b3eb154c 201024 hgs parents: diff changeset	229	/* set both start and stop for safety in later use */
74f0b3eb154c 201024 hgs parents: diff changeset	230	pI->start = pI->stop = pT->index;
74f0b3eb154c 201024 hgs parents: diff changeset	231	pI->charStart = pI->charStop = pT->charIndex;
74f0b3eb154c 201024 hgs parents: diff changeset	232	}
74f0b3eb154c 201024 hgs parents: diff changeset	233
74f0b3eb154c 201024 hgs parents: diff changeset	234	EXPORT_C void
74f0b3eb154c 201024 hgs parents: diff changeset	235	NW_XML_Reader_Interval_Stop(NW_XML_Reader_Interval_t* pI, NW_XML_Reader_t* pT)
74f0b3eb154c 201024 hgs parents: diff changeset	236	{
74f0b3eb154c 201024 hgs parents: diff changeset	237	pI->stop = pT->index;
74f0b3eb154c 201024 hgs parents: diff changeset	238	pI->charStop = pT->charIndex;
74f0b3eb154c 201024 hgs parents: diff changeset	239	}
74f0b3eb154c 201024 hgs parents: diff changeset	240
74f0b3eb154c 201024 hgs parents: diff changeset	241	/* BEGIN GENERIC Reader CHARACTER AND STRING FUNCTIONS */
74f0b3eb154c 201024 hgs parents: diff changeset	242
74f0b3eb154c 201024 hgs parents: diff changeset	243	/* pMatch is 1 if ASCII character c matches Reader char in its encoding */
74f0b3eb154c 201024 hgs parents: diff changeset	244	EXPORT_C NW_Status_t
74f0b3eb154c 201024 hgs parents: diff changeset	245	NW_XML_Reader_AsciiCharMatch(NW_XML_Reader_t* pT, NW_Uint32 asciiC, NW_Uint32* pMatch)
74f0b3eb154c 201024 hgs parents: diff changeset	246	{
74f0b3eb154c 201024 hgs parents: diff changeset	247	NW_Uint32 c_text, c_ascii;
74f0b3eb154c 201024 hgs parents: diff changeset	248	NW_Status_t s = NW_XML_Reader_Peek(pT, &c_text);
74f0b3eb154c 201024 hgs parents: diff changeset	249	*pMatch = 0;
74f0b3eb154c 201024 hgs parents: diff changeset	250	if (NW_STAT_IS_SUCCESS(s)) {
74f0b3eb154c 201024 hgs parents: diff changeset	251	s = NW_XML_Reader_ReadAsciiChar(asciiC, &c_ascii);
74f0b3eb154c 201024 hgs parents: diff changeset	252	if (NW_STAT_IS_SUCCESS(s)) {
74f0b3eb154c 201024 hgs parents: diff changeset	253	*pMatch = (c_text == c_ascii);
74f0b3eb154c 201024 hgs parents: diff changeset	254	}
74f0b3eb154c 201024 hgs parents: diff changeset	255	}
74f0b3eb154c 201024 hgs parents: diff changeset	256	return s;
74f0b3eb154c 201024 hgs parents: diff changeset	257	}
74f0b3eb154c 201024 hgs parents: diff changeset	258
74f0b3eb154c 201024 hgs parents: diff changeset	259	/* pMatch is 1 if ASCII string matches Reader sequence in its encoding */
74f0b3eb154c 201024 hgs parents: diff changeset	260	EXPORT_C NW_Status_t
74f0b3eb154c 201024 hgs parents: diff changeset	261	NW_XML_Reader_AsciiStringMatch(NW_XML_Reader_t* pT, NW_Uint32 length, const NW_Uint8* pString,
74f0b3eb154c 201024 hgs parents: diff changeset	262	NW_Uint32* pMatch)
74f0b3eb154c 201024 hgs parents: diff changeset	263	{
74f0b3eb154c 201024 hgs parents: diff changeset	264	NW_Uint32 c_text, c_ascii;
74f0b3eb154c 201024 hgs parents: diff changeset	265	NW_Uint32 i;
74f0b3eb154c 201024 hgs parents: diff changeset	266	NW_Status_t s = NW_STAT_SUCCESS;
74f0b3eb154c 201024 hgs parents: diff changeset	267	*pMatch = 0;
74f0b3eb154c 201024 hgs parents: diff changeset	268	NW_ASSERT(length);
74f0b3eb154c 201024 hgs parents: diff changeset	269	for (i = 0; i < length; i++) {
74f0b3eb154c 201024 hgs parents: diff changeset	270	s = NW_XML_Reader_PeekOffset(pT, i, &c_text);
74f0b3eb154c 201024 hgs parents: diff changeset	271	if (NW_STAT_IS_FAILURE(s)) {
74f0b3eb154c 201024 hgs parents: diff changeset	272	break;
74f0b3eb154c 201024 hgs parents: diff changeset	273	}
74f0b3eb154c 201024 hgs parents: diff changeset	274	s = NW_XML_Reader_ReadAsciiChar(pString[i], &c_ascii);
74f0b3eb154c 201024 hgs parents: diff changeset	275	if (NW_STAT_IS_FAILURE(s)) {
74f0b3eb154c 201024 hgs parents: diff changeset	276	break;
74f0b3eb154c 201024 hgs parents: diff changeset	277	}
74f0b3eb154c 201024 hgs parents: diff changeset	278	if (c_text != c_ascii) {
74f0b3eb154c 201024 hgs parents: diff changeset	279	break;
74f0b3eb154c 201024 hgs parents: diff changeset	280	}
74f0b3eb154c 201024 hgs parents: diff changeset	281	}
74f0b3eb154c 201024 hgs parents: diff changeset	282	if (i == length) {
74f0b3eb154c 201024 hgs parents: diff changeset	283	*pMatch = 1;
74f0b3eb154c 201024 hgs parents: diff changeset	284	}
74f0b3eb154c 201024 hgs parents: diff changeset	285	return s;
74f0b3eb154c 201024 hgs parents: diff changeset	286	}
74f0b3eb154c 201024 hgs parents: diff changeset	287
74f0b3eb154c 201024 hgs parents: diff changeset	288	/* Note: For XML, whitespace is only ASCII 0x20 (space),
74f0b3eb154c 201024 hgs parents: diff changeset	289	0x09 (tab), 0x0d (CR), 0x0a (LF). The base test used here,
74f0b3eb154c 201024 hgs parents: diff changeset	290	CXML_Str_Isspace(), includes two other forms of whitespace. */
74f0b3eb154c 201024 hgs parents: diff changeset	291	EXPORT_C NW_Status_t
74f0b3eb154c 201024 hgs parents: diff changeset	292	NW_XML_Reader_SkipSpace(NW_XML_Reader_t* pT)
74f0b3eb154c 201024 hgs parents: diff changeset	293	{
74f0b3eb154c 201024 hgs parents: diff changeset	294	NW_Uint32 c;
74f0b3eb154c 201024 hgs parents: diff changeset	295	NW_Status_t s = NW_STAT_SUCCESS;
74f0b3eb154c 201024 hgs parents: diff changeset	296	for (;;) {
74f0b3eb154c 201024 hgs parents: diff changeset	297	s = NW_XML_Reader_Peek(pT, &c);
74f0b3eb154c 201024 hgs parents: diff changeset	298	if (NW_STAT_IS_FAILURE(s)) {
74f0b3eb154c 201024 hgs parents: diff changeset	299	break;
74f0b3eb154c 201024 hgs parents: diff changeset	300	}
74f0b3eb154c 201024 hgs parents: diff changeset	301	if (c > 0xffff) { /* validate casting */
74f0b3eb154c 201024 hgs parents: diff changeset	302	break;
74f0b3eb154c 201024 hgs parents: diff changeset	303	}
74f0b3eb154c 201024 hgs parents: diff changeset	304	if (!CXML_Str_Isspace((NW_Ucs2)(c & 0xffff))) {
74f0b3eb154c 201024 hgs parents: diff changeset	305	break;
74f0b3eb154c 201024 hgs parents: diff changeset	306	}
74f0b3eb154c 201024 hgs parents: diff changeset	307	s = NW_XML_Reader_Advance(pT);
74f0b3eb154c 201024 hgs parents: diff changeset	308	if (NW_STAT_IS_FAILURE(s)) {
74f0b3eb154c 201024 hgs parents: diff changeset	309	break;
74f0b3eb154c 201024 hgs parents: diff changeset	310	}
74f0b3eb154c 201024 hgs parents: diff changeset	311	if (pT->end){
74f0b3eb154c 201024 hgs parents: diff changeset	312	/* At the end so break */
74f0b3eb154c 201024 hgs parents: diff changeset	313	break;
74f0b3eb154c 201024 hgs parents: diff changeset	314	}
74f0b3eb154c 201024 hgs parents: diff changeset	315	}
74f0b3eb154c 201024 hgs parents: diff changeset	316	return s;
74f0b3eb154c 201024 hgs parents: diff changeset	317	}
74f0b3eb154c 201024 hgs parents: diff changeset	318
74f0b3eb154c 201024 hgs parents: diff changeset	319	/* Note: For XML, whitespace is only ASCII 0x20 (space),
74f0b3eb154c 201024 hgs parents: diff changeset	320	0x09 (tab), 0x0d (CR), 0x0a (LF). The base test used here,
74f0b3eb154c 201024 hgs parents: diff changeset	321	CXML_Str_Isspace(), includes two other forms of whitespace. */
74f0b3eb154c 201024 hgs parents: diff changeset	322	EXPORT_C NW_Status_t
74f0b3eb154c 201024 hgs parents: diff changeset	323	NW_XML_Reader_IsSpace(NW_XML_Reader_t* pT, NW_Uint32* pMatch)
74f0b3eb154c 201024 hgs parents: diff changeset	324	{
74f0b3eb154c 201024 hgs parents: diff changeset	325	NW_Uint32 c;
74f0b3eb154c 201024 hgs parents: diff changeset	326	NW_Status_t s;
74f0b3eb154c 201024 hgs parents: diff changeset	327
74f0b3eb154c 201024 hgs parents: diff changeset	328	*pMatch = 0;
74f0b3eb154c 201024 hgs parents: diff changeset	329	s = NW_XML_Reader_Peek(pT, &c);
74f0b3eb154c 201024 hgs parents: diff changeset	330	if (NW_STAT_IS_FAILURE(s)) {
74f0b3eb154c 201024 hgs parents: diff changeset	331	return s;
74f0b3eb154c 201024 hgs parents: diff changeset	332	}
74f0b3eb154c 201024 hgs parents: diff changeset	333	if (c > 0xffff) { /* validate casting */
74f0b3eb154c 201024 hgs parents: diff changeset	334	return NW_STAT_FAILURE;
74f0b3eb154c 201024 hgs parents: diff changeset	335	}
74f0b3eb154c 201024 hgs parents: diff changeset	336	if (CXML_Str_Isspace((NW_Ucs2)(c & 0xffff))) {
74f0b3eb154c 201024 hgs parents: diff changeset	337	*pMatch = 1;
74f0b3eb154c 201024 hgs parents: diff changeset	338	}
74f0b3eb154c 201024 hgs parents: diff changeset	339	return NW_STAT_SUCCESS;
74f0b3eb154c 201024 hgs parents: diff changeset	340	}
74f0b3eb154c 201024 hgs parents: diff changeset	341
74f0b3eb154c 201024 hgs parents: diff changeset	342	EXPORT_C NW_Status_t
74f0b3eb154c 201024 hgs parents: diff changeset	343	NW_XML_Reader_IsLetter(NW_XML_Reader_t* pT, NW_Uint32* pMatch)
74f0b3eb154c 201024 hgs parents: diff changeset	344	{
74f0b3eb154c 201024 hgs parents: diff changeset	345	NW_Uint32 c;
74f0b3eb154c 201024 hgs parents: diff changeset	346	NW_Status_t s;
74f0b3eb154c 201024 hgs parents: diff changeset	347
74f0b3eb154c 201024 hgs parents: diff changeset	348	*pMatch = 0;
74f0b3eb154c 201024 hgs parents: diff changeset	349	s = NW_XML_Reader_Peek(pT, &c);
74f0b3eb154c 201024 hgs parents: diff changeset	350	if (NW_STAT_IS_FAILURE(s)) {
74f0b3eb154c 201024 hgs parents: diff changeset	351	return s;
74f0b3eb154c 201024 hgs parents: diff changeset	352	}
74f0b3eb154c 201024 hgs parents: diff changeset	353	/* This is an approximation to what XML charaters are "letter".
74f0b3eb154c 201024 hgs parents: diff changeset	354	Everything above the 8-bit range is considered to be a "letter".*/
74f0b3eb154c 201024 hgs parents: diff changeset	355	if (c >= 0x41 && c <= 0x5a) {
74f0b3eb154c 201024 hgs parents: diff changeset	356	*pMatch = 1;
74f0b3eb154c 201024 hgs parents: diff changeset	357	}
74f0b3eb154c 201024 hgs parents: diff changeset	358	else if (c >= 0x61 && c <= 0x7a) {
74f0b3eb154c 201024 hgs parents: diff changeset	359	*pMatch = 1;
74f0b3eb154c 201024 hgs parents: diff changeset	360	}
74f0b3eb154c 201024 hgs parents: diff changeset	361	else if (c >= 0xc0 && c <= 0xd6) {
74f0b3eb154c 201024 hgs parents: diff changeset	362	*pMatch = 1;
74f0b3eb154c 201024 hgs parents: diff changeset	363	}
74f0b3eb154c 201024 hgs parents: diff changeset	364	else if (c >= 0xd8 && c <= 0xf6) {
74f0b3eb154c 201024 hgs parents: diff changeset	365	*pMatch = 1;
74f0b3eb154c 201024 hgs parents: diff changeset	366	}
74f0b3eb154c 201024 hgs parents: diff changeset	367	else if (c >= 0xf8) {/* letters become anything above 0xf8 */
74f0b3eb154c 201024 hgs parents: diff changeset	368	*pMatch = 1;
74f0b3eb154c 201024 hgs parents: diff changeset	369	}
74f0b3eb154c 201024 hgs parents: diff changeset	370	return NW_STAT_SUCCESS;
74f0b3eb154c 201024 hgs parents: diff changeset	371	}
74f0b3eb154c 201024 hgs parents: diff changeset	372
74f0b3eb154c 201024 hgs parents: diff changeset	373	/* Note: For XML, digits include not only the ASCII digits but
74f0b3eb154c 201024 hgs parents: diff changeset	374	other language forms of digits. The base test used here,
74f0b3eb154c 201024 hgs parents: diff changeset	375	CXML_Str_Isdigit() only tests for ASCII digits. */
74f0b3eb154c 201024 hgs parents: diff changeset	376	EXPORT_C NW_Status_t
74f0b3eb154c 201024 hgs parents: diff changeset	377	NW_XML_Reader_IsDigit(NW_XML_Reader_t* pT, NW_Uint32* pMatch)
74f0b3eb154c 201024 hgs parents: diff changeset	378	{
74f0b3eb154c 201024 hgs parents: diff changeset	379	NW_Uint32 c;
74f0b3eb154c 201024 hgs parents: diff changeset	380	NW_Status_t s;
74f0b3eb154c 201024 hgs parents: diff changeset	381
74f0b3eb154c 201024 hgs parents: diff changeset	382	*pMatch = 0;
74f0b3eb154c 201024 hgs parents: diff changeset	383	s = NW_XML_Reader_Peek(pT, &c);
74f0b3eb154c 201024 hgs parents: diff changeset	384	if (NW_STAT_IS_FAILURE(s)) {
74f0b3eb154c 201024 hgs parents: diff changeset	385	return s;
74f0b3eb154c 201024 hgs parents: diff changeset	386	}
74f0b3eb154c 201024 hgs parents: diff changeset	387	if (c > 0xffff) {/* validate casting */
74f0b3eb154c 201024 hgs parents: diff changeset	388	return NW_STAT_SUCCESS;
74f0b3eb154c 201024 hgs parents: diff changeset	389	}
74f0b3eb154c 201024 hgs parents: diff changeset	390	if (CXML_Str_Isdigit((NW_Ucs2)(c & 0xffff))) {
74f0b3eb154c 201024 hgs parents: diff changeset	391	*pMatch = 1;
74f0b3eb154c 201024 hgs parents: diff changeset	392	}
74f0b3eb154c 201024 hgs parents: diff changeset	393	return NW_STAT_SUCCESS;
74f0b3eb154c 201024 hgs parents: diff changeset	394	}
74f0b3eb154c 201024 hgs parents: diff changeset	395
74f0b3eb154c 201024 hgs parents: diff changeset	396	/* Returns an estimate of the current line and column position in the text.
74f0b3eb154c 201024 hgs parents: diff changeset	397	It is an estimate because it has to guess at what the intended line ending
74f0b3eb154c 201024 hgs parents: diff changeset	398	sequence is using a count of CR and LF characters. Line and Column indices
74f0b3eb154c 201024 hgs parents: diff changeset	399	are 1-based not 0-based. */
74f0b3eb154c 201024 hgs parents: diff changeset	400	EXPORT_C void
74f0b3eb154c 201024 hgs parents: diff changeset	401	NW_XML_Reader_GetLineColumn(NW_XML_Reader_t* pT, NW_Uint32* pLine,
74f0b3eb154c 201024 hgs parents: diff changeset	402	NW_Uint32* pColumn)
74f0b3eb154c 201024 hgs parents: diff changeset	403	{
74f0b3eb154c 201024 hgs parents: diff changeset	404	NW_Uint32 crCount, lfCount, charsSinceCR, charsSinceLF;
74f0b3eb154c 201024 hgs parents: diff changeset	405	crCount = pT->lineColumn.crCount;
74f0b3eb154c 201024 hgs parents: diff changeset	406	lfCount = pT->lineColumn.lfCount;
74f0b3eb154c 201024 hgs parents: diff changeset	407	charsSinceCR = pT->lineColumn.charsSinceLastCR;
74f0b3eb154c 201024 hgs parents: diff changeset	408	charsSinceLF = pT->lineColumn.charsSinceLastLF;
74f0b3eb154c 201024 hgs parents: diff changeset	409	if (crCount == lfCount) {
74f0b3eb154c 201024 hgs parents: diff changeset	410	/* assume CR, LF, DOS style */
74f0b3eb154c 201024 hgs parents: diff changeset	411	/* use a bias in favor of CR followed by LF
74f0b3eb154c 201024 hgs parents: diff changeset	412	which will give the correct column for DOS */
74f0b3eb154c 201024 hgs parents: diff changeset	413	*pLine = lfCount + 1;
74f0b3eb154c 201024 hgs parents: diff changeset	414	*pColumn = charsSinceLF + 1;
74f0b3eb154c 201024 hgs parents: diff changeset	415	} else if (lfCount == 0) {
74f0b3eb154c 201024 hgs parents: diff changeset	416	/* assume CR only, Unix style */
74f0b3eb154c 201024 hgs parents: diff changeset	417	*pLine = crCount + 1;
74f0b3eb154c 201024 hgs parents: diff changeset	418	*pColumn = charsSinceCR + 1;
74f0b3eb154c 201024 hgs parents: diff changeset	419	} else if (crCount == 0) {
74f0b3eb154c 201024 hgs parents: diff changeset	420	/* assume LF only, Mac style */
74f0b3eb154c 201024 hgs parents: diff changeset	421	*pLine = lfCount + 1;
74f0b3eb154c 201024 hgs parents: diff changeset	422	*pColumn = charsSinceLF + 1;
74f0b3eb154c 201024 hgs parents: diff changeset	423	} else {
74f0b3eb154c 201024 hgs parents: diff changeset	424	/* an unclear situation so use
74f0b3eb154c 201024 hgs parents: diff changeset	425	thresholds on the ratio to guess */
74f0b3eb154c 201024 hgs parents: diff changeset	426	NW_Uint32 ratio;
74f0b3eb154c 201024 hgs parents: diff changeset	427	ratio = ((crCount * 100) / lfCount);
74f0b3eb154c 201024 hgs parents: diff changeset	428	if (ratio > 300) {/* more than 3 to 1 crCount to lfCount */
74f0b3eb154c 201024 hgs parents: diff changeset	429	/* assume CR only, Unix style */
74f0b3eb154c 201024 hgs parents: diff changeset	430	*pLine = crCount + 1;
74f0b3eb154c 201024 hgs parents: diff changeset	431	*pColumn = charsSinceCR + 1;
74f0b3eb154c 201024 hgs parents: diff changeset	432	} else if (ratio < 33) {/* less than 1 to 3 crCount to lfCount */
74f0b3eb154c 201024 hgs parents: diff changeset	433	/* assume LF only, Mac style */
74f0b3eb154c 201024 hgs parents: diff changeset	434	*pLine = lfCount + 1;
74f0b3eb154c 201024 hgs parents: diff changeset	435	*pColumn = charsSinceLF + 1;
74f0b3eb154c 201024 hgs parents: diff changeset	436	} else {
74f0b3eb154c 201024 hgs parents: diff changeset	437	/* assume CR, LF, DOS style */
74f0b3eb154c 201024 hgs parents: diff changeset	438	/* use a bias in favor of CR, LF sequence (DOS style)
74f0b3eb154c 201024 hgs parents: diff changeset	439	which will give the correct column */
74f0b3eb154c 201024 hgs parents: diff changeset	440	*pLine = lfCount + 1;
74f0b3eb154c 201024 hgs parents: diff changeset	441	*pColumn = charsSinceLF + 1;
74f0b3eb154c 201024 hgs parents: diff changeset	442	}
74f0b3eb154c 201024 hgs parents: diff changeset	443	}
74f0b3eb154c 201024 hgs parents: diff changeset	444	}
74f0b3eb154c 201024 hgs parents: diff changeset	445

author	hgs
	Wed, 23 Jun 2010 20:27:15 +0530
changeset 24	74f0b3eb154c
permissions	-rw-r--r--