FCL/sf/mw/searchsrv: searchengine/oss/loc/analysis/inc/public/tinyanalysis.h@65456528cac2 (annotated)

24 65456528cac2 201041 hgs parents: diff changeset	1	/*
65456528cac2 201041 hgs parents: diff changeset	2	* Copyright (c) 2010 Nokia Corporation and/or its subsidiary(-ies).
65456528cac2 201041 hgs parents: diff changeset	3	* All rights reserved.
65456528cac2 201041 hgs parents: diff changeset	4	* This component and the accompanying materials are made available
65456528cac2 201041 hgs parents: diff changeset	5	* under the terms of "Eclipse Public License v1.0"
65456528cac2 201041 hgs parents: diff changeset	6	* which accompanies this distribution, and is available
65456528cac2 201041 hgs parents: diff changeset	7	* at the URL "http://www.eclipse.org/legal/epl-v10.html".
65456528cac2 201041 hgs parents: diff changeset	8	*
65456528cac2 201041 hgs parents: diff changeset	9	* Initial Contributors:
65456528cac2 201041 hgs parents: diff changeset	10	* Nokia Corporation - initial contribution.
65456528cac2 201041 hgs parents: diff changeset	11	*
65456528cac2 201041 hgs parents: diff changeset	12	* Contributors:
65456528cac2 201041 hgs parents: diff changeset	13	*
65456528cac2 201041 hgs parents: diff changeset	14	* Description:
65456528cac2 201041 hgs parents: diff changeset	15	*
65456528cac2 201041 hgs parents: diff changeset	16	*/
65456528cac2 201041 hgs parents: diff changeset	17
65456528cac2 201041 hgs parents: diff changeset	18	#ifndef TINYANALYSIS_H_
65456528cac2 201041 hgs parents: diff changeset	19	#define TINYANALYSIS_H_
65456528cac2 201041 hgs parents: diff changeset	20
65456528cac2 201041 hgs parents: diff changeset	21	#include <string>
65456528cac2 201041 hgs parents: diff changeset	22	#include <sstream>
65456528cac2 201041 hgs parents: diff changeset	23
65456528cac2 201041 hgs parents: diff changeset	24	#include "tinyutf16.h"
65456528cac2 201041 hgs parents: diff changeset	25	#include "wctype.h"
65456528cac2 201041 hgs parents: diff changeset	26
65456528cac2 201041 hgs parents: diff changeset	27	/*
65456528cac2 201041 hgs parents: diff changeset	28	* This file contains template based tokenization utilities. There
65456528cac2 201041 hgs parents: diff changeset	29	* are following rationales for this package:
65456528cac2 201041 hgs parents: diff changeset	30	*
65456528cac2 201041 hgs parents: diff changeset	31	* * More flexibility was needed for various CJK analyzers.
65456528cac2 201041 hgs parents: diff changeset	32	*
65456528cac2 201041 hgs parents: diff changeset	33	* -> CLucene tokenizers are difficult to make work
65456528cac2 201041 hgs parents: diff changeset	34	* together well. For example in practice you cannot using
65456528cac2 201041 hgs parents: diff changeset	35	* generic n-gram tokenizer for cjk and standard tokenizer
65456528cac2 201041 hgs parents: diff changeset	36	* for non-cjk. This cannot be done in CLucene without
65456528cac2 201041 hgs parents: diff changeset	37	* making it very, very heavy operation.
65456528cac2 201041 hgs parents: diff changeset	38	*
65456528cac2 201041 hgs parents: diff changeset	39	* * More flexibility was needed on the character reading level.
65456528cac2 201041 hgs parents: diff changeset	40	*
65456528cac2 201041 hgs parents: diff changeset	41	* * It is possible to encounter over unicodes that don't fit in
65456528cac2 201041 hgs parents: diff changeset	42	* 16 bit characters, when dealing with Chinese and Japanese.
65456528cac2 201041 hgs parents: diff changeset	43	* For this reason, reading CJK should be done in unicode mode
65456528cac2 201041 hgs parents: diff changeset	44	* instead of reading individual 16 bit codepoints.
65456528cac2 201041 hgs parents: diff changeset	45	*
65456528cac2 201041 hgs parents: diff changeset	46	* * Also with Korean, there is alphabetic (Hangul Jamu) and
65456528cac2 201041 hgs parents: diff changeset	47	* syllabic writing form (Hangul Syllables). Same text can be
65456528cac2 201041 hgs parents: diff changeset	48	* expressed in either of these forms. For good behavior (and
65456528cac2 201041 hgs parents: diff changeset	49	* some UX reasons), it was necessary to convert all encountered
65456528cac2 201041 hgs parents: diff changeset	50	* text into one of these forms, so that text written in Jamu
65456528cac2 201041 hgs parents: diff changeset	51	* could be found with Hangul Syllables and visa versa.
65456528cac2 201041 hgs parents: diff changeset	52	*
65456528cac2 201041 hgs parents: diff changeset	53	* This package fulfills both of these requirements in a very speed
65456528cac2 201041 hgs parents: diff changeset	54	* efficient way. Tokenizers can be easily combined to form a sort of
65456528cac2 201041 hgs parents: diff changeset	55	* 'aggregated tokenizer'. This kind of combination is supported by design
65456528cac2 201041 hgs parents: diff changeset	56	* and done with PairTokenizer class.
65456528cac2 201041 hgs parents: diff changeset	57	*
65456528cac2 201041 hgs parents: diff changeset	58	* The ability to switch the way text is read on fly is supported by
65456528cac2 201041 hgs parents: diff changeset	59	* having the reading done by rather abstract iterators.
65456528cac2 201041 hgs parents: diff changeset	60	*
65456528cac2 201041 hgs parents: diff changeset	61	* Performance is taken into account by having heavily used iterators
65456528cac2 201041 hgs parents: diff changeset	62	* resolved run-time by making it a template parameter. Lot of inlines
65456528cac2 201041 hgs parents: diff changeset	63	* are used, but perhaps biggest optimization of it all is that instead
65456528cac2 201041 hgs parents: diff changeset	64	* extracted tokens holding the string inside, tokenizers simply hold
65456528cac2 201041 hgs parents: diff changeset	65	* references (in a form of an iterator) into the original character
65456528cac2 201041 hgs parents: diff changeset	66	* buffer. So there is no heap usage, look-ups or string copying.
65456528cac2 201041 hgs parents: diff changeset	67	*
65456528cac2 201041 hgs parents: diff changeset	68	* NOTE: Iterators may be surprisingly big objects. While wchar_t*
65456528cac2 201041 hgs parents: diff changeset	69	* is only 4 bytes, e.g. HangulIterator<Utf16Iterator<ReaderBuffer<N>>>
65456528cac2 201041 hgs parents: diff changeset	70	* is already 24 bytes. This size could be reduced to 8 bytes, but
65456528cac2 201041 hgs parents: diff changeset	71	* it would bring performance implications. So copying of iterators
65456528cac2 201041 hgs parents: diff changeset	72	* may be expensive.
65456528cac2 201041 hgs parents: diff changeset	73	*
65456528cac2 201041 hgs parents: diff changeset	74	* The design shown in here is actually very nice, flexible, simplistic,
65456528cac2 201041 hgs parents: diff changeset	75	* fast and uses very little memory. The same design could be used
65456528cac2 201041 hgs parents: diff changeset	76	* e.g. for lexical analysis code.
65456528cac2 201041 hgs parents: diff changeset	77	*/
65456528cac2 201041 hgs parents: diff changeset	78
65456528cac2 201041 hgs parents: diff changeset	79	namespace lucene {
65456528cac2 201041 hgs parents: diff changeset	80	namespace analysis {
65456528cac2 201041 hgs parents: diff changeset	81	class Token;
65456528cac2 201041 hgs parents: diff changeset	82	}
65456528cac2 201041 hgs parents: diff changeset	83	}
65456528cac2 201041 hgs parents: diff changeset	84
65456528cac2 201041 hgs parents: diff changeset	85	namespace analysis {
65456528cac2 201041 hgs parents: diff changeset	86
65456528cac2 201041 hgs parents: diff changeset	87
65456528cac2 201041 hgs parents: diff changeset	88	namespace tiny {
65456528cac2 201041 hgs parents: diff changeset	89
65456528cac2 201041 hgs parents: diff changeset	90	/**
65456528cac2 201041 hgs parents: diff changeset	91	* Token is object, which identifies some sequence of characters in
65456528cac2 201041 hgs parents: diff changeset	92	* the original text stream. Holds iterator to the beginning of the
65456528cac2 201041 hgs parents: diff changeset	93	* token and holds information of the tokens length. The length
65456528cac2 201041 hgs parents: diff changeset	94	* is always the amount of unicode characters in the token.
65456528cac2 201041 hgs parents: diff changeset	95	*/
65456528cac2 201041 hgs parents: diff changeset	96	template <typename Iterator>
65456528cac2 201041 hgs parents: diff changeset	97	struct Token {
65456528cac2 201041 hgs parents: diff changeset	98
65456528cac2 201041 hgs parents: diff changeset	99	typedef RangeIterator<Iterator> iter;
65456528cac2 201041 hgs parents: diff changeset	100
65456528cac2 201041 hgs parents: diff changeset	101	Token() : begin_(), length_() {}
65456528cac2 201041 hgs parents: diff changeset	102	Token(Iterator& begin, int length) : begin_(begin), length_(length) {}
65456528cac2 201041 hgs parents: diff changeset	103
65456528cac2 201041 hgs parents: diff changeset	104	/** Length in unicode characters */
65456528cac2 201041 hgs parents: diff changeset	105	inline int length() { return length_; };
65456528cac2 201041 hgs parents: diff changeset	106
65456528cac2 201041 hgs parents: diff changeset	107	/** Gives iterator, that iterates over this token's characters */
65456528cac2 201041 hgs parents: diff changeset	108	iter iterator() {
65456528cac2 201041 hgs parents: diff changeset	109	return iter(begin_, length_);
65456528cac2 201041 hgs parents: diff changeset	110	}
65456528cac2 201041 hgs parents: diff changeset	111	/** Informs, whether this token is non-empty */
65456528cac2 201041 hgs parents: diff changeset	112	operator bool() {
65456528cac2 201041 hgs parents: diff changeset	113	return length_;
65456528cac2 201041 hgs parents: diff changeset	114	}
65456528cac2 201041 hgs parents: diff changeset	115	/** Text size in 16 bit codewords */
65456528cac2 201041 hgs parents: diff changeset	116	int utf16size() {
65456528cac2 201041 hgs parents: diff changeset	117	return analysis::tiny::utf16size(iterator());
65456528cac2 201041 hgs parents: diff changeset	118	}
65456528cac2 201041 hgs parents: diff changeset	119	/** Copy text as 16 bit codewords */
65456528cac2 201041 hgs parents: diff changeset	120	void utf16(wchar_t* buf) {
65456528cac2 201041 hgs parents: diff changeset	121	Utf16Writer<wchar_t*>(buf)<<iterator()<<L'\0';
65456528cac2 201041 hgs parents: diff changeset	122	}
65456528cac2 201041 hgs parents: diff changeset	123	/** Copy text as 16 bit codewords */
65456528cac2 201041 hgs parents: diff changeset	124	std::wstring utf16() {
65456528cac2 201041 hgs parents: diff changeset	125	return utf16str(iterator());
65456528cac2 201041 hgs parents: diff changeset	126	}
65456528cac2 201041 hgs parents: diff changeset	127	/** Copy this token content to the Clucene token.*/
65456528cac2 201041 hgs parents: diff changeset	128	void copyTo(lucene::analysis::Token* token);
65456528cac2 201041 hgs parents: diff changeset	129	private:
65456528cac2 201041 hgs parents: diff changeset	130	Iterator begin_;
65456528cac2 201041 hgs parents: diff changeset	131	int length_;
65456528cac2 201041 hgs parents: diff changeset	132	};
65456528cac2 201041 hgs parents: diff changeset	133
65456528cac2 201041 hgs parents: diff changeset	134	typedef int (*Acceptor)(int c);
65456528cac2 201041 hgs parents: diff changeset	135
65456528cac2 201041 hgs parents: diff changeset	136	/** Skips all characters, that are accepted by the acceptor */
65456528cac2 201041 hgs parents: diff changeset	137	template <class Iterator, typename Acceptor>
65456528cac2 201041 hgs parents: diff changeset	138	inline int skip(Iterator& i, Acceptor accept) {
65456528cac2 201041 hgs parents: diff changeset	139	int ret = 0;
65456528cac2 201041 hgs parents: diff changeset	140	while ( i && accept( i ) ) { ++i; ret++; }
65456528cac2 201041 hgs parents: diff changeset	141	return ret;
65456528cac2 201041 hgs parents: diff changeset	142	}
65456528cac2 201041 hgs parents: diff changeset	143
65456528cac2 201041 hgs parents: diff changeset	144	/** Skips all characters, that are not accepted by the acceptor */
65456528cac2 201041 hgs parents: diff changeset	145	template <class Iterator, typename Acceptor>
65456528cac2 201041 hgs parents: diff changeset	146	inline int skipbut(Iterator& i, Acceptor accept) {
65456528cac2 201041 hgs parents: diff changeset	147	int ret = 0;
65456528cac2 201041 hgs parents: diff changeset	148	while ( i && !accept( i ) ) { ++i; ret++; }
65456528cac2 201041 hgs parents: diff changeset	149	return ret;
65456528cac2 201041 hgs parents: diff changeset	150	}
65456528cac2 201041 hgs parents: diff changeset	151
65456528cac2 201041 hgs parents: diff changeset	152	/** Consumes a token consisting of all characters accepted by the acceptor */
65456528cac2 201041 hgs parents: diff changeset	153	template <class Iterator, typename Acceptor>
65456528cac2 201041 hgs parents: diff changeset	154	Token<Iterator> consume(Iterator& i, Acceptor accept) {
65456528cac2 201041 hgs parents: diff changeset	155	Iterator begin = i;
65456528cac2 201041 hgs parents: diff changeset	156	return Token<Iterator>( begin, skip(i, accept) );
65456528cac2 201041 hgs parents: diff changeset	157	}
65456528cac2 201041 hgs parents: diff changeset	158
65456528cac2 201041 hgs parents: diff changeset	159	/** Abstract base class for tokenizers */
65456528cac2 201041 hgs parents: diff changeset	160	template <class Iterator>
65456528cac2 201041 hgs parents: diff changeset	161	class Tokenizer {
65456528cac2 201041 hgs parents: diff changeset	162	public:
65456528cac2 201041 hgs parents: diff changeset	163	virtual void reset() {};
65456528cac2 201041 hgs parents: diff changeset	164	virtual Token<Iterator> consume(Iterator& i) = 0;
65456528cac2 201041 hgs parents: diff changeset	165	};
65456528cac2 201041 hgs parents: diff changeset	166
65456528cac2 201041 hgs parents: diff changeset	167	/** Consumes as accepted by the acceptor */
65456528cac2 201041 hgs parents: diff changeset	168	template <class Iterator>
65456528cac2 201041 hgs parents: diff changeset	169	class CustomTokenizer : public Tokenizer<Iterator> {
65456528cac2 201041 hgs parents: diff changeset	170	public:
65456528cac2 201041 hgs parents: diff changeset	171	CustomTokenizer(Acceptor accept) : accept_(accept) {}
65456528cac2 201041 hgs parents: diff changeset	172	Token<Iterator> consume(Iterator& i) {
65456528cac2 201041 hgs parents: diff changeset	173	return ::analysis::tiny::consume(i, accept_);
65456528cac2 201041 hgs parents: diff changeset	174	}
65456528cac2 201041 hgs parents: diff changeset	175	private:
65456528cac2 201041 hgs parents: diff changeset	176	Acceptor accept_;
65456528cac2 201041 hgs parents: diff changeset	177	};
65456528cac2 201041 hgs parents: diff changeset	178
65456528cac2 201041 hgs parents: diff changeset	179	/**
65456528cac2 201041 hgs parents: diff changeset	180	* NGram tokenizer. Tokenizers NGram from any character sequence accepted
65456528cac2 201041 hgs parents: diff changeset	181	* by acceptor. This class maintains internal state. It consumes either
65456528cac2 201041 hgs parents: diff changeset	182	* fully sized ngrams or entire word, if the word is smaller than defined
65456528cac2 201041 hgs parents: diff changeset	183	* ngram size.
65456528cac2 201041 hgs parents: diff changeset	184	*/
65456528cac2 201041 hgs parents: diff changeset	185	template <class Iterator>
65456528cac2 201041 hgs parents: diff changeset	186	class NGramTokenizer : public Tokenizer<Iterator> {
65456528cac2 201041 hgs parents: diff changeset	187	public:
65456528cac2 201041 hgs parents: diff changeset	188	NGramTokenizer(int size, Acceptor accept) : size_(size), accept_(accept), continue_(false) {}
65456528cac2 201041 hgs parents: diff changeset	189	NGramTokenizer(int size) : size_(size), accept_(&iswalpha) {}
65456528cac2 201041 hgs parents: diff changeset	190	void reset() { continue_ = false; }
65456528cac2 201041 hgs parents: diff changeset	191	Token<Iterator> consume(Iterator& i) {
65456528cac2 201041 hgs parents: diff changeset	192	if ( *i ) {
65456528cac2 201041 hgs parents: diff changeset	193	Iterator end = i;
65456528cac2 201041 hgs parents: diff changeset	194	int l = 0;
65456528cac2 201041 hgs parents: diff changeset	195	while (l < size_ && end && accept_( end )) { l++; ++end; }
65456528cac2 201041 hgs parents: diff changeset	196	if (l == size_ \|\| (!continue_ && l)) {
65456528cac2 201041 hgs parents: diff changeset	197	// properly sized token or whole word
65456528cac2 201041 hgs parents: diff changeset	198	Token<Iterator> t(i, l);
65456528cac2 201041 hgs parents: diff changeset	199	continue_ = true;
65456528cac2 201041 hgs parents: diff changeset	200	++i;
65456528cac2 201041 hgs parents: diff changeset	201	return t;
65456528cac2 201041 hgs parents: diff changeset	202	}
65456528cac2 201041 hgs parents: diff changeset	203	}
65456528cac2 201041 hgs parents: diff changeset	204	continue_ = false;
65456528cac2 201041 hgs parents: diff changeset	205	return Token<Iterator>(i, 0);
65456528cac2 201041 hgs parents: diff changeset	206	}
65456528cac2 201041 hgs parents: diff changeset	207	private:
65456528cac2 201041 hgs parents: diff changeset	208	int size_;
65456528cac2 201041 hgs parents: diff changeset	209	Acceptor accept_;
65456528cac2 201041 hgs parents: diff changeset	210	bool continue_;
65456528cac2 201041 hgs parents: diff changeset	211	};
65456528cac2 201041 hgs parents: diff changeset	212
65456528cac2 201041 hgs parents: diff changeset	213	/**
65456528cac2 201041 hgs parents: diff changeset	214	* Tokenizer, that returns ALWAYS a token, unless EOS is
65456528cac2 201041 hgs parents: diff changeset	215	* reached. If the tokenizer given to this tokenizer fails,
65456528cac2 201041 hgs parents: diff changeset	216	* relaxed tokenizer just moves one position further and
65456528cac2 201041 hgs parents: diff changeset	217	* tries again.
65456528cac2 201041 hgs parents: diff changeset	218	*/
65456528cac2 201041 hgs parents: diff changeset	219	template <typename I>
65456528cac2 201041 hgs parents: diff changeset	220	class RelaxedTokenizer : public Tokenizer<I> {
65456528cac2 201041 hgs parents: diff changeset	221	public:
65456528cac2 201041 hgs parents: diff changeset	222	/** Uses given tokenizer to extract tokens. */
65456528cac2 201041 hgs parents: diff changeset	223	RelaxedTokenizer(Tokenizer<I>& t) : t_(t) {}
65456528cac2 201041 hgs parents: diff changeset	224	void reset() {t_.reset();}
65456528cac2 201041 hgs parents: diff changeset	225	/**
65456528cac2 201041 hgs parents: diff changeset	226	* Always returns a token. If tokenization fails,
65456528cac2 201041 hgs parents: diff changeset	227	* moves forward a character and tries again.
65456528cac2 201041 hgs parents: diff changeset	228	*/
65456528cac2 201041 hgs parents: diff changeset	229	Token<I> consume(I& i) {
65456528cac2 201041 hgs parents: diff changeset	230	Token<I> t;
65456528cac2 201041 hgs parents: diff changeset	231	while (*i && !t) {
65456528cac2 201041 hgs parents: diff changeset	232	t = t_.consume(i);
65456528cac2 201041 hgs parents: diff changeset	233	if (!t) {
65456528cac2 201041 hgs parents: diff changeset	234	++i; t_.reset();
65456528cac2 201041 hgs parents: diff changeset	235	}
65456528cac2 201041 hgs parents: diff changeset	236	}
65456528cac2 201041 hgs parents: diff changeset	237	return t;
65456528cac2 201041 hgs parents: diff changeset	238	}
65456528cac2 201041 hgs parents: diff changeset	239	private:
65456528cac2 201041 hgs parents: diff changeset	240	Tokenizer<I>& t_;
65456528cac2 201041 hgs parents: diff changeset	241	};
65456528cac2 201041 hgs parents: diff changeset	242
65456528cac2 201041 hgs parents: diff changeset	243	/**
65456528cac2 201041 hgs parents: diff changeset	244	* Tries to first tokenize with the first tokenizer, but if it
65456528cac2 201041 hgs parents: diff changeset	245	* fails, the second tokenizer is tried. If first tokenizer fails,
65456528cac2 201041 hgs parents: diff changeset	246	* it is reset.
65456528cac2 201041 hgs parents: diff changeset	247	*/
65456528cac2 201041 hgs parents: diff changeset	248	template <typename I>
65456528cac2 201041 hgs parents: diff changeset	249	class PairTokenizer : public Tokenizer<I>{
65456528cac2 201041 hgs parents: diff changeset	250	public:
65456528cac2 201041 hgs parents: diff changeset	251	PairTokenizer(Tokenizer<I>& t1, Tokenizer<I>& t2) : t1_(t1), t2_(t2) {}
65456528cac2 201041 hgs parents: diff changeset	252	void reset() {
65456528cac2 201041 hgs parents: diff changeset	253	t1_.reset();
65456528cac2 201041 hgs parents: diff changeset	254	t2_.reset();
65456528cac2 201041 hgs parents: diff changeset	255	}
65456528cac2 201041 hgs parents: diff changeset	256	/**
65456528cac2 201041 hgs parents: diff changeset	257	* Attempts to tokenizer with first tokenizer, then
65456528cac2 201041 hgs parents: diff changeset	258	* with second. If both tokenizers fail, empty
65456528cac2 201041 hgs parents: diff changeset	259	* token is returned.
65456528cac2 201041 hgs parents: diff changeset	260	*/
65456528cac2 201041 hgs parents: diff changeset	261	Token<I> consume(I& i) {
65456528cac2 201041 hgs parents: diff changeset	262	Token<I> t( t1_.consume( i ) );
65456528cac2 201041 hgs parents: diff changeset	263	if ( !t ) {
65456528cac2 201041 hgs parents: diff changeset	264	t1_.reset();
65456528cac2 201041 hgs parents: diff changeset	265	t = t2_.consume( i );
65456528cac2 201041 hgs parents: diff changeset	266	}
65456528cac2 201041 hgs parents: diff changeset	267	return t;
65456528cac2 201041 hgs parents: diff changeset	268	}
65456528cac2 201041 hgs parents: diff changeset	269	private:
65456528cac2 201041 hgs parents: diff changeset	270	Tokenizer<I>& t1_;
65456528cac2 201041 hgs parents: diff changeset	271	Tokenizer<I>& t2_;
65456528cac2 201041 hgs parents: diff changeset	272	};
65456528cac2 201041 hgs parents: diff changeset	273
65456528cac2 201041 hgs parents: diff changeset	274	}
65456528cac2 201041 hgs parents: diff changeset	275
65456528cac2 201041 hgs parents: diff changeset	276	}
65456528cac2 201041 hgs parents: diff changeset	277
65456528cac2 201041 hgs parents: diff changeset	278	#endif /* TINYTOKENIZER_H_ */

author	hgs
	Fri, 15 Oct 2010 12:09:28 +0530
changeset 24	65456528cac2
permissions	-rw-r--r--