public final class UCharacter
extends Object
implements UCharacterEnums.ECharacterCategory, UCharacterEnums.ECharacterDirection
java.lang.Object | |
↳ | android.icu.lang.UCharacter |
[icu增强] ICU的替代Character
。 ICU特有的方法,字段和其他功能标记为“ [icu] ”。
该UCharacter类提供扩展到Character
类。 这些扩展提供对更多Unicode属性的支持。 每个ICU版本都支持当时可用的最新Unicode版本。
在Java 5添加对补充Unicode代码点的支持之前一段时间,ICU UCharacter类和许多其他ICU类已经支持它们。 一些UCharacter方法和常量与稍后扩展Character类方法和常量的方式略有不同。 特别是, MAX_VALUE
仍然是值为U + FFFF的字符,而MAX_VALUE
是值为U + 10FFFF的整数。
代码点使用整数在这些API中表示。 虽然在Java中为它们设置一个单独的基本数据类型会更方便,但是与此同时ints已经足够了。
除了支持UTF-16以及更新的Unicode属性之外,UCharacter和Character之间的主要区别是:
除了计算派生属性的Java兼容性函数以外,此API还提供对Unicode字符数据库的低级访问。
Unicode为许多属性分配每个代码点(不只是指定的字符)值。 它们大多数是简单的布尔标志,或者来自一个小枚举列表的常量。 对于某些属性,值是字符串或其他相对较复杂的类型。
欲了解更多信息,请参阅 "About the Unicode Character Database" (http://www.unicode.org/ucd/)和 ICU User Guide chapter on Properties (http://www.icu-project.org/userguide/properties.html)。
还有一些函数提供了从C / POSIX函数(如isblank())轻松迁移的功能。 通常不鼓励使用它们,因为C / POSIX标准没有定义超出ASCII范围的语义,这意味着不同的实现会表现出非常不同的行为。 相反,应该直接使用Unicode属性。
也只有少数C / POSIX字符类,它们倾向于用于冲突的目的。 例如,“isalpha()”类有时用于确定单词边界,而更复杂的方法至少可以区分连续字符的初始字母(后者包括组合标记)。 (在ICU中,BreakIterator是用于词边界的最复杂的API。)另一个示例:对于titlecase字符没有“istitle()”类。
ICU 3.4及更高版本为所有12个C / POSIX字符类提供API访问。 ICU根据附件C:UTS#18 Unicode正则表达式的兼容性属性(http://www.unicode.org/reports/tr18/#Compatibility_Properties)中的标准建议实施它们。
C / POSIX字符类的API访问如下:
- alpha: isUAlphabetic(c) or hasBinaryProperty(c, UProperty.ALPHABETIC)
- lower: isULowercase(c) or hasBinaryProperty(c, UProperty.LOWERCASE)
- upper: isUUppercase(c) or hasBinaryProperty(c, UProperty.UPPERCASE)
- punct: ((1<<getType(c)) & ((1<<DASH_PUNCTUATION)|(1<<START_PUNCTUATION)|
(1<<END_PUNCTUATION)|(1<<CONNECTOR_PUNCTUATION)|(1<<OTHER_PUNCTUATION)|
(1<<INITIAL_PUNCTUATION)|(1<<FINAL_PUNCTUATION)))!=0
- digit: isDigit(c) or getType(c)==DECIMAL_DIGIT_NUMBER
- xdigit: hasBinaryProperty(c, UProperty.POSIX_XDIGIT)
- alnum: hasBinaryProperty(c, UProperty.POSIX_ALNUM)
- space: isUWhiteSpace(c) or hasBinaryProperty(c, UProperty.WHITE_SPACE)
- blank: hasBinaryProperty(c, UProperty.POSIX_BLANK)
- cntrl: getType(c)==CONTROL
- graph: hasBinaryProperty(c, UProperty.POSIX_GRAPH)
- print: hasBinaryProperty(c, UProperty.POSIX_PRINT)
C / POSIX字符类也可用UnicodeSet模式提供,使用类似[:graph:]或\ p {graph}的模式。
[icu] Note: There are several ICU (and Java) whitespace functions. Comparison:这个类不是可分类的。
也可以看看:
Nested classes |
|
---|---|
interface |
UCharacter.BidiPairedBracketType 双向成对括号类型常量。 |
interface |
UCharacter.DecompositionType 分解类型常量。 |
interface |
UCharacter.EastAsianWidth 东亚宽度常数。 |
interface |
UCharacter.GraphemeClusterBreak 字形聚类断裂常数。 |
interface |
UCharacter.HangulSyllableType Hangul Syllable Type常量。 |
interface |
UCharacter.JoiningGroup 加入组常量。 |
interface |
UCharacter.JoiningType 加入类型常量。 |
interface |
UCharacter.LineBreak 行间断常量。 |
interface |
UCharacter.NumericType 数字类型常量。 |
interface |
UCharacter.SentenceBreak 句子中断常量。 |
class |
UCharacter.UnicodeBlock [icu增强] ICU更换为 |
interface |
UCharacter.WordBreak 字间断常量。 |
Constants |
|
---|---|
int |
FOLD_CASE_DEFAULT [icu]大小写折叠的选项值:使用CaseFolding.txt中定义的默认映射。 |
int |
FOLD_CASE_EXCLUDE_SPECIAL_I [icu]大小写折叠的选项值:使用CaseFolding.txt中提供的已修改的一组映射来处理突变I和无缝i,适用于突厥语言(tr,az)。 |
int |
MAX_CODE_POINT 常量U + 10FFFF,与 |
char |
MAX_HIGH_SURROGATE 常量U + DBFF,与 |
char |
MAX_LOW_SURROGATE 常量U + DFFF,与 |
int |
MAX_RADIX Java Character MAX_RADIX的兼容性常量。 |
char |
MAX_SURROGATE 常量U + DFFF,与 |
int |
MAX_VALUE Unicode代码点值(标量值)最高,常量U + 10FFFF(使用21位)。 |
int |
MIN_CODE_POINT 常量U + 0000,与 |
char |
MIN_HIGH_SURROGATE 常量U + D800,与 |
char |
MIN_LOW_SURROGATE 常量U + DC00,与 |
int |
MIN_RADIX Java Character的MIN_RADIX的兼容性常量。 |
int |
MIN_SUPPLEMENTARY_CODE_POINT 常量U + 10000,与 |
char |
MIN_SURROGATE 常量U + D800,与 |
int |
MIN_VALUE 最低的Unicode代码点值,常量0。 |
double |
NO_NUMERIC_VALUE 当代码点未定义数值时,由getUnicodeNumericValue(int)返回的特殊值。 |
int |
REPLACEMENT_CHAR 在转换为Unicode编码格式时使用Unicode值,并且不存在现有字符。 |
int |
SUPPLEMENTARY_MIN_VALUE 补充码点的最小值,常数U + 10000。 |
int |
TITLECASE_NO_BREAK_ADJUSTMENT 不要调整BreakIterator :: next()索引中的titlecasing索引; 将恰好从迭代器中断的字符进行标识。 |
int |
TITLECASE_NO_LOWERCASE 在拼写时不要小写字母的非最初部分。 |
Inherited constants |
---|
From interface android.icu.lang.UCharacterEnums.ECharacterCategory
|
From interface android.icu.lang.UCharacterEnums.ECharacterDirection
|
Public methods |
|
---|---|
static int |
charCount(int cp) 与 |
static final int |
codePointAt(char[] text, int index, int limit) |
static final int |
codePointAt(char[] text, int index) |
static final int |
codePointAt(CharSequence seq, int index) |
static final int |
codePointBefore(char[] text, int index) |
static final int |
codePointBefore(CharSequence seq, int index) |
static final int |
codePointBefore(char[] text, int index, int limit) |
static int |
codePointCount(CharSequence text, int start, int limit) 相当于 |
static int |
codePointCount(char[] text, int start, int limit) 等同于 |
static int |
digit(int ch) 返回小数点代码点的数值。 |
static int |
digit(int ch, int radix) 返回小数点代码点的数值。 |
static String |
foldCase(String str, boolean defaultmapping) [icu]根据UnicodeData.txt和CaseFolding.txt将给定的字符串映射到其大小写折叠等价物; 如果任何字符没有相同的大小写,则返回字符本身。 |
static int |
foldCase(int ch, boolean defaultmapping) [icu]根据UnicodeData.txt和CaseFolding.txt将给定字符映射到其等效折叠等价物; 如果角色没有相同的大小写,则返回角色本身。 |
static int |
foldCase(int ch, int options) [icu]根据UnicodeData.txt和CaseFolding.txt将给定字符映射到其等效折叠等价物; 如果角色没有相同的大小写,则返回角色本身。 |
static final String |
foldCase(String str, int options) [icu]根据UnicodeData.txt和CaseFolding.txt将给定的字符串映射到其大小写折叠等价物; 如果任何字符没有相同的大小写,则返回字符本身。 |
static char |
forDigit(int digit, int radix) 为了方便,提供java.lang.Character forDigit API。 |
static VersionInfo |
getAge(int ch) [icu]返回代码点的“年龄”。 |
static int |
getBidiPairedBracket(int c) [icu]将指定的字符映射到其配对的括号字符。 |
static int |
getCharFromExtendedName(String name) [ICU] 按其名称查找Unicode字符并返回其代码点值。 |
static int |
getCharFromName(String name) [ICU] 按最新的Unicode名称查找Unicode代码点并返回其代码点值。 |
static int |
getCharFromNameAlias(String name) [ICU] 通过更正的名称别名查找Unicode字符并返回其代码点值。 |
static int |
getCodePoint(char char16) [icu]返回与BMP代码点对应的代码点。 |
static int |
getCodePoint(char lead, char trail) [icu]返回与两个替代代码单元对应的代码点。 |
static int |
getCombiningClass(int ch) [icu]返回参数代码点的组合类 |
static int |
getDirection(int ch) [icu]返回代码点的双向属性。 |
static byte |
getDirectionality(int cp) 等同于 |
static String |
getExtendedName(int ch) [icu]返回有效代码点的名称。 |
static ValueIterator |
getExtendedNameIterator() [ICU] 返回字符名称的迭代器,迭代代码点。 |
static int |
getHanNumericValue(int ch) [icu]返回汉字的数值。 |
static int |
getIntPropertyMaxValue(int type) [icu]返回整数/二进制Unicode属性的最大值。 |
static int |
getIntPropertyMinValue(int type) [icu]返回整数/二进制Unicode属性类型的最小值。 |
static int |
getIntPropertyValue(int ch, int type) [ICU] 返回代码点的Unicode属性类型的属性值。 |
static int |
getMirror(int ch) [icu]将指定的代码点映射到“镜像”代码点。 |
static String |
getName(int ch) [icu]返回参数代码点的最新Unicode名称,如果未分配字符或超出范围UCharacter.MIN_VALUE和UCharacter.MAX_VALUE或没有名称,则返回null。 |
static String |
getName(String s, String separator) [icu]返回字符串中每个字符的名称 |
static String |
getNameAlias(int ch) [icu]从NameAliases.txt返回已更正的名称(如果有)。 |
static ValueIterator |
getNameIterator() [ICU] 返回字符名称的迭代器,迭代代码点。 |
static int |
getNumericValue(int ch) 以非负整数形式返回代码点的数值。 |
static int |
getPropertyEnum(CharSequence propertyAlias) [icu]按照Unicode数据库文件PropertyAliases.txt中的规定,返回给定属性名称的UProperty选择器。 |
static String |
getPropertyName(int property, int nameChoice) [icu]返回Unicode数据库文件PropertyAliases.txt中给定属性的Unicode名称。 |
static int |
getPropertyValueEnum(int property, CharSequence valueAlias) [icu]按照Unicode数据库文件PropertyValueAliases.txt中的指定,返回给定值名称的属性值integer。 |
static String |
getPropertyValueName(int property, int value, int nameChoice) [icu]返回给定属性值的Unicode名称,如Unicode数据库文件PropertyValueAliases.txt中给出的。 |
static int |
getType(int ch) 返回一个指示代码点的Unicode类别的值。 |
static RangeValueIterator |
getTypeIterator() [ICU] 返回字符类型的迭代器,迭代代码点。 |
static double |
getUnicodeNumericValue(int ch) [icu]返回Unicode字符数据库中定义的Unicode代码点的数字值。 |
static VersionInfo |
getUnicodeVersion() [icu]返回使用的Unicode数据的版本。 |
static boolean |
hasBinaryProperty(int ch, int property) [ICU] 检查代码点的二进制Unicode属性。 |
static boolean |
isBMP(int ch) [icu]确定代码点是否在BMP平面中。 |
static boolean |
isBaseForm(int ch) [icu]确定指定的代码点是否为基本形式。 |
static boolean |
isDefined(int ch) 确定代码点在最新的Unicode标准中是否具有定义的含义。 |
static boolean |
isDigit(int ch) 确定代码点是否是Java数字。 |
static boolean |
isHighSurrogate(char ch) |
static boolean |
isISOControl(int ch) 确定指定的代码点是否为ISO控制字符。 |
static boolean |
isIdentifierIgnorable(int ch) 确定是否应将指定的代码点视为Java标识符中的可忽略字符。 |
static boolean |
isJavaIdentifierPart(int cp) Java方法的兼容性覆盖,委托给java.lang.Character.isJavaIdentifierPart。 |
static boolean |
isJavaIdentifierStart(int cp) Java方法的兼容性覆盖,委托给java.lang.Character.isJavaIdentifierStart。 |
static boolean |
isLegal(int ch) [icu]代码点是非法的,当且仅当
|
static boolean |
isLegal(String str) [icu]如果所有代码点都合法,则字符串是合法的。 |
static boolean |
isLetter(int ch) 确定指定的代码点是否是字母。 |
static boolean |
isLetterOrDigit(int ch) 确定指定的代码点是字母还是数字。 |
static boolean |
isLowSurrogate(char ch) 与 |
static boolean |
isLowerCase(int ch) 确定指定的代码点是否为小写字符。 |
static boolean |
isMirrored(int ch) 确定代码点是否具有“镜像”属性。 |
static boolean |
isPrintable(int ch) [icu]根据Unicode标准确定指定的代码点是否为可打印字符。 |
static boolean |
isSpaceChar(int ch) 确定指定的代码点是否是Unicode指定的空格字符,即 |
static boolean |
isSupplementary(int ch) [icu]确定代码点是否为补充字符。 |
static final boolean |
isSupplementaryCodePoint(int cp) |
static final boolean |
isSurrogatePair(char high, char low) |
static boolean |
isTitleCase(int ch) 确定指定的代码点是否是标题字符。 |
static boolean |
isUAlphabetic(int ch) [ICU] 检查代码点是否具有字母Unicode属性。 |
static boolean |
isULowercase(int ch) [ICU] 检查代码点是否具有小写Unicode属性。 |
static boolean |
isUUppercase(int ch) [ICU] 检查代码点是否具有大写Unicode属性。 |
static boolean |
isUWhiteSpace(int ch) [ICU] 检查代码点是否具有White_Space Unicode属性。 |
static boolean |
isUnicodeIdentifierPart(int ch) 确定指定的代码点是否可以是除起始字符之外的Unicode标识符的任何部分。 |
static boolean |
isUnicodeIdentifierStart(int ch) 确定是否允许指定的代码点作为Unicode标识符中的第一个字符。 |
static boolean |
isUpperCase(int ch) 确定指定的代码点是否为大写字符。 |
static final boolean |
isValidCodePoint(int cp) 相当于 |
static boolean |
isWhitespace(int ch) 确定指定的代码点是否为空白字符。 |
static int |
offsetByCodePoints(CharSequence text, int index, int codePointOffset) 相当于 |
static int |
offsetByCodePoints(char[] text, int start, int count, int index, int codePointOffset) 相当于 |
static final int |
toChars(int cp, char[] dst, int dstIndex) |
static final char[] |
toChars(int cp) 与 |
static final int |
toCodePoint(char high, char low) |
static String |
toLowerCase(String str) 返回参数字符串的小写版本。 |
static int |
toLowerCase(int ch) 给定的代码点被映射到它的小写等价物; 如果代码点没有小写字母,则返回代码点本身。 |
static String |
toLowerCase(ULocale locale, String str) 返回参数字符串的小写版本。 |
static String |
toLowerCase(Locale locale, String str) 返回参数字符串的小写版本。 |
static String |
toString(int ch) 转换参数代码点并返回一个表示UTF-16格式的代码点值的String对象。 |
static String |
toTitleCase(Locale locale, String str, BreakIterator titleIter, int options) [ICU] 返回参数字符串的标题版本。 |
static String |
toTitleCase(ULocale locale, String str, BreakIterator titleIter) 返回参数字符串的标题版本。 |
static String |
toTitleCase(String str, BreakIterator breakiter) 返回参数字符串的标题版本。 |
static String |
toTitleCase(ULocale locale, String str, BreakIterator titleIter, int options) 返回参数字符串的标题版本。 |
static String |
toTitleCase(Locale locale, String str, BreakIterator breakiter) 返回参数字符串的标题版本。 |
static int |
toTitleCase(int ch) 将代码点参数转换为titlecase。 |
static String |
toUpperCase(Locale locale, String str) 返回参数字符串的大写版本。 |
static String |
toUpperCase(ULocale locale, String str) 返回参数字符串的大写版本。 |
static int |
toUpperCase(int ch) 将字符参数转换为大写。 |
static String |
toUpperCase(String str) 返回参数字符串的大写版本。 |
Inherited methods |
|
---|---|
From class java.lang.Object
|
int FOLD_CASE_DEFAULT
[icu]大小写折叠的选项值:使用CaseFolding.txt中定义的默认映射。
常量值:0(0x00000000)
int FOLD_CASE_EXCLUDE_SPECIAL_I
[icu]大小写折叠的选项值:使用CaseFolding.txt中提供的已修改的一组映射来处理突变I和无缝i,适用于突厥语言(tr,az)。
在Unicode 3.2之前,CaseFolding.txt包含标记为'I'的映射,这些映射将包含在默认映射中,并排除在突厥语特定映射之外。
Unicode 3.2 CaseFolding.txt反而包含用'T'标记的映射,这些映射将被排除在默认映射之外,并且包含在Turkic特定的映射中。
常数值:1(0x00000001)
int MAX_CODE_POINT
常量U + 10FFFF,与 MAX_CODE_POINT
相同。
常量值:1114111(0x0010ffff)
char MAX_HIGH_SURROGATE
常量U + DBFF,与 MAX_HIGH_SURROGATE
相同。
常量值:56319(0x0000dbff)
char MAX_LOW_SURROGATE
常数U + DFFF,与 MAX_LOW_SURROGATE
相同。
常量值:57343(0x0000dfff)
char MAX_SURROGATE
常量U + DFFF,与 MAX_SURROGATE
相同。
常量值:57343(0x0000dfff)
int MAX_VALUE
Unicode代码点值(标量值)最高,常量U + 10FFFF(使用21位)。 与MAX_CODE_POINT
相同。
最新的Unicode实现 MAX_VALUE
,它仍然是一个值为U + FFFF的字符。
常量值:1114111(0x0010ffff)
int MIN_CODE_POINT
常数U + 0000,与 MIN_CODE_POINT
相同。
常量值:0(0x00000000)
char MIN_HIGH_SURROGATE
常数U + D800,与 MIN_HIGH_SURROGATE
相同。
常量值:55296(0x0000d800)
char MIN_LOW_SURROGATE
常量U + DC00,与 MIN_LOW_SURROGATE
相同。
常量值:56320(0x0000dc00)
int MIN_SUPPLEMENTARY_CODE_POINT
常量U + 10000,与 MIN_SUPPLEMENTARY_CODE_POINT
相同。
常量值:65536(0x00010000)
char MIN_SURROGATE
常量U + D800,与 MIN_SURROGATE
相同。
常量值:55296(0x0000d800)
int MIN_VALUE
最低Unicode代码点值,常数0同 MIN_CODE_POINT
,相同的整数值作为 MIN_VALUE
。
常量值:0(0x00000000)
double NO_NUMERIC_VALUE
当代码点未定义数值时,由getUnicodeNumericValue(int)返回的特殊值。
也可以看看:
常量值:-1.23456789E8
int REPLACEMENT_CHAR
在转换为Unicode编码格式时使用Unicode值,并且不存在现有字符。
常量值:65533(0x0000fffd)
int SUPPLEMENTARY_MIN_VALUE
补充码点的最小值,常数U + 10000。 与MIN_SUPPLEMENTARY_CODE_POINT
相同。
常量值:65536(0x00010000)
int TITLECASE_NO_BREAK_ADJUSTMENT
不要调整BreakIterator :: next()索引中的titlecasing索引; 将恰好从迭代器中断的字符进行标识。 选项位用于评估设置选项位的API。 默认情况下,titlecasing将获取每个中断迭代器索引,通过查找下一个套用字符进行调整,并对其进行标记。 其他字符是小写字母。 这遵循Unicode 4和5部分3.13默认情况下的操作:R3 toTitlecase(X):根据Unicode标准附件#29“文本边界”查找单词边界。 在每对字边界之间,找到第一个装入字符的字符F.如果F存在,则将F映射到default_title(F); 然后将每个后续字符C映射到default_lower(C)。
常量值:512(0x00000200)
int TITLECASE_NO_LOWERCASE
在拼写时不要小写字母的非最初部分。 选项位用于评估设置选项位的API。 默认情况下,titlecasing会将首字母的第一个字符和小写字母标记为其他字符。 使用此选项,其他字符将不会被修改。
常量值:256(0x00000100)
int charCount (int cp)
与charCount(int)
相同。 返回表示代码点(1或2)所需的字符数。 这不会检查代码点的有效性。
Parameters | |
---|---|
cp |
int : the code point to check |
Returns | |
---|---|
int |
the number of chars needed to represent the code point |
int codePointAt (char[] text, int index, int limit)
与codePointAt(char[], int, int)
相同。 返回索引处的代码点。 这仅检查索引和索引+ 1处的字符。
Parameters | |
---|---|
text |
char : the characters to check |
index |
int : the index of the first or only char forming the code point |
limit |
int : the limit of the valid text |
Returns | |
---|---|
int |
the code point at the index |
int codePointAt (char[] text, int index)
与codePointAt(char[], int)
相同。 返回索引处的代码点。 这仅检查索引和索引+ 1处的字符。
Parameters | |
---|---|
text |
char : the characters to check |
index |
int : the index of the first or only char forming the code point |
Returns | |
---|---|
int |
the code point at the index |
int codePointAt (CharSequence seq, int index)
与codePointAt(CharSequence, int)
相同。 返回索引处的代码点。 这仅检查索引和索引+ 1处的字符。
Parameters | |
---|---|
seq |
CharSequence : the characters to check |
index |
int : the index of the first or only char forming the code point |
Returns | |
---|---|
int |
the code point at the index |
int codePointBefore (char[] text, int index)
与codePointBefore(char[], int)
相同。 返回索引之前的代码点。 这仅检查index-1和index-2处的字符。
Parameters | |
---|---|
text |
char : the characters to check |
index |
int : the index after the last or only char forming the code point |
Returns | |
---|---|
int |
the code point before the index |
int codePointBefore (CharSequence seq, int index)
与codePointBefore(CharSequence, int)
相同。 返回索引之前的代码点。 这仅检查index-1和index-2处的字符。
Parameters | |
---|---|
seq |
CharSequence : the characters to check |
index |
int : the index after the last or only char forming the code point |
Returns | |
---|---|
int |
the code point before the index |
int codePointBefore (char[] text, int index, int limit)
与codePointBefore(char[], int, int)
相同。 返回索引之前的代码点。 这仅检查index-1和index-2处的字符。
Parameters | |
---|---|
text |
char : the characters to check |
index |
int : the index after the last or only char forming the code point |
limit |
int : the start of the valid text |
Returns | |
---|---|
int |
the code point before the index |
int codePointCount (CharSequence text, int start, int limit)
相当于codePointCount(CharSequence, int, int)
方法,为了方便起见。 计算文本范围内的代码点数。
Parameters | |
---|---|
text |
CharSequence : the characters to check |
start |
int : the start of the range |
limit |
int : the limit of the range |
Returns | |
---|---|
int |
the number of code points in the range |
int codePointCount (char[] text, int start, int limit)
相当于codePointCount(char[], int, int)
方法,方便起见。 计算文本范围内的代码点数。
Parameters | |
---|---|
text |
char : the characters to check |
start |
int : the start of the range |
limit |
int : the limit of the range |
Returns | |
---|---|
int |
the number of code points in the range |
int digit (int ch)
返回小数点代码点的数值。
这是digit(int, int)
一个便利超载,它提供了十进制基数。
语义变化:在版本1.3.1和之前版本中,这些数字字母和其他数字被视为数字。 这已被更改为符合java语义。
Parameters | |
---|---|
ch |
int : the code point to query |
Returns | |
---|---|
int |
the numeric value represented by the code point, or -1 if the code point is not a decimal digit or if its value is too large for a decimal radix |
int digit (int ch, int radix)
返回小数点代码点的数值。
该方法观察java.lang.Character.digit()
的语义。 请注意,这将为isDigit返回false的代码点返回正值,就像java.lang.Character一样。
语义变化:在版本1.3.1和之前版本中,这并没有将欧洲字母当作数字值,而是将数字字母和其他数字视为数字。 这已被更改为符合java语义。
代码点是有效数字当且仅当:
Parameters | |
---|---|
ch |
int : the code point to query |
radix |
int : the radix |
Returns | |
---|---|
int |
the numeric value represented by the code point in the specified radix, or -1 if the code point is not a decimal digit or if its value is too large for the radix |
String foldCase (String str, boolean defaultmapping)
[icu]根据UnicodeData.txt和CaseFolding.txt将给定的字符串映射到其大小写折叠等价物; 如果任何字符没有相同的大小写,则返回字符本身。 “完整”,这里返回多码点大小写折叠映射。 对于“简单”单码点映射,使用API foldCase(int ch,布尔值defaultmapping)。
Parameters | |
---|---|
str |
String : the String to be converted |
defaultmapping |
boolean : Indicates whether the default mappings defined in CaseFolding.txt are to be used, otherwise the mappings for dotted I and dotless i marked with 'T' in CaseFolding.txt are included. |
Returns | |
---|---|
String |
the case folding equivalent of the character, if any; otherwise the character itself. |
也可以看看:
int foldCase (int ch, boolean defaultmapping)
[icu]根据UnicodeData.txt和CaseFolding.txt将给定字符映射到其等效折叠等价物; 如果角色没有相同的大小写,则返回角色本身。
该函数只返回简单的单码点映射。 应尽可能使用完整的大小写映射,因为它们通过处理整个字符串可以产生更好的结果。 它们可以根据需要映射到不同长度的结果字符串。 完整大小写映射由采用字符串参数而非代码点(int)的大小写映射函数应用。 另请参阅有关C / POSIX迁移的用户指南一章:http://www.icu-project.org/userguide/posix.html#case_mappings
Parameters | |
---|---|
ch |
int : the character to be converted |
defaultmapping |
boolean : Indicates whether the default mappings defined in CaseFolding.txt are to be used, otherwise the mappings for dotted I and dotless i marked with 'T' in CaseFolding.txt are included. |
Returns | |
---|---|
int |
the case folding equivalent of the character, if any; otherwise the character itself. |
也可以看看:
int foldCase (int ch, int options)
[icu]根据UnicodeData.txt和CaseFolding.txt将给定字符映射到其等效折叠等价物; 如果角色没有相同的大小写,则返回角色本身。
该函数只返回简单的单码点映射。 应尽可能使用完整的大小写映射,因为它们通过处理整个字符串可以产生更好的结果。 它们可以根据需要映射到不同长度的结果字符串。 完整大小写映射由采用字符串参数而非代码点(int)的大小写映射函数应用。 另请参阅有关C / POSIX迁移的用户指南一章:http://www.icu-project.org/userguide/posix.html#case_mappings
Parameters | |
---|---|
ch |
int : the character to be converted |
options |
int : A bit set for special processing. Currently the recognised options are FOLD_CASE_EXCLUDE_SPECIAL_I and FOLD_CASE_DEFAULT |
Returns | |
---|---|
int |
the case folding equivalent of the character, if any; otherwise the character itself. |
也可以看看:
String foldCase (String str, int options)
[icu]根据UnicodeData.txt和CaseFolding.txt将给定的字符串映射到其大小写折叠等价物; 如果任何字符没有相同的大小写,则返回字符本身。 “完整”,这里返回多码点大小写折叠映射。 对于“简单”单码点映射,使用API foldCase(int ch,布尔值defaultmapping)。
Parameters | |
---|---|
str |
String : the String to be converted |
options |
int : A bit set for special processing. Currently the recognised options are FOLD_CASE_EXCLUDE_SPECIAL_I and FOLD_CASE_DEFAULT |
Returns | |
---|---|
String |
the case folding equivalent of the character, if any; otherwise the character itself. |
也可以看看:
char forDigit (int digit, int radix)
为了方便,提供java.lang.Character forDigit API。
Parameters | |
---|---|
digit |
int
|
radix |
int
|
Returns | |
---|---|
char |
VersionInfo getAge (int ch)
[icu]返回代码点的“年龄”。
“年龄”是代码点首次被指定时的Unicode版本(作为非字符或专用)或分配字符。
这对于避免发送代码点以接收不接受较新字符的进程很有用。
数据来自UCD文件DerivedAge.txt。
Parameters | |
---|---|
ch |
int : The code point. |
Returns | |
---|---|
VersionInfo |
the Unicode version number |
int getBidiPairedBracket (int c)
[icu]将指定的字符映射到其配对的括号字符。 对于Bidi_Paired_Bracket_Type!=无,这与getMirror(int)相同。 否则,返回c本身。 见http://www.unicode.org/reports/tr9/
Parameters | |
---|---|
c |
int : the code point to be mapped |
Returns | |
---|---|
int |
the paired bracket code point, or c itself if there is no such mapping (Bidi_Paired_Bracket_Type=None) |
int getCharFromExtendedName (String name)
[ICU]
按其名称查找Unicode字符并返回其代码点值。 所有的Unicode名称都是大写的。 扩展名称除数字外全部为小写,并包含在尖括号内。 名称按以下顺序搜索
Parameters | |
---|---|
name |
String : codepoint name |
Returns | |
---|---|
int |
code point associated with the name or -1 if the name is not found. |
int getCharFromName (String name)
[ICU]
按最新的Unicode名称查找Unicode代码点并返回其代码点值。 所有的Unicode名称都是大写的。 注意调用与代码点名称相关的任何方法,例如get * Name *()会产生一次性初始化成本来构造名称表。
Parameters | |
---|---|
name |
String : most current Unicode character name whose code point is to be returned |
Returns | |
---|---|
int |
code point or -1 if name is not found |
int getCharFromNameAlias (String name)
[ICU]
通过更正的名称别名查找Unicode字符并返回其代码点值。 所有的Unicode名称都是大写的。 注意调用与代码点名称相关的任何方法,例如get * Name *()会产生一次性初始化成本来构造名称表。
Parameters | |
---|---|
name |
String : Unicode name alias whose code point is to be returned |
Returns | |
---|---|
int |
code point or -1 if name is not found |
int getCodePoint (char char16)
[icu]返回与BMP代码点对应的代码点。
Parameters | |
---|---|
char16 |
char : the BMP code point |
Returns | |
---|---|
int |
code point if argument is a valid character. |
Throws | |
---|---|
IllegalArgumentException |
thrown when char16 is not a valid code point |
int getCodePoint (char lead, char trail)
[icu]返回与两个替代代码单元对应的代码点。
Parameters | |
---|---|
lead |
char : the lead char |
trail |
char : the trail char |
Returns | |
---|---|
int |
code point if surrogate characters are valid. |
Throws | |
---|---|
IllegalArgumentException |
thrown when the code units do not form a valid code point |
int getCombiningClass (int ch)
[icu]返回参数代码点的组合类
Parameters | |
---|---|
ch |
int : code point whose combining is to be retrieved |
Returns | |
---|---|
int |
the combining class of the codepoint |
int getDirection (int ch)
[icu]返回代码点的双向属性。 例如,0x0041(字母A)具有LEFT_TO_RIGHT方向属性。
返回的结果属于接口UCharacterDirection
Parameters | |
---|---|
ch |
int : the code point to be determined its direction |
Returns | |
---|---|
int |
direction constant from UCharacterDirection. |
byte getDirectionality (int cp)
相当于getDirectionality(char)
方法,为了方便起见。 返回表示字符方向性的字节。 [icu]注意:与getDirectionality(char)
不同,这会返回DIRECTIONALITY_LEFT_TO_RIGHT,用于未定义或超出界限的字符。 [icu]注意:返回值必须使用UCharacterDirection
及其界面UCharacterEnums.ECharacterDirection
定义的常量进行测试,因为这些值与java.lang.Character
定义的值不同。
Parameters | |
---|---|
cp |
int : the code point to check |
Returns | |
---|---|
byte |
the directionality of the code point |
也可以看看:
String getExtendedName (int ch)
[icu]返回有效代码点的名称。 与getName(int)和getName1_0(int)不同,即使对于在UnicodeData.txt中未分配名称的代码点,此方法也会返回一个名称。
名称按以下顺序返回。
Parameters | |
---|---|
ch |
int : the code point for which to get the name |
Returns | |
---|---|
String |
a name for the argument codepoint |
ValueIterator getExtendedNameIterator ()
[ICU]
返回字符名称的迭代器,迭代代码点。
该API只获取扩展名的迭代器。 对于现代的,最新的Unicode名称使用getNameIterator()或对于较早的1.0 Unicode名称使用get1_0NameIterator()。
使用示例:
ValueIterator iterator = UCharacter.getExtendedNameIterator(); ValueIterator.Element element = new ValueIterator.Element(); while (iterator.next(element)) { System.out.println("Codepoint \\u" + Integer.toHexString(element.codepoint) + " has the name " + (String)element.value); }
名字迭代器迭代的最大范围是from
Returns | |
---|---|
ValueIterator |
an iterator |
int getHanNumericValue (int ch)
[icu]返回汉字的数值。
这将返回Han'数字'代码点的值,包括零,十,一万,一万和一亿的值。 这包括标准和“校验”字符,“大圆圈”零字符和标准零字符。
注意:Unicode标准具有用于通过此方法识别的更多汉字字符的数值(请参阅 getNumericValue(int)
和UCD文件DerivedNumericValues.txt),并且 NumberFormat
可与中文 NumberingSystem
一起使用。
Parameters | |
---|---|
ch |
int : code point to query |
Returns | |
---|---|
int |
value if it is a Han 'numeric character,' otherwise return -1. |
int getIntPropertyMaxValue (int type)
[icu]返回整数/二进制Unicode属性的最大值。 可以与UCharacter.getIntPropertyMinValue(int)一起使用来分配android.icu.text.UnicodeSet或类似的数组。 最小值/最大值的示例(对于Unicode 3.2):
Parameters | |
---|---|
type |
int : UProperty selector constant, identifies which binary property to check. Must be UProperty.BINARY_START <= type < UProperty.BINARY_LIMIT or UProperty.INT_START <= type < UProperty.INT_LIMIT. |
Returns | |
---|---|
int |
Maximum value returned by u_getIntPropertyValue for a Unicode property. <= 0 if the property selector 'type' is out of range. |
int getIntPropertyMinValue (int type)
[icu]返回整数/二进制Unicode属性类型的最小值。 可以与UCharacter.getIntPropertyMaxValue(int)一起使用来分配android.icu.text.UnicodeSet或类似的数组。
Parameters | |
---|---|
type |
int : UProperty selector constant, identifies which binary property to check. Must be UProperty.BINARY_START <= type < UProperty.BINARY_LIMIT or UProperty.INT_START <= type < UProperty.INT_LIMIT. |
Returns | |
---|---|
int |
Minimum value returned by UCharacter.getIntPropertyValue(int) for a Unicode property. 0 if the property selector 'type' is out of range. |
int getIntPropertyValue (int ch, int type)
[ICU]
返回代码点的Unicode属性类型的属性值。 也返回二进制和掩码属性值。
Unicode,特别是在3.2版本中,定义了比UnicodeData.txt中的原始集合更多的属性。
属性API旨在反映Unicode字符数据库(UCD)和Unicode技术报告(UTR)中定义的Unicode属性。 有关这些属性的详细信息,请参阅http://www.unicode.org/。
对于Unicode属性的名称,请参阅UCD文件PropertyAliases.txt。
Sample usage: int ea = UCharacter.getIntPropertyValue(c, UProperty.EAST_ASIAN_WIDTH); int ideo = UCharacter.getIntPropertyValue(c, UProperty.IDEOGRAPHIC); boolean b = (ideo == 1) ? true : false;
Parameters | |
---|---|
ch |
int : code point to test. |
type |
int : UProperty selector constant, identifies which binary property to check. Must be UProperty.BINARY_START <= type < UProperty.BINARY_LIMIT or UProperty.INT_START <= type < UProperty.INT_LIMIT or UProperty.MASK_START <= type < UProperty.MASK_LIMIT. |
Returns | |
---|---|
int |
numeric value that is directly the property value or, for enumerated properties, corresponds to the numeric value of the enumerated constant of the respective property value enumeration type (cast to enum type if necessary). Returns 0 or 1 (for false / true) for binary Unicode properties. Returns a bit-mask for mask properties. Returns 0 if 'type' is out of bounds or if the Unicode version does not have data for the property at all, or not for this code point. |
int getMirror (int ch)
[icu]将指定的代码点映射到“镜像”代码点。 对于具有“镜像”属性的代码点,实现有时需要将“穷人”映射到另一个代码点,以使默认字形可以用作指定代码点的默认字形的镜像。
这对于带有可视顺序的代码页的文本转换以及不带字形选择功能的显示非常有用。
Parameters | |
---|---|
ch |
int : code point whose mirror is to be retrieved |
Returns | |
---|---|
int |
another code point that may serve as a mirror-image substitute, or ch itself if there is no such mapping or ch does not have the "mirrored" property |
String getName (int ch)
[icu]返回参数代码点的最新Unicode名称,如果未分配字符或超出范围UCharacter.MIN_VALUE和UCharacter.MAX_VALUE或没有名称,则返回null。
注意调用与代码点名称相关的任何方法,例如get * Name *()会产生一次性初始化成本来构造名称表。
Parameters | |
---|---|
ch |
int : the code point for which to get the name |
Returns | |
---|---|
String |
most current Unicode name |
String getName (String s, String separator)
[icu]返回字符串中每个字符的名称
Parameters | |
---|---|
s |
String : string to format |
separator |
String : string to go between names |
Returns | |
---|---|
String |
string of names |
String getNameAlias (int ch)
[icu]从NameAliases.txt返回已更正的名称(如果有)。 如果未分配字符或超出范围UCharacter.MIN_VALUE和UCharacter.MAX_VALUE或没有名称,则返回null。
注意调用与代码点名称相关的任何方法,例如get * Name *()会产生一次性初始化成本来构造名称表。
Parameters | |
---|---|
ch |
int : the code point for which to get the name alias |
Returns | |
---|---|
String |
Unicode name alias, or null |
ValueIterator getNameIterator ()
[ICU]
返回字符名称的迭代器,迭代代码点。
此API只获取现代,最新的Unicode名称的迭代器。 对于较早的1.0 Unicode名称,使用get1_0NameIterator()或扩展名称使用getExtendedNameIterator()。
使用示例:
ValueIterator iterator = UCharacter.getNameIterator(); ValueIterator.Element element = new ValueIterator.Element(); while (iterator.next(element)) { System.out.println("Codepoint \\u" + Integer.toHexString(element.codepoint) + " has the name " + (String)element.value); }
名称迭代器迭代的最大范围是从UCharacter.MIN_VALUE到UCharacter.MAX_VALUE。
Returns | |
---|---|
ValueIterator |
an iterator |
int getNumericValue (int ch)
以非负整数形式返回代码点的数值。
如果代码点没有数字值,则返回-1。
如果代码点的数值不能表示为非负整数(例如,小数值),则返回-2。
Parameters | |
---|---|
ch |
int : the code point to query |
Returns | |
---|---|
int |
the numeric value of the code point, or -1 if it has no numeric value, or -2 if it has a numeric value that cannot be represented as a nonnegative integer |
int getPropertyEnum (CharSequence propertyAlias)
[icu]按照Unicode数据库文件PropertyAliases.txt中的规定,返回给定属性名称的UProperty选择器。 短期,长期和任何其他变体都被认可。 另外,该功能将合成名称“gcm”/“General_Category_Mask”映射到属性UProperty.GENERAL_CATEGORY_MASK。 这些名称不在PropertyAliases.txt中。
Parameters | |
---|---|
propertyAlias |
CharSequence : the property name to be matched. The name is compared using "loose matching" as described in PropertyAliases.txt. |
Returns | |
---|---|
int |
a UProperty enum. |
Throws | |
---|---|
IllegalArgumentException |
thrown if propertyAlias is not recognized. |
也可以看看:
String getPropertyName (int property, int nameChoice)
[icu]返回Unicode数据库文件PropertyAliases.txt中给定属性的Unicode名称。 大多数属性有多个名称。 nameChoice确定返回哪一个。 另外,该函数将属性UProperty.GENERAL_CATEGORY_MASK映射到合成名称“gcm”/“General_Category_Mask”。 这些名称不在PropertyAliases.txt中。
Parameters | |
---|---|
property |
int : UProperty selector. |
nameChoice |
int : UProperty.NameChoice selector for which name to get. All properties have a long name. Most have a short name, but some do not. Unicode allows for additional names; if present these will be returned by UProperty.NameChoice.LONG + i, where i=1, 2,... |
Returns | |
---|---|
String |
a name, or null if Unicode explicitly defines no name ("n/a") for a given property/nameChoice. If a given nameChoice throws an exception, then all larger values of nameChoice will throw an exception. If null is returned for a given nameChoice, then other nameChoice values may return non-null results. |
Throws | |
---|---|
IllegalArgumentException |
thrown if property or nameChoice are invalid. |
也可以看看:
int getPropertyValueEnum (int property, CharSequence valueAlias)
[icu]按照Unicode数据库文件PropertyValueAliases.txt中的指定,返回给定值名称的属性值integer。 短期,长期和任何其他变体都被认可。 注意:只有使用UProperty.GENERAL_CATEGORY_MASK而不是UProperty.GENERAL_CATEGORY才能识别PropertyValueAliases.txt中的一些名称。 这些包括:“C”/“其他”,“L”/“Letter”,“LC”/“Cased_Letter”,“M”/“标记”,“N”/“数字”,“P” ,“S”/“符号”和“Z”/“分隔符”。
Parameters | |
---|---|
property |
int : UProperty selector constant. UProperty.INT_START <= property < UProperty.INT_LIMIT or UProperty.BINARY_START <= property < UProperty.BINARY_LIMIT or UProperty.MASK_START < = property < UProperty.MASK_LIMIT. Only these properties can be enumerated. |
valueAlias |
CharSequence : the value name to be matched. The name is compared using "loose matching" as described in PropertyValueAliases.txt. |
Returns | |
---|---|
int |
a value integer. Note: UProperty.GENERAL_CATEGORY values are mask values produced by left-shifting 1 by UCharacter.getType(). This allows grouped categories such as [:L:] to be represented. |
Throws | |
---|---|
IllegalArgumentException |
if property is not a valid UProperty selector or valueAlias is not a value of this property |
也可以看看:
String getPropertyValueName (int property, int value, int nameChoice)
[icu]返回给定属性值的Unicode名称,如Unicode数据库文件PropertyValueAliases.txt中给出的。 大多数值有多个名称。 nameChoice确定返回哪一个。 注意:只能使用UProperty.GENERAL_CATEGORY_MASK而不是UProperty.GENERAL_CATEGORY来检索PropertyValueAliases.txt中的一些名称。 这些包括:“C”/“其他”,“L”/“Letter”,“LC”/“Cased_Letter”,“M”/“标记”,“N”/“数字”,“P” ,“S”/“符号”和“Z”/“分隔符”。
Parameters | |
---|---|
property |
int : UProperty selector constant. UProperty.INT_START <= property < UProperty.INT_LIMIT or UProperty.BINARY_START <= property < UProperty.BINARY_LIMIT or UProperty.MASK_START < = property < UProperty.MASK_LIMIT. If out of range, null is returned. |
value |
int : selector for a value for the given property. In general, valid values range from 0 up to some maximum. There are a few exceptions: (1.) UProperty.BLOCK values begin at the non-zero value BASIC_LATIN.getID(). (2.) UProperty.CANONICAL_COMBINING_CLASS values are not contiguous and range from 0..240. (3.) UProperty.GENERAL_CATEGORY_MASK values are mask values produced by left-shifting 1 by UCharacter.getType(). This allows grouped categories such as [:L:] to be represented. Mask values are non-contiguous. |
nameChoice |
int : UProperty.NameChoice selector for which name to get. All values have a long name. Most have a short name, but some do not. Unicode allows for additional names; if present these will be returned by UProperty.NameChoice.LONG + i, where i=1, 2,... |
Returns | |
---|---|
String |
a name, or null if Unicode explicitly defines no name ("n/a") for a given property/value/nameChoice. If a given nameChoice throws an exception, then all larger values of nameChoice will throw an exception. If null is returned for a given nameChoice, then other nameChoice values may return non-null results. |
Throws | |
---|---|
IllegalArgumentException |
thrown if property, value, or nameChoice are invalid. |
也可以看看:
int getType (int ch)
返回一个指示代码点的Unicode类别的值。 java.lang.Character.getType()的最新Unicode实现,除了上面提到的其类别已更改的代码点之外。
返回结果是来自接口UCharacterCategory的常量
注意: UCharacterCategory值与java.lang.Character.getType返回的值不兼容。 UCharacterCategory值与ICU4C中使用的值相匹配,而java.lang.Character类型值虽然相似,但跳过值17。
Parameters | |
---|---|
ch |
int : code point whose type is to be determined |
Returns | |
---|---|
int |
category which is a value of UCharacterCategory |
RangeValueIterator getTypeIterator ()
[ICU]
返回字符类型的迭代器,迭代代码点。
使用示例:
RangeValueIterator iterator = UCharacter.getTypeIterator(); RangeValueIterator.Element element = new RangeValueIterator.Element(); while (iterator.next(element)) { System.out.println("Codepoint \\u" + Integer.toHexString(element.start) + " to codepoint \\u" + Integer.toHexString(element.limit - 1) + " has the character type " + element.value); }
Returns | |
---|---|
RangeValueIterator |
an iterator |
double getUnicodeNumericValue (int ch)
[icu]返回Unicode字符数据库中定义的Unicode代码点的数字值。
“double”返回类型是必要的,因为对于int,某些数值是分数,负数或太大。
对于Unicode字符数据库中没有任何数字值的字符,此函数将返回NO_NUMERIC_VALUE。 注意:这与指定NaN作为默认值的Unicode标准不同。
API更改:在版本2.2和更早版本中,此API具有返回类型int,并且当参数ch没有对应的数值时返回-1。 这已更改为与ICU4C同步这对应于ICU4C函数u_getNumericValue。
Parameters | |
---|---|
ch |
int : Code point to get the numeric value for. |
Returns | |
---|---|
double |
numeric value of ch, or NO_NUMERIC_VALUE if none is defined. |
VersionInfo getUnicodeVersion ()
[icu]返回使用的Unicode数据的版本。
Returns | |
---|---|
VersionInfo |
the unicode version number used |
boolean hasBinaryProperty (int ch, int property)
[ICU]
检查代码点的二进制Unicode属性。
Unicode,特别是在3.2版本中,定义了比UnicodeData.txt中的原始集合更多的属性。
此API旨在反映Unicode字符数据库(UCD)和Unicode技术报告(UTR)中定义的Unicode属性。
有关这些属性的详细信息,请参阅 http://www.unicode.org/ 。
对于Unicode属性的名称,请参阅UCD文件PropertyAliases.txt。
此API不检查代码点的有效性。
重要提示:如果ICU使用Unicode版本低于3.2的UCD文件构建,那么标记为“新”的属性不可用或不可用。
Parameters | |
---|---|
ch |
int : code point to test. |
property |
int : selector constant from android.icu.lang.UProperty, identifies which binary property to check. |
Returns | |
---|---|
boolean |
true or false according to the binary Unicode property value for ch. Also false if property is out of bounds or if the Unicode version does not have data for the property at all, or not for this code point. |
也可以看看:
boolean isBMP (int ch)
[icu]确定代码点是否在BMP平面中。
Parameters | |
---|---|
ch |
int : code point to be determined if it is not a supplementary character |
Returns | |
---|---|
boolean |
true if code point is not a supplementary character |
boolean isBaseForm (int ch)
[icu]确定指定的代码点是否为基本形式。 基本形式的代码点不与前面的字符进行图形组合,既不是控件也不是格式字符。
Parameters | |
---|---|
ch |
int : code point to be determined if it is of base form |
Returns | |
---|---|
boolean |
true if the code point is of base form |
boolean isDefined (int ch)
确定代码点在最新的Unicode标准中是否具有定义的含义。 例如,补充代码点虽然分配的空间没有用Unicode定义。
java.lang.Character.isDefined()的最新Unicode实现
Parameters | |
---|---|
ch |
int : code point to be determined if it is defined in the most current version of Unicode |
Returns | |
---|---|
boolean |
true if this code point is defined in unicode |
boolean isDigit (int ch)
确定代码点是否是Java数字。
该方法观察java.lang.Character.isDigit()
的语义。 它仅对十进制数字返回true。
语义变化:在版本1.3.1和之前版本中,这些数字字母和其他数字被视为数字。 这已被更改为符合java语义。
Parameters | |
---|---|
ch |
int : code point to query |
Returns | |
---|---|
boolean |
true if this code point is a digit |
boolean isHighSurrogate (char ch)
Parameters | |
---|---|
ch |
char : the char to check |
Returns | |
---|---|
boolean |
true if ch is a high (lead) surrogate |
boolean isISOControl (int ch)
确定指定的代码点是否为ISO控制字符。 如果代码点位于\ u0000到\ u001F范围内或在\ u007F到\ u009F范围内,则认为该代码点是ISO控制字符。
java.lang.Character.isISontrol()的最新Unicode实现
Parameters | |
---|---|
ch |
int : code point to determine if it is an ISO control character |
Returns | |
---|---|
boolean |
true if code point is a ISO control character |
boolean isIdentifierIgnorable (int ch)
确定是否应将指定的代码点视为Java标识符中的可忽略字符。 如果字符具有通用类别Cf格式控制,或者它是非Java空白ISO控制,则该字符为Java标识符可忽略:U + 0000..U + 0008,U + 000E..U + 001B,U + 007F..U + 009F。
java.lang.Character.isIdentifierIgnorable()的最新Unicode实现。
见UTR #8 。
请注意,Unicode只是建议忽略Cf(格式控件)。
Parameters | |
---|---|
ch |
int : code point to be determined if it can be ignored in a Unicode identifier. |
Returns | |
---|---|
boolean |
true if the code point is ignorable |
boolean isJavaIdentifierPart (int cp)
Java方法的兼容性覆盖,委托给java.lang.Character.isJavaIdentifierPart。
Parameters | |
---|---|
cp |
int : the code point |
Returns | |
---|---|
boolean |
true if the code point can continue a java identifier. |
boolean isJavaIdentifierStart (int cp)
Java方法的兼容性覆盖,委托给java.lang.Character.isJavaIdentifierStart。
Parameters | |
---|---|
cp |
int : the code point |
Returns | |
---|---|
boolean |
true if the code point can start a java identifier. |
boolean isLegal (int ch)
[icu]代码点是非法的,当且仅当
Parameters | |
---|---|
ch |
int : code point to determine if it is a legal code point by itself |
Returns | |
---|---|
boolean |
true if and only if legal. |
boolean isLegal (String str)
[icu]如果所有代码点都合法,则字符串是合法的。 代码点是非法的,当且仅当
Parameters | |
---|---|
str |
String : containing code points to examin |
Returns | |
---|---|
boolean |
true if and only if legal. |
boolean isLetter (int ch)
确定指定的代码点是否是字母。 java.lang.Character.isLetter()的最新Unicode实现
Parameters | |
---|---|
ch |
int : code point to determine if it is a letter |
Returns | |
---|---|
boolean |
true if code point is a letter |
boolean isLetterOrDigit (int ch)
确定指定的代码点是字母还是数字。 [icu]注意:与java.lang.Character不同,这种方法不把ascii字符'A' - 'Z'和'a' - 'z'视为数字。
Parameters | |
---|---|
ch |
int : code point to determine if it is a letter or a digit |
Returns | |
---|---|
boolean |
true if code point is a letter or a digit |
boolean isLowSurrogate (char ch)
与 isLowSurrogate(char)
相同。
Parameters | |
---|---|
ch |
char : the char to check |
Returns | |
---|---|
boolean |
true if ch is a low (trail) surrogate |
boolean isLowerCase (int ch)
确定指定的代码点是否为小写字符。 UnicodeData仅包含代码点的大小写映射,它们是一对一映射; 它也省略了关于上下文敏感的大小写映射的信息。
有关Unicode大小写映射的更多信息,请参阅Technical report #21 。
java.lang.Character.isLowerCase()的最新Unicode实现
Parameters | |
---|---|
ch |
int : code point to determine if it is in lowercase |
Returns | |
---|---|
boolean |
true if code point is a lowercase character |
boolean isMirrored (int ch)
确定代码点是否具有“镜像”属性。 此属性设置为在右到左上下文中常用的字符,并且需要使用“镜像”字形显示。
Parameters | |
---|---|
ch |
int : code point whose mirror is to be determined |
Returns | |
---|---|
boolean |
true if the code point has the "mirrored" property |
boolean isPrintable (int ch)
[icu]根据Unicode标准确定指定的代码点是否为可打印字符。
Parameters | |
---|---|
ch |
int : code point to be determined if it is printable |
Returns | |
---|---|
boolean |
true if the code point is a printable character |
boolean isSpaceChar (int ch)
确定指定的代码点是否为Unicode指定的空格字符,即代码点是否在类别Zs,Zl和Zp中。 java.lang.Character.isSpaceChar()的最新Unicode实现。
Parameters | |
---|---|
ch |
int : code point to determine if it is a space |
Returns | |
---|---|
boolean |
true if the specified code point is a space character |
boolean isSupplementary (int ch)
[icu]确定代码点是否为补充字符。 代码点是补充字符当且仅当它大于SUPPLEMENTARY_MIN_VALUE
Parameters | |
---|---|
ch |
int : code point to be determined if it is in the supplementary plane |
Returns | |
---|---|
boolean |
true if code point is a supplementary character |
boolean isSupplementaryCodePoint (int cp)
与 isSupplementaryCodePoint(int)
相同。
Parameters | |
---|---|
cp |
int : the code point to check |
Returns | |
---|---|
boolean |
true if cp is a supplementary code point |
boolean isSurrogatePair (char high, char low)
与 isSurrogatePair(char, char)
相同。
Parameters | |
---|---|
high |
char : the high (lead) char |
low |
char : the low (trail) char |
Returns | |
---|---|
boolean |
true if high, low form a surrogate pair |
boolean isTitleCase (int ch)
确定指定的代码点是否是标题字符。 UnicodeData仅包含代码点的大小写映射,它们是一对一映射; 它也省略了关于上下文敏感的大小写映射的信息。
有关Unicode大小写映射的更多信息,请参阅Technical report #21 。
java.lang.Character.isTitleCase()的最新Unicode实现。
Parameters | |
---|---|
ch |
int : code point to determine if it is in title case |
Returns | |
---|---|
boolean |
true if the specified code point is a titlecase character |
boolean isUAlphabetic (int ch)
[ICU]
检查代码点是否具有字母Unicode属性。
与UCharacter.hasBinaryProperty(ch,UProperty.ALPHABETIC)相同。
与UCharacter.isLetter(ch)不同!
Parameters | |
---|---|
ch |
int : codepoint to be tested |
Returns | |
---|---|
boolean |
boolean isULowercase (int ch)
[ICU]
检查代码点是否具有小写Unicode属性。
与UCharacter.hasBinaryProperty(ch,UProperty.LOWERCASE)相同。
这与UCharacter.isLowerCase(ch)不同!
Parameters | |
---|---|
ch |
int : codepoint to be tested |
Returns | |
---|---|
boolean |
boolean isUUppercase (int ch)
[ICU]
检查代码点是否具有大写Unicode属性。
与UCharacter.hasBinaryProperty(ch,UProperty.UPPERCASE)相同。
这与UCharacter.isUpperCase(ch)不同!
Parameters | |
---|---|
ch |
int : codepoint to be tested |
Returns | |
---|---|
boolean |
boolean isUWhiteSpace (int ch)
[ICU]
检查代码点是否具有White_Space Unicode属性。
与UCharacter.hasBinaryProperty(ch,UProperty.WHITE_SPACE)相同。
这与UCharacter.isSpace(ch)和UCharacter.isWhitespace(ch)不同!
Parameters | |
---|---|
ch |
int : codepoint to be tested |
Returns | |
---|---|
boolean |
boolean isUnicodeIdentifierPart (int ch)
确定指定的代码点是否可以是除起始字符之外的Unicode标识符的任何部分。 代码点可能是Unicode标识符的一部分,当且仅当它是以下之一时:
Parameters | |
---|---|
ch |
int : code point to determine if is can be part of a Unicode identifier |
Returns | |
---|---|
boolean |
true if code point is any character belonging a unicode identifier suffix after the first character |
boolean isUnicodeIdentifierStart (int ch)
确定是否允许指定的代码点作为Unicode标识符中的第一个字符。 代码点可能会启动一个Unicode标识符,如果它是任何类型
Parameters | |
---|---|
ch |
int : code point to determine if it can start a Unicode identifier |
Returns | |
---|---|
boolean |
true if code point is the first character belonging a unicode identifier |
boolean isUpperCase (int ch)
确定指定的代码点是否为大写字符。 UnicodeData仅包含代码点的大小写映射,它们是一对一映射; 它也省略了关于上下文敏感的大小写映射的信息。
对于语言特定的大小写转换行为,请使用toUpperCase(locale,str)。
例如,对于无点点的情况下的转换,对于土耳其点的点I,或对于希腊语的最终西格玛。 有关Unicode大小写映射的更多信息,请参阅Technical report #21 。
java.lang.Character.isUpperCase()的最新Unicode实现。
Parameters | |
---|---|
ch |
int : code point to determine if it is in uppercase |
Returns | |
---|---|
boolean |
true if the code point is an uppercase character |
boolean isValidCodePoint (int cp)
相当于 isValidCodePoint(int)
。
Parameters | |
---|---|
cp |
int : the code point to check |
Returns | |
---|---|
boolean |
true if cp is a valid code point |
boolean isWhitespace (int ch)
确定指定的代码点是否为空白字符。 一个代码点被认为是一个空白字符当且仅当它满足下列条件之一:
注意:Unicode 4.0.1将U + 200B ZERO WIDTH SPACE从空格分隔符(Zs)更改为格式控件(Cf)。 此后,isWhitespace(0x200b)返回false。 请参阅http://www.unicode.org/versions/Unicode4.0.1/
Parameters | |
---|---|
ch |
int : code point to determine if it is a white space |
Returns | |
---|---|
boolean |
true if the specified code point is a white space character |
int offsetByCodePoints (CharSequence text, int index, int codePointOffset)
相当于offsetByCodePoints(CharSequence, int, int)
方法,为了方便起见。 通过代码点偏移调整字符索引。
Parameters | |
---|---|
text |
CharSequence : the characters to check |
index |
int : the index to adjust |
codePointOffset |
int : the number of code points by which to offset the index |
Returns | |
---|---|
int |
the adjusted index |
int offsetByCodePoints (char[] text, int start, int count, int index, int codePointOffset)
相当于offsetByCodePoints(char[], int, int, int, int)
方法,为了方便起见。 通过代码点偏移调整字符索引。
Parameters | |
---|---|
text |
char : the characters to check |
start |
int : the start of the range to check |
count |
int : the length of the range to check |
index |
int : the index to adjust |
codePointOffset |
int : the number of code points by which to offset the index |
Returns | |
---|---|
int |
the adjusted index |
int toChars (int cp, char[] dst, int dstIndex)
与toChars(int, char[], int)
相同。 将表示代码点的字符写入给定索引处的目标。
Parameters | |
---|---|
cp |
int : the code point to convert |
dst |
char : the destination array into which to put the char(s) representing the code point |
dstIndex |
int : the index at which to put the first (or only) char |
Returns | |
---|---|
int |
the count of the number of chars written (1 or 2) |
Throws | |
---|---|
IllegalArgumentException |
if cp is not a valid code point |
char[] toChars (int cp)
与toChars(int)
相同。 返回表示代码点的char数组。
Parameters | |
---|---|
cp |
int : the code point to convert |
Returns | |
---|---|
char[] |
an array containing the char(s) representing the code point |
Throws | |
---|---|
IllegalArgumentException |
if cp is not a valid code point |
int toCodePoint (char high, char low)
与toCodePoint(char, char)
相同。 返回由两个替代代码单元表示的代码点。 这不检查代理对的有效性。
Parameters | |
---|---|
high |
char : the high (lead) surrogate |
low |
char : the low (trail) surrogate |
Returns | |
---|---|
int |
the code point formed by the surrogate pair |
String toLowerCase (String str)
返回参数字符串的小写版本。 外壳取决于默认语言环境和上下文相关
Parameters | |
---|---|
str |
String : source string to be performed on |
Returns | |
---|---|
String |
lowercase version of the argument string |
int toLowerCase (int ch)
给定的代码点被映射到它的小写等价物; 如果代码点没有小写字母,则返回代码点本身。 java.lang.Character.toLowerCase()的最新Unicode实现
该函数只返回简单的单码点映射。 应尽可能使用完整的大小写映射,因为它们通过处理整个字符串可以产生更好的结果。 它们考虑了字符串上下文和语言,并可根据需要映射到长度不同的结果字符串。 完整大小写映射由采用字符串参数而非代码点(int)的大小写映射函数应用。 另请参阅有关C / POSIX迁移的用户指南一章:http://www.icu-project.org/userguide/posix.html#case_mappings
Parameters | |
---|---|
ch |
int : code point whose lowercase equivalent is to be retrieved |
Returns | |
---|---|
int |
the lowercase equivalent code point |
String toLowerCase (ULocale locale, String str)
返回参数字符串的小写版本。 外壳取决于参数区域设置和上下文相关
Parameters | |
---|---|
locale |
ULocale : which string is to be converted in |
str |
String : source string to be performed on |
Returns | |
---|---|
String |
lowercase version of the argument string |
String toLowerCase (Locale locale, String str)
返回参数字符串的小写版本。 外壳取决于参数区域设置和上下文相关
Parameters | |
---|---|
locale |
Locale : which string is to be converted in |
str |
String : source string to be performed on |
Returns | |
---|---|
String |
lowercase version of the argument string |
String toString (int ch)
转换参数代码点并返回一个表示UTF-16格式的代码点值的String对象。 结果是BMP代码点的长度为1的字符串,补充字符的长度为2。
java.lang.Character.toString()的最新Unicode实现。
Parameters | |
---|---|
ch |
int : code point |
Returns | |
---|---|
String |
string representation of the code point, null if code point is not defined in unicode |
String toTitleCase (Locale locale, String str, BreakIterator titleIter, int options)
[ICU]
返回参数字符串的标题版本。
titlecasing的位置由参数中断迭代器决定,因此用户可以自定义他的中断迭代器以进行专门的归位。 在这种情况下,只需要执行前向迭代。 如果传入的中断迭代器为null,则将使用默认的Unicode算法来确定标题位置。
只有中断迭代器返回的位置才是标题,位置之间的字符都是小写。
外壳取决于参数区域设置和上下文相关
Parameters | |
---|---|
locale |
Locale : which string is to be converted in |
str |
String : source string to be performed on |
titleIter |
BreakIterator : break iterator to determine the positions in which the character should be title cased. |
options |
int : bit set to modify the titlecasing operation |
Returns | |
---|---|
String |
lowercase version of the argument string |
String toTitleCase (ULocale locale, String str, BreakIterator titleIter)
返回参数字符串的标题版本。
titlecasing的位置由参数中断迭代器决定,因此用户可以自定义他的中断迭代器以进行专门的归位。 在这种情况下,只需要执行前向迭代。 如果传入的中断迭代器为null,则将使用默认的Unicode算法来确定标题位置。
只有中断迭代器返回的位置才是标题,位置之间的字符都是小写。
外壳取决于参数区域设置和上下文相关
Parameters | |
---|---|
locale |
ULocale : which string is to be converted in |
str |
String : source string to be performed on |
titleIter |
BreakIterator : break iterator to determine the positions in which the character should be title cased. |
Returns | |
---|---|
String |
lowercase version of the argument string |
String toTitleCase (String str, BreakIterator breakiter)
返回参数字符串的标题版本。
titlecasing的位置由参数中断迭代器决定,因此用户可以自定义他的中断迭代器以进行专门的归位。 在这种情况下,只需要执行前向迭代。 如果传入的中断迭代器为null,则将使用默认的Unicode算法来确定标题位置。
只有中断迭代器返回的位置才是标题,位置之间的字符都是小写。
外壳取决于默认语言环境和上下文相关
Parameters | |
---|---|
str |
String : source string to be performed on |
breakiter |
BreakIterator : break iterator to determine the positions in which the character should be title cased. |
Returns | |
---|---|
String |
lowercase version of the argument string |
String toTitleCase (ULocale locale, String str, BreakIterator titleIter, int options)
返回参数字符串的标题版本。
titlecasing的位置由参数中断迭代器决定,因此用户可以自定义他的中断迭代器以进行专门的归位。 在这种情况下,只需要执行前向迭代。 如果传入的中断迭代器为null,则将使用默认的Unicode算法来确定标题位置。
只有中断迭代器返回的位置才是标题,位置之间的字符都是小写。
外壳取决于参数区域设置和上下文相关
Parameters | |
---|---|
locale |
ULocale : which string is to be converted in |
str |
String : source string to be performed on |
titleIter |
BreakIterator : break iterator to determine the positions in which the character should be title cased. |
options |
int : bit set to modify the titlecasing operation |
Returns | |
---|---|
String |
lowercase version of the argument string |
String toTitleCase (Locale locale, String str, BreakIterator breakiter)
返回参数字符串的标题版本。
titlecasing的位置由参数中断迭代器决定,因此用户可以自定义他的中断迭代器以进行专门的归位。 在这种情况下,只需要执行前向迭代。 如果传入的中断迭代器为null,则将使用默认的Unicode算法来确定标题位置。
只有中断迭代器返回的位置才是标题,位置之间的字符都是小写。
外壳取决于参数区域设置和上下文相关
Parameters | |
---|---|
locale |
Locale : which string is to be converted in |
str |
String : source string to be performed on |
breakiter |
BreakIterator : break iterator to determine the positions in which the character should be title cased. |
Returns | |
---|---|
String |
lowercase version of the argument string |
int toTitleCase (int ch)
将代码点参数转换为titlecase。 如果没有可用的标题,则返回大写字母。 如果不存在大写字母,则返回代码点本身。 java.lang.Character.toTitleCase()的最新Unicode实现
该函数只返回简单的单码点映射。 应尽可能使用完整的大小写映射,因为它们通过处理整个字符串可以产生更好的结果。 它们考虑了字符串上下文和语言,并可根据需要映射到长度不同的结果字符串。 完整大小写映射由采用字符串参数而非代码点(int)的大小写映射函数应用。 另请参阅有关C / POSIX迁移的用户指南一章:http://www.icu-project.org/userguide/posix.html#case_mappings
Parameters | |
---|---|
ch |
int : code point whose title case is to be retrieved |
Returns | |
---|---|
int |
titlecase code point |
String toUpperCase (Locale locale, String str)
返回参数字符串的大写版本。 外壳取决于参数区域设置和上下文相关。
Parameters | |
---|---|
locale |
Locale : which string is to be converted in |
str |
String : source string to be performed on |
Returns | |
---|---|
String |
uppercase version of the argument string |
String toUpperCase (ULocale locale, String str)
返回参数字符串的大写版本。 外壳取决于参数区域设置和上下文相关。
Parameters | |
---|---|
locale |
ULocale : which string is to be converted in |
str |
String : source string to be performed on |
Returns | |
---|---|
String |
uppercase version of the argument string |
int toUpperCase (int ch)
将字符参数转换为大写。 如果没有大写字母,则返回字符本身。 java.lang.Character.toUpperCase()的最新Unicode实现
该函数只返回简单的单码点映射。 应尽可能使用完整的大小写映射,因为它们通过处理整个字符串可以产生更好的结果。 它们考虑了字符串上下文和语言,并可根据需要映射到长度不同的结果字符串。 完整大小写映射由采用字符串参数而非代码点(int)的大小写映射函数应用。 另请参阅有关C / POSIX迁移的用户指南一章:http://www.icu-project.org/userguide/posix.html#case_mappings
Parameters | |
---|---|
ch |
int : code point whose uppercase is to be retrieved |
Returns | |
---|---|
int |
uppercase code point |
String toUpperCase (String str)
返回参数字符串的大写版本。 外壳取决于默认语言环境和上下文相关。
Parameters | |
---|---|
str |
String : source string to be performed on |
Returns | |
---|---|
String |
uppercase version of the argument string |