scrapinghub · AmPhIbIaN26 · Apr 17, 2021 · Apr 17, 2021 · Apr 18, 2021 · Apr 24, 2021
diff --git a/README.rst b/README.rst
@@ -29,7 +29,7 @@ Identifying the numbers in a text string, converting them to corresponding numer
 This also supports ordinal number conversion (for English only).
 
 >>> from number_parser import parse
->>> parse("I have two hats and thirty seven coats")
+>>> parse("I have two hats and thirty seven coats", numeral_systems=['decimal'])
 'I have 2 hats and 37 coats'
 >>> parse("One, Two, Three go")
 '1, 2, 3 go'

diff --git a/number_parser/__init__.py b/number_parser/__init__.py
@@ -1 +1 @@
-from number_parser.parser import parse, parse_number, parse_ordinal, parse_fraction
+from number_parser.parser import parse, parse_number, parse_ordinal, parse_fraction, NUMERAL_SYSTEMS
diff --git a/number_parser/parser.py b/number_parser/parser.py
@@ -1,9 +1,12 @@
 import re
 from importlib import import_module
 import unicodedata
+
 SENTENCE_SEPARATORS = [".", ","]
 SUPPORTED_LANGUAGES = ['en', 'es', 'hi', 'ru']
 RE_BUG_LANGUAGES = ['hi']
+NUMERAL_SYSTEMS = ('decimal', 'roman')
+ROMAN_REGEX_EXPRESSION = "(?i)^(m{0,3})(cm|cd|d?c{0,4})(xc|xl|l?x{0,4})(ix|iv|v?i{0,4})$"
-ROMAN_REGEX_EXPRESSION = "(?i)^(m{0,3})(cm|cd|d?c{0,4})(xc|xl|l?x{0,4})(ix|iv|v?i{0,4})$"
+_ROMAN_REGEX_EXPRESSION = "(?i)^(m{0,3})(cm|cd|d?c{0,4})(xc|xl|l?x{0,4})(ix|iv|v?i{0,4})$"
-ROMAN_REGEX_EXPRESSION = "(?i)^(m{0,3})(cm|cd|d?c{0,4})(xc|xl|l?x{0,4})(ix|iv|v?i{0,4})$"
+_ROMAN_REGEX_EXPRESSION = "(?i)^(m{0,3})(cm|cd|d?c{0,4})(xc|xl|l?x{0,4})(ix|iv|v?i{0,4})$"
 
 
 class LanguageData:
@@ -241,7 +244,11 @@ def parse_ordinal(input_string, language=None):
     return parse_number(output_string, language)
 
 
-def parse_number(input_string, language=None):
+def _is_roman(search_string):
+    return re.search(ROMAN_REGEX_EXPRESSION, search_string, re.IGNORECASE)
-    return re.search(ROMAN_REGEX_EXPRESSION, search_string, re.IGNORECASE)
+    return bool(re.search(ROMAN_REGEX_EXPRESSION, search_string))
-    return re.search(ROMAN_REGEX_EXPRESSION, search_string, re.IGNORECASE)
+    return bool(re.search(ROMAN_REGEX_EXPRESSION, search_string))
+
+
+def parse_number(input_string, language=None, numeral_systems=None):
     """Converts a single number written in natural language to a numeric type"""
     if not input_string.strip():
         return None
@@ -252,20 +259,35 @@ def parse_number(input_string, language=None):
     if language is None:
         language = _valid_tokens_by_language(input_string)
 
-    lang_data = LanguageData(language)
+    if numeral_systems is None:
+        if _is_roman(input_string):
+            numeral_systems = ['roman']
+
+        elif language in SUPPORTED_LANGUAGES and not _is_roman(input_string):
-        elif language in SUPPORTED_LANGUAGES and not _is_roman(input_string):
+        elif language in SUPPORTED_LANGUAGES:
-        elif language in SUPPORTED_LANGUAGES and not _is_roman(input_string):
+        elif language in SUPPORTED_LANGUAGES:
+            numeral_systems = ['decimal']
+
+    for numeral_system in numeral_systems:
+        if numeral_system == 'decimal':
+            lang_data = LanguageData(language)
+
+            tokens = _tokenize(input_string, language)
+            normalized_tokens = _normalize_tokens(tokens)
+            for index, token in enumerate(normalized_tokens):
+                if _is_cardinal_token(token, lang_data) or not token.strip():
+                    continue
+                if _is_skip_token(token, lang_data) and index != 0:
+                    continue
+                return None
+            number_built = _build_number(normalized_tokens, lang_data)
+            if len(number_built) == 1:
+                return int(number_built[0])
+            return None
 
-    tokens = _tokenize(input_string, language)
-    normalized_tokens = _normalize_tokens(tokens)
-    for index, token in enumerate(normalized_tokens):
-        if _is_cardinal_token(token, lang_data) or not token.strip():
-            continue
-        if _is_skip_token(token, lang_data) and index != 0:
-            continue
-        return None
-    number_built = _build_number(normalized_tokens, lang_data)
-    if len(number_built) == 1:
-        return int(number_built[0])
-    return None
+        elif numeral_system == 'roman':
+            return int(_parse_roman(input_string))
+
+        else:
+            raise ValueError(f'{numeral_system!r} is not a supported numeral system')
 
 
 def parse_fraction(input_string, language=None):
@@ -298,14 +320,33 @@ def parse_fraction(input_string, language=None):
     return None
 
 
-def parse(input_string, language=None):
+def parse(input_string, language=None, numeral_systems=None):
     """
     Converts all the numbers in a sentence written in natural language to their numeric type while keeping
     the other words unchanged. Returns the transformed string.
     """
+    if numeral_systems is None:
+        numeral_systems = NUMERAL_SYSTEMS
+
     if language is None:
         language = _valid_tokens_by_language(input_string)
 
+    result = input_string
+    for numeral_system in numeral_systems:
+
+        if numeral_system == 'decimal':
+            result = _parse_decimal(result, language)
+
+        elif numeral_system == 'roman':
+            result = _parse_roman(result)
+
+        else:
+            raise ValueError(f'"{numeral_system}" is not a supported numeral system')
+
+    return result
+
+
+def _parse_decimal(input_string, language):
     lang_data = LanguageData(language)
 
     tokens = _tokenize(input_string, language)
@@ -359,8 +400,41 @@ def _build_and_add_number(pop_last_space=False):
 
             _build_and_add_number()
             current_sentence.append(token)
-
     _build_and_add_number()
 
     final_sentence.extend(current_sentence)
     return ''.join(final_sentence).strip()
+
+
+def _parse_roman(input_string):
+    tokens = _tokenize(input_string, None)
+    tokens = [item for item in tokens if item != '']
+    for token in tokens:
+        if _is_roman(token):
+            tokens[tokens.index(token)] = str(_build_roman(token))
+    final_sentence = ''.join(tokens)
+
+    return final_sentence
+
+
+def _build_roman(roman_number):
+    roman = {'i': 1, 'v': 5, 'x': 10, 'l': 50, 'c': 100, 'd': 500, 'm': 1000}
+
+    num_tokens = re.split(ROMAN_REGEX_EXPRESSION, roman_number, re.IGNORECASE)
+    num_tokens = [item for item in num_tokens if item != '']
+
+    built_num = 0
+
+    for num_token in num_tokens:
+
+        if re.search('iv|ix|xl|xc|cd|cm', num_token, re.IGNORECASE):
+            built_num += roman[num_token[1].lower()] - roman[num_token[0].lower()]
+
+        elif re.search('[XLVD][IXC]{1,4}', num_token, re.IGNORECASE):
+            built_num += roman[num_token[0].lower()] + (roman[num_token[1].lower()] * (len(num_token) - 1))
+
+        elif re.search('[ixcm]{1,4}|[vld]{1}', num_token, re.IGNORECASE):
+            built_num += roman[num_token[0].lower()] * len(num_token)
+
+    return built_num
+
diff --git a/tests/__init__.py b/tests/__init__.py
@@ -20,7 +20,7 @@ def get_test_files(path, prefix):
 def _test_files(path, language, is_ordinal=True):
     fnx = parse_ordinal if is_ordinal else parse_number
     for filename in get_test_files(path, f'{language}_'):
-        with open(filename, "r") as csv_file:
+        with open(filename, "r", encoding="utf8") as csv_file:
             csv_reader = csv.DictReader(csv_file)
             for row in csv_reader:
                 try: