common-voice · nicolaspanel · Feb 19, 2019 · Feb 19, 2019 · Feb 19, 2019 · Feb 20, 2019
diff --git a/.gitignore b/.gitignore
@@ -47,3 +47,4 @@ MANIFEST
 
 # Per-project virtualenvs
 .virtualenv/
+.python-version
diff --git a/src/corporacreator/preprocessors/fr.py b/src/corporacreator/preprocessors/fr.py
@@ -1,3 +1,53 @@
+import re
+
+from corporacreator.utils import maybe_normalize, FIND_MULTIPLE_SPACES_REG
+
+
+SPELLED_ACRONYMS = {
+    'ANPE',
+    'APL',
+    'CDI',
+    'CICE',
+    'DRH',
+    'EDF',
+    'HLM',
+    'IGN',
+    'INPI',
+    'ISF',
+    'IUT',
+    'PHP',
+    'PMA',
+    'PME',
+    'RSA',
+    'RSI',
+    'RTE',
+    'SNCF',
+    'TGV',
+    'TVA',
+    'UDI',
+    'UMP',
+    'USA',
+}
+REPLACE_SPELLED_ACRONYMS = [
+    re.compile(r'(^|\s|\'|’)(' + '|'.join(SPELLED_ACRONYMS) + r')(\s|\.|,|\?|!|$)'),
+    lambda match: f"{match.group(1)}{' '.join(match.group(2))}{match.group(3)}",
+]
+
+
+FR_NORMALIZATIONS = [
+    ['Jean-Paul II', 'Jean-Paul deux'],
+    [re.compile(r'(^|\s)/an(\s|\.|,|\?|!|$)'), r'\1par an\2'],
+    [re.compile(r'(^|\s)km(\s|\.|,|\?|!|$)'), r'\1 kilomètres \2'],
+    ['%', ' pourcent'],
+    [re.compile(r'(^|\s)\+(\s|\.|,|\?|!|$)'), r'\1 plus \2'],
+    [re.compile(r'(^|\s)m(?:2|²)(\s|\.|,|\?|!|$)'), r'\1mètre carré\2'],
+    [re.compile(r'/\s?m(?:2|²)(\s|\.|,|\?|!|$)'), r' par mètre carré\1'],
+    [re.compile(r'\s?€(.+)'), r' euros\1'],
+    [re.compile(r'\s?€$'), r' euros'],
+    [re.compile(r'(^| )(n)(?:°|º|°)(\s)?', flags=re.IGNORECASE), r'\1\2uméro '],
+]
+
+
 def fr(client_id, sentence):
     """Cleans up the passed sentence, removing or reformatting invalid data.
 
@@ -8,5 +58,8 @@ def fr(client_id, sentence):
     Returns:
       (str): Cleaned up sentence. Returning None or a `str` of whitespace flags the sentence as invalid.
     """
-    # TODO: Clean up fr data
-    return sentence
+    text = maybe_normalize(sentence, mapping=FR_NORMALIZATIONS + [REPLACE_SPELLED_ACRONYMS])
+    # TODO: restore this once we are clear on which punctuation marks should be kept or removed
+    # text = FIND_PUNCTUATIONS_REG.sub(' ', text)
+    text = FIND_MULTIPLE_SPACES_REG.sub(' ', text)
+    return text.strip()
diff --git a/src/corporacreator/utils.py b/src/corporacreator/utils.py
@@ -0,0 +1,18 @@
+import re
+from typing import Pattern
+
+
+FIND_MULTIPLE_SPACES_REG = re.compile(r'\s{2,}')
+FIND_PUNCTUATIONS_REG = re.compile(r"[/°\-,;!?.()\[\]*…—«»]")
+
+
+def maybe_normalize(value: str, mapping):
+    for norm in mapping:
+        if isinstance(norm[0], str):
+            value = value.replace(norm[0], norm[1])
+        elif isinstance(norm[0], Pattern):
+            value = norm[0].sub(norm[1], value)
+        else:
+            raise ValueError(f'expect first parameter to be a string or a regex, not {norm[0]}')
+
+    return value
diff --git a/tests/test_preprocessors.py b/tests/test_preprocessors.py
@@ -0,0 +1,38 @@
+import pytest
+
+from corporacreator import preprocessors
+
+
+@pytest.mark.parametrize('locale, client_id, sentence, expected', [
+    ('fr', '*', 'Faisons donc attention à utiliser les bons mots.', 'Faisons donc attention à utiliser les bons mots.'),
+    ('fr', '*', "bah 98%", "bah quatre-vingt-dix-huit pourcent"),
+    ('fr', '*', "prix au m2", "prix au mètre carré"),
+    ('fr', '*', "prix au m²", "prix au mètre carré"),
+    ('fr', '*', "prix /m²", "prix par mètre carré"),
+    ('fr', '*', "10 m²", "dix mètre carré"),
+    ('fr', '*', "2éme page", "deuxième page"),
+    ('fr', '*', "donc, ce sera 299 € + 99 €", "donc, ce sera deux cent quatre-vingt-dix-neuf euros plus quatre-vingt-dix-neuf euros"),
+    ('fr', '*', "ok pour 18h", "ok pour dix-huit heure"),
+    ('fr', '*', '2 0 200', "deux zéro deux cents"),
+    ('fr', '*', 'rue Coq-Héron au nº13', "rue Coq-Héron au numéro treize"),
+    ('fr', '*', "En comparaison, la Lune orbite en moyenne à 390 000 km de la Terre", "En comparaison, la Lune orbite en moyenne à trois cent quatre-vingt-dix mille kilomètres de la Terre"),
+    ('fr', '*', "le vendredi 13 mars à 11 h 10.", "le vendredi treize mars à onze heure dix."),
+    ('fr', '*', "le 13 mars à 11 h.", "le treize mars à onze heure ."),
+    ('fr', '*', "Demain%2C il n’y aura plus d’entreprises", "Demain, il n’y aura plus d’entreprises"),
+    ('fr', '*', "À la 5è rue", "À la cinquième rue"),
+    ('fr', '*', "Telle est la raison d’être du CICE.", "Telle est la raison d’être du C I C E."),
+    ('fr', '*', "Tout le monde titrait sur « la bataille de l’ISF ». ", "Tout le monde titrait sur « la bataille de l’I S F »."),
+    ('fr', '*', "Nous parlons de CDI saisonnier", "Nous parlons de C D I saisonnier"),
+    ('fr', '*', "Nous nous accordons tous à dire que dix-huit milliards d’A P L, ce n’est pas tenable.", "Nous nous accordons tous à dire que dix-huit milliards d’A P L, ce n’est pas tenable."),
+    ('fr', '*', "Quelques-uns seulement bénéficient du RSA.", "Quelques-uns seulement bénéficient du R S A."),
+    ('fr', '*', "Jean-Paul II.", "Jean-Paul deux."),
+    ('fr', '*', "nº deux", "numéro deux"),
+    ('fr', '*', "Une capacité qui pourrait être équivalente à une production de 120 000T de poudre de lait /an.", "Une capacité qui pourrait être équivalente à une production de cent vingt mille tonnes de poudre de lait par an."),
+    ('fr', '*', "30 euros/m2", "trente euros par mètre carré"),
+])
+def test_preprocessor(locale, client_id, sentence, expected):
+    preprocessor = getattr(preprocessors, locale.replace('-', ''))
+    is_valid, sentence = preprocessors.common(sentence)
+    if not is_valid:
+        pytest.skip('not supported right now (see https://github.com/mozilla/CorporaCreator/pull/87#issuecomment-466296310 for more info)')
+    assert expected == preprocessor(client_id, sentence)