Skip to main content
Log in

An approach to treat numerical information in the text simplification process

  • Long paper
  • Published:
Universal Access in the Information Society Aims and scope Submit manuscript

Abstract

Public information services and documents should be accessible to the widest possible readership. In particular, information from these sources often takes the form of numerical expressions, which pose comprehension problems for many people, including people with disabilities, who are often also exposed to poverty, illiteracy, or lack of access to advanced technology. This paper presents an approach to treat numerical information in the text simplification process to make it more accessible. A generic model for automatic text simplification systems is presented, aimed at making documents more accessible to readers with cognitive disabilities. The proposed approach is validated with a real system to simplify numerical expressions in Spanish. This system is then evaluated and the results show that it is appropriate for the task at hand.

This is a preview of subscription content, log in via an institution to check access.

Access this article

Price excludes VAT (USA)
Tax calculation will be finalised during checkout.

Instant access to the full article PDF.

Fig. 1
Fig. 2
Fig. 3
Fig. 4
Fig. 5
Fig. 6

Similar content being viewed by others

Notes

  1. http://www.oecd.org/site/piaac/surveyofadultskills.htm.

  2. http://www.oecd.org/edu/innovation-education/adultliteracy.htm.

  3. https://www.mecd.gob.es/inee/Ultimosinformes/PIAAC.html.

  4. http://www.oecd.org/statistics/compare-your-country.htm.

  5. http://www.oecd.org/pisa/pisaproducts/pisa2012technicalreport.htm.

  6. http://www.un.org/disabilities/documents/gadocs/standardrules.pdf.

  7. http://www.plainlanguage.gov.

  8. http://inclusion-europe.org/.

  9. http://www.w3.org/TR/WCAG/.

  10. http://simple.wikipedia.org/wiki/Main_Page.

  11. http://kids.britannica.com/.

  12. http://www.noticiasfacil.es/ES/Paginas/index.aspx.

  13. http://www.lecturafacil.net/content-management-es/.

  14. http://www.facillectura.es/.

  15. The actual instances described here as examples have been developed as plug-ins for GATE to take advantage of existing NLP tools.

  16. http://www.servimedia.es/.

  17. http://www.ilc.cnr.it/EAGLES96/annotate/annotate.html.

  18. https://docs.google.com/forms/d/1cfISwwcUGdZBI9XjnvlgYLG0Sp9tcrfjw5cT2Jv8veo/viewform.

  19. The 15 pairs of sentences are presented in the “Appendix” at the end of the paper.

  20. http://www.oecd.org/.

References

  1. Herrera, A., Macizo, P.: ¿Cómo leemos los números? (How we read numbers?). Ciencia Cognitiva 6(2), 44–47 (2012)

    Google Scholar 

  2. Salguero, M., Alameda, J.: El procesamiento de los números y sus implicaciones educativas (Number processing and its educational implications). XXI Revista de Educación (Education Journal) 5, 181–189 (2003)

    Google Scholar 

  3. Piaget, J., Inhelder, B.: Psicología del niño. Editorial Morata (1969)

  4. Butterworth, B.: Foundational numerical capacities and the origins of dyscalculia. Trends in Cognitive Sciences 14(12), 534–541 (2010)

    Article  Google Scholar 

  5. Landerl, K., Bevan, A., Butterworth, B., et al.: Developmental dyscalculia and basic numerical capacities: a study of 8{9-year-old students. Cognition 93(2), 99–125 (2004)

    Article  Google Scholar 

  6. Saggion, H., Gómez-Martínez, E., Etayo, E., Anula, A., Bourg, L.: Text simplification in simplext: making text more accessible. Procesamiento del Lenguaje Natural 47, 341–342 (2011)

    Google Scholar 

  7. Medero, J., Ostendorf, M.: Identifying targets for syntactic simplification. In: Proceedings of Speech and Language Technology in Education (2011)

  8. Carroll, J., Minnen, G., Canning, Y., Devlin, S., Tait, J.: Practical simplification of English newspaper text to assist aphasic readers. In: AAAI-98 (1998)

  9. Inui, K., Fujita, A., Takahashi, T., Iida, R., Iwakura, T.: Text simplification for reading assistance: A project note. In: Workshop on Paraphrasing (2003)

  10. Specia, L.: Translating from complex to simplified sentences. In: 9th International Conference on Computational Processing of the Portuguese Language (2010)

    Google Scholar 

  11. Burstein, J., Shore, J., Sabatini, J., Lee, Y.W., Ventura, M.: The automated text adaptation tool. In: HLTNAACL (Demonstrations), pp. 3–4 (2007)

  12. Devlin, S., Unthank, G.: Helping aphasic people process online information. In: Proceedings of the 8th International ACM SIGACCESS Conference on Computers and Accessibility (2006)

  13. Chandrasekar, R., Doran, C., Srinivas, B.: Motivations and methods for text simplification. In: Proceedings of the Sixteenth International Conference on Computational Linguistics (COLING ‘96), pp. 1041–1044

  14. Siddharthan, A.: An architecture for a text simplification system. In: Proceedings of the Language Engineering Conference (LEC 2002), pp. 64–71 (2002)

  15. Junior, A., Maziero, E., Gasperinm, C., Pardo, T., Specia, L., Aluisio, S.: Supporting the adaptation of texts for poor literacy readers: a text simplification editor for Brazilian Portuguese. In: Proceedings of the NAACL/HLT Workshop on Innovative Use of NLP for Building Educational Applications, Boulder, Colorado, pp. 34–42 (2009)

  16. Daelemans, W., Hothker, A., Sang, E.T.K.: Automatic sentence simplification for subtitling in Dutch and English. In: Proceedings of the 4th Conference on Language Resources and Evaluation, Lisbon, Portugal, pp. 1045–1048 (2004)

  17. Petersen, S.E., Ostendorf, M.: Text simplification for language learners: a corpus analysis. In: Proceedings of Workshop on Speech and Language Technology for Education (SLaTE) (2007)

  18. Gasperin, C., Specia, L., Pereira, T.F., Aluisio, S.M.: Learning when to simplify sentences for natural text simplification. In: Proceedings of the Encontro Nacional de Inteligencia Artificial (ENIA), Bento Gonalves, Brazil, pp. 809–818 (2009)

  19. Zhu, Z., Bernhard, D., Gurevych, I.: A monolingual tree-based translation model for sentence simplification. In: Proceedings of the 23rd International Conference on Computational Linguistics, COLING’10 (2010)

  20. Woddsend, K., Lapata, M.: Learning to simplify sentences with quasi-synchronous grammar and integer programming. In: Proceedings of the Conference on Empirical Methods in Natural Language Processing (EMNLP) (2011)

  21. Klerke, S., Sogaard, A.: Simple, readable sub-sentences. In: ACL (Student Research Workshop) (2013)

  22. Devlin, S., Tait, J.: The use of a psycholinguistic database in the simplification of text for aphasic readers. In: Linguist Databases. CSLI, pp. 161–173 (1998)

  23. Miller, G.A., Beckwith, R., Fellbaum, C., Gross, D., Miller, K.J.: Introduction to WordNet: an On-line Lexical Database. Int J Lexicography 3(4), 235–244 (1990)

    Article  Google Scholar 

  24. Quinlan, P.: The Oxford Psycholinguistic Database. Oxford University Press, Oxford (1992)

    Google Scholar 

  25. Bautista, S., Gervás, P., Madrid, R.: Feasibility analysis for semiautomatic conversion of text to improve readability. In: Proceedings of the Second International Conference on Information and Communication Technologies and Accessibility (2009)

  26. De Belder, J., Deschacht, K., Moens, M.F.: Lexical simplification. In: Proceedings of the 1st International Conference on Interdisciplinary Research on Technology, Education and Communication (2010)

  27. Peters, E., Hibbard, J., Slovic, P., Dieckmann, N.: Numeracy skill and the communication, comprehension, and use of risk-benefit information. Health Aff. 26(3), 741–748 (2007)

    Article  Google Scholar 

  28. Power, R., Williams, S.: Generating numerical approximations. Comput Linguist 38(1), 113–134 (2012)

    Article  Google Scholar 

  29. Bautista, S., Hervás, R., Gervás, P., Power, R., Williams, S.: How to make numerical information accessible: experimental identification of simplification strategies. In: 13th IFIP TC13 Conference on Human-Computer Interaction (INTERACT), Lisbon, Portugal (2011)

  30. Krifka, M.: Be brief and vague! And how bidirectional optimality theory allows for Verbosity and Precision. In: Sounds and Systems: Studies in Structure and Change: A Festschrift for Theo Vennemann (Trends in Linguistics 141), Mouton de Gruyter, Berlin, pp. 439–458 (2002)

  31. Williams, S., Power, R.: Precision and mathematical form in first and subsequent mentions of numerical facts and their relation to document structure. In: Proceedings of the 12th European Workshop on Natural Language Generation, Athens (2009)

  32. Grice, H.P.: Logic and Conversation. In: Cole, P., Morgan, J.L. (eds.) Syntax and Semantics: Vol. 3: Speech Acts, pp. 41–58. Academic Press, San Diego (1975)

    Google Scholar 

  33. MacKay, D.J.: Sustainable energy—without the hot air (2009)

  34. Qualifications, Authority, C.: Annual report and accounts. Technical report, Financial statements (2010)

  35. Anula, A.: Tipos de textos, complejidad lingüística y facilicitación lectora. In: Actas del Sexto Congreso de Hispanistas de Asia, pp. 45–61 (2007)

  36. Anula, A.: Lecturas adaptadas a la enseñanza del español como L2: variables lingüísticas para la determinación del nivel de legibilidad. In: Pastor y Roca (eds.) La evaluación en el aprendizaje y la enseñanza del español como LE/L2, Alicante, pp. 162–170 (2008)

  37. Bautista, S., Drndarevic, B., Hervás, R., Saggion, H., Gervás, P.: Análisis de la Simplificación de Expresiones Numéricas en Español mediante un estudio Empírico. Linguamática 4(2), 27–41 (2012)

    Google Scholar 

  38. Drndarevic, B., Stajner, S., Bott, S., Bautista, S., Saggion, H.: Automatic text simplification in spanish: a comparative evaluation of complementing modules. In: 14th International Conference on Intelligent Text Processing and Computational Linguistics (Cicling) (2013)

    Chapter  Google Scholar 

  39. Padró, L., Stanilovsky, E.: FreeLing 3.0: towards wider multilinguality. In: Proceedings of the Language Resources and Evaluation Conference (LREC 2012), Istanbul, Turkey, ELRA (May 2012)

  40. Cunningham, H., Maynard, D., Bontcheva, K., Tablan, V.: GATE: a framework and graphical development environment for robust NLP tools and applications. In: Proceedings of the 40th Anniversary Meeting of the Association for Computational Linguistics (2002)

  41. Bautista, S., Saggion, H.: Making Numerical Information More Accessible: Implementation of a Numerical Expressions Simplification Component for Spanish. ITL-International Journal of Applied Linguistics. Special Issue on Readability and Text Simplification. Peeters Publishers, Belgium (2014)

    Google Scholar 

  42. Bautista, S., Hervás, R., Gervás, P., Power, R., Williams, S.: A system for the simplification of numerical expressions at different levels of understandability. In: NLP4ITA (2013)

  43. Siddharthan, A.: An architecture for a text simplification system. In: Language Engineering Conference, IEEE Computer Society, vol. 64

  44. De Belder, J., Deschacht, K., Moens, M.F.: Lexical simplification. In: Proceedings of Itec2010: 1st International Conference on Interdisciplinary Research on Technology, Education and Communication (2010)

  45. Brouwers, L., Bernhard, D., Ligozat, A., Francois, T.: Syntactic Sentence Simplification for French. In: Proceedings of the 3rd Workshop on Predicting and Improving Text Readability for Target Reader Populations (PITR) at EACL 2014, Gothenburg, Sweden (2014)

  46. Siddharthan, A., Angrosh, M.: Hybrid text simplification using synchronous dependency grammars with handwritten and automatically harvested rules. In: Proceedings of the 14th Conference of the European Chapter of the Association for Computational Linguistics (EACL 2014), Gothenburg, Sweden (2014)

Download references

Acknowledgments

This research is funded by the Spanish Ministry of Education and Science (TIN2009-14659-C03-01 Project), and the FPI grant program. The authors would like to thank Ricardo García for his help in this work.

Author information

Authors and Affiliations

Authors

Corresponding author

Correspondence to Susana Bautista.

Appendix

Appendix

This Appendix contains the 15 pairs of sentences selected to the survey carried out. In each question, the sentence tagged as (A) is the original and the sentence tagged as (B) is the simplified version.

Question 1

(A) El secretario general de la ONU, Ban Ki-moon, afirma que alrededor de 1.750 millones de personas de 104 países pobres no pueden satisfacer algunas de sus necesidades básicas.

(B) El secretario general de la ONU, Ban Ki-moon, afirma que casi 2000 millones de personas de más de 100 países pobres no pueden satisfacer algunas de sus necesidades básicas.

Question 2

(A) El Alto Comisionado de Naciones Unidas para los refugiados, Antonio Guterres, hizo un llamamiento a la comunidad internacional de unos 280 millones de dólares (205 millones de euros) para las 40 organizaciones que apoyan a los refugiados iraquíes en 12 países.

(B) El Alto Comisionado de Naciones Unidas para los refugiados, Antonio Guterres, hizo un llamamiento a la comunidad internacional de casi 300 millones de dólares (más de 200 millones de euros) para las unas 40 organizaciones que apoyan a los refugiados iraquíes en más de 10 países.

Question 3

(A) Con cerca de 76.000 visitantes profesionales procedentes de 115 países y más de 2.600 exhibidores, se trata de el certamen de referencia para este sector, en el que se presentan las novedades del juguete tradicional para el año 2011, según informó la Asociación Española de Fabricantes de Juguetes.

(B) Con casi 80000 visitantes profesionales procedentes de más de 100 países y casi 3000 exhibidores, se trata del certamen de referencia para este sector, en el que se presentan las novedades del juguete tradicional para el año 2011, según informó la Asociación Española de Fabricantes de Juguetes.

Question 4

(A) Por comunidades, destaca la representación de empresas de la Comunidad Valenciana con 55 participantes seguida de Cataluña con 29.

(B) Por comunidades, destaca la representación de empresas de la Comunidad Valenciana con casi 60 participantes seguida de Cataluña con casi 30.

Question 5

(A) Según la Comunidad, este proyecto se dirige a los autóctonos y a los más de un millón cien mil inmigrantes que viven en la región, de los que cerca de 34.000 proceden de Bulgaria.

(B) Según la Comunidad, este proyecto se dirige a los autóctonos y a los más de 1000000 inmigrantes que viven en la región, de los que más de 30000 proceden de Bulgaria.

Question 6

(A) Aproximadamente siete de cada diez prefiere el formato papel y el 13 % se decanta por un diario “on-line.”

(B) Aproximadamente siete de cada diez prefiere el formato papel y más de 10 % se decanta por un diario “on-line.”

Question 7

(A) Los filmes extranjeros no se libraron de la merma y atrajeron a un millón y medio menos de aficionados: 43,7 millones en lugar de los 45,3 millones del periodo anterior.

(B) Los filmes extranjeros no se libraron de la merma y atrajeron a 1500000 menos de aficionados: casi 44 millones en lugar de los más de 45 millones del periodo anterior.

Question 8

(A) Pinturas, esculturas y cerámicas de diferentes periodos y estilos del artista conforman este conjunto de 43 piezas cedidas en comodato por 15 años por la citada fundación.

(B) Pinturas, esculturas y cerámicas de diferentes periodos y estilos del artista conforman este conjunto de más de 40 piezas cedidas en comodato por casi 20 años por la citada fundación.

Question 9

(A) Según dicho trabajo, el hallazgo tuvo lugar en la nebulosa del Cangrejo, situada a 6.300 años luz de la Vía Láctea, en la constelación de Tauro y en la Vía Láctea.

(B) Según dicho trabajo, el hallazgo tuvo lugar en la nebulosa del Cangrejo, situada a más de 6000 años luz de la Vía Láctea, en la constelación de Tauro y en la Vía Láctea.

Question 10

(A) El fomento del conocimiento de la cultura y las lenguas españolas es una de las prioridades del departamento de Exteriores que aporta al Instituto Cervantes 86 de los 102 millones de euros de su presupuesto anual.

(B) El fomento del conocimiento de la cultura y las lenguas españolas es una de las prioridades del departamento de Exteriores que aporta al Instituto Cervantes casi 90 de los más de 100 millones de euros de su presupuesto anual.

Question 11

(A) El 61 % de los españoles de entre 12 y 18 años consumen habitualmente bebidas alcohólicas y de ellos el 10 % lo hacen para “colocarse.”

(B) Más de 60 % de los españoles de entre más de 10 y casi 20 años consumen habitualmente bebidas alcohólicas y de ellos 10 % lo hacen para “colocarse.”

Question 12

(A) Por otro lado, la ONU ha logrado recaudar un 34 % de los 2.000 millones de dólares (cerca de 1.400 millones de euros) solicitados como llamamiento de urgencia ante la catástrofe de Pakistán.

(B) Por otro lado, la ONU ha logrado recaudar más de 30 % de los 2000 millones de dólares (más de 1000 millones de euros) solicitados como llamamiento de urgencia ante la catástrofe de Pakistán.

Question 13

(A) Alrededor de 390.000 personas han regresado a sus casas desde que vieran obligadas a desplazar se por las inundaciones…

(B) Casi 400000 personas han regresado a sus casas desde que vieran obligadas a desplazar se por las inundaciones…

Question 14

(A) El 18,55 % de las agresiones que sufrieron los médicos españoles en sus consultas el año pasado tuvieron como consecuencia una lesión…

(B) Casi 19 % de las agresiones que sufrieron los médicos españoles en sus consultas el año pasado tuvieron como consecuencia una lesión…

Question 15

(A) En virtud de estas cifras, difundidas este martes en rueda de prensa, en 2010 se registraron en España un total de 451 agresiones a facultativos, es decir, 2,07 por cada mil médicos, lo que supone, a juicio de la organización médica, un “grave problema social” para el que se pide “tolerancia cero” y que se produce en el 90,63 % de los casos en el sector público.

(B) En virtud de estas cifras, difundidas este martes en rueda de prensa, en 2010 se registraron en España un total de casi 500 agresiones a facultativos, es decir, más de 2 por cada 1000 médicos, lo que supone, a juicio de la organización médica, un “grave problema social” para el que se pide “tolerancia cero” y que se produce en casi 91 % de los casos en el sector público.

Rights and permissions

Reprints and permissions

About this article

Check for updates. Verify currency and authenticity via CrossMark

Cite this article

Bautista, S., Hervás, R., Gervás, P. et al. An approach to treat numerical information in the text simplification process. Univ Access Inf Soc 16, 85–102 (2017). https://doi.org/10.1007/s10209-015-0426-z

Download citation

  • Published:

  • Issue Date:

  • DOI: https://doi.org/10.1007/s10209-015-0426-z

Keywords

Navigation