CHILDES Catalan GRERLI Corpus


Liliana Tolchinsky

University of Barcelona

Participants: 80
Type of Study: spoken and written expository texts, spoken and written narrative texts
Location: Spain
Media type: not available
DOI: doi:10.21415/YME2-PD42

Browsable transcripts

Download transcripts

Citation information

Main publications on data from the corpora:

In accordance with TalkBank rules, any use of data from this corpus must be accompanied by at least one of the above references.

Project Description

The GRERLI corpus was compiled within the framework of a cross-linguistic project designed to analyze the development of text construction abilities in different languages. The corpus was compiled in 1998 and 1999 as part of the international project “Developing literacy in different contexts and in different languages”, Spencer Foundation, Chicago, USA (P.I.: R. A. Berman, Tel Aviv University). The main goals of this project were to understand how speakers/writers develop discursive abilities across different educational levels; to analyze how they use the resources of their respective languages to construct discourse in different genres (expository and narrative) and modalities of production (spoken and written); and, finally, to identify common and language-specific patterns of language use when producing spoken and written texts (Berman & Verhoeven, 2002).

The GRERLI corpus consists of two sub-corpora: GRERLI-ES1, which compiles texts produced by monolingual speakers of Spanish, and GRERLI-CAT1, which compiles texts in Catalan produced by bilingual Catalan-Spanish speakers. Participants were distributed in four groups of 20, according to their educational level and age: 4th grade (9 years old), 1st year junior-high (12 years old), 1st year high-school (17years old), and university students (over 20 years old).

In the GRERLI-ES1 corpus, the adults group comprises 20 university students; whereas in the GRERLI-CAT1 corpus, the adults group is divided in two subgroups: a group of 10 university students; and a group of 10 high school Catalan language teachers.

Age means and range in the GRERLI-ES1 corpus: grade-school children, mean age: 9;6 (range 9;0--11;1); junior-high students, mean age: 12;7 (range 12;3--13;8); high school students, mean age: 16;8 (range 16;2--17;10); university adults, mean age: 22;3 (range 18;11--28;4). Age means and range in the GRERLI-CAT1 corpus: grade-school children, mean age: 10;0 (range 9;6--10;9); junior-high students, mean age: 13;0 (range 12;4--13;4), high-school students, mean age: 17;0 (range 16;2--18;10); university adults, mean age: 21;7 (range 19;0--24;2); language teachers, mean age: 43;0 (range 36;7--54;11).

All participants produced four texts. After watching a three-minute video without text, participants were asked to produce a spoken expository text, a written expository text, a spoken narrative text, and a written narrative text. Data were elicited in two sessions and four different orders of text production: A (first session: spoken narrative/ written narrative; second session: spoken expository/written expository); B (first session: written narrative/spoken narrative; second session: written expository/spoken expository); C (first session: spoken expository/written expository; second session: spoken narrative/written narrative); and D (first session: written expository/ spoken expository; second session: written narrative/spoken narrative). The video shows different conflictive situations in schools, such as fights, marginalizing classmates, cheating in exams, etc., and was used to unify discourse content and enable the comparison of linguistic features across different texts.

Both spoken and written texts were transcribed in CHAT format (MacWhinney, 2000; MacWhinney, 2012). Spoken productions were transcribed orthographically (not phonetically), including processing information (pauses, repetitions, reformulations, etc.). In written texts, spelling mistakes were followed by the correct form. The transcription unit was the clause, so that each main tier corresponds to a clause. Berman and Slobin’s (1994, p. 660) definition of clause was followed: “any unit that contains a unified predicate. By unified, we mean a predicate that expresses a single situation (activity, event, state). Predicates include finite and nonfinite verbs, as well as predicate adjectives”.

Filenames were created following these rules:
1. Language: p, Spanish / c, Catalan
2. Age group: g, Grade school / j, Junior high / h, High school / s, Science graduate majors / u, Humanities graduate majors / t, Teachers
3. Subject number: 01 > 20
4. Sex: f, Female / m, Male
5. Genre: e, Expository / n, Narrative
6. Modality: s, Spoken / w, Written
7. Order: a, Order A / b, Order B / c, Order C / d, Order D

In the @ID line for each Subject, the sixth field is the Age Group and it uses these numbers: 1=GradeSchool, 2=JuniorHigh, 3=HighSchool, 4=University, 5=Teacher. The final custom field codes ES = Expository Spoken, EW = Expository Written, NS = Narrative Spoken, NW = Narrative Written.

GRERLI-ES1 corpus (I.P.: Liliana Tolchinsky)

The GRERLI-ES1 corpus contains 160 narrative texts, 20 spoken and 20 written from each school level. The texts were produced by 80 informants from Córdoba, Spain, who were native speakers of Spanish. Grade-school and junior-high school participants were from Colegio Averroes, high-school participants were from Instituto de Educación Secundaria Fidiana, and adult participants were students at Universidad de Córdoba. The corpus was collected under the supervision of Pilar Lacasa (Universidad de Córdoba).

The instructions given to participants in order A were the following:

INSTRUCCIONES (ORDEN A)
1ª sesión: 1º NS (Narrativa - Oral) 2º NW (Narrativa - Escrita)
2ª sesión: 1º ES (Expositiva - Oral) 2º EW (Expositiva - Escrita)

Estamos haciendo un trabajo sobre la vida en las escuelas e institutos en distintos lugares. Estamos recogiendo material sobre esto. Así que te pediremos que hables y escribas. Espero que no te moleste que te grabemos.

1ª sesión (Narrativa)

Para empezar, te mostraré un vídeo muy corto sobre distintas situaciones desagradables que se filmó en una escuela.

- NS (Narrative-Spoken)

Poner vídeo.

Se empieza a grabar ya (una vez acabado el vídeo)

Seguro que reconocerás algunas de las situaciones que aparecen en el vídeo. ¿Te ha ocurrido a ti alguna vez algo desagradable de este tipo? ¿Podrías contarme lo que te sucedió? Cuéntame la historia de lo que a ti te ha pasado.

Si el sujeto pregunta ‘¿Tiene que ser una historia que pasara en la escuela?’ se le responde que sí; si insiste, se le dice que si no le ha pasado nada en la escuela y sí en otro lugar, que lo cuente. Si pregunta ‘¿Puede ser una historia de otra escuela?’ se le responde que sí. Si pregunta sobre cuánto tiempo tiene, se le dice que no se preocupe aunque sea un poco largo.

Recuerde: nuestro propósito no es que el sujeto reitere alguna de las situaciones vistas.

Cuando acabe, se termina de grabar ya.

- NW (Narrative-Written)

Nos gustaría también tener una colección escrita de las historias. ¿Podrías contarnos por escrito lo que te ha sucedido, escribir la historia de lo que te sucedió? Toma todo el tiempo que necesites. Puedes tomar notas antes de escribir. Yo estaré por aquí fuera, llámame cuando hayas acabado.

Si el sujeto pregunta ‘¿Tengo que contar la misma historia?’ se le responde que sí. Si pregunta cómo tiene que ser de largo lo que escriba, se le responde que como mínimo 10 líneas.

(Se le da papel y lápiz para que tome notas previamente y para que escriba la narración. Salimos fuera.)

2ª sesión (Expositiva)

Hace una semana te mostramos un vídeo y tú nos contaste una historia sobre algo similar que te había sucedido. Estamos recogiendo también material para entender este tipo de problemas. Ahora me gustaría saber qué nos puedes decir sobre el tema.

- ES (Expository-Spoken)

Se empieza a grabar ya.

Recuerda que el otro día ya nos explicaste una historia que te sucedió a ti, ahora lo que quiero es un discurso sobre el tema. ¿Podrías hacer un discurso sobre este tema, como si estuvieras frente a un público? Piensa cuidadosamente sobre lo que dirás y luego comienza. Si quieres tomar alguna nota antes de empezar, puedes hacerlo.

Si el sujeto pregunta ‘¿Cuánto tiempo tengo?’ se le responde ‘uno o dos minutos’. Si pregunta ‘¿Qué es un discurso?’ se le responde ‘hablar seriamente del tema’. Si pregunta ‘¿Qué tema?’ se le responde ‘bueno, este tipo de problemas’ (evitar especificar el tema); si insistieran, se les dice ‘problemas de la vida en la escuela o instituto’ (evitar mencionar, en la tarea expositiva, ‘situaciones desagradables como las que has visto’).

(Se le da papel y lápiz por si quiere tomar notas previamente. Le damos unos minutos para que tome notas y entonces le decimos: ‘¿Qué, empezamos?’)

(Mientras el sujeto realice la tarea, nos sentamos frente a él a cierta distancia, detrás de una mesa, creando una situación más formal. El sujeto se puede sentar también. Cuando acabe, se termina de grabar ya.)

- EW (Expository-Written)

Muchas gracias. Nos gustaría también tener una colección de redacciones sobre este tema. Por favor, escribe una redacción. Piensa cuidadosamente sobre el tema, toma tu tiempo y luego escribe. Puedes tomar notas antes de escribir. Estaré por aquí fuera, llámame cuando hayas acabado.

Si el sujeto pregunta cómo tiene que ser de largo lo que escriba, se le responde que como mínimo 10 líneas. Si pregunta si puede o tiene que ser el mismo discurso, se le dice que sí.

(Se le da papel y lápiz para que tome notas previamente y para que escriba la exposición. Salimos fuera.)

GRERLI-CAT1 corpus (I.P.: Joan Perera)

The GRERLI-CAT1 corpus contains 158 narrative texts, 20 spoken and 20 written from each school level except for the junior-high school group, which has 19 participants. The texts were produced by 79 participants from Barcelona, who were bilingual speakers of Catalan and Spanish and whose home language was Catalan. (It is unlikely to find monolingual speakers of Catalan, since Catalan and Spanish are both official languages in Catalonia. All children use Catalan at school, and Spanish is massively present both in the media and in social settings.)

Data were collected in Barcelona (Spain). Grade-school participants were from Centre Públic d’Educació Infantil i Primària La Farigola and from Centre Públic d’Educació Infantil i Primària Lavínia; junior-high school and high-school participants were from Institut d’Educació Secundària Joan Maragall; and adult participants were either students at Universitat de Barcelona, or teachers of Catalan who work at high-schools in Barcelona (and hold a university degree). The corpus was collected by Joan Perera, Melina Aparici, Joan Busquets, and Lluïsa Carbonell.

The instructions given to participants in order D were the following:

INSTRUCCIONS (ORDRE D)

1a sessió: 1er EW (Expositiva - Escrita) 2on ES (Expositiva - Oral)

2a sessió: 1er NW (Narrativa - Escrita) 2on NS (Narrativa - Oral)

1a sessió (Expositiva)

Estem fent un treball sobre la vida a les escoles i instituts en diferents països. Estem recollint material sobre això. Així que et demanarem que parlis i escriguis. Espero que no et molesti que et gravi. Per començar, et mostraré un vídeo en què apareixen tot tipus de problemes, que es va filmar en una escola/institut. És molt curt.

Es posa el vídeo. Un cop ha acabat el vídeo, l’entrevistador/a dóna les instruccions per a la producció dels textos.

- EW (Expository-Written)

Estem recollint material per entendre aquest tipus de problemes. Ens agradaria saber què ens pots dir sobre el tema. Si us plau, escriu una redacció. Pensa acuradament sobre el tema, l’estona que et calgui, i després escriu. Pots prendre notes abans d’escriure. Jo estaré per aquí fora, avisa’m quan hagis acabat.

Si el subjecte pregunta ‘Quin tema?’ se li respon ‘Bé, aquest tipus de problemes’ (cal evitar l’especificació del tema); si hi insisteixen, se’ls diu ‘Problemes de la vida a l’escola o institut’ (cal evitar, en la tasca expositiva, expressions com ‘situacions desagradables com les que has vist’; també cal evitar dir: ‘volem saber la teva opinió’). Si el subjecte pregunta com ha de ser de llarg el que escrigui, se li respon que com a mínim 10 línies.

Se li dóna paper i llapis o bolígraf. Sortim a fora. Quan el subjecte ens indica que ja ha acabat, recollim el full on ha escrit el text i passem a la segona part de la sessió.

- ES (Expository-Spoken)

Es comença a gravar en aquest punt de la sessió. L’entrevistador/a s’asseu al davant del subjecte a certa distància, darrere d’una taula, creant una situació de formalitat.

Moltes gràcies. Ara ens agradaria tenir una col·lecció de discursos sobre aquest tema. Podries fer un discurs sobre el tema, com si estiguessis davant d’un públic? Pensa acuradament sobre el que diràs i després comença. Si vols prendre alguna nota abans de començar, pots fer-ho.

Si el subjecte pregunta ‘Quant de temps tinc?’ se li respon ‘un o dos minuts’. Si pregunta ‘Què és un discurs?’ se li respon ‘parlar seriosament del tema’. Si pregunta si pot o ha de ser el mateix discurs, se li diu que sí.

Si volen prendre notes prèviament, els donem uns minuts per fer-ho, i després els diem: ‘Què, comencem?’. No hi ha un límit de temps, però si al cap d’uns 10 minuts no ha acabat, se li indica que vagi acabant, que probablement ja n’hi ha prou. Al llarg de la intervenció, l’entrevistador/a només escolta i no hi intervé. Únicament en el cas que el subjecte es limités a una intervenció inicial molt simple o breu, se’l podria conduir a ampliar o precisar el que ha dit, amb frases del tipus: Això és tot? No vols afegir-hi res més?

Quan acabi, es para de gravar i s’acomiada el subjecte, amb alguna expressió del tipus:

Molt bé. Ens tornarem a veure la setmana vinent per completar aquest treball. Gràcies.

2a sessió (Narrativa)

- NW (Narrative-Written)

Fa una setmana et vam mostrar un vídeo i tu ens vas parlar sobre el tema. Ens agradaria tenir també una història que t’hagi passat a tu. Suposo que recordes el vídeo. A tu et deu haver passat alguna cosa semblant, oi?

Segur que vas reconèixer algunes de les situacions que apareixien en el vídeo. T’ha passat a tu alguna vegada alguna cosa desagradable d’aquest tipus? Ens podries explicar per escrit el que t’ha passat, escriure la història del que et va passar? Pots estar tot el temps que necessitis. Pots prendre notes abans d’escriure. Jo estaré per aquí fora, avisa’m quan hagis acabat.

Si el subjecte pregunta ‘Ha de ser una història que passés a l’escola?’ se li respon que sí; si hi insisteix, se li diu que, si no li ha passat res a l’escola i sí en un altre lloc, que ho expliqui. Si pregunta ‘Pot ser una història d’una altra escola?’ se li respon que sí. Si el subjecte pregunta com ha de ser de llarg el que escrigui, se li respon que com a mínim 10 línies.

Recordeu: No digueu mai: ‘el que has vist al vídeo’. El nostre propòsit no és que el subjecte reiteri alguna de les situacions vistes, sinó que expliqui una història personal.

Se li dóna paper i llapis o bolígraf. Sortim a fora. Quan el subjecte ens indica que ja ha acabat, recollim el full on ha escrit el text i passem a la segona part de la sessió.

- NS (Narrative-Spoken)

Es comença a gravar en aquest punt de la sessió. L’entrevistador/a s’asseu al davant o al costat del subjecte, intentant afavorir un clima de proximitat.

Moltes gràcies. Ara em podries explicar el que et va passar, segur que m’interessarà. Explica’m, si us plau, la història del que a tu t’ha passat.

Si el subjecte pregunta ‘He d’explicar la mateixa història?’ se li respon que sí. Si pregunta quant de temps té, se li diu que no es preocupi encara que sigui llarg.

No hi ha un límit de temps, però si al cap d’uns 10 minuts no ha acabat, se li indica que vagi acabant, que probablement ja n’hi ha prou. Al llarg de la intervenció, l’entrevistador/a només escolta i no hi intervé. Únicament en el cas que el subjecte es limités a una intervenció inicial molt simple o breu, se’l podria conduir a ampliar o precisar el que ha dit, amb frases del tipus: Això és tot? I no va passar res més?

Moltes gràcies. Les teves respostes ens ajudaran molt a entendre què passa a les escoles i els instituts.

2. Specific uses of CHAT transcription symbols

Information about some special uses of CHAT symbols in the transcripts that might be useful to work with the corpus (Aparici, 2010).

When participants use a non-standard form, the orthographically correct form (in the case of written texts) or the correctly pronounced form (in the case of spoken texts) follows the written/produced original word, using the scoped symbol [: xxx] (e.g., fuí [: fui]).

Clitic pronouns that are conventionally spelled as one word (or that –in Catalan- are written separated by a hyphen or apostrophe) were marked with ~ inside the scoped symbol [: xxx], in order to allow for different types of word counts or searches. Ex.: romperlas [: romper~las], trencar-les [: trencar~les], trenca’ls [: trenca~ls]

In written texts, numbers that were written as such (instead of letters) were transcribed using the special word marker @n (e.g., tres@n). Other special word markers used are the following:
@i for interjections and fillers (e.g., bueno@i)
@fp for filled pauses (e.g., ehm@fp)
@d for dialecticisms (e.g., asín@d)
@o for onomatopoeias (e.g., pam@o)

Abbreviations and acronyms are transcribed as they were written/produced. In cases where their meaning is particularly difficult to extract, the full form is transcribed with the scoped symbol for transcriber’s comments following the original form (e.g.: ed [% educación]).

The symbol + was used for compound words that are written as one word (e.g.: pilla+pilla, coche+bomba) and also for multiword expressions, that is, unanalyzed chunks that are written as several words (e.g., o+sigui, no+sé+què, por+ejemplo), in order to allow for different types of word counts (i.e., counting multiword expressions as one word).

Productions that were not part of the monologic narrative discourse or were not productive were transcribed but marked with postcodes so that they could be excluded from analysis when needed:
    [+ TIT] for titles or subtitles, in written narratives
    [+ DIA] for sequences of dialogue between the researcher and the participant, in spoken narratives
    [+ FED] for formulaic endings

As for punctuation marks in written texts, the symbol # was used for transcribing periods, and comma for transcribing commas. However, some punctuation marks and written conventions that the participant used could not be transcribed as such in CHAT format (they are either utterance terminators in CHAT, thus they cannot be used within a main tier, or they are not accepted by the format). These are indicated with the scoped symbol for transcriber’s comments to the main tier (e.g., [% punto y aparte]) –colon, semicolon, full stop, parenthesis, question mark, etc.

By the same token, the Catalan letter “l.l” was transcribed as “lll” and the name of the letter was indicated within the scoped symbol for transcriber’s comments (e.g., colllegi [% ela geminada]).

3. References

Aparici, M. (2010). El desarrollo de la conectividad discursiva en diferentes géneros y modalidades de producción [The development of discourse connectivity in different genres and modalities of production] (Unpublished doctoral dissertation). Barcelona: Universitat de Barcelona.

Berman, R. A., & Slobin, D. (1994). Relating events in narrative: a crosslinguistic developmental study. Mahwah, NJ: Lawrence Erlbaum Associates.

Berman, R. A., & Verhoeven, L. (2002). Cross-linguistic perspectives on the development of text production abilities: speech and writting. Written Language and Literacy, 5 (1), 1-44.

MacWhinney, B. (2000). The CHILDES project: tools for analyzing talk (3rd ed.). Mahwah, NJ: Lawrence Erlbaum Associates.

MacWhinney, B. (2012, August 06). The CHAT transcription format. Retrieved from https://childes.psy.cmu.edu/manuals/CHAT.pdf.

4. Research projects and publications

Research projects that used the corpora:

Processament i organització discursiva de textos expositius orals i escrits (2000-2001)
Funding Agency: Universitat de Barcelona
Reference: 1999RED-5020-2A
Principal Investigator: Joan Perera
Members of the research team: Carmen Arbonés, Pilar Monné, Marcel Fité, Liliana Tolchinsky
Research assistants: Melina Aparici, Elisa Rosado

Recursos lingüísticos de despersonalización: perspectivas translingüística, evolutiva y didáctica (2001-2003)
Funding Agency: MCTE - Ministerio de Ciencia y Tecnología.
Reference: BSO2000-0676
Principal Investigator: Joan Perera
Members of the research team: Carmen Arbonés, Carmen Buisan, Marcel Fité, Harriet Jisa, Pilar Monné, Miquel Siguan, Liliana Tolchinsky
Research assistants: Melina Aparici, Elisa Rosado

El desarrollo del repertorio lingüístico en hablantes no nativos de castellano y catalán (2006-2009)
Funding Agency: MEDU – Ministerio de Educación y Ciencia
Reference: SEJ2006-11083
Principal Investigator: Joan Perera
Members of the research team: Melina Aparici, Carmen Arbonés, Aurora Bel, Harriet Jisa, Pilar Monné, Estrella Nicolás, Elisa Rosado, Miquel Siguan, Adriana van Hell,
Collaborating senior Researcher: Liliana Tolchinsky
Research assistants: Alicia Doménech, Rachid Lamarti, Naymé Salas, Agustín Zapatero

Hacia el dominio experto de la lengua: estudio comparado del desarrollo del repertorio lingüístico nativo y no nativo en castellano y catalán (2009-2012)
Funding Agency: MEDU - Ministerio de Educación y Ciencia
Reference: EDU2009-08862
Principal Investigator: Joan Perera
Members of the research team: Melina Aparici, Ruth Berman, Florence Chenu, Carolina Forns, Harriet Jisa, Estrella Nicolás, Elisa Rosado, Miquel Siguan, Mª Dolores Toledo, Agustín Zapatero
Collaborating senior Researcher: Liliana Tolchinsky
Research assistants: Laia Cutillas, Naymé Salas

Acknowledgements

Data collection was supported by the following research projects:

Corpus GRERLI-ES1:
Developing literacy in different contexts and in different languages
Period: 1996-2001
Funding Agency: Spencer Foundation (USA)
Principal Investigator: Ruth Berman. P.I for Spanish: Liliana Tolchinsky.
Other participants: Joan Perera (senior researcher), Melina Aparici (research assistant)

Corpus GRERLI-CAT1:
Fenòmens d'interferència en el desenvolupament del repertori lingüístic
Period: 1998-2000
Funding Agency: Universitat de Barcelona
Reference: 1997-RE-5002-2A
Principal Investigator: Joan Perera
Members of the research team: Carmen Arbonés, Joan Busquets, Lluïsa Carbonell, Marcel Fité, Liliana Tolchinsky
Research assistants: Melina Aparici, Elisa Rosado