1. -Los buscadores como herramientas

  2.  -Documentos útiles para corpus en Internet

  3. -Corpus Online

 

 
 

 

 

Web como fuente de corpus

            Internet se ha convertido en el principal campo de aplicación de las técnicas de tratamiento de corpora multilingües. Es una fuente ilimitada de textos en diferentes idiomas y accesible a cualquier lugar, en la mayor parte de manera gratuita. Pero Internet no es un corpus en el sentido estricto de la lingüística de corpus, ya que no siguen los criterios para ser constituidos como corpus, al no existir una clasificación general ni una codificación estándar. Sin embargo, Internet constituye un corpus dinámico, una forma viva que va cambiando continuamente. Es como una base de datos enorme de documentos textuales. Se puede utilizar las páginas Web como un corpus activo o bajar las páginas al disco duro y considerarlo como un corpus estático. A la hora de documentar una página, es conveniente señalar el día en que se obtuvo, ya que lo que hay en una página ahora, puede estar en otra página o puede cambiar su contenido rápidamente. Una parte importante de las publicaciones en Internet procede de los medios de comunicación, de las empresas multinacionales y de las instituciones internacionales. Todos ellos se esfuerzan para que su representación en la red supere las barreras lingüísticas. Por ello, la red se ha convertido también en un vasto corpus multilingüe que crece cada vez más velozmente. Esto ha disparado la demanda de tecnologías con capacidad de procesamiento multilingüe: buscadores inteligentes, sistemas de indexación y catalogación, extractores de información, gestores de conocimientos, generadores de textos, generadores de resúmenes, etc.

            Hay que tener en cuenta de que no todos los documentos son escritos por las personas nativas. Sin embargo Web tiene ciertamente ventajas potenciales como colección del texto. Es enorme y está creciendo cada vez más. Contiene una selección amplia y todo tipo de texto, incluyendo el material que es relativamente raro en los corpora diseñados, por ejemplo existen muchos textos escritos que no están publicados oficialmente, por lo tanto no están corregidos profesionalmente. En comparación con corpora tradicionales el Web tiene una desventaja. Aunque funcione como un corpus, no hay aplicación adecuada para generar concordancias. Es necesario tener un Motor de Búsqueda especializado. Es posible hacer investigación lingüística por la ayuda de los motores de búsqueda convencionales pero las concordancias tradicionales ofrecen más oportunidades de analizar las estructuras del texto.

 

Los buscadores como herramientas   Podemos utilizar los buscadores como programa de concordancia.
viñeta  WebCorpos
 http://www.webcorp.org.uk/

Es un buscador muy potente para la WEB y está diseñado para recuperar datos lingüísticos del Web, creado por la Unidad de investigación y Desarrollo de Estudios del Inglés (RDUES) de la universidad de Liverpool, Reino Unido. Permite obtener, en primera instancia, concordancias para una palabra o una frase, en una ventana definida de una a treinta palabras a la izquierda y a la derecha. Cuenta con varios buscadores, como Google, Altavista y otros dos, y es independiente del idioma. Como resultados adicionales, se puede traer la página en el formato electrónico, donde aparece la palabra o frase, resaltado en color amarillo; la página en archivo texto plano; y la lista de las palabras que aparecen en el texto, ordenadas por frecuencia o por orden alfabético. Su buscador permite filtrar las búsquedas por periódicos (del Reino Unido, Estados Unidos o Francia) y por temas. WebCorpus trabaja solamente con los motores de búsqueda convencionales.

            La versión actual de WebCorp es para la demostración y la velocidad de mostrar los resultados es más lenta que los motores de búsqueda. Aunque WebCorp tiene un motor de búsqueda como interfaz, sus habilidades y la manera de trabajar son muy diferentes. Para hacer un análisis lingüístico completo de una palabra o una frase particular utilizada el Web  recurre a Motor de Búsqueda para encontrar una lista de las páginas que contienen la palabra o la frase, y después se obtiene a cada uno del URLs en esta lista manualmente, localizando cada uno de los ejemplos de la palabra o la frase en la página y copia éstos en un archivo. WebCorp automatiza este proceso entero, por eso es más lento que un Motor de Búsqueda estándar.

 

Documentos útiles para corpus en Internet  
Periódicos/News/ニュース  Existe una multiplicidad de periódicos de diferentes países en diferentes idiomas. Grandes agencias de noticias ofrece la información periodística en varios idiomas por eso son útiles para corpora multilingües.
viñeta NewsDirectory
http://www.newsdirectory.com/
viñeta  Newspapers of the World on the Internet
http://www.actualidad.com/
viñeta The Internet Public Library: Newspapers
 
viñeta  BBC NEWS
http://news.bbc.co.uk/
viñeta CNN
http://www.cnn.com/
   
Libros digitales/Digital Books/ Eブック  Son útiles para el análisis textual. En Internet algunos autores independientes permiten la lectura libre y completa de sus libros que yo han sido ampliamente difundidos, o de los artículos que quieren dar a conocer. Algunos aún mantienen el derecho de autor.
viñeta PROJECT GUTENBERG
Es el creador de E-libros en Internet más antiguo .Hay 18.000 libros en varios idiomas en el Catálogo de Libros Online.
viñeta  The Electronic Text Center at the University of Virginia
Hay 2.100 libros disponibles de la biblioteca de la universidad de Virginia.
viñeta Oxford Text Archive
 Distribuye actualmente más de 2500 archivos de texto en 25 idiomas.

 

Corpus Online/Online Corpus/オンラインコーパス  
Inglés/English/英語
BNC Simple Search  http://sara.natcorp.ox.ac.uk/lookup.html
Business Letter Corpus Online KWIC Concordancer http://ysomeya.hp.infoseek.co.jp/
 Corpus of Middle English Verse and Prose http://www.hti.umich.edu/c/cme/
Michigan Early Modern English Materials http://www.hti.umich.edu/m/memem/
Michigan Corpus of Academic Spoken English http://www.hti.umich.edu/m/micase/
Public Domain Modern English Collection  http://www.hti.umich.edu/p/pd-modeng/index.html
Search The Middle English Collection  http://etext.virginia.edu/mideng.browse.html
The Web Concordances  http://www.dundee.ac.uk/english/wics/wics.htm
W3-Corpora http://clwww.essex.ac.uk/cgi-bin/w3c/w3c (KWIC de Project Gutenberg)
   
Español/Spanish/スペイン語
Banco de datos (CORDE) Corpus diacrónico del español. REAL ACADEMIA ESPAÑOLA: http://www.rae.es
Banco de datos (CREA) Corpus de referencia del español actual. REAL ACADEMIA ESPAÑOLA:  http://www.rae.es
CORPUS DEL ESPAÑOL (El corpus contiene 100 millones de palabras: 20 millones de los 1200s-1400s, 40 millones de los 1500s-1700s, 40 millones de los 1800s-1900s, Las 20.000.000 palabras de los 1900s se dividen igualmente entre la literatura, textos orales, y periódicos/enciclopedias.)
SOL - Spanish Online http://spraakbanken.gu.se/lb/konk/rom2/
   
Multilingüe/Multilingual/多言語
Web Concordancer   http://www.edict.com.hk/concordance/
GlossaNet Instant http://glossa.fltr.ucl.ac.be/instant/
 WebTCE http://129.177.24.120/webtce.htm (Corpus paralelo de la universidad de Oslo)
CRATER Multilingual Aligned Annotated Corpus  http://www.comp.lancs.ac.uk/linguistics/crater/corpus.html
European Parliament Proceedings Parallel Corpus  http://people.csail.mit.edu/koehn/publications/europarl/

Este sitio se actualizó por última vez el 20 de junio de 2006