CLE Store

Center for Language Engineering

[ Text Corpora ] [ Image Corpora ] [ Lexical Resources ] [ NLP Applications ]

CLE is making these linguistic resources available without cost for supporting academic, non-commercial research. The processing fees being charged will be used to maintain these resources. You are requested to contact CLE directly for any discounts (applicable only for selective public organizations in Pakistan) or for commercial licensing options.

CLE Urdu Digest IOB Tagged Corpus

[ Pakistan ] [ International ]

Source:	Urdu Digest
CLE Catalog #:	CLE17T015
Release Date:	28 February 2017
Data Type:	Text
Language(s):	Urdu
Distribution:	1 DVD, Web Download
Processing Fee (Pakistan):	30000 PKR
Processing Fee (International):	250 USD
License:	Yes

Introduction

CLE Urdu Digest IOB Tagged Corpus is a hundred thousand words collection of written Urdu language from a wide range of domains, designed for the purpose of linguistic research and/or the development of language products. Corpus covers a range of subjects including education, health, politics, international affairs, sports, business, humor and literature. CLE Urdu Digest IOB Tagged Corpus is divided into two major categories i.e. Informational (80%) and Imaginative (20%). The Informational part includes texts from letters, interviews, press, religion, sports, culture, entertainment, health and science. The Imaginative part includes texts from short stories and novels, translation of foreign literature and book reviews.

IOB-Tagging

The corpus is annotated for four types of phrases including Noun, Verb, Post-positional and Prepositional Phrases. The corpus is annotated by using IOB (Inside-outside-beginning) tagging scheme. B- prefix before a tag indicates the start of a chunk/phrase, I- prefix indicates inside of a chunk/phrase and O tag represents out of any chunk/phrase. Each word is annotated with part of speech (POS) and IOB tag separated by a slash (/).

Data Source

The data for this corpus construction has been taken from Urdu Digest and it ranges between years 2003-2011. Whereas Urdu Digest is a leading general-interest Urdu magazine, with a history of fifty-five years of publication.

Data

The data is distributed in 348 UTF-8 files and is arranged according to the above mentioned genres. Each file contains minimum three hundred words.

Sample

	ایک/CD/B-NP جنگل/NN/I-NP میں/PSP/B-PP بہت/Q/B-NP سے/PRT/I-NP چرندوپرند/NN/I-NP رہتے/VBF/B-VP تھے/AUXT/I-VP ایک/CD/B-NP روز/NN/I-NP وہاں/NN/B-NP شیر/NN/B-NP آ/VBF/B-VP گیا/AUXA/I-VP جس/PRR/B-NP نے/PSP/B-PP آتے/VBF/B-VP ہی/PRT/O بہت/Q/B-NP سے/PRT/I-NP جانوروں/NN/I-NP کو/PSP/B-PP شکار/NN/B-NP کر/VBF/B-VP لیا/AUXA/I-VP ۔/PU/O شیر/NN/B-NP نے/PSP/B-PP جب/NN/B-NP دیکھا/VBF/B-VP کہ/SC/O یہاں/NN/B-NP جانوروں/NN/B-NP کی/PSP/B-PP کثرت/NN/B-NP ہے/VBF/B-VP ،/PU/O تو/SC/O خوش/JJ/B-VP ہو/VBF/I-VP کر/SCK/O اسی/PDM/B-NP جنگل/NN/I-NP میں/PSP/B-PP ڈیرہ/NN/B-NP جما/VBF/B-VP لیا/AUXA/I-VP ۔/PU/O اب/NN/B-NP اس/PDM/B-NP جنگل/NN/I-NP کے/PSP/B-PP جانوروں/NN/B-NP میں/PSP/B-PP کھلبلی/NN/B-NP مچی/VBF/B-VP ۔/PU/O سب/Q/B-NP کو/PSP/B-PP اپنی/APNA/B-NP اپنی/APNA/I-NP جان/NN/I-NP کی/PSP/B-PP پڑ/VBF/B-VP گئی/AUXA/I-VP ۔/PU/O آخر/RB/O انہوں/PRP/B-NP نے/PSP/B-PP آپس/NN/B-NP میں/PSP/B-PP یہ/PDM/B-NP مشورہ/NN/I-NP کیا/VBF/B-VP کہ/SC/O شیر/NN/B-NP کے/PSP/B-PP پاس/NN/B-NP جا/VBF/B-VP کر/SCK/O کہتے/VBF/B-VP ہیں/AUXT/I-VP ''/PU/O ہم/PRP/B-NP خود/PRF/I-NP ہی/PRT/O ہر/JJ/B-NP روز/NN/I-NP آپ/PRP/B-NP کے/PSP/B-PP لیے/PSP/I-PP ایک/CD/B-NP جانور/NN/I-NP بھیج/VBF/B-VP دیا/AUXA/I-VP کریں/AUXA/I-VP گے/AUXT/I-VP ۔/PU/O آپ/PRP/B-NP کو/PSP/B-PP اپنا/APNA/B-NP شکار/NN/I-NP تلاش/NN/B-NP کرنے/VBI/B-VP کی/PSP/B-PP ضرورت/NN/B-NP نہیں/NEG/B-VP ۔/PU/O شیر/NN/B-NP نے/PSP/B-PP یہ/PDM/B-NP بات/NN/I-NP منظور/NN/B-NP کر/VBF/B-VP لی/AUXA/I-VP اور/CC/O کہا/VBF/B-VP ''/PU/O اپنے/APNA/B-NP وعدے/NN/I-NP پر/PSP/B-PP قائم/JJ/B-VP رہنا/VBI/I-VP ورنہ/SC/O میں/PRP/B-NP تم/PRP/B-NP میں/PSP/B-PP سے/PSP/I-PP کسی/PRP/B-NP کو/PSP/B-PP بھی/PRT/O زندہ/JJ/B-VP نہیں/NEG/I-VP چھوڑوں/VBF/I-VP گا/AUXT/I-VP ۔/PU/O چنانچہ/SC/O ہر/JJ/B-NP روز/NN/I-NP صبح/NN/I-NP جانوروں/NN/B-NP کا/PSP/B-PP اجتماع/NN/B-NP ہوتا/VBF/B-VP اور/CC/O قرعہ/NN/B-NP ڈالا/VBF/B-VP جاتا/AUXA/I-VP ۔/PU/O جس/PRR/B-NP کے/PSP/B-PP نام/NN/B-NP کا/PSP/B-PP قرعہ/NN/B-NP نکلتا/VBF/B-VP اس/PRP/B-NP کو/PSP/B-PP شیر/NN/B-NP کا/PSP/B-PP نوالہ/NN/B-NP بننے/VBI/B-VP کے/PSP/B-PP لیے/PSP/I-PP بھیج/VBF/B-VP دیا/AUXA/I-VP جاتا/AUXA/I-VP ۔/PU/O کچھ/Q/B-NP دنوں/NN/I-NP بعد/NN/I-NP خرگوش/NN/B-NP کی/PSP/B-PP باری/NN/B-NP آئی/VBF/B-VP ۔/PU/O خرگوش/NN/B-NP نے/PSP/B-PP کہا/VBF/B-VP ''/PU/O آج/NN/B-NP انشاءاللہ/INJ/O نہ/NEG/B-VP صرف/JJ/O صحیح/JJ/B-NP سلامت/JJ/I-NP واپس/NN/B-NP آؤں/VBF/B-VP گا/AUXT/I-VP بلکہ/CC/O ہمیشہ/RB/O کے/PSP/B-PP لیے/PSP/I-PP تم/PRP/B-NP سب/Q/I-NP کو/PSP/B-PP بھی/PRT/O شیر/NN/B-NP سے/PSP/B-PP نجات/NN/B-NP دلا/VBF/B-VP دوں/AUXA/I-VP گا/AUXT/I-VP ۔/PU/O دوسرے/OD/B-NP جانوروں/NN/I-NP نے/PSP/B-PP کہا/VBF/B-VP ''/PU/O کیوں/RB/O اتنی/Q/B-NP بڑی/JJ/I-NP گپ/NN/I-NP چھوڑتے/VBF/B-VP ہو/AUXT/I-VP ۔/PU/O کہاں/PRP/B-NP شیر/NN/I-NP اور/CC/I-NP کہاں/PRP/I-NP تم/PRP/I-NP !/PU/O شیر/NN/B-NP کا/PSP/B-PP تم/PRP/B-NP کیا/RB/O بگاڑ/VBF/B-VP سکتے/AUXM/I-VP ہو/AUXA/I-VP ؟/PU/O خرگوش/NN/B-NP نے/PSP/B-PP کہا/VBF/B-VP ''/PU/O تم/PRP/B-NP خود/PRF/B-NP دیکھ/VBF/B-VP لو/AUXA/I-VP گے/AUXT/I-VP کہ/SC/O میں/PRP/B-NP کیا/RB/B-VP کر/VBF/I-VP سکتا/AUXM/I-VP ہوں/AUXT/I-VP ۔/PU/O خرگوش/NN/B-NP نے/PSP/B-PP باتیں/NN/B-NP کرنے/VBI/B-VP میں/PSP/B-PP کافی/Q/B-NP دیر/NN/I-NP لگا/VBF/B-VP دی/AUXA/I-VP ۔/PU/O اُدھر/NN/B-NP شیر/NN/B-NP اپنی/APNA/B-NP خوراک/NN/I-NP کے/PSP/B-PP انتظار/NN/B-NP میں/PSP/B-PP سڑتے/VBF/B-VP ہوئے/AUXA/I-VP بےحد/JJ/B-NP غصے/NN/I-NP میں/PSP/B-PP آ/VBF/B-VP گیا/AUXA/I-VP ۔/PU/O خرگوش/NN/B-NP اس/PRP/B-NP کے/PSP/B-PP پاس/NN/B-NP پہنچا/VBF/B-VP تو/SC/O شیر/NN/B-NP نے/PSP/B-PP غصے/NN/B-NP کے/PSP/B-PP عالم/NN/B-NP میں/PSP/B-PP اس/PRP/B-NP سے/PSP/B-PP پوچھا/VBF/B-VP ''/PU/O تم/PRP/B-NP نے/PSP/B-PP دیر/NN/B-NP کیوں/RB/O کر/VBF/B-VP دی/AUXA/I-VP ؟/PU/O خرگوش/NN/B-NP نے/PSP/B-PP کہا/VBF/B-VP حضور/NN/B-NP کیا/RB/O بتاؤں/VBF/B-VP ۔/PU/O ہم/PRP/B-NP دو/CD/I-NP خرگوش/NN/I-NP آپ/PRP/B-NP کے/PSP/B-PP پاس/NN/B-NP آ/VBF/B-VP رہے/AUXP/I-VP تھے/AUXT/I-VP ۔/PU/O لیکن/SCP/O راستے/NN/B-NP میں/PSP/B-PP کوئی/PDM/B-NP دوسرا/OD/I-NP شیر/NN/I-NP مل/VBF/B-VP گیا/AUXA/I-VP جس/PRR/B-NP نے/PSP/B-PP ہم/PRP/B-NP پر/PSP/B-PP حملہ/NN/B-NP کر/VBF/B-VP دیا/AUXA/I-VP ۔/PU/O میں/PRP/B-NP تو/PRT/O اس/PRP/B-NP کے/PSP/B-PP پنجے/NN/B-NP سے/PSP/B-PP بچ/VBF/B-VP نکلا/AUXA/I-VP مگر/CC/O میرے/PRR/B-NP ساتھی/NN/B-NP کو/PSP/B-PP اس/PRP/B-NP نے/PSP/B-PP پکڑ/VBF/B-VP لیا/AUXA/I-VP ۔/PU/O بڑی/JJ/B-NP مشکل/NN/I-NP سے/PSP/B-PP لمبا/JJ/B-NP چکر/NN/I-NP کاٹ/VBF/B-VP کر/SCK/O آپ/PRP/B-NP تک/PSP/B-PP پہنچا/VBF/B-VP ہوں/AUXT/I-VP ۔/PU/O ‘‘/PU/O ۔/PU/O

webmaster@cle.org.pk