Help:About data
ویکیداده یک بنگاه دادۀ آزاد است که هم توسط انسان و هم توسط ماشین
قابل خواندن و ویرایش است. ویکیداده یکی دیگر از پروژههای بنیاد ویکیمدیا است، سازمانی ناسودبر که مالک ویکیپدیا نیز هست. کانون کار ویکیداده بر روی دادههای ساختار یافته است. هر پروژه برای منظوری ایجاد شده است مثلا ویکیانبار برای نگارهها و پروندههای رسانهای.
این صفحه برای این نوشته شده است که یک نمای کلی از دادههای ساخت یافته را برایتان نشان بدهد. اگر از پیش با دادههای ساخت یافته آشنایی دارید و فقط میخواهید با نحوه فرآیند آن در ویکیداده آشنا شوید بخشهای پایینتر را بخوانید.
شناخت ویکیداده
دادههای ساختیافته به دادههایی گفته میشود که به صورتی مشخص سازماندهی و ذخیره شدهاند تا معنی خاصی بدهند و بین نقاط مختلف داده و یک مجموعه داده ارتباط برقرار کنند.
داده ها چه چیزی هستند؟ چرا داده های ساختاریافته مهم هستند؟
تعریف کردن دادهها
داده های بزرگ، داده های آزمایشی، داده های آزاد، فراداده شما ممکن است قبلا بعضی از این اصطلاحات را شنیده باشید.
هر اصطلاح بر پایه درک مشترک با کمی اختلاف بنا شده است. دادهها میتوانند درک ما را نسبت به جهان اطرافمان بیفزایند.
دادههای به عنوان مفهومهایی غیرمادی میتوانند یک سری اطلاعات اولیه به ما بدهند یعنی اطلاعات از دادهها به دست میآیند.
دلیل این موضوع به این بر میگردد که میتوان دادهها را به صورت مجموعهای از «مقادیر» نشان داد که درباره «چیزهای مختلف» هستند. این کار را هم میتوانیم به صورت کمی و عددی نشان دهیم و هم به صورت کیفیو به عنوان مثال برای قله اورست میتوانی بگوییم ۸۰۰۰ متر یک مقداری است که ارتفاع آن را نشان میدهد یا برای ماشین میتوانیم بگوییم سرخ یک مقدار است که رنگ آن را نشان میدهد.
همان طور که گفتیم دادهها همان اطلاعات نیستند بلکه اطلاعات محصول گردآوری و تحلیل دادهها است. به عنوان مثال، "8,848" (داده) یک عدد کاملا بی معنی است حتی اگر ما بدانیم که ارتفاع یک کوه است؛ ما فقط می توانیم بگوییم که "کوه اورست با ارتفاع 8,848 متر" (داده) است اما در صورتی که ما از اندازه گیری های استاندارد ارتفاع آگاه باشیم و زمانی که ارتفاع کوه های دیگر را بدانیم به آسانی می شود که چنین نتیجه گیری هایی را انجام دهیم ما آنگاه می توانیم بگوییم که "کوه اورست بلندترین کوه جهان است."
دادهها کجاست؟
دادهها دور و بر ما هستند. انواع مختلف منبعهای دادهای وجود دارد شامل تجاری، زیستی، اجتماعی، الخ. حتی این صفحهای که دارد مطالعه میکنید یک منبع داده میتواند باشد! مثلا داده به زبان انگلیسی باشد شما میتوانید به زبان فارسی آن را داشته باشید.
اگرچه دادهها زیاد هستند ولی باید ضبط شده باشند. اگر دادههای شما در هیچ کجا ضبط نشده باشد و منبعی نداشته باشید مثل این است که اصلا دادهای ندارید. بدون یک ساختار زیرین، دادهها بیمعنی به نظر میرسند و نمیتوانند اطلاعات مفیدی به دست بدهند.
اگر دادهها را به گونهای استاندارد دستهبندی کنیم میگوییم آنها را سازماندهی کردهایم. به این دادههای ردهبندی و سازماندهی شده اصطلاحا دادههای ساختیافته میگوییم.
ساختار کجاست؟
در وب، ساختار حرف اول را میزند. خیلی از ویگاهها با استفاده از HTML ساخته شده اند. HTML یک زبان برنامهنویسی تحت وب است که پایه و اساس صفحات وب را بر روی آن بنا شده است.
به کمک این زبانهای نشانهگذاری است که ابزارهایی مثل موتور جستجو، رباتها، خوراک آر اس اس، الخ ساخته میشوند. بدون این زبانها هیچ چیز "قابل فهم" نیست. برای مثال کد <title>
به ماشین میگوید که اسم وبگاه چه هست.
ویکیداده به جای اینکه از ساختار و عناصر رایج در صفحات وبگاهها پشتیبانی کند در عوض از ساختاری پشتیبانی میکند که بتواند هر نوع دانشی که در ویکیپدیا و سایر پروژههای ویکیمدیا است را ذخیرهسازی کند.Wikibase نام نرمافزاری است که ویکیداده به کمک آن کار میکند، این نرمافزار برای مدیریت مقادیر زیادی از دادههای ساختاریافته طراحی شده است. برای افزودن ساختار نیازی نیست که ساختار را مستقیما به محتوای ویکیپدیا یا سایر پروژههای ویکیمدیا وارد کنید؛ به دانستن زبانهای نشانهگذاری، شماهای داده، کدنویسی، الخ نیز نیازی نیست بلکه به آسانی میتوانید از طریق فیلدهای ویکیداده، دادههایتان را وارد کنید.
از دادههای ذخیره شده در ویکیداده میتوان برای ایجاد فهرست و جدول در صفحات سایر وبگاههای ویکیمدیا یا وبگاههای دیگر استفاده کرد.
دادههایی برای کوهها | ||
---|---|---|
نام کوه | خصوصیت | مقدار |
Mount Everest | height | 8,848 m |
K2 | hauteur | 8,611 m |
Kanchenjunga | height | 8,586 m |
Lhotse | height | 27940 ft |
ساختار دادهها
برای درک اهمیت ساختار اجازه بدهید یک مثال برای شما بزنیم. در جدول ۱ دادههایی برای چهار کوه بلند جهان نوشته شده است. اگر بخواهیم بلندی دومین کوه بلند جهان را بدانیم باید به دادهها نگاه کنیم و مقدار مورد نظر را بیابیم. اما از این چهار کوه فقط سه تا اطلاعات مربوط به بلندی دارند. در بعضی از جاهای جدول بلندی به صورت hauteur (واژه فرانسوی برای بلندی) نوشته شده و در بعضی جاها بلندی به جای متر بر حسب فوت نوشته شده است.
در اینجا چون اطلاعات دستهبندی شده است پردازش آن هم برای انسان و هم برای ماشین آسان است و بدون توجه به شکل ظاهری قادرند به ساختار لایههای زیرین آن پی برده و به پرسش مربوط به دومین کوه بلند جهان پاسخ دهند.
مدل دادن به دادهها
مجموعههای حاوی دادههای ساختیافته مثل ویکیداده باید بر اساس یک «مدل داده» سازماندهی شوند. مدلهای داده توسط ماشین قابل خواندن هستند یعنی رایانه قادر به خواندن آن است. اگر چه رایانهها قدرتمند هستند ولی از نظر تحلیل حتی سادهترین تحلیلها به پای ما نمیرسند. برای نمونه در مثال بالا رایانهها فقط در صورتی متوجه میشوند بلندی و ارتفاع یکسان هستند که این موضوع به نوعی به آنها گفته شود.
-
آیتم: زمین
-
خصوصیت: بلندترین نقطه
-
مقدار: اورست
دادههایی برای کوهها | ||
---|---|---|
نام کوه | خصوصیت | مقدار |
Mount Everest | continent | Asia |
K2 | continent | Asia |
Kanchenjunga | continent | Asia |
Lhotse | continent | Asia |
مدلهای داده بر حسب نیازهای تحلیلی، هدف و چهارچوب دادگان و ویژگیهای فنی سیستم با هم تفاوتهایی دارند. با این وجود همه مدلهای داده مشخص میکنند چه نوع دادههایی باید توسط سیستم پشتیبانی شود و ارتباط بین مقادیر چگونه باید فهمیده شود. به عنوان مثال در یک مدل داده میتوان مشخص کرد که height و hauteur باید به همدیگر وصل شود و یک مفهوم را نشان بدهد یا اندازهگیریهای بر حسب متر به فوت تبدیل شود. مدل داده استفاده شده در ویکیداده تعیین میکند که دادهها چگونه ویرایش شود و چگونه توسط کاربران در سیستم وارد شود. ویکیداده یک کار در حال گسترش است و نوع دادههای جدیدی به مرور زمان افزوده خواهد شد.
مدل داده ضرورتا زبان طبیعی انسانی را به چیزی ترجمه میکند که توسط ماشین قابل خواندن باشد. به عنوان مثال در زبان فارسی میگوییم:
- "کوه اورست بلندترین کوه جهان است"
این فرمت خام و بدون ساختار است
در ویکیداده با یک اظهارنظر نشان داده میشود که شامل یک جفت خصوصیت-مقدار درباره آیتم است. در این مثال برای زمین
Earth (Q2) (آیتم) ← highest point (P610) (خصوصیت) ← Mount Everest (Q513) (مقدار)
علاوه بر این ویکیداده برای آیتم کوه اورست یک اظهار نظر به صورت زیر دارد:
Mount Everest (Q513) (آیتم) ← instance of (P31) (خصوصیت) ← mountain (Q8502) (مقدار)
از آنجایی که از آیتمها نیز میتوان به عنوان مقدار در اظهارات استفاه کرد و همه آیتمها یک صفحه برای خودشان در ویکیداده دارند پس به نوعی یک سیستم پیوند بین آیتمها درون ویکیداده تشکیل میشود. از آنجایی که ویکی داده از یک فرمت قابل خواند ن برای ماشین بهره می برد ایم پیوندها سبب میشود ماشین بتواند روابط و پیوندهای جدیدی کشف کند. به عنوان مثال در جدول 2 دادههایی برای کوهها آورده شده است این بار دادهها بر حسب موقعیت جغرافیایی و قاره هستند نه ارتفاع. فرض کنید دادههای قاره به دادههای ارتفاع «پیوند شده» بود ما میتوانستیم با اطمینان زیاد بگوییم و در واقع پیشبینی کنیم که قاره آسیا جایگاه مرتفعترین قلههای جهان است.
پیوند کردن دادهها
ویکیداده گذشته از اینکه یک مجموعه از دادههای ساختیافته است از «دادههای پیوند شده» نیز پشتیبانی میکند. دادههای پیوند شده به روشی برای انتشار دادههای ساختیافته گفته میشود که به همدیگر پیوند شدهاند.
در ویکیداده، دادهها با هم پیوند میشوند و منابع داده گوناگون از سرتاسر وب و بیرون از خانواده ویکیمدیا در این پیوندها شرکت دارند. به عنوان مثال هم اکنون از پایگاههای داده متنوع زیر استفاده میشود:
با تکیه بر اصول و روشهای دادههای پیوند شده، ویکیداده میتواند برای پشتیبانی از سایر پروژهها به کار رود.
اصول دادههای پیوند شده
ویکیداده در تمام دادهها از یو آر ال به عنوان استانداردی برای پیوند دادهها استفاده میکند.
مدلی که ویکیداده از آن پیروی میکند unique data model نام دارد. در این مدل محتوا را میتوان به صورت RDF برونریزی کرد. RDF فرمتی است برای دادههای پیوندی، اگر با مفهوم دادههای پیوندی آشنایی دارید، هر صفحه در ویکیداده را میتوانیم به صورت یک سهگانه (triplet) در نظر بگیریم. در این سهگانه، آیتم در نقش نهاد، خصوصیت در نقش پیشگو و مقدار در نقش گزاره است.
However, Wikidata statements may also contain elements beyond the subject-predicate-object, such as references and qualifiers (for more information, see Help:Statements). This makes it complicated to fully represent Wikidata's content using the language of RDF—more information on these challenges can be found in the document "Introducing Wikidata to the Linked Data Web".
همکاری برای دادهها
اگر دادگان دارید و میخواهید آن را به ویکیداده بیفزایید Wikidata:Data donation را مطالعه کنید.
استفاده از دادهها
The data in Wikidata is published under the Creative Commons Public Domain Dedication 1.0, allowing the free reuse of the data. You can copy, modify, distribute and perform the data, even for commercial purposes, all without asking permission.
See Data access for details about the different ways to programmatically access Wikidata's data.
همچنین ببینید
برای راهنمایی بیشتر صفحههای زیر را ببینید:
برای اطلاعات بیشتر و رهنمودها به صفحه زیر بروید:
- Project chat, for discussing all and any aspects of Wikidata
- Wikidata:Glossary, the glossary of terms used in this and other Help pages
- Help:FAQ, frequently asked questions asked and answered by the Wikidata community
- Help:Contents, the Help portal featuring all the documentation available for Wikidata