Wikidata:Lexicographical data/Documentation/Languages/he/he

From Wikidata
Jump to navigation Jump to search
This page is a translated version of the page Wikidata:Lexicographical data/Documentation/Languages/he and the translation is 100% complete.

זהו דף תיעוד לנתונים מילוניים של עברית (Q9288), השפה העיקרית והרשמית של ישראל (Q801), שמשמשת גם בתור השפה הדתית העיקרית של יהדות (Q9268). התיעוד מכוון בעיקר לרישום יחידות מילוניות (lexemes) של עברית ישראלית (Q8141), אבל יש לזכור שיש תקופות היסטוריות של עברית, כגון עברית מקראית (Q1982248), לשון חז״ל (Q1649362) ותקופת הביניים של העברית (Q2712572). צורות שמשמשות רק באחת מהתקופות ההיסטוריות צריכות להיות מובחנות בתור כאלו.

המלצות המבנה שמתוארות כאן אינן סופיות. ככל שהעבודה תתקדם, הן יכולות להשתנות.

מצב

נכון לאמצע שנת 2024, שמות עצם ופעלים עבריים רבים יובאו אוטומטית מ־Hspell (Q6936841). אולם יש עוד עבודה רבה:

  • יש כיסוי ניכר שמות העצם, שמות התואר והפעלים, אולם הוא רחוק מלהיות שלם.
  • כיסוי חלקי הדיבר האחרים חלקי ביותר.
  • הוספת השורשים רק התחילה.
  • לחלק משמות הערכים והצורות יש ייצוגים מנוקדים שגויים או חסרים.
  • ליחידות מילוניות רבות אין משמעויות.
  • ביחידות מילוניות רבות חסרות קביעות שההמלצות האלה דורשות.

כתב ושיטות כתיב

העברית נכתבת באלפבית עברי (Q33513), שהוא אבג׳ד (Q185087), כלומר כל אות מייצגת בעיקרון עיצור, והתנועות לא נכתבות (או ליתר דיוק, נכתבות באופן שונה מהדרך שבה הן נכתבות באלפבית (Q9779)).

כתיבה של מילים עבריות תוך שימוש רק באותיות של הכתב הזה (ולא בסימנים דיאקריטיים) תוקננה בפעם האחרונה על־ידי האקדמיה ללשון העברית (Q190400) בתקן הכתיב המלא של האקדמיה ללשון עברית, 2017 (Q84822205). יש להזין יחידות מילוניות באמצעות תקן הכתיב הזה עם קוד השפה הפשוט he. (אין להשתמש ב־he-x-Q84822205 לשם כך.)

מאז המאה ה־5 התפתחה מערכת של סימנים דיאקריטיים לכתיב תנועות, הידועה בשם ניקוד טברני (Q21283070). בשימוש מודרני, המערכת הזאת משמשת בעיקר בטקסטים דתיים, בשירה, בספרי ילדים ובמילונים או כאשר יש צורך בהבחנה בין מילים שנכתבות באופן דומה. יש להזין את האיות המנוקד של יחידה מילונית עם תקן כתיב עם קוד השפה "he-x-Q21283070".

יש דרכים חלופיות לכתוב מילים עבריות אחדות. אפשר להוסיף אותן עם תקן כתיב אחר כדי שיהיה אפשר למצוא אותם, אבל יש לתייג אותן לפי סוג הכתיב החלופי. כמה סוגים כאלה מוגדרים כרגע, וייתכן שיוספו עוד:

שיטות איות עבריות חלופיות
שיטה דוגמאות הערות
ניקוד טברני (Q21283070) עכשיו/עַכְשָׁו (L492064) יש להוסיף לכל היחידות המילוניות למעט שורשים. (הערה: עוד יוצאי דופן יכולים להתווסף בעתיד.)
כתיבת ל הפועל באות ה בשורשים בגזרת נל״י/ה (Q125521576) גלי/גלה (L1320375) ר׳ את הפרק "שורשים" לפרטים.
כתיבת א בסוף מילים עבריות שאולות מארמית (Q125560819) קושיה/קושיא/קֻשְׁיָה (L218055)
קופסה/קופסא/קֻפְסָה (L67821)
כתיב חלופי בתוספת א (Q125560856) בינרי/בינארי/בִּינָרִי (L205772)
טונלי/טונאלי/טוֹנָלִי (L211311)
הוספת י במילים עבריות עם שורשים מרובעים (Q125560888) אפשר/איפשר/אִפְשֵׁר (L205270)

מקורות ברשת

אפשר לקשר יחידות מילוניות למקורות באינטרנט.

מאפייני מזהים

שורשים

בשפות השמיות, כל המילים שאינן שאולות, וגם חלק מהמילים השאולות, נגזרות משורש שמי (Q266273). בעברית, זה נכון לגבי כל הפעלים ולגבי רוב השמות.

שורש שמי הוא רצף מופשט של עיצורים. לא ניתן להשתמש בו כמילה בשפה, אבל יש לו משמעות כללית, לפעמים יותר מאחת. מילים אמיתיות נוצרות על־ידי הכנסת תנועות בין העיצורים האלה, הוספת תחילית (Q134830) או סופית (Q102047), ולפעמים שינוי העיצורים עצמם.

השורשים עצמם יכולים וצריכים להיות מאוחסנים כפריטי יחידות מילוניות. המילה חייבת להיות רק עם קוד שפה "he", וכתיב חלופי עם ניקוד אינו נדרש. שם הערך המילוני חייב לכלול רק את אותיות השורש העיצוריות; אין להשתמש בנקודות (.), מקפים (- או ־), או גרשיים (Q5553090) (" או ״). אם האות האחרונה של השורש היא אות סופית (Q5449465), יש לכתוב אותה בצורה הסופית (כלומר םןץףך ולא מנצפכ). אם בשורש קיימת האות שי״ן שמאלית, יש לכתוב את הנקודה השמאלית; אם יש בה שי״ן ימנית, אין לכתוב את הנקודה הימנית.

לכמה שורשים יש מספיק חשיבות אנציקלופדית כדי שיהיו עליהם ערכים בוויקיפדיה ופריטי Q בוויקינתונים, כגון חמד (Q3138823) וכתב (Q6322778). אלה צריכים להיות מקושרים באמצעות המאפיין פריט שמתאים למשמעות הזאת (P5137). (הערה: ההמלצה הזאת עשויה להשתנות. אולי יש מאפיין מתאים יותר.)

שורשים אחדים הם הומוגרפים – הם מורכבים מאותן האותיות, אבל יש להן משמעות שונה ואולי מקור שונה. כאשר המקור והמשמעות שונים בוודאות, יש ליצור יחידות מילוניות נפרדות. כאשר המקורות והמשמעויות יכולים להיות קשורים, יש להוסיף כמה משמעויות לאותה יחידה לשנית. למשל: כפר (L1320773) (לכפר עוונות), כפר (L1320774) (לכפור באשמה, לכפור בסמכות), כפר (L1320775) (יישוב קטן). (הערה: החלוקה המדויקת של זה מאתגרת, אז ייתכן שההמלצה הזאת תעודכן בעתיד.)

נכון לאפריל 2024, הוספו שורשים עבריים מעטים מאוד. השאיפה היא שכל השורשים יהיו רשומים, ושלכל הפעלים ולכל השמות הרלוונטיים יהיה שורש מוגדר.

שאלות שימושיות:

מיון שורשים

שורשים שמשמשים רק לשמות ולא לפעלים חייבים להכיל קביעה עם מאפיין מופע של (P31) שהערך שלה הוא שורש שמני (Q125544382). (הערה: ייתכן שההמלצה הזאת תשתנה בעתיד, ר׳ דף שיחה.)

כל שורש שנגזרים ממנו פעלים שייך לגזרה (Q12404900), שאחת מהן היא גזרת השלמים (Q125521603). לכל יחידה מילונית צריך להיות מאפיין מופע של (P31) שהערך שלו הוא הגזרה. (הערה: ייתכן שיש ליצור מאפיין שמוקדש לזה.)

הערות מיוחדות על גזרות מסוימות כתובות בהמשך.

גזרת נלי"ה (Q113383478)

עבור הגזרה הזאת יש שתי מסורות לכתוב את השורש: באות י (L65516) או באות ה (L64762) בסוף. חלק מהמילונים וספרי הלימוד מציגים את זה לפי שיטה אחת, חלק משתמשים בשיטה השנייה, וחלק משתמשים בשתיהן, ותלמידים של לשון עברית עשויים לחפש באמצעות כל אחת מהן. לכן צריך להוסיף את השורשים האלה בשתי הדרכים כדי שיהיה קל למצוא אותם.

יש להכניס את שתי הצורות בפריט לשוני אחד: הצורה עם האות יו״ד כשם ערך מילוני עם קוד השפה "he", והצורה עם אות ה״א כשם ערך מילוני עם קוד השפה he-x-Q125521576 (הקוד מתייחס ל"תקן כתיב זוטא": כתיבת ל הפועל באות ה בשורשים בגזרת נל״י/ה (Q125521576)).

לדוגמה, ר' גלי/גלה (L1320375).

דברים שצריך לעשות

חלקי דיבר

לפי המרכז לטכנולוגיה חינוכית, אנחנו יכולים לחלק את אוצר המילים של העברית לשישה חלקי דיבר עיקריים באופן הבא:

לרשימה הזאת, אנחנו יכולים להוסיף כמה חלקי דיבר משניים:

בעברית יש תווית (Q103184) אחת: ה/הַ (L7396).

שמות עצם ושמות תואר

אין הבדל ברור בין שמות עצם לשמות תואר בעברית. שמות תואר יכולים לעיתים קרובות לעמוד לבדם כשמות עצם. למשל, חכם/חָכָם (L65269) יכול להיות שם תואר וגם "אדם חכם" כשם עצם. בדרך־כלל, אם שם יכול לתפקד הן כשם עצם והן כשם תואר, עדיף לסווג אותו כשם תואר. בדקדוק המסורתי של עברית, שניהם נחשבים שם (Q503992) (שם/שֵׁם (L68396)).

שם הערך המילוני (lemma) של יחידה שמנית הוא בדרך־כלל צורת הזכר היחיד שלו.

שמות עצם ושמות תואר ממקור שמי נגזרים משורש שמי (Q266273), שלרוב הוא תלת־עיצורי. רצוי לקשר אליהם באמצעות המאפיין שורש (P5920).

בניגוד לפעלים בעברית, שלכולם יש שורש שמי, לחלק מהשמות העבריים אין שורש שאפשר להגדיר בבירור במונחים של דקדוק שמי מסורתי, במיוחד לכאלה שהושאלו משפות לא שמיות.

יחידות שמניות נוטות בקטגוריות הבאות:

מספר (Q104083)
הוא יכול להיות יחיד (Q110786), רבים (Q146786) ובמקרים מסוימים זוגי (Q110022). שמות אחדים, כגון מים/מַיִם (L66237) או שמיים/שָׁמַיִם (L68414) הם בגדר ריבוי תמידי (Q138246), ולכן המאפיין מספר (P11054) אצלם צריך להיות מסומין עם הערך רבים (Q146786) (הקטגוריה המילונית עדיין צריכה להיות שם עצם (Q1084)).
מין דקדוקי (Q162378)
יכול להיות או זכר (Q499327) או נקבה (Q1775415). שמות תואר ושמות עצם של יצורים חיים נוטים לפי מין, ולשמות של דברים דוממים יש מין קבוע והם צריכים להשתמש במאפיין מין דקדוקי (P5185).
מצב (Q70797774)
לפי ההגדרה, צורות שמניות הן במצב נסמך (Q1641446) כאשר הצורה השמניות הבאה אחריהן משנה אותן. אחרת, הם נמצאים במצב נפרד (Q70798722). עבור שמות במין זכר, הצורות האלה הן לעיתים קרובות זהות בכתיב לא מנוקד. לשמות יכולה גם להיות צורה מיוחדת, שניתן להבחין בה לעיתים קרובות רק בכתיב מנוקד, ושמשמשת רק כשמצורפות אליה כינויי קניין, הנקראת מצב נצמד (Q115767254), למשל, הצורה ילד/יַלְדּ (L65603-F9) של ילד/יֶלֶד (L65603). צריך לציין אותה רק כאשר היא שונה ממצב נסמך. במקרים מסוימים, ייתכן שיש שתי צורות עם כינויי קניין, ששונות רק בניקוד, ושמשתנות בהתאם לצורת הכינויים הנתמכים (במיוחד למקום הטעם של המילה המלאה). במקרים כאלה, שניהם צריכים להיות רשומים, כפי שנעשה ביחידה שם/שֵׁם (L68396).

הערה: אפשר לשנות שמות עם כינויים חבורים (נתמכים סופיים) שמציינים קניין. יש מי שרואה בכך צורות נטויות, אולם עדיף לראות את הצורות יותר בתור צורות שמוגדלות על־ידי נתמכים. לפיכך, אין צורך לרשום את צורות עם כינויי קניין במפורש בדף היחידה המילונית (בניגוד לשימוש הנוכחי), מכיוון שזה מנפח את מספר הצורות באופן מהותי.

פעלים

פעלים עבריים תמיד נגזרים משורש שמי (Q266273) עיצורי, שצריך לציין על־ידי המאפיין שורש (P5920). השורש הזה תמיד מוכנס לבניין (Q17119048), שיש לציין על־ידי המאפיין מחלקת נטיית פועל (P5186). המנח (Q211101) של הפועל תלוי בבניין. שבעת הבניינים הקיימים בעברית הם הבאים, מזווגים לפי המנח, כשזה מתאים:

הפעלים נוטים בקטגוריות הבאות:

זמן (Q177691)
בעברית בת־זמננו, זה יכול להיות עתיד (Q501405), זמן עבר (Q1994301) או הווה (Q192613). האחרון נובע מצורה שמנית (בינוני (Q814722)), ובהיותו כזה, הוא יכול גם להיות רשום בנפרד כשם (למשל כותב/כּוֹתֵב (L65724) והצורת הפועלית המקבילה כותב (L212243-F5)). כחלק מנטיית הפועל, אין צורך לכתוב את המצב (Q70797774) שלו.
גוף (Q690940)
יכול להיות אחד מהבאים: גוף ראשון (Q21714344), גוף שני (Q51929049), גוף שלישי (Q51929074). הנטייה לפי גוף אינה מצוינת בהווה (Q192613). ניתן להניח שהציווי תמיד נמצא בגוף השני.
מין דקדוקי (Q162378)
יכול להיות זכר (Q499327) או נקבה (Q1775415). זה תמיד מסומן בהווה (Q192613). בעתיד (Q501405), המין אף פעם לא מסומן בגוף הראשון. בזמן עבר (Q1994301) מין לעולם לא מסומן בגוף ראשון (Q21714344) ובגוף שלישי (Q51929074) רבים (Q146786).
מספר (Q104083)
זה יכול להיות יחיד (Q110786) או רבים (Q146786).
דרך (Q184932)
רוב צורות הפועל העבריות הן חיווי (Q682111), וזה לא צריך להיות כתוב במפורש. על סמך הצורות, אפשר להבחין שתי דרכים בעברית המודרנית: ציווי (Q22716) ושם הפועל (Q179230). צורת שם הפועל היצרנית בעברית בת־זמננו היא תמיד זאת שמתחילה בתחילית ל/לְ (L1319984), בעוד שבעברית מקראית (Q1982248) יש גם צורת המקור המוחלט, המקבילה למצדר (Q97662006) בערבית. בעברית המקראית יש עוד שתי דרכים, שאינן יצרניות בעברית בת־זמננו: זירוז (Q500726) (בגוף ראשון בלבד, למשל אלכה/אֵלְכָה (L184903-F34)) ואיווי (Q462367) (למשל יהי/יְהִי (L207795-F25)).

בהתאם לתיאור במסורתי של דקדוק עברי ולפרקטיקה ברוב המילונים שיצאו לאור, שם הערך המילוני של הפועל הוא צורת זמן עבר (Q1994301) גוף שלישי (Q51929074) זכר (Q499327) יחיד (Q110786).

הערה: אפשר להגדיל פעלים עם כינויי מושא חבורים (נתמכים סופיים). יש מי שרואה בכך צורות נטויות, אולם עדיף לראות אותן יותר בתור צורות שמוגדלות על־ידי נתמכים. לפיכך, אין צורך לרשום את צורות עם כינויי קניין במפורש בדף היחידה המילונית שלהם (בניגוד לשימוש הנוכחי), מכיוון שזה מנפח את מספר הצורות באופן מהותי.

דברים שצריך לעשות

יש עוד נושאים שצריך לדון בהם במסמך הזה, אבל עדיין אינם כאן:

  • המצב הנוכחי: אילו מילים כבר נכללו, מה נותר לעשות, וכו'.
  • איך לציין שיחידה שמנית שנשאלה משפה אחרת אינה צריכה שורש שמי. (זה יכול להיות שימושי כדי לראות אילו יחידות שמניות זקוקות לערך שורש, ואילו לא.)
  • איך לאחסן צורות מקור מוחלט.
  • איך לאחסן מילות קישור ומילות יחס (ובאמת ליצור דפים בשביל כולם).
  • איך לרשום שמות פרטיים?